OpenAI
หน้านี้แปลด้วยระบบอัตโนมัติ ดูต้นฉบับภาษาอังกฤษ.

คำถามที่พบบ่อยเกี่ยวกับ Embeddings

คำถามที่พบบ่อยสำหรับโมเดล embedding รุ่นใหม่ที่ดียิ่งขึ้น

อัปเดตล่าสุด: yesterday

เมื่อวันที่ 25 มกราคม 2024 เราได้เปิดตัวโมเดล embeddings ใหม่สองรุ่น: text-embedding-3-small และ text-embedding-3-large โมเดลเหล่านี้เป็นโมเดล embedding รุ่นใหม่ล่าสุดและมีประสิทธิภาพสูงสุดของเรา โดยมีต้นทุนต่ำลง ประสิทธิภาพหลายภาษาสูงขึ้น และมีพารามิเตอร์ใหม่สำหรับย่อ embeddings อ่านเพิ่มเติม

โมเดล embeddings ล่าสุดแตกต่างอย่างไร?

โมเดล v3 ล่าสุดของเราให้ประสิทธิภาพที่ดีกว่าบนเกณฑ์มาตรฐานทั่วไปในราคาที่ลดลง คุณสามารถอ่านเพิ่มเติมเกี่ยวกับการปรับปรุงประสิทธิภาพได้ในบล็อกโพสต์ประกาศ และเอกสารสำหรับนักพัฒนา

ฉันจะทราบได้อย่างไรว่าสตริงหนึ่งจะมี Token กี่ตัวก่อนลองทำ embedding?

คุณสามารถใช้แพ็กเกจ Tiktoken ของ OpenAIเพื่อตรวจสอบว่าสตริงหนึ่งจะมี Token กี่ตัว ดูข้อมูลเพิ่มเติมได้ในคู่มือนักพัฒนา embeddings

ฉันจะดึงเวกเตอร์ embedding ที่ใกล้ที่สุด K ตัวได้อย่างรวดเร็วอย่างไร?

หากต้องการค้นหาในเวกเตอร์จำนวนมากอย่างรวดเร็ว เราแนะนำให้ใช้ฐานข้อมูลเวกเตอร์

ฉันควรใช้ฟังก์ชันระยะทางแบบใด?

เราแนะนำให้ใช้cosine similarity โดยทั่วไปแล้วการเลือกฟังก์ชันระยะทางมักไม่ค่อยมีผลมากนัก

OpenAI embeddings ถูกทำให้มีความยาวเป็น 1 ซึ่งหมายความว่า:

  • สามารถคำนวณ cosine similarity ได้เร็วขึ้นเล็กน้อยโดยใช้เพียง dot product

  • cosine similarity และระยะทางแบบ Euclidean จะให้ลำดับผลลัพธ์เหมือนกันทุกประการ

บทความนี้มีประโยชน์หรือไม่