คำถามที่พบบ่อยเกี่ยวกับ Embeddings

คำถามที่พบบ่อยสำหรับโมเดล embedding รุ่นใหม่ที่ดียิ่งขึ้น

เมื่อวันที่ 25 มกราคม 2024 เราได้เปิดตัวโมเดล embedding ใหม่สองรุ่น: text-embedding-3-small และ text-embedding-3-large เหล่านี้คือโมเดล embedding รุ่นล่าสุดและมีประสิทธิภาพสูงสุดของเรา โดยมีต้นทุนต่ำลง ประสิทธิภาพหลายภาษาสูงขึ้น และมีพารามิเตอร์ใหม่สำหรับย่อ embeddings อ่านเพิ่มเติม

โมเดล embedding รุ่นล่าสุดแตกต่างอย่างไร

โมเดล v3 ล่าสุดของเราให้ประสิทธิภาพที่ดีกว่าบนเบนช์มาร์กทั่วไปในราคาที่ต่ำลง คุณสามารถอ่านเพิ่มเติมเกี่ยวกับการปรับปรุงประสิทธิภาพได้ในบล็อกโพสต์ประกาศและเอกสารสำหรับนักพัฒนา

ฉันจะทราบได้อย่างไรว่าสตริงจะมี Token กี่รายการก่อนที่จะนำไปทำ embedding?

คุณสามารถใช้แพ็กเกจ Tiktoken ของ OpenAIเพื่อตรวจสอบว่าสตริงจะมี Token กี่รายการ ดูข้อมูลเพิ่มเติมในคู่มือนักพัฒนาเกี่ยวกับ embeddingsของเรา

ฉันจะดึงเวกเตอร์ embedding ที่ใกล้ที่สุดจำนวน K รายการอย่างรวดเร็วได้อย่างไร

สำหรับการค้นหาในเวกเตอร์จำนวนมากอย่างรวดเร็ว เราขอแนะนำให้ใช้ฐานข้อมูลเวกเตอร์

ฉันควรใช้ฟังก์ชันระยะทางแบบใด

โดยค่าเริ่มต้น เอาต์พุต embedding ของ OpenAI API จะถูกทำ normalization แบบ L2 ให้มีความยาว 1 รวมถึงหลังจากย่อด้วยพารามิเตอร์ dimensions ซึ่งหมายความว่า:

embeddings ของ OpenAI ถูก normalize ให้มีความยาว 1 ซึ่งหมายความว่า:

สามารถคำนวณความคล้ายคลึงแบบโคไซน์ได้เร็วขึ้นเล็กน้อยโดยใช้เพียง dot product
ความคล้ายคลึงแบบโคไซน์และระยะทางแบบยูคลิดจะให้การจัดอันดับที่เหมือนกัน

คำถามที่พบบ่อยเกี่ยวกับ Embeddings

โมเดล embedding รุ่นล่าสุดแตกต่างอย่างไร

ฉันจะทราบได้อย่างไรว่าสตริงจะมี Token กี่รายการก่อนที่จะนำไปทำ embedding?

ฉันจะดึงเวกเตอร์ embedding ที่ใกล้ที่สุดจำนวน K รายการอย่างรวดเร็วได้อย่างไร

ฉันควรใช้ฟังก์ชันระยะทางแบบใด

บทความนี้มีประโยชน์หรือไม่