เมื่อวันที่ 25 มกราคม 2024 เราได้เปิดตัวโมเดล embedding ใหม่สองรุ่น: text-embedding-3-small และ text-embedding-3-large เหล่านี้คือโมเดล embedding รุ่นล่าสุดและมีประสิทธิภาพสูงสุดของเรา โดยมีต้นทุนต่ำลง ประสิทธิภาพหลายภาษาสูงขึ้น และมีพารามิเตอร์ใหม่สำหรับย่อ embeddings อ่านเพิ่มเติม
โมเดล embedding รุ่นล่าสุดแตกต่างอย่างไร
โมเดล v3 ล่าสุดของเราให้ประสิทธิภาพที่ดีกว่าบนเบนช์มาร์กทั่วไปในราคาที่ต่ำลง คุณสามารถอ่านเพิ่มเติมเกี่ยวกับการปรับปรุงประสิทธิภาพได้ในบล็อกโพสต์ประกาศและเอกสารสำหรับนักพัฒนา
ฉันจะทราบได้อย่างไรว่าสตริงจะมี Token กี่รายการก่อนที่จะนำไปทำ embedding?
คุณสามารถใช้แพ็กเกจ Tiktoken ของ OpenAIเพื่อตรวจสอบว่าสตริงจะมี Token กี่รายการ ดูข้อมูลเพิ่มเติมในคู่มือนักพัฒนาเกี่ยวกับ embeddingsของเรา
ฉันจะดึงเวกเตอร์ embedding ที่ใกล้ที่สุดจำนวน K รายการอย่างรวดเร็วได้อย่างไร
สำหรับการค้นหาในเวกเตอร์จำนวนมากอย่างรวดเร็ว เราขอแนะนำให้ใช้ฐานข้อมูลเวกเตอร์
ฉันควรใช้ฟังก์ชันระยะทางแบบใด
โดยค่าเริ่มต้น เอาต์พุต embedding ของ OpenAI API จะถูกทำ normalization แบบ L2 ให้มีความยาว 1 รวมถึงหลังจากย่อด้วยพารามิเตอร์ dimensions ซึ่งหมายความว่า:
embeddings ของ OpenAI ถูก normalize ให้มีความยาว 1 ซึ่งหมายความว่า:
สามารถคำนวณความคล้ายคลึงแบบโคไซน์ได้เร็วขึ้นเล็กน้อยโดยใช้เพียง dot product
ความคล้ายคลึงแบบโคไซน์และระยะทางแบบยูคลิดจะให้การจัดอันดับที่เหมือนกัน
