เมื่อวันที่ 25 มกราคม 2024 เราได้เปิดตัวโมเดล embeddings ใหม่สองรุ่น: text-embedding-3-small และ text-embedding-3-large โมเดลเหล่านี้เป็นโมเดล embedding รุ่นใหม่ล่าสุดและมีประสิทธิภาพสูงสุดของเรา โดยมีต้นทุนต่ำลง ประสิทธิภาพหลายภาษาสูงขึ้น และมีพารามิเตอร์ใหม่สำหรับย่อ embeddings อ่านเพิ่มเติม
โมเดล embeddings ล่าสุดแตกต่างอย่างไร?
โมเดล v3 ล่าสุดของเราให้ประสิทธิภาพที่ดีกว่าบนเกณฑ์มาตรฐานทั่วไปในราคาที่ลดลง คุณสามารถอ่านเพิ่มเติมเกี่ยวกับการปรับปรุงประสิทธิภาพได้ในบล็อกโพสต์ประกาศ และเอกสารสำหรับนักพัฒนา
ฉันจะทราบได้อย่างไรว่าสตริงหนึ่งจะมี Token กี่ตัวก่อนลองทำ embedding?
คุณสามารถใช้แพ็กเกจ Tiktoken ของ OpenAIเพื่อตรวจสอบว่าสตริงหนึ่งจะมี Token กี่ตัว ดูข้อมูลเพิ่มเติมได้ในคู่มือนักพัฒนา embeddings
ฉันจะดึงเวกเตอร์ embedding ที่ใกล้ที่สุด K ตัวได้อย่างรวดเร็วอย่างไร?
หากต้องการค้นหาในเวกเตอร์จำนวนมากอย่างรวดเร็ว เราแนะนำให้ใช้ฐานข้อมูลเวกเตอร์
ฉันควรใช้ฟังก์ชันระยะทางแบบใด?
เราแนะนำให้ใช้cosine similarity โดยทั่วไปแล้วการเลือกฟังก์ชันระยะทางมักไม่ค่อยมีผลมากนัก
OpenAI embeddings ถูกทำให้มีความยาวเป็น 1 ซึ่งหมายความว่า:
สามารถคำนวณ cosine similarity ได้เร็วขึ้นเล็กน้อยโดยใช้เพียง dot product
cosine similarity และระยะทางแบบ Euclidean จะให้ลำดับผลลัพธ์เหมือนกันทุกประการ
