Pada 25 Januari 2024 kami merilis dua model embeddings baru: text-embedding-3-small dan text-embedding-3-large. Ini adalah model embedding terbaru dan dengan performa terbaik kami dengan biaya lebih rendah, performa multibahasa lebih tinggi, dan parameter baru untuk memendekkan embedding. Baca selengkapnya.
Apa yang berbeda dari model embeddings terbaru?
model v3 terbaru kami memberikan performa yang lebih kuat pada tolok ukur umum dengan harga yang lebih rendah. Anda dapat membaca lebih lanjut tentang peningkatan performa di postingan blog pengumuman dan dokumentasi developer.
Bagaimana saya bisa mengetahui berapa banyak token yang dimiliki sebuah string sebelum saya mencoba membuat embedding-nya?
Anda dapat menggunakan paket Tiktoken milik OpenAI untuk memeriksa berapa banyak token yang akan dimiliki sebuah string. Pelajari lebih lanjut di panduan developer embeddings.
Bagaimana cara mengambil K vektor embedding terdekat dengan cepat?
Untuk menelusuri banyak vektor dengan cepat, kami merekomendasikan penggunaan database vektor.
Fungsi jarak mana yang harus saya gunakan?
Output embedding OpenAI API dinormalisasi ke panjang 1 secara default, termasuk setelah dipersingkat dengan parameter dimensions, yang berarti bahwa:
Embeddings OpenAI dinormalisasi ke panjang 1, yang berarti bahwa:
Kesamaan cosine dapat dihitung sedikit lebih cepat hanya dengan menggunakan dot product
Kesamaan cosine dan jarak Euclidean akan menghasilkan peringkat yang identik
