OpenAI
Halaman ini diterjemahkan oleh mesin. Lihat artikel asli dalam bahasa Inggris.

FAQ Embeddings

FAQ untuk model embedding baru yang disempurnakan

Diperbarui: 6 hours ago

Pada 25 Januari 2024 kami merilis dua model embeddings baru: text-embedding-3-small dan text-embedding-3-large. Ini adalah model embedding terbaru dan dengan performa terbaik kami dengan biaya lebih rendah, performa multibahasa lebih tinggi, dan parameter baru untuk memendekkan embedding. Baca selengkapnya.

Apa yang berbeda dari model embeddings terbaru?

model v3 terbaru kami memberikan performa yang lebih kuat pada tolok ukur umum dengan harga yang lebih rendah. Anda dapat membaca lebih lanjut tentang peningkatan performa di postingan blog pengumuman dan dokumentasi developer.

Bagaimana saya bisa mengetahui berapa banyak token yang dimiliki sebuah string sebelum saya mencoba membuat embedding-nya?

Anda dapat menggunakan paket Tiktoken milik OpenAI untuk memeriksa berapa banyak token yang akan dimiliki sebuah string. Pelajari lebih lanjut di panduan developer embeddings.

Bagaimana cara mengambil K vektor embedding terdekat dengan cepat?

Untuk menelusuri banyak vektor dengan cepat, kami merekomendasikan penggunaan database vektor.

Fungsi jarak mana yang harus saya gunakan?

Output embedding OpenAI API dinormalisasi ke panjang 1 secara default, termasuk setelah dipersingkat dengan parameter dimensions, yang berarti bahwa:

Embeddings OpenAI dinormalisasi ke panjang 1, yang berarti bahwa:

  • Kesamaan cosine dapat dihitung sedikit lebih cepat hanya dengan menggunakan dot product

  • Kesamaan cosine dan jarak Euclidean akan menghasilkan peringkat yang identik

Apakah artikel ini membantu?