FAQ Embeddings

Pada 25 Januari 2024, kami merilis dua model embedding baru: text-embedding-3-small dan text-embedding-3-large. Ini adalah model embedding terbaru dan berkinerja terbaik kami dengan biaya lebih rendah, performa multibahasa lebih tinggi, serta parameter baru untuk memperpendek embedding. Baca selengkapnya.

Apa yang berbeda dari model embedding terbaru?

Model v3 terbaru kami memberikan performa yang lebih kuat pada benchmark umum dengan harga yang lebih rendah. Anda dapat membaca lebih lanjut tentang peningkatan performa di postingan blog pengumuman dan dokumentasi developer.

Bagaimana cara mengetahui berapa banyak token yang akan dimiliki sebuah string sebelum saya mencoba membuat embedding-nya?

Anda dapat menggunakan paket Tiktoken OpenAI untuk memeriksa berapa banyak token yang akan dimiliki sebuah string. Pelajari selengkapnya di panduan developer embedding kami.

Bagaimana cara mengambil K vektor embedding terdekat dengan cepat?

Untuk menelusuri banyak vektor dengan cepat, kami merekomendasikan penggunaan database vektor.

Fungsi jarak mana yang sebaiknya saya gunakan?

Output embedding OpenAI API dinormalisasi L2 ke panjang 1 secara default, termasuk setelah diperpendek dengan parameter dimensions, yang berarti bahwa:

Embedding OpenAI dinormalisasi ke panjang 1, yang berarti bahwa:

Kemiripan kosinus dapat dihitung sedikit lebih cepat hanya dengan menggunakan dot product
Kemiripan kosinus dan jarak Euklides akan menghasilkan peringkat yang identik

Apa yang berbeda dari model embedding terbaru?

Bagaimana cara mengetahui berapa banyak token yang akan dimiliki sebuah string sebelum saya mencoba membuat embedding-nya?

Bagaimana cara mengambil K vektor embedding terdekat dengan cepat?

Fungsi jarak mana yang sebaiknya saya gunakan?

Apakah artikel ini membantu?