Česta pitanja o embeddingu

25. siječnja 2024. objavili smo dva nova embedding modela: text-embedding-3-small i text-embedding-3-large. To su naši najnoviji embedding modeli najboljih performansi, s nižim troškovima, boljom višejezičnom učinkovitošću i novim parametrom za skraćivanje embeddinga. Pročitajte više.

Što je drukčije kod najnovijih embedding modela?

Naši najnoviji modeli v3 pružaju bolje performanse na uobičajenim referentnim testovima po nižoj cijeni. Više o poboljšanjima performansi možete pročitati u objavi na blogu s najavom i dokumentaciji za razvojne programere.

Kako mogu saznati koliko će tokena niz znakova imati prije nego što ga pokušam ugraditi?

Možete upotrijebiti OpenAIjev paket Tiktoken kako biste provjerili koliko će tokena niz znakova imati. Saznajte više u našem vodiču za razvojne programere o embeddingsima.

Kako mogu brzo dohvatiti K najbližih embedding vektora?

Za brzo pretraživanje velikog broja vektora preporučujemo upotrebu vektorske baze podataka.

Koju funkciju udaljenosti trebam upotrebljavati?

Izlazi embeddinga OpenAI API-ja prema zadanim su postavkama L2-normalizirani na duljinu 1, uključujući i nakon skraćivanja parametrom dimensions, što znači da:

OpenAIjevi embedding vektori normalizirani su na duljinu 1, što znači da:

Kosinusna sličnost može se izračunati nešto brže samo pomoću skalarnog produkta
Kosinusna sličnost i euklidska udaljenost dat će identičan poredak

Što je drukčije kod najnovijih embedding modela?

Kako mogu saznati koliko će tokena niz znakova imati prije nego što ga pokušam ugraditi?

Kako mogu brzo dohvatiti K najbližih embedding vektora?

Koju funkciju udaljenosti trebam upotrebljavati?

Je li vam ovaj članak bio koristan?