Vanlige spørsmål om embeddings

Den 25. januar 2024 lanserte vi to nye embedding-modeller: text-embedding-3-small og text-embedding-3-large. Dette er våre nyeste og mest effektive embedding-modeller, med lavere kostnader, bedre flerspråklig ytelse og en ny parameter for å forkorte embeddings. Les mer.

Hva er annerledes med de nyeste embedding-modellene?

Våre nyeste v3-modeller gir bedre ytelse på vanlige referansemålinger til en lavere pris. Du kan lese mer om ytelsesforbedringene i kunngjøringsblogginnlegget og utviklerdokumentasjonen.

Hvordan kan jeg vite hvor mange token en streng vil ha før jeg prøver å bygge den inn?

Du kan bruke OpenAI's Tiktoken-pakke for å sjekke hvor mange token en streng vil ha. Les mer i vår utviklerveiledning for embeddings.

Hvordan kan jeg raskt hente de K nærmeste embedding-vektorene?

For raskt å søke gjennom mange vektorer anbefaler vi å bruke en vektordatabase.

Hvilken avstandsfunksjon bør jeg bruke?

Utdata fra OpenAI API-embeddings er som standard L2-normalisert til lengde 1, også etter forkorting med parameteren dimensions, noe som betyr at:

OpenAI-embeddings er normalisert til lengde 1, noe som betyr at:

Cosinuslikhet kan beregnes litt raskere ved å bruke bare et prikkprodukt
Cosinuslikhet og euklidsk avstand vil gi identiske rangeringer

Vanlige spørsmål om embeddings

Hva er annerledes med de nyeste embedding-modellene?

Hvordan kan jeg vite hvor mange token en streng vil ha før jeg prøver å bygge den inn?

Hvordan kan jeg raskt hente de K nærmeste embedding-vektorene?

Hvilken avstandsfunksjon bør jeg bruke?

Var denne artikkelen nyttig?