Den 25. januar 2024 lanserte vi to nye embedding-modeller: text-embedding-3-small og text-embedding-3-large. Dette er våre nyeste og mest effektive embedding-modeller, med lavere kostnader, bedre flerspråklig ytelse og en ny parameter for å forkorte embeddings. Les mer.
Hva er annerledes med de nyeste embedding-modellene?
Våre nyeste v3-modeller gir bedre ytelse på vanlige referansemålinger til en lavere pris. Du kan lese mer om ytelsesforbedringene i kunngjøringsblogginnlegget og utviklerdokumentasjonen.
Hvordan kan jeg vite hvor mange token en streng vil ha før jeg prøver å bygge den inn?
Du kan bruke OpenAI's Tiktoken-pakke for å sjekke hvor mange token en streng vil ha. Les mer i vår utviklerveiledning for embeddings.
Hvordan kan jeg raskt hente de K nærmeste embedding-vektorene?
For raskt å søke gjennom mange vektorer anbefaler vi å bruke en vektordatabase.
Hvilken avstandsfunksjon bør jeg bruke?
Utdata fra OpenAI API-embeddings er som standard L2-normalisert til lengde 1, også etter forkorting med parameteren dimensions, noe som betyr at:
OpenAI-embeddings er normalisert til lengde 1, noe som betyr at:
Cosinuslikhet kan beregnes litt raskere ved å bruke bare et prikkprodukt
Cosinuslikhet og euklidsk avstand vil gi identiske rangeringer
