25. januar 2024 lanserte vi to nye embedding-modeller: text-embedding-3-small og text-embedding-3-large. Dette er våre nyeste og mest høytytende embedding-modeller, med lavere kostnader, bedre flerspråklig ytelse og en ny parameter for å forkorte embeddings. Les mer.
Hva er annerledes med de nyeste embedding-modellene?
Våre nyeste v3-modeller gir bedre ytelse på vanlige referansetester til en lavere pris. Du kan lese mer om ytelsesforbedringene i kunngjøringsblogginnlegget og utviklerdokumentasjonen.
Hvordan kan jeg se hvor mange token en streng vil ha før jeg prøver å embedde den?
Du kan bruke OpenAIs Tiktoken-pakke for å sjekke hvor mange token en streng vil ha. Les mer i vår utviklerveiledning for embeddings.
Hvordan kan jeg raskt hente ut K nærmeste embedding-vektorer?
For å søke raskt gjennom mange vektorer anbefaler vi å bruke en vektordatabase.
Hvilken avstandsfunksjon bør jeg bruke?
Embedding-utdata fra OpenAI API er som standard L2-normalisert til lengde 1, også etter forkorting med parameteren dimensions, noe som betyr at:
OpenAI-embeddings er normalisert til lengde 1, noe som betyr at:
Kosinussimilaritet kan beregnes litt raskere ved bare å bruke et prikkprodukt
Kosinussimilaritet og euklidisk avstand vil gi identiske rangeringer
