OpenAI
Denne siden ble maskinoversatt. Se den opprinnelige engelske artikkelen.

Vanlige spørsmål om embeddings

Vanlige spørsmål om de nye og forbedrede embedding-modellene

Oppdatert: 13 hours ago

25. januar 2024 lanserte vi to nye embedding-modeller: text-embedding-3-small og text-embedding-3-large. Dette er våre nyeste og mest høytytende embedding-modeller, med lavere kostnader, bedre flerspråklig ytelse og en ny parameter for å forkorte embeddings. Les mer.

Hva er annerledes med de nyeste embedding-modellene?

Våre nyeste v3-modeller gir bedre ytelse på vanlige referansetester til en lavere pris. Du kan lese mer om ytelsesforbedringene i kunngjøringsblogginnlegget og utviklerdokumentasjonen.

Hvordan kan jeg se hvor mange token en streng vil ha før jeg prøver å embedde den?

Du kan bruke OpenAIs Tiktoken-pakke for å sjekke hvor mange token en streng vil ha. Les mer i vår utviklerveiledning for embeddings.

Hvordan kan jeg raskt hente ut K nærmeste embedding-vektorer?

For å søke raskt gjennom mange vektorer anbefaler vi å bruke en vektordatabase.

Hvilken avstandsfunksjon bør jeg bruke?

Embedding-utdata fra OpenAI API er som standard L2-normalisert til lengde 1, også etter forkorting med parameteren dimensions, noe som betyr at:

OpenAI-embeddings er normalisert til lengde 1, noe som betyr at:

  • Kosinussimilaritet kan beregnes litt raskere ved bare å bruke et prikkprodukt

  • Kosinussimilaritet og euklidisk avstand vil gi identiske rangeringer

Var denne artikkelen nyttig?