OpenAI
Denne siden ble maskinoversatt. Se den opprinnelige engelske artikkelen.

Vanlige spørsmål om embeddings

Vanlige spørsmål om de nye og forbedrede embedding-modellene

Oppdatert: 10 days ago

Den 25. januar 2024 lanserte vi to nye embedding-modeller: text-embedding-3-small og text-embedding-3-large. Dette er våre nyeste og mest effektive embedding-modeller, med lavere kostnader, bedre flerspråklig ytelse og en ny parameter for å forkorte embeddings. Les mer.

Hva er annerledes med de nyeste embedding-modellene?

Våre nyeste v3-modeller gir bedre ytelse på vanlige referansemålinger til en lavere pris. Du kan lese mer om ytelsesforbedringene i kunngjøringsblogginnlegget og utviklerdokumentasjonen.

Hvordan kan jeg vite hvor mange token en streng vil ha før jeg prøver å bygge den inn?

Du kan bruke OpenAI's Tiktoken-pakke for å sjekke hvor mange token en streng vil ha. Les mer i vår utviklerveiledning for embeddings.

Hvordan kan jeg raskt hente de K nærmeste embedding-vektorene?

For raskt å søke gjennom mange vektorer anbefaler vi å bruke en vektordatabase.

Hvilken avstandsfunksjon bør jeg bruke?

Utdata fra OpenAI API-embeddings er som standard L2-normalisert til lengde 1, også etter forkorting med parameteren dimensions, noe som betyr at:

OpenAI-embeddings er normalisert til lengde 1, noe som betyr at:

  • Cosinuslikhet kan beregnes litt raskere ved å bruke bare et prikkprodukt

  • Cosinuslikhet og euklidsk avstand vil gi identiske rangeringer

Var denne artikkelen nyttig?