OpenAI
Deze pagina is automatisch vertaald. Bekijk het oorspronkelijke Engelstalige artikel.

Veelgestelde vragen over embeddings

FAQ voor de nieuwe en verbeterde embedding-modellen

Bijgewerkt: 2 days ago

Op 25 januari 2024 brachten we twee nieuwe embeddings-modellen uit: text-embedding-3-small en text-embedding-3-large. Dit zijn onze nieuwste en best presterende embedding-modellen, met lagere kosten, betere meertalige prestaties en een nieuwe parameter om embeddings in te korten. Lees meer.

Wat is er anders aan de nieuwste embeddingmodellen?

Onze nieuwste v3-modellen leveren betere prestaties op gangbare benchmarks tegen een lagere prijs. Je kunt meer lezen over de prestatieverbeteringen in de aankondigingsblogpost en de documentatie voor ontwikkelaars.

Hoe kan ik zien hoeveel tokens een tekenreeks heeft voordat ik die probeer te embedden?

Je kunt het Tiktoken-pakket van OpenAI gebruiken om te controleren hoeveel tokens een tekenreeks heeft. Lees meer in onze ontwikkelaarshandleiding voor embeddings.

Hoe kan ik snel K dichtstbijzijnde embeddingvectoren ophalen?

Voor het snel doorzoeken van veel vectoren raden we aan een vectordatabase te gebruiken.

Welke afstandsfunctie moet ik gebruiken?

Embeddingoutputs van de OpenAI API zijn standaard L2-genormaliseerd naar lengte 1, ook na verkorting met de parameter dimensions, wat betekent dat:

OpenAI-embeddings zijn genormaliseerd naar lengte 1, wat betekent dat:

  • cosinusgelijkenis iets sneller kan worden berekend met alleen een dotproduct

  • cosinusgelijkenis en euclidische afstand identieke rangschikkingen opleveren

Was dit artikel nuttig?