Întrebări frecvente despre embeddings

Pe 25 ianuarie 2024, am lansat două modele noi de embedding: text-embedding-3-small și text-embedding-3-large. Acestea sunt cele mai noi și mai performante modele de embedding ale noastre, cu costuri mai mici, performanță multilingvă mai bună și un parametru nou pentru scurtarea embeddingurilor. Citiți mai multe.

Ce este diferit la cele mai recente modele de embedding?

Cele mai recente modele v3 ale noastre oferă performanțe mai bune în benchmarkurile comune, la un preț redus. Puteți citi mai multe despre îmbunătățirile de performanță în articolul de blog cu anunțul și în documentația pentru dezvoltatori.

Cum pot afla câți tokeni va avea un șir înainte să încerc să creez embeddingul pentru el?

Puteți folosi pachetul Tiktoken de la OpenAI pentru a verifica câți tokeni va avea un șir. Aflați mai multe în ghidul nostru pentru dezvoltatori despre embeddings.

Cum pot recupera rapid cei mai apropiați K vectori de embedding?

Pentru căutarea rapidă în mulți vectori, recomandăm utilizarea unei baze de date vectoriale.

Ce funcție de distanță ar trebui să folosesc?

Ieșirile de embedding ale API-ului OpenAI sunt normalizate L2 la lungimea 1 în mod implicit, inclusiv după scurtarea cu parametrul dimensions, ceea ce înseamnă că:

Embeddingurile OpenAI sunt normalizate la lungimea 1, ceea ce înseamnă că:

Similaritatea cosinus poate fi calculată puțin mai rapid folosind doar un produs scalar
Similaritatea cosinus și distanța euclidiană vor produce clasamente identice

Întrebări frecvente despre embeddings

Ce este diferit la cele mai recente modele de embedding?

Cum pot afla câți tokeni va avea un șir înainte să încerc să creez embeddingul pentru el?

Cum pot recupera rapid cei mai apropiați K vectori de embedding?

Ce funcție de distanță ar trebui să folosesc?

A fost util acest articol?