Pe 25 ianuarie 2024 am lansat două noi modele embeddings: text-embedding-3-small și text-embedding-3-large. Acestea sunt cele mai noi și mai performante modele embedding ale noastre, cu costuri mai mici, performanță multilingvă mai mare și un nou parametru pentru scurtarea embedding-urilor. Citiți mai multe.
Ce este diferit la cele mai noi modele embeddings?
Noile noastre modele v3 oferă performanțe mai bune la benchmark-uri uzuale, la un preț mai mic. Puteți citi mai multe despre îmbunătățirile de performanță în articolul de anunț de pe blog și în documentația pentru dezvoltatori.
Cum pot afla câți tokeni va avea un șir înainte să încerc să îi creez embedding-ul?
Puteți folosi pachetul Tiktoken de la OpenAI pentru a verifica câți tokeni va avea un șir. Aflați mai multe în ghidul pentru dezvoltatori despre embeddings.
Cum pot recupera rapid K cei mai apropiați vectori embedding?
Pentru căutarea rapidă în multe vectori, vă recomandăm să folosiți o bază de date vectorială.
Ce funcție de distanță ar trebui să folosesc?
Recomandăm similaritatea cosinus. Alegerea funcției de distanță de obicei nu contează foarte mult.
Embedding-urile OpenAI sunt normalizate la lungimea 1, ceea ce înseamnă că:
Similaritatea cosinus poate fi calculată puțin mai rapid folosind doar produsul scalar
Similaritatea cosinus și distanța euclidiană vor produce clasamente identice
