2024. január 25-én két új beágyazási modellt adtunk ki: text-embedding-3-small és text-embedding-3-large. Ezek a legújabb és legnagyobb teljesítményű beágyazási modelljeink, alacsonyabb költségekkel, jobb többnyelvű teljesítménnyel és egy új paraméterrel a beágyazások rövidítéséhez. További információ.
Miben különböznek a legújabb beágyazási modellek?
Legújabb v3 modelljeink kedvezőbb áron nyújtanak jobb teljesítményt a gyakori benchmarkokon. A teljesítményjavulásokról bővebben az bejelentő blogbejegyzésben és a fejlesztői dokumentációban olvashatsz.
Hogyan állapíthatom meg, hány tokenje lesz egy karakterláncnak, mielőtt megpróbálnám beágyazni?
Az OpenAI Tiktoken csomagjával ellenőrizheted, hány tokenje lesz egy karakterláncnak. Tudj meg többet a beágyazások fejlesztői útmutatójában.
Hogyan kérhetem le gyorsan a K legközelebbi beágyazási vektort?
Sok vektor közötti gyors kereséshez egy vektoradatbázis használatát javasoljuk.
Melyik távolságfüggvényt használjam?
Az OpenAI API beágyazási kimenetei alapértelmezés szerint L2-normalizáltak 1-es hosszúságra, a dimensions paraméterrel történő rövidítés után is, ami azt jelenti, hogy:
Az OpenAI beágyazások 1-es hosszúságra vannak normalizálva, ami azt jelenti, hogy:
A koszinusz-hasonlóság valamivel gyorsabban kiszámítható pusztán skalárszorzattal
A koszinusz-hasonlóság és az euklideszi távolság azonos rangsorolást eredményez
