Embeddingek – GYIK | OpenAI Help Center

2024. január 25-én két új beágyazási modellt adtunk ki: text-embedding-3-small és text-embedding-3-large. Ezek a legújabb és legnagyobb teljesítményű beágyazási modelljeink, alacsonyabb költségekkel, jobb többnyelvű teljesítménnyel és egy új paraméterrel a beágyazások rövidítéséhez. További információ.

Miben különböznek a legújabb beágyazási modellek?

Legújabb v3 modelljeink kedvezőbb áron nyújtanak jobb teljesítményt a gyakori benchmarkokon. A teljesítményjavulásokról bővebben az bejelentő blogbejegyzésben és a fejlesztői dokumentációban olvashatsz.

Hogyan állapíthatom meg, hány tokenje lesz egy karakterláncnak, mielőtt megpróbálnám beágyazni?

Az OpenAI Tiktoken csomagjával ellenőrizheted, hány tokenje lesz egy karakterláncnak. Tudj meg többet a beágyazások fejlesztői útmutatójában.

Hogyan kérhetem le gyorsan a K legközelebbi beágyazási vektort?

Sok vektor közötti gyors kereséshez egy vektoradatbázis használatát javasoljuk.

Melyik távolságfüggvényt használjam?

Az OpenAI API beágyazási kimenetei alapértelmezés szerint L2-normalizáltak 1-es hosszúságra, a dimensions paraméterrel történő rövidítés után is, ami azt jelenti, hogy:

Az OpenAI beágyazások 1-es hosszúságra vannak normalizálva, ami azt jelenti, hogy:

A koszinusz-hasonlóság valamivel gyorsabban kiszámítható pusztán skalárszorzattal
A koszinusz-hasonlóság és az euklideszi távolság azonos rangsorolást eredményez

Embeddingek – GYIK

Miben különböznek a legújabb beágyazási modellek?

Hogyan állapíthatom meg, hány tokenje lesz egy karakterláncnak, mielőtt megpróbálnám beágyazni?

Hogyan kérhetem le gyorsan a K legközelebbi beágyazási vektort?

Melyik távolságfüggvényt használjam?

Hasznos volt ez a cikk?