2024. január 25-én két új embedding modellt adtunk ki: text-embedding-3-small és text-embedding-3-large. Ezek a legújabb és legjobb teljesítményű embedding modelljeink alacsonyabb költséggel, jobb többnyelvű teljesítménnyel és az embeddingek rövidítésére szolgáló új paraméterrel. További információ.
Miben különböznek a legújabb embedding modellek?
Legújabb v3-as modelljeink jobb teljesítményt nyújtanak az általános benchmarkokon alacsonyabb áron. A teljesítményjavulásokról bővebben az bejelentő blogbejegyzésben és a fejlesztői dokumentációban olvashat.
Honnan tudhatom, hogy egy karakterlánc hány tokent tartalmaz, mielőtt embeddinget készítenék belőle?
Az OpenAI Tiktoken csomagjával ellenőrizheti, hogy egy karakterlánc hány tokent tartalmaz. További információt az embedding fejlesztői útmutatóban talál.
Hogyan kereshetem meg gyorsan a K legközelebbi embedding vektort?
Sok vektorban való gyors kereséshez vektoradatbázis használatát javasoljuk.
Melyik távolságfüggvényt használjam?
Az OpenAI API embedding kimenetei alapértelmezetten 1 hosszúságra L2-normalizáltak, a dimensions paraméterrel történő rövidítés után is, ami azt jelenti, hogy:
Az OpenAI embeddingek 1 hosszúságra normalizáltak, ami azt jelenti, hogy:
A koszinusz-hasonlóság kicsit gyorsabban számítható pusztán skalárszorzattal
A koszinusz-hasonlóság és az euklideszi távolság azonos rangsorolást eredményez
