OpenAI
Ez az oldal gépi fordítással készült. Tekintsd meg az eredeti angol nyelvű cikket.

Embeddingek – GYIK

GYIK az új és továbbfejlesztett embedding modellekről

Frissítve: 7 hours ago

2024. január 25-én két új embedding modellt adtunk ki: text-embedding-3-small és text-embedding-3-large. Ezek a legújabb és legjobb teljesítményű embedding modelljeink alacsonyabb költséggel, jobb többnyelvű teljesítménnyel és az embeddingek rövidítésére szolgáló új paraméterrel. További információ.

Miben különböznek a legújabb embedding modellek?

Legújabb v3-as modelljeink jobb teljesítményt nyújtanak az általános benchmarkokon alacsonyabb áron. A teljesítményjavulásokról bővebben az bejelentő blogbejegyzésben és a fejlesztői dokumentációban olvashat.

Honnan tudhatom, hogy egy karakterlánc hány tokent tartalmaz, mielőtt embeddinget készítenék belőle?

Az OpenAI Tiktoken csomagjával ellenőrizheti, hogy egy karakterlánc hány tokent tartalmaz. További információt az embedding fejlesztői útmutatóban talál.

Hogyan kereshetem meg gyorsan a K legközelebbi embedding vektort?

Sok vektorban való gyors kereséshez vektoradatbázis használatát javasoljuk.

Melyik távolságfüggvényt használjam?

Az OpenAI API embedding kimenetei alapértelmezetten 1 hosszúságra L2-normalizáltak, a dimensions paraméterrel történő rövidítés után is, ami azt jelenti, hogy:

Az OpenAI embeddingek 1 hosszúságra normalizáltak, ami azt jelenti, hogy:

  • A koszinusz-hasonlóság kicsit gyorsabban számítható pusztán skalárszorzattal

  • A koszinusz-hasonlóság és az euklideszi távolság azonos rangsorolást eredményez

Hasznos volt ez a cikk?