Časté otázky k embeddings

25. januára 2024 sme vydali dva nové embeddingové modely: text-embedding-3-small a text-embedding-3-large. Sú to naše najnovšie a najvýkonnejšie embeddingové modely s nižšími nákladmi, vyšším viacjazyčným výkonom a novým parametrom na skracovanie embeddingov. Prečítajte si viac.

Čo je iné na najnovších embeddingových modeloch?

Naše najnovšie modely v3 poskytujú vyšší výkon v bežných benchmarkoch za nižšiu cenu. Viac o zlepšeniach výkonu si môžete prečítať v blogovom príspevku s oznámením a vývojárskej dokumentácii.

Ako môžem zistiť, koľko tokenov bude mať reťazec, skôr než sa ho pokúsim vložiť ako embedding?

Na kontrolu, koľko tokenov bude mať reťazec, môžete použiť balík Tiktoken od OpenAI. Viac sa dozviete v našej vývojárskej príručke k embeddingom.

Ako môžem rýchlo získať K najbližších embeddingových vektorov?

Na rýchle vyhľadávanie vo veľkom počte vektorov odporúčame použiť vektorovú databázu.

Ktorú funkciu vzdialenosti mám použiť?

Výstupy embeddingov rozhrania OpenAI API sú predvolene L2 normalizované na dĺžku 1, a to aj po skrátení pomocou parametra dimensions, čo znamená, že:

Embeddingy OpenAI sú normalizované na dĺžku 1, čo znamená, že:

Kosínusovú podobnosť možno vypočítať o niečo rýchlejšie iba pomocou skalárneho súčinu
Kosínusová podobnosť a euklidovská vzdialenosť povedú k rovnakému poradiu

Čo je iné na najnovších embeddingových modeloch?

Ako môžem zistiť, koľko tokenov bude mať reťazec, skôr než sa ho pokúsim vložiť ako embedding?

Ako môžem rýchlo získať K najbližších embeddingových vektorov?

Ktorú funkciu vzdialenosti mám použiť?

Bol tento článok užitočný?