OpenAI
Táto stránka bola strojovo preložená. Prečítaj si pôvodný článok v angličtine.

Časté otázky k embeddings

Časté otázky k novým a vylepšeným embedding modelom

Aktualizované: 10 days ago

25. januára 2024 sme vydali dva nové embeddingové modely: text-embedding-3-small a text-embedding-3-large. Sú to naše najnovšie a najvýkonnejšie embeddingové modely s nižšími nákladmi, vyšším viacjazyčným výkonom a novým parametrom na skracovanie embeddingov. Prečítajte si viac.

Čo je iné na najnovších embeddingových modeloch?

Naše najnovšie modely v3 poskytujú vyšší výkon v bežných benchmarkoch za nižšiu cenu. Viac o zlepšeniach výkonu si môžete prečítať v blogovom príspevku s oznámením a vývojárskej dokumentácii.

Ako môžem zistiť, koľko tokenov bude mať reťazec, skôr než sa ho pokúsim vložiť ako embedding?

Na kontrolu, koľko tokenov bude mať reťazec, môžete použiť balík Tiktoken od OpenAI. Viac sa dozviete v našej vývojárskej príručke k embeddingom.

Ako môžem rýchlo získať K najbližších embeddingových vektorov?

Na rýchle vyhľadávanie vo veľkom počte vektorov odporúčame použiť vektorovú databázu.

Ktorú funkciu vzdialenosti mám použiť?

Výstupy embeddingov rozhrania OpenAI API sú predvolene L2 normalizované na dĺžku 1, a to aj po skrátení pomocou parametra dimensions, čo znamená, že:

Embeddingy OpenAI sú normalizované na dĺžku 1, čo znamená, že:

  • Kosínusovú podobnosť možno vypočítať o niečo rýchlejšie iba pomocou skalárneho súčinu

  • Kosínusová podobnosť a euklidovská vzdialenosť povedú k rovnakému poradiu

Bol tento článok užitočný?