Dne 25. ledna 2024 jsme vydali dva nové modely embeddings: text-embedding-3-small a text-embedding-3-large. Jsou to naše nejnovější a nejvýkonnější modely embeddings s nižšími náklady, vyšším vícejazyčným výkonem a novým parametrem pro zkracování embeddings. Přečtěte si více.
Čím se liší nejnovější modely embeddings?
Naše nejnovější modely v3 poskytují vyšší výkon v běžných benchmarcích za nižší cenu. Více o zlepšení výkonu si můžete přečíst v blogovém oznámení a v dokumentaci pro vývojáře.
Jak zjistím, kolik tokenů bude mít řetězec, než ho zkusím převést na embedding?
Pomocí balíčku Tiktoken od OpenAI můžete zjistit, kolik tokenů bude řetězec mít. Více se dozvíte v našem průvodci embeddings pro vývojáře.
Jak mohu rychle získat K nejbližších embedding vektorů?
Pro rychlé vyhledávání v mnoha vektorech doporučujeme použít vektorovou databázi.
Kterou funkci vzdálenosti mám použít?
Výstupy embeddingů z OpenAI API jsou ve výchozím nastavení normalizované pomocí L2 na délku 1, a to i po zkrácení pomocí parametru dimensions, což znamená, že:
Embeddings OpenAI jsou normalizované na délku 1, což znamená, že:
Kosinovou podobnost lze spočítat o něco rychleji pouze pomocí skalárního součinu
Kosinová podobnost a eukleidovská vzdálenost povedou ke stejnému pořadí
