ЧЗВ за embeddings

На 25 януари 2024 г. пуснахме два нови модела за ембединги: text-embedding-3-small и text-embedding-3-large. Това са нашите най-нови и най-производителни модели за ембединги, с по-ниски разходи, по-висока многоезична производителност и нов параметър за съкращаване на ембединги. Прочетете повече.

Какво е различното при най-новите модели за ембединги?

Нашите най-нови модели v3 осигуряват по-добра производителност при обичайни бенчмаркове на по-ниска цена. Можете да прочетете повече за подобренията в производителността в публикацията с обявлението в блога и документацията за разработчици.

Как мога да разбера колко токена ще има даден низ, преди да се опитам да го преобразувам в ембединг?

Можете да използвате пакета Tiktoken на OpenAI, за да проверите колко токена ще има даден низ. Научете повече в нашето ръководство за разработчици за ембединги.

Как мога бързо да извлека K най-близки вектора на ембединги?

За бързо търсене сред много вектори препоръчваме да използвате векторна база данни.

Коя функция за разстояние трябва да използвам?

Изходите за ембединги на OpenAI API са L2-нормализирани до дължина 1 по подразбиране, включително след съкращаване с параметъра dimensions, което означава, че:

Ембедингите на OpenAI са нормализирани до дължина 1, което означава, че:

Косинусното сходство може да се изчисли малко по-бързо само чрез скаларно произведение
Косинусното сходство и евклидовото разстояние ще доведат до еднакви класирания

Какво е различното при най-новите модели за ембединги?

Как мога да разбера колко токена ще има даден низ, преди да се опитам да го преобразувам в ембединг?

Как мога бързо да извлека K най-близки вектора на ембединги?

Коя функция за разстояние трябва да използвам?

Беше ли Ви полезна тази статия?