Частые вопросы об эмбеддингах

Частые вопросы о новых и улучшенных моделях эмбеддингов

25 января 2024 года мы выпустили две новые модели эмбеддингов: text-embedding-3-small и text-embedding-3-large. Это наши новейшие и самые производительные модели эмбеддингов: они дешевле, лучше работают с разными языками и поддерживают новый параметр для сокращения эмбеддингов. Подробнее.

Что изменилось в последних моделях эмбеддингов?

Наши последние модели v3 показывают более высокие результаты в распространенных бенчмарках при сниженной цене. Подробнее об улучшениях производительности можно прочитать в блоге с объявлением и документации для разработчиков.

Как заранее узнать, сколько токенов будет в строке перед созданием эмбеддинга?

Вы можете использовать пакет Tiktoken от OpenAI, чтобы проверить, сколько токенов будет в строке. Подробнее см. в нашем руководстве для разработчиков по эмбеддингам.

Как быстро получить K ближайших векторов эмбеддингов?

Для быстрого поиска по множеству векторов рекомендуем использовать векторную базу данных.

Какую функцию расстояния использовать?

Выходные данные эмбеддингов OpenAI API по умолчанию L2-нормализованы до длины 1, в том числе после сокращения с помощью параметра dimensions, а значит:

Эмбеддинги OpenAI нормализованы до длины 1, а значит:

Косинусное сходство можно вычислять немного быстрее, используя только скалярное произведение
Косинусное сходство и евклидово расстояние дадут одинаковое ранжирование

Частые вопросы об эмбеддингах

Что изменилось в последних моделях эмбеддингов?

Как заранее узнать, сколько токенов будет в строке перед созданием эмбеддинга?

Как быстро получить K ближайших векторов эмбеддингов?

Какую функцию расстояния использовать?

Была ли эта статья полезной?