25 января 2024 года мы выпустили две новые модели эмбеддингов: text-embedding-3-small и text-embedding-3-large. Это наши самые новые и наиболее производительные модели эмбеддингов — с более низкой стоимостью, более высокой многоязычной производительностью и новым параметром для сокращения эмбеддингов. Подробнее.
Что изменилось в последних моделях эмбеддингов?
Наши новейшие модели v3 обеспечивают более высокую производительность на распространённых бенчмарках при сниженной цене. Подробнее об улучшениях производительности можно прочитать в посте с анонсом в блоге и в документации для разработчиков.
Как узнать, сколько токенов будет в строке, прежде чем пытаться построить по ней эмбеддинг?
Вы можете использовать пакет OpenAI Tiktoken, чтобы проверить, сколько токенов будет в строке. Подробнее — в нашем руководстве для разработчиков по эмбеддингам.
Как быстро получить K ближайших векторов эмбеддингов?
Для быстрого поиска по большому числу векторов мы рекомендуем использовать векторную базу данных.
Какую функцию расстояния следует использовать?
Мы рекомендуем косинусное сходство. Выбор функции расстояния обычно не имеет большого значения.
Эмбеддинги OpenAI нормализованы до длины 1, а это означает, что:
косинусное сходство можно вычислять немного быстрее, используя только скалярное произведение
косинусное сходство и евклидово расстояние дадут одинаковые ранжирования
