На 25 януари 2024 г. пуснахме два нови модела за embeddings: text-embedding-3-small и text-embedding-3-large. Това са най-новите ни и най-производителни модели за embeddings с по-ниски разходи, по-добра многоезична производителност и нов параметър за скъсяване на embeddings. Прочетете повече.
Какво е различното при най-новите модели за embeddings?
Най-новите ни v3 модели осигуряват по-добра производителност по често използвани бенчмаркове на по-ниска цена. Можете да прочетете повече за подобренията в производителността в публикацията в блога с анонса и в документацията за разработчици.
Как мога да разбера колко токена ще има един низ, преди да се опитам да го векторизирам?
Можете да използвате пакета Tiktoken на OpenAI, за да проверите колко токена ще има един низ. Научете повече в нашето ръководство за разработчици за embeddings.
Как мога бързо да извлека K-те най-близки embedding вектори?
За бързо търсене сред много вектори препоръчваме да използвате векторна база данни.
Коя функция за разстояние трябва да използвам?
Изходите за embeddings от OpenAI API по подразбиране са L2-нормализирани до дължина 1, включително след скъсяване с параметъра dimensions, което означава, че:
OpenAI embeddings са нормализирани до дължина 1, което означава, че:
Косинусното сходство може да се изчислява малко по-бързо само чрез скаларно произведение
Косинусното сходство и Евклидовото разстояние ще дадат идентични класации
