Поширені запитання про вбудовування

Поширені запитання про нові й покращені моделі вбудовування

25 січня 2024 року ми випустили дві нові моделі ембедингів: text-embedding-3-small і text-embedding-3-large. Це наші найновіші та найпродуктивніші моделі ембедингів із нижчою вартістю, кращою багатомовною продуктивністю та новим параметром для скорочення ембедингів. Докладніше.

Чим відрізняються найновіші моделі ембедингів?

Наші найновіші моделі v3 забезпечують кращі результати в поширених бенчмарках за нижчою ціною. Докладніше про покращення продуктивності можна прочитати в дописі з оголошенням у блозі та документації для розробників.

Як дізнатися, скільки токенів матиме рядок, перш ніж спробувати створити для нього ембединг?

Ви можете скористатися пакетом Tiktoken від OpenAI, щоб перевірити, скільки токенів матиме рядок. Докладніше — у нашому посібнику для розробників щодо ембедингів.

Як швидко отримати K найближчих векторів ембедингів?

Для швидкого пошуку серед багатьох векторів рекомендуємо використовувати векторну базу даних.

Яку функцію відстані слід використовувати?

Вихідні дані ембедингів API OpenAI за замовчуванням L2-нормалізовані до довжини 1, зокрема після скорочення за допомогою параметра dimensions, а це означає, що:

Ембединги OpenAI нормалізовано до довжини 1, а це означає, що:

Косинусну подібність можна обчислювати трохи швидше, використовуючи лише скалярний добуток
Косинусна подібність і евклідова відстань дадуть однакове ранжування

Поширені запитання про вбудовування

Чим відрізняються найновіші моделі ембедингів?

Як дізнатися, скільки токенів матиме рядок, перш ніж спробувати створити для нього ембединг?

Як швидко отримати K найближчих векторів ембедингів?

Яку функцію відстані слід використовувати?

Чи була ця стаття корисною?