Câu hỏi thường gặp về Embeddings

Vào ngày 25 tháng 1 năm 2024, chúng tôi đã phát hành hai mô hình embedding mới: text-embedding-3-small và text-embedding-3-large. Đây là các mô hình embedding mới nhất và hiệu năng cao nhất của chúng tôi, với chi phí thấp hơn, hiệu năng đa ngôn ngữ cao hơn và một tham số mới để rút ngắn embedding. Đọc thêm.

Có gì khác biệt ở các mô hình embedding mới nhất?

Các mô hình v3 mới nhất của chúng tôi mang lại hiệu năng mạnh hơn trên các benchmark phổ biến với mức giá thấp hơn. Bạn có thể đọc thêm về các cải tiến hiệu năng trong bài đăng blog công bố và tài liệu dành cho nhà phát triển.

Làm cách nào để biết một chuỗi sẽ có bao nhiêu token trước khi tôi thử nhúng chuỗi đó?

Bạn có thể dùng gói Tiktoken của OpenAI để kiểm tra một chuỗi sẽ có bao nhiêu token. Tìm hiểu thêm trong hướng dẫn dành cho nhà phát triển về embedding của chúng tôi.

Làm cách nào để truy xuất nhanh K vector embedding gần nhất?

Để tìm kiếm nhanh trong nhiều vector, chúng tôi khuyên bạn nên dùng cơ sở dữ liệu vector.

Tôi nên dùng hàm khoảng cách nào?

Các đầu ra embedding của API OpenAI được chuẩn hóa L2 về độ dài 1 theo mặc định, kể cả sau khi rút ngắn bằng tham số dimensions, nghĩa là:

Các embedding của OpenAI được chuẩn hóa về độ dài 1, nghĩa là:

Độ tương đồng cosine có thể được tính nhanh hơn đôi chút chỉ bằng tích vô hướng
Độ tương đồng cosine và khoảng cách Euclid sẽ cho ra thứ hạng giống hệt nhau

Câu hỏi thường gặp về Embeddings

Có gì khác biệt ở các mô hình embedding mới nhất?

Làm cách nào để biết một chuỗi sẽ có bao nhiêu token trước khi tôi thử nhúng chuỗi đó?

Làm cách nào để truy xuất nhanh K vector embedding gần nhất?

Tôi nên dùng hàm khoảng cách nào?

Bài viết này có hữu ích không?