Vào ngày 25 tháng 1 năm 2024, chúng tôi đã phát hành hai mô hình embeddings mới: text-embedding-3-small và text-embedding-3-large. Đây là các mô hình embedding mới nhất và có hiệu năng tốt nhất của chúng tôi với chi phí thấp hơn, hiệu năng đa ngôn ngữ cao hơn và một tham số mới để rút ngắn embeddings. Đọc thêm.
Điểm khác biệt của các mô hình embeddings mới nhất là gì?
Các mô hình v3 mới nhất của chúng tôi mang lại hiệu năng tốt hơn trên các bài đo chuẩn phổ biến với mức giá thấp hơn. Bạn có thể đọc thêm về các cải tiến hiệu năng trong bài blog thông báo và tài liệu dành cho nhà phát triển.
Làm sao để biết một chuỗi sẽ có bao nhiêu token trước khi tôi thử tạo embedding cho nó?
Bạn có thể dùng gói Tiktoken của OpenAI để kiểm tra một chuỗi sẽ có bao nhiêu token. Tìm hiểu thêm trong hướng dẫn embeddings cho nhà phát triển.
Làm sao tôi có thể nhanh chóng truy xuất K vector embedding gần nhất?
Để tìm kiếm nhanh trên nhiều vector, chúng tôi khuyên dùng cơ sở dữ liệu vector.
Tôi nên dùng hàm khoảng cách nào?
Chúng tôi khuyên dùng độ tương đồng cosine. Việc chọn hàm khoảng cách thường không quá quan trọng.
Embeddings của OpenAI được chuẩn hóa về độ dài 1, nghĩa là:
Có thể tính độ tương đồng cosine nhanh hơn một chút chỉ bằng tích vô hướng
Độ tương đồng cosine và khoảng cách Euclid sẽ cho ra thứ hạng giống hệt nhau
