我們在 2024 年 1 月 25 日發佈了兩個新的 embeddings 模型:text-embedding-3-small 及 text-embedding-3-large。這些是我們最新、效能最強的 embedding 模型,成本更低、多語言表現更佳,並新增了可縮短 embeddings 的參數。了解更多。
最新的 embeddings 模型有甚麼不同?
我們最新的 v3 模型以更低價格,在常見基準測試中提供更強表現。你可以在公告網誌文章及開發者文件中了解更多有關效能提升的資訊。
在我嘗試建立 embedding 之前,如何知道一個字串會有多少個 tokens?
你可以使用OpenAI 的 Tiktoken 套件來檢查一個字串會有多少個 tokens。請在我們的embeddings 開發者指南中了解更多。
如何快速擷取 K 個最近的 embedding 向量?
如要快速搜尋大量向量,我們建議使用向量資料庫。
我應該使用哪種距離函數?
我們建議使用餘弦相似度。距離函數的選擇通常影響不大。
OpenAI embeddings 已正規化至長度 1,這表示:
只用點積即可稍快地計算餘弦相似度
餘弦相似度與歐幾里得距離會得出相同的排序
