OpenAI
此頁面由機器翻譯。查看原文英文文章

Embeddings 常見問題

全新升級 embedding 模型的常見問題

更新日期:7 hours ago

我們在 2024 年 1 月 25 日發佈了兩個新的 embeddings 模型:text-embedding-3-smalltext-embedding-3-large。這些是我們最新、效能最強的 embedding 模型,成本更低、多語言表現更佳,並新增了可縮短 embeddings 的參數。了解更多

最新的 embeddings 模型有甚麼不同?

我們最新的 v3 模型以更低價格,在常見基準測試中提供更強表現。你可以在公告網誌文章開發者文件中了解更多有關效能提升的資訊。

在我嘗試建立 embedding 之前,如何知道一個字串會有多少個 tokens?

你可以使用OpenAI 的 Tiktoken 套件來檢查一個字串會有多少個 tokens。請在我們的embeddings 開發者指南中了解更多。

如何快速擷取 K 個最近的 embedding 向量?

如要快速搜尋大量向量,我們建議使用向量資料庫

我應該使用哪種距離函數?

我們建議使用餘弦相似度。距離函數的選擇通常影響不大。

OpenAI embeddings 已正規化至長度 1,這表示:

  • 只用點積即可稍快地計算餘弦相似度

  • 餘弦相似度與歐幾里得距離會得出相同的排序

這篇文章對你有幫助嗎?