OpenAI
此頁面由機器翻譯。查看原文英文文章

Embeddings 常見問題

全新升級 embedding 模型的常見問題

更新日期:8 days ago

我們在 2024 年 1 月 25 日發布了兩個新的嵌入模型:text-embedding-3-smalltext-embedding-3-large。這些是我們最新且效能最佳的嵌入模型,成本更低、多語言效能更高,並提供用於縮短嵌入向量的新參數。閱讀更多

最新的嵌入模型有何不同?

我們最新的 v3 模型以更低價格,在常用基準測試中提供更強效能。你可以在公告網誌文章開發者文件中閱讀更多有關效能提升的資訊。

在嘗試嵌入字串之前,如何知道它會有多少個 token?

你可以使用 OpenAI 的 Tiktoken 套件 來檢查字串會有多少個 token。如欲了解更多,請參閱我們的嵌入向量開發者指南

如何快速擷取 K 個最近的嵌入向量?

若要快速搜尋大量向量,我們建議使用向量資料庫

我應使用哪個距離函數?

OpenAI API 的嵌入向量輸出預設會以 L2 正規化至長度 1,包括使用 dimensions 參數縮短後,這表示:

OpenAI 嵌入向量會正規化至長度 1,這表示:

  • 只需使用點積,即可稍微更快地計算餘弦相似度

  • 餘弦相似度和歐幾里得距離會得出完全相同的排名

這篇文章對你有幫助嗎?