2024 年 1 月 25 日,我们发布了两个新的嵌入模型:text-embedding-3-small 和 text-embedding-3-large。这些是我们最新且性能最佳的嵌入模型,成本更低,多语言性能更高,并提供一个用于缩短嵌入的新参数。阅读更多。
在尝试嵌入字符串之前,如何判断它会有多少个 Token?
你可以使用 OpenAI 的 Tiktoken 软件包来检查字符串会有多少个 Token。请参阅我们的嵌入开发者指南了解更多信息。
如何快速检索 K 个最近的嵌入向量?
如需快速搜索大量向量,我们建议使用向量数据库。
应该使用哪种距离函数?
OpenAI API 的嵌入输出默认会进行 L2 归一化,使长度为 1,包括使用 dimensions 参数缩短之后也是如此,这意味着:
OpenAI 嵌入已归一化为长度 1,这意味着:
仅使用点积即可稍快地计算余弦相似度
余弦相似度和欧氏距离会得到相同的排序
