OpenAI
页面内容为机器翻译。查看英文原文

嵌入常见问题

关于全新改进的嵌入模型的常见问题

更新于:5 days ago

2024 年 1 月 25 日,我们发布了两个新的嵌入模型:text-embedding-3-smalltext-embedding-3-large。这些是我们最新且性能最佳的嵌入模型,成本更低,多语言性能更高,并提供一个用于缩短嵌入的新参数。阅读更多

最新的嵌入模型有哪些不同?

我们最新的 v3 模型以更低价格在常见基准测试中提供更强性能。你可以在公告博客文章开发者文档中进一步了解性能改进。

在尝试嵌入字符串之前,如何判断它会有多少个 Token?

你可以使用 OpenAI 的 Tiktoken 软件包来检查字符串会有多少个 Token。请参阅我们的嵌入开发者指南了解更多信息。

如何快速检索 K 个最近的嵌入向量?

如需快速搜索大量向量,我们建议使用向量数据库

应该使用哪种距离函数?

OpenAI API 的嵌入输出默认会进行 L2 归一化,使长度为 1,包括使用 dimensions 参数缩短之后也是如此,这意味着:

OpenAI 嵌入已归一化为长度 1,这意味着:

  • 仅使用点积即可稍快地计算余弦相似度

  • 余弦相似度和欧氏距离会得到相同的排序

这篇文章对你有帮助吗?