我们现在为希望在某些模型上获得更快、更稳定性能的企业 API 客户提供优先处理。以下是关于其工作方式、定价、模型可用性、速率限制、可靠性、政策和资格的常见问题解答。

在此处了解更多。

访问权限

谁可以使用优先处理？

优先处理目前面向企业客户提供。

优先处理是否在所有地区可用？

优先处理的可用性取决于各司法管辖区的适用法律法规。如果您对所在地区的可用性有疑问，请联系您的客户总监。

定价

如何开始使用优先处理？

客户可以使用现有的 service_tier 参数，并通过选项 service_tier="priority"，按请求将流量定向到优先处理。

这与规模层级如何相互作用？

规模层级将继续与优先处理分开。发送到优先处理的请求将单独计费，并且不会计入您已购买的规模层级 TPM 套餐包。

我能否自动将规模层级的溢出流量发送到优先处理？

不能。发送到规模层级的流量不会自动溢出到优先处理。

优先处理如何计费？

由优先处理服务的 Token 将按 Token 计费，价格相对于标准处理费率有溢价。

我的年度承诺是否绑定到特定处理模式？

不是。所有处理模式都会计入您的企业年度支出承诺。

缓存输入 Token 仍可享受折扣吗？

可以！缓存输入享有与标准处理相同的 50-75% 折扣。

如何查看我的优先处理用量和支出？

要查看由优先处理处理的 Token，请前往用量仪表板，选择聊天补全或响应，并按服务层级分组。要查看优先处理成本，请前往用量仪表板，并选择按行项目分组。

模型

优先处理是否适用于长上下文、微调模型、嵌入等？

目前不支持。我们将来会评估是否在最新模型之外的其他产品上提供优先处理。

其他模态如何与优先处理配合使用？

优先处理支持标准模式下可用的相同多模态能力。特别是，图像可以作为优先处理的输入，并以同样的快速延迟进行处理。

未来的模型会受支持吗？

我们计划在新的 GPT 模型上提供优先处理，但不保证每个模型都会受支持。

速率限制

速率限制是什么？

在速率限制方面，优先处理消耗与标准 API 流量同等对待。

爬坡速率限制是什么？

优先处理设有爬坡速率限制，以确保所有客户都能持续获得高性能，同时仍提供灵活的按需定价。如果 (a) 优先处理性能下降，并且 (b) 客户流量增长过快，则在少数情况下，某些优先请求可能会改为降级至标准处理。

当前优先处理爬坡速率限制在我们的主要文档此处定义。

遵守爬坡速率限制的最佳做法

更改模型时逐步增加流量。例如，如果您的应用程序正从旧快照迁移到新快照，请使用功能标志在数小时内逐步迁移流量，而不是一次性全部迁移。

避免在优先处理中运行大型数据处理或异步作业。这些作业可能会使流量非常快速地增长，而且通常不需要优先处理带来的性能提升。
如果您经常遇到爬坡速率限制，请考虑改为购买规模层级配额。

我的项目或组织之间是否共享爬坡速率限制？

是的，您的所有流量都会计入同一个爬坡速率限制。

政策

如果优先处理未达到延迟目标，会发生什么？

如有任何问题或疑虑，请联系您的客户总监。优先处理 SLA 将与规模层级 SLA 同等对待；如果在给定时间窗口内未能满足企业协议客户的这些 SLA，我们将提供服务抵免。

优先处理是否兼容数据驻留？

兼容。

优先处理是否兼容 ZDR 和 BAA？

兼容。

优先处理常见问题