我们现在为希望在某些模型上获得更快、更稳定性能的企业 API 客户提供优先处理。以下是关于其工作方式、定价、模型可用性、速率限制、可靠性、政策和资格的常见问题解答。
在此处了解更多。
访问权限
谁可以使用优先处理?
优先处理目前面向企业客户提供。
优先处理是否在所有地区可用?
优先处理的可用性取决于各司法管辖区的适用法律法规。如果您对所在地区的可用性有疑问,请联系您的客户总监。
定价
如何开始使用优先处理?
客户可以使用现有的 service_tier 参数,并通过选项 service_tier="priority",按请求将流量定向到优先处理。
这与规模层级如何相互作用?
规模层级将继续与优先处理分开。发送到优先处理的请求将单独计费,并且不会计入您已购买的规模层级 TPM 套餐包。
我能否自动将规模层级的溢出流量发送到优先处理?
不能。发送到规模层级的流量不会自动溢出到优先处理。
优先处理如何计费?
由优先处理服务的 Token 将按 Token 计费,价格相对于标准处理费率有溢价。
我的年度承诺是否绑定到特定处理模式?
不是。所有处理模式都会计入您的企业年度支出承诺。
缓存输入 Token 仍可享受折扣吗?
可以!缓存输入享有与标准处理相同的 50-75% 折扣。
如何查看我的优先处理用量和支出?
要查看由优先处理处理的 Token,请前往用量仪表板,选择聊天补全或响应,并按服务层级分组。要查看优先处理成本,请前往用量仪表板,并选择按行项目分组。
模型
优先处理是否适用于长上下文、微调模型、嵌入等?
目前不支持。我们将来会评估是否在最新模型之外的其他产品上提供优先处理。
其他模态如何与优先处理配合使用?
优先处理支持标准模式下可用的相同多模态能力。特别是,图像可以作为优先处理的输入,并以同样的快速延迟进行处理。
未来的模型会受支持吗?
我们计划在新的 GPT 模型上提供优先处理,但不保证每个模型都会受支持。
速率限制
速率限制是什么?
在速率限制方面,优先处理消耗与标准 API 流量同等对待。
爬坡速率限制是什么?
优先处理设有爬坡速率限制,以确保所有客户都能持续获得高性能,同时仍提供灵活的按需定价。如果 (a) 优先处理性能下降,并且 (b) 客户流量增长过快,则在少数情况下,某些优先请求可能会改为降级至标准处理。
当前优先处理爬坡速率限制在我们的主要文档此处定义。
遵守爬坡速率限制的最佳做法
更改模型时逐步增加流量。例如,如果您的应用程序正从旧快照迁移到新快照,请使用功能标志在数小时内逐步迁移流量,而不是一次性全部迁移。
避免在优先处理中运行大型数据处理或异步作业。这些作业可能会使流量非常快速地增长,而且通常不需要优先处理带来的性能提升。
如果您经常遇到爬坡速率限制,请考虑改为购买规模层级配额。
我的项目或组织之间是否共享爬坡速率限制?
是的,您的所有流量都会计入同一个爬坡速率限制。
政策
如果优先处理未达到延迟目标,会发生什么?
如有任何问题或疑虑,请联系您的客户总监。优先处理 SLA 将与规模层级 SLA 同等对待;如果在给定时间窗口内未能满足企业协议客户的这些 SLA,我们将提供服务抵免。
优先处理是否兼容数据驻留?
兼容。
优先处理是否兼容 ZDR 和 BAA?
兼容。
