我們現在為希望在特定模型上獲得更快且更穩定效能的 Enterprise API 客戶提供優先處理。以下整理了關於運作方式、定價、模型可用性、速率限制、可靠性、政策與資格的常見問題解答。
在此處了解更多。
存取
哪些人可以使用優先處理?
優先處理目前提供給 Enterprise 客戶使用。
所有地區都提供優先處理嗎?
優先處理的可用性取決於各司法管轄區適用的法律與法規。如對您所在地區的可用性有疑問,請聯絡您的 Account Director(AD)。
定價
我要如何開始使用優先處理?
客戶可在每次請求層級使用既有的 service_tier 參數,將流量導向優先處理,並設定選項 service_tier="priority"。
這與 Scale Tier 會如何互動?
Scale Tier 將與優先處理維持分開。送往優先處理的請求將會分開計費,且不會計入您已購買的 Scale Tier TPM 套餐。
我可以把 Scale Tier 的溢出流量自動送到優先處理嗎?
不行。送往 Scale Tier 的流量不會自動溢出到優先處理。
優先處理如何計費?
優先處理所提供的 Token 會以每 Token 計費,價格相較於標準處理費率會有溢價。
我的年度承諾是否綁定特定處理模式?
不會。所有處理模式的支出都會計入您年度的 Enterprise 承諾金額。
快取的輸入 Token 還有折扣嗎?
有!Cached Inputs 與在標準處理中一樣,仍可享有 50–75% 的折扣。
我要如何查看我的優先處理用量與支出?
若要查看優先處理所處理的 Token,請前往 Usage 儀表板,選取 Chat Completions 或 Responses,並以 Service Tier 分組。若要查看優先處理成本,請前往 Usage 儀表板,並選取以 Line Item 分組。
模型
優先處理是否支援長上下文、微調模型、嵌入等?
目前尚未支援。未來我們將評估是否在最新模型之外的其他產品上提供優先處理。
其他模態在優先處理中如何運作?
優先處理支援與標準處理相同的多模態能力。尤其是,影像可作為優先處理的輸入,並以同樣的低延遲進行處理。
未來的模型會支援嗎?
我們計劃在新的 GPT 模型上提供優先處理,但不保證每個模型都會支援。
速率限制
速率限制是多少?
在速率限制方面,優先處理的用量與標準 API 流量採相同的計算方式。
什麼是爬升速率限制(ramp rate limits)?
優先處理設有爬升速率限制,以確保所有客戶都能維持一致的高效能,同時仍提供彈性的隨用隨付定價。若同時符合 (a) 優先處理效能下降,且 (b) 某位客戶的流量爬升過快,則在少數情況下,部分優先請求可能會改為使用標準處理(降級)。
目前的優先處理爬升速率限制定義於我們的主要文件此處。
維持在爬升速率限制內的最佳實務
更換模型時逐步增加流量。例如,若您的應用程式正從先前的 snapshot 轉換到新的 snapshot,請使用 feature flag 在數小時內逐步切換流量,而不是一次性全部切換。
避免在優先處理上執行大型資料處理或非同步工作。這些工作可能會非常快速地拉升流量,而且往往不需要優先處理所提供的效能提升。
如果您經常遇到爬升速率限制,請改為考慮購買 Scale Tier 配額。
爬升速率限制是否會在我的專案或組織之間共用?
會,您的所有流量都會共同計入同一個爬升速率限制。
政策
如果優先處理未達到延遲目標,會發生什麼事?
如有任何問題或疑慮,請聯絡您的 AD。優先處理的 SLA 將與 Scale Tier 的 SLA 同等對待;若我們在特定時間區間內未能為採用 Enterprise 合約的客戶達成上述 SLA,將提供服務抵扣額度(service credits)。
優先處理是否與 Data Residency 相容?
是。
優先處理是否與 ZDR 與 BAA 相容?
是。
