我們現為企業 API 客戶提供優先處理,讓希望在特定模型上獲得更快、更一致效能的客戶使用。以下解答有關其運作方式、定價、模型可用性、速率限制、可靠性、政策及資格的常見問題。
在此處了解更多。
存取權限
誰可以使用優先處理?
優先處理目前適用於企業客戶。
優先處理是否在所有地區提供?
優先處理的可用性取決於各司法管轄區的適用法律及法規。如果您對所在地區的可用性有任何疑問,請聯絡您的客戶總監。
定價
如何開始使用優先處理?
客戶可按每個請求使用現有 service_tier 參數將流量導向優先處理,並選用 service_tier="priority" 選項。
這與規模層級如何互動?
規模層級將繼續與優先處理分開。傳送至優先處理的請求將另行計費,且不會計入您已購買的規模層級 TPM 配套。
我可以自動將規模層級的溢出流量傳送至優先處理嗎?
否。傳送至規模層級的流量不會自動溢出至優先處理。
優先處理如何計費?
由優先處理提供服務的 token 將按每個 token 計費,價格相對標準處理費率有溢價。
我的年度承諾是否綁定至特定處理模式?
否。所有處理模式均會計入您的年度企業版消費承諾。
我仍可就快取輸入 token 獲得折扣嗎?
可以!快取輸入可享與標準處理相同的 50-75% 折扣。
如何查看我的優先處理使用量和支出?
要查看由優先處理處理的 token,請前往使用量儀表板,選擇 Chat Completions 或 Responses,然後按服務層級分組。要查看優先處理成本,請前往使用量儀表板,然後選擇按明細項目分組。
模型
優先處理是否適用於長上下文、微調模型、嵌入等?
目前尚未適用。我們日後將評估是否在最新模型以外的其他產品提供優先處理。
其他模態如何與優先處理配合運作?
優先處理支援與標準處理相同的多模態功能。具體而言,圖像可用作優先處理的輸入,並以同樣快速的延遲進行處理。
未來的模型會受支援嗎?
我們計劃在新的 GPT 模型上提供優先處理,但不保證每個模型都會受支援。
速率限制
甚麼是速率限制?
就速率限制而言,優先處理用量會視作與標準 API 流量相同。
甚麼是流量提升速率限制?
優先處理設有流量提升速率限制,以確保所有客戶都能持續獲得高效能,同時仍提供靈活的按需定價。如果 (a) 優先處理效能下降,且 (b) 客戶流量提升過快,則在少數情況下,部分優先處理請求可能會改為降級至標準處理。
目前的優先處理流量提升速率限制已在我們的主要文件此處定義。
保持在流量提升速率限制內的最佳做法
更改模型時,請逐步增加流量。例如,如果您的應用程式正從先前的快照轉換至新快照,請使用功能旗標在數小時內逐步轉移流量,而非一次過全部轉移。
避免在優先處理上執行大型資料處理或非同步作業。這些作業可能令流量非常快速地提升,而且通常不需要優先處理所帶來的效能提升。
如果您經常遇到流量提升速率限制,請考慮改為購買規模層級配額。
流量提升速率限制是否在我的專案或組織之間共用?
是,您的所有流量都會計入同一個流量提升速率限制。
政策
如果優先處理未達到延遲目標,會怎樣?
如有任何問題或疑慮,請聯絡您的 AD。優先處理 SLA 將與規模層級 SLA 一樣處理;若我們在指定時間範圍內未能為簽訂企業協議的客戶達到這些 SLA,將提供服務抵免。
優先處理是否與資料駐留相容?
是。
優先處理是否與 ZDR 及 BAA 相容?
是。
