我們現為希望在部分模型上獲得更快且更穩定效能的 Enterprise API 客戶提供優先處理。以下解答有關其運作方式、定價、模型供應情況、速率限制、可靠性、政策及資格的常見問題。
在此處了解更多。
存取
誰可以使用優先處理?
優先處理目前適用於 Enterprise 客戶。
所有地區都可使用優先處理嗎?
優先處理的供應情況取決於各司法管轄區適用的法律及法規。如對你所在地區的供應情況有疑問,請聯絡你的客戶總監。
定價
如何開始使用優先處理?
客戶可使用現有的 service_tier 參數,按每個請求將流量導向優先處理,選項為 service_tier="priority"。
這與 Scale Tier 如何互動?
Scale Tier 將繼續與優先處理分開。發送至優先處理的請求將另行收費,且不會計入你已購買的 Scale Tier TPM 配額組合。
我可以自動將 Scale Tier 的溢出流量發送至優先處理嗎?
不可以。發送至 Scale Tier 的流量不會自動溢出至優先處理。
優先處理如何收費?
由優先處理提供的 token 將按每個 token 收費,價格相較標準處理費率有溢價。
我的年度承諾是否與特定處理模式綁定?
不是。所有處理模式都會計入你的 Enterprise 年度支出承諾。
我仍可享有快取輸入 token 的折扣嗎?
可以!快取輸入可享有與標準處理相同的 50–75% 折扣。
如何查看我的優先處理用量及支出?
如要查看經優先處理的 token,請前往 Usage 儀表板,選擇 Chat Completions 或 Responses,然後按 Service Tier 分組。如要查看優先處理成本,請前往 Usage 儀表板,並選擇按 Line Item 分組。
模型
優先處理是否適用於長上下文、微調模型、嵌入等?
目前尚未提供。我們日後會評估是否在最新模型以外的其他產品上提供優先處理。
其他模態如何配合優先處理運作?
優先處理支援與標準處理相同的多模態功能。特別是,圖片可作為優先處理的輸入,並以同樣快速的延遲進行處理。
未來模型會獲支援嗎?
我們計劃在新的 GPT 模型上提供優先處理,但不保證每個模型都會獲支援。
速率限制
速率限制是甚麼?
就速率限制而言,優先處理的用量與標準 API 流量的處理方式相同。
增長速率限制是甚麼?
優先處理設有增長速率限制,以確保所有客戶都能持續獲得高效能,同時仍提供靈活的按需定價。如果 (a) 優先處理效能下降,而 (b) 某客戶的流量增長過快,則在少數情況下,部分優先請求可能會被降級為標準處理。
目前的優先處理增長速率限制已在我們的主要文件此處定義。
讓你保持在增長速率限制內的最佳做法
更改模型時,應逐步增加流量。例如,如你的應用程式正從先前的快照轉換至新的快照,請使用功能旗標在數小時內逐步轉移流量,而非一次過全部切換。
避免在優先處理上執行大型資料處理或非同步工作。這些工作可令流量非常快速地增長,而且通常不需要優先處理帶來的效能提升。
如你經常遇到增長速率限制,請考慮改為購買 Scale Tier 配額。
增長速率限制是否在我的專案或組織之間共用?
是,你的所有流量都會計入同一增長速率限制。
政策
如果優先處理未達到延遲目標,會怎樣?
如有任何問題或疑慮,請聯絡你的 AD。優先處理 SLA 的處理方式將與 Scale Tier SLA 相同;如我們未能在指定時間窗口內就 Enterprise 協議客戶達到該等 SLA,我們將提供服務積分。
優先處理是否與資料駐留相容?
是。
優先處理是否與 ZDR 及 BAA 相容?
是。
