我們現在為希望在特定模型上取得更快速且更一致效能的企業 API 客戶，提供優先處理。以下回答關於其運作方式、定價、模型可用性、速率限制、可靠性、政策與資格的常見問題。

在此處深入瞭解。

存取權

誰可以存取優先處理？

優先處理目前提供給企業客戶使用。

優先處理是否在所有地區皆可使用？

優先處理的可用性取決於各司法管轄區的適用法律和法規。如果您對所在地區的可用性有疑問，請聯絡您的客戶總監。

定價

如何開始使用優先處理？

客戶可以使用現有的 service_tier 參數，並搭配 service_tier="priority" 選項，依每個請求將流量導向優先處理。

這如何與規模層級互動？

規模層級將與優先處理維持分開。傳送至優先處理的請求將另行計費，且不會計入您購買的規模層級 TPM 套裝。

我可以自動將規模層級的溢出流量傳送到優先處理嗎？

不行。傳送至規模層級的流量不會自動溢出至優先處理。

優先處理如何計費？

由優先處理提供服務的 Token 將按每 Token 計費，其價格相對於標準處理費率會有溢價。

我的年度承諾是否綁定於特定處理模式？

不是。所有處理模式都會計入您的企業年度支出承諾。

我仍可享有快取輸入 Token 的折扣嗎？

可以！快取輸入可享有與標準處理相同的 50–75% 折扣。

如何查看我的優先處理使用量與支出？

若要查看優先處理所處理的 Token，請前往使用量儀表板，選取 Chat Completions 或 Responses，並依服務層級分組。若要查看優先處理成本，請前往使用量儀表板，並選取依明細項目分組。

模型

優先處理是否可用於長上下文、微調模型、嵌入等？

目前尚未提供。未來我們將評估是否在最新模型以外的其他產品上提供優先處理。

其他模態如何與優先處理搭配運作？

優先處理支援標準模式上可用的相同多模態功能。具體而言，圖片可作為優先處理的輸入，並以相同的快速延遲進行處理。

未來的模型會受到支援嗎？

我們計劃在新的 GPT 模型上提供優先處理，但不保證每個模型都會受到支援。

速率限制

速率限制是什麼？

就速率限制而言，優先處理的用量會與標準 API 流量同等處理。

流量爬升速率限制是什麼？

優先處理設有流量爬升速率限制，以確保所有客戶都能持續獲得高效能，同時仍提供靈活的隨選定價。如果 (a) 優先處理效能下降，且 (b) 客戶流量爬升過快，則在少數情況下，部分優先請求可能會改降級為標準處理。

目前的優先處理流量爬升速率限制已在我們的主要文件此處定義。

維持在流量爬升速率限制內的最佳做法

變更模型時，請逐步增加流量。例如，如果您的應用程式正從先前的快照轉換到新的快照，請使用功能旗標在數小時內逐步轉換流量，而不是一次全部切換。

避免在優先處理上執行大型資料處理或非同步作業。這些作業可能會讓流量非常快速地爬升，而且通常不需要優先處理所提升的效能。
如果您經常遇到流量爬升速率限制，請考慮改為購買規模層級配額。

我的專案或組織之間是否共用流量爬升速率限制？

是，您的所有流量都會計入同一個流量爬升速率限制。

政策

如果優先處理未達到延遲目標，會發生什麼事？

如有任何問題或疑慮，請聯絡您的 AD。優先處理 SLA 將比照規模層級 SLA 處理；若在特定時間區間內，企業協議客戶的這些 SLA 未達成，我們將提供服務抵免。

優先處理是否與資料駐留相容？

是。

優先處理是否與 ZDR 和 BAA 相容？

是。

優先處理常見問題

存取權