我們現為企業 API 客戶提供優先處理，讓希望在特定模型上獲得更快、更一致效能的客戶使用。以下解答有關其運作方式、定價、模型可用性、速率限制、可靠性、政策及資格的常見問題。

在此處了解更多。

存取權限

誰可以使用優先處理？

優先處理目前適用於企業客戶。

優先處理是否在所有地區提供？

優先處理的可用性取決於各司法管轄區的適用法律及法規。如果您對所在地區的可用性有任何疑問，請聯絡您的客戶總監。

定價

如何開始使用優先處理？

客戶可按每個請求使用現有 service_tier 參數將流量導向優先處理，並選用 service_tier="priority" 選項。

這與規模層級如何互動？

規模層級將繼續與優先處理分開。傳送至優先處理的請求將另行計費，且不會計入您已購買的規模層級 TPM 配套。

我可以自動將規模層級的溢出流量傳送至優先處理嗎？

否。傳送至規模層級的流量不會自動溢出至優先處理。

優先處理如何計費？

由優先處理提供服務的 token 將按每個 token 計費，價格相對標準處理費率有溢價。

我的年度承諾是否綁定至特定處理模式？

否。所有處理模式均會計入您的年度企業版消費承諾。

我仍可就快取輸入 token 獲得折扣嗎？

可以！快取輸入可享與標準處理相同的 50-75% 折扣。

如何查看我的優先處理使用量和支出？

要查看由優先處理處理的 token，請前往使用量儀表板，選擇 Chat Completions 或 Responses，然後按服務層級分組。要查看優先處理成本，請前往使用量儀表板，然後選擇按明細項目分組。

模型

優先處理是否適用於長上下文、微調模型、嵌入等？

目前尚未適用。我們日後將評估是否在最新模型以外的其他產品提供優先處理。

其他模態如何與優先處理配合運作？

優先處理支援與標準處理相同的多模態功能。具體而言，圖像可用作優先處理的輸入，並以同樣快速的延遲進行處理。

未來的模型會受支援嗎？

我們計劃在新的 GPT 模型上提供優先處理，但不保證每個模型都會受支援。

速率限制

甚麼是速率限制？

就速率限制而言，優先處理用量會視作與標準 API 流量相同。

甚麼是流量提升速率限制？

優先處理設有流量提升速率限制，以確保所有客戶都能持續獲得高效能，同時仍提供靈活的按需定價。如果 (a) 優先處理效能下降，且 (b) 客戶流量提升過快，則在少數情況下，部分優先處理請求可能會改為降級至標準處理。

目前的優先處理流量提升速率限制已在我們的主要文件此處定義。

保持在流量提升速率限制內的最佳做法

更改模型時，請逐步增加流量。例如，如果您的應用程式正從先前的快照轉換至新快照，請使用功能旗標在數小時內逐步轉移流量，而非一次過全部轉移。

避免在優先處理上執行大型資料處理或非同步作業。這些作業可能令流量非常快速地提升，而且通常不需要優先處理所帶來的效能提升。
如果您經常遇到流量提升速率限制，請考慮改為購買規模層級配額。

流量提升速率限制是否在我的專案或組織之間共用？

是，您的所有流量都會計入同一個流量提升速率限制。

政策

如果優先處理未達到延遲目標，會怎樣？

如有任何問題或疑慮，請聯絡您的 AD。優先處理 SLA 將與規模層級 SLA 一樣處理；若我們在指定時間範圍內未能為簽訂企業協議的客戶達到這些 SLA，將提供服務抵免。

優先處理是否與資料駐留相容？

是。

優先處理是否與 ZDR 及 BAA 相容？

是。

優先處理常見問題