排解 API 錯誤與延遲問題

本文說明如何使用服務狀態與用量儀表板，在使用 OpenAI API 時排解常見錯誤及延遲問題。

重要連結

服務健康狀態儀表板（目前僅適用於企業 API 客戶）
使用量儀表板

從正確的預設值開始

開啟服務健康狀態儀表板時，預設為：

所有專案
過去 30 天
每小時解析度

此視圖僅適合用於掌握概況。有意義的疑難排解一律需要篩選。

調查前先篩選

正確篩選是最重要的一步。大多數誤讀源於混合了不同模型、層級或專案。

按模型篩選（每次一個）

務必篩選至單一模型。

原因：

低流量模型上的問題可能被較高流量掩蓋
高流量模型可能令局部問題看似全域問題
不同模型有不同的效能目標

注意：選取多個模型會將其彙總，而不是在它們之間切換。

按服務層級篩選

如果你使用多於一個層級（標準、優先、規模），務必篩選至你正在調查的層級。

原因：

不同層級有不同的效能特性
優先和規模層級有明確的 SLA
混合層級會掩蓋付費層級的效能

這對延遲分析尤其重要。

按專案篩選

服務健康狀態預設顯示所有專案。

如要進行疑難排解，請篩選至觀察到問題的專案。

原因：

單一高流量專案可以主導指標。
較小的受影響專案可能被不相關流量掩蓋。

只有在你認為問題確實影響整個組織時，才保留選取「所有專案」。

錯誤疑難排解

使用 HTTP 要求視圖

如要調查錯誤：

按模型和服務層級篩選。
開啟 HTTP 要求分頁，而不是運作時間分頁。

此視圖會按 HTTP 狀態碼顯示要求總數和錯誤數。放大至分鐘級解析度，以識別細微的高峰或變化。

解讀錯誤率，而非錯誤數

任何生產系統都預期會出現一些錯誤。重點關注錯誤百分比，而非原始總數。

總流量越大，即使錯誤率極低，可能出現的錯誤數也越多。

服務健康狀態中缺少錯誤時

如果你看到用戶端錯誤，但服務健康狀態中沒有對應資料：

要求很可能未到達 OpenAI。
問題通常在上游（逾時、代理、網絡）。

這在用戶端逾時設定過於嚴格時很常見。

延遲疑難排解

延遲分析在有明確 SLA 的優先和規模層級最有意義。標準層級可能顯示較大的延遲差異，而且沒有保證延遲。

關鍵指標

如要查看各項指標，請點擊相關分頁：

Token 速度：每秒生成的 token 數；不受提示詞大小影響。
要求時間：要求總耗時；深受輸出大小和推理影響。
首個 token 生成時間 (TTFT)：生成首個 token 所需時間；深受未快取輸入提示詞大小和推理影響。

務必檢視 P50 / P75 / P95 百分位數。平均值可能掩蓋真實用戶影響。

6. 將延遲與 token 使用量關聯

服務健康狀態顯示行為改變的時間。使用量資料有助解釋原因。

在使用量儀表板中，請執行以下操作，以確保你查看的資料與服務健康狀態儀表板中的視圖相關：

篩選至相同專案和模型。
如適用，按服務層級分組。
重點關注輸出 token，因為它們對延遲影響最大。

如需更深入分析，請匯出活動資料，並檢查一段時間內每個要求的 token 數。

7. 需要時應與支援團隊分享的內容

如果你聯絡支援團隊，請包括：

受影響的組織 ID （重要）
受影響的端點，例如 Chat Completions 或 Responses （重要）
受影響的模型 （重要）
這是否屬於規模或優先層級 （重要）
延遲或錯誤的時間範圍及時區 （重要）
相關的 x-request-id 或 X-Client-Request-Id（如有）
你提供的要求之時間戳記及時區，或至少日期

如有，亦請包括：

與要求相關的專案 ID
資料駐留要求是否受影響，以及哪些要求受影響
你所看到趨勢的描述

針對問題類型，請包括：

錯誤：失敗或出錯要求的大約百分比、回應代碼、錯誤訊息，以及收到錯誤回應所需時間。
延遲：受影響的百分位數（P50 / P90 / P95 / P99）、相較於客戶基準的高出程度，以及包含傳送和接收時間戳記的慢速要求範例。
兩者：錯誤或延遲資料的截圖或表格，以及你如何判斷錯誤率或延遲高於預期。

常見疑難排解情境

發生逾時但服務健康狀態看似正常

可能原因：要求在到達 OpenAI 前已逾時。

檢查：

用戶端或代理逾時設定
本地網絡或負載平衡器變更
服務健康狀態儀表板中是否存在 499 錯誤（這些錯誤在你自己的系統中可能顯示為 5xx 錯誤）。

未部署但延遲增加

可能原因：輸出 token 大小或推理使用量增加，及／或流量在服務層級之間轉移。

檢查：

使用量儀表板中每個要求的平均輸出 token 數（需要下載資料，並以輸出 token 除以要求總數）。
服務健康狀態儀表板中的要求時間和 TTFT 百分位數。

優先或規模層級顯得緩慢

可能原因：指標混合了不同層級的資料，即標準層級流量掩蓋了付費層級的效能。

檢查：

篩選器是否限制為單一層級和模型。
層級之間的 token 速度比較。

5XX 錯誤激增

可能原因：影響少量流量的短暫故障。

檢查：

錯誤率百分比
流量是否同時出現變化

問題只影響一個專案

可能原因：專案特定的配置或使用模式。

檢查：

專案層級篩選
與未受影響專案比較

最終重點

在解讀指標前，按相關模型、層級和專案篩選。
延遲分析應使用百分位數，而非平均值。
小幅錯誤率屬預期情況。
缺少資料通常表示上游問題。
使用量資料有助解釋延遲改變的原因；服務健康狀態則顯示行為改變的時間。