API 錯誤與延遲疑難排解

本文說明如何使用服務健康狀態和用量儀表板，在使用 OpenAI API 時疑難排解常見錯誤與延遲問題。

重要連結

服務健康狀態儀表板（目前僅供企業 API 客戶使用）
用量儀表板

從正確的預設值開始

開啟服務健康狀態儀表板時，預設為：

所有專案
最近 30 天
每小時解析度

此檢視僅適合用於初步掌握情況。有意義的疑難排解一律需要篩選。

調查前先進行篩選

正確篩選是最重要的步驟。大多數誤解都來自混合查看不同模型、層級或專案。

依模型篩選（一次一個）

一律篩選至單一模型。

原因：

低流量模型上的問題可能會被較高流量掩蓋
高流量模型可能讓局部問題看起來像全域問題
不同模型有不同的效能目標

注意：選取多個模型會將其彙總，而不是在模型之間切換。

依服務層級篩選

如果您使用多個層級（標準、優先、規模），請一律篩選至您正在調查的層級。

原因：

不同層級具有不同的效能特性
優先與規模層級具有明確的 SLA
混合層級會模糊付費層級的效能

這對延遲分析尤其重要。

依專案篩選

服務健康狀態預設會顯示所有專案。

進行疑難排解時，請篩選至觀察到問題的專案。

原因：

單一高流量專案可能主導指標。
受影響的小型專案可能會被不相關流量掩蓋。

只有在您認為問題確實影響整個組織時，才保留選取「所有專案」。

錯誤疑難排解

使用 HTTP Requests 檢視

若要調查錯誤：

依模型與服務層級篩選。
開啟 HTTP Requests 分頁，而不是 Uptime 分頁。

此檢視會依 HTTP 狀態碼顯示請求總數與錯誤數。縮放至分鐘級解析度，以識別細微的尖峰或變化。

解讀錯誤率，而非錯誤數

任何生產系統都會預期出現一些錯誤。請聚焦於錯誤百分比，而非原始總數。

總量越大，即使錯誤率極低，可能發生的錯誤數也越多。

服務健康狀態中缺少錯誤時

如果您看到用戶端錯誤，但服務健康狀態中沒有對應資料：

請求很可能未到達 OpenAI。
問題通常在上游（逾時、代理、網路）。

這在用戶端逾時設定過於激進時很常見。

延遲疑難排解

延遲分析在具有明確 SLA 的優先與規模層級上最有意義。標準層級可能顯示較大的延遲變異，且不保證延遲。

關鍵指標

若要檢視各項指標，請按一下相關分頁：

Token 速率：每秒產生的 Token 數；不受提示詞大小影響。
請求時間：請求總耗時；深受輸出大小與推理影響。
首個 Token 時間 (TTFT)：產生第一個 Token 所需時間；深受未快取的輸入提示詞大小與推理影響。

一律檢視 P50 / P75 / P95 百分位數。平均值可能掩蓋真實使用者受到的影響。

6. 將延遲與 Token 用量相互對照

服務健康狀態會顯示行為變化的時間。用量資料有助於解釋原因。

在用量儀表板中，請執行以下操作，以確保您查看的資料與服務健康狀態儀表板中的檢視相關：

篩選至相同的專案與模型。
如適用，依服務層級分組。
聚焦於輸出 Token，因其對延遲影響最大。

若要進一步分析，請匯出活動資料，並檢視每個請求的 Token 數隨時間的變化。

7. 要與支援團隊分享的資訊（如有需要）

如果您聯絡支援團隊，請包含：

受影響的組織 ID （重要）
受影響的端點，例如 Chat Completions 或 Responses （重要）
受影響的模型 （重要）
這是否發生在規模或優先層級 （重要）
延遲或錯誤的時間範圍與時區 （重要）
相關的 x-request-id 或 X-Client-Request-Id（如有）
您提供的請求之時間戳記與時區，或至少日期

如有，也請包含：

與請求相關的專案 ID
資料駐留請求是否受影響，以及哪些請求受影響
您所觀察到趨勢的描述

針對問題類型，請包含：

錯誤：失敗或發生錯誤請求的大約百分比、回應碼、錯誤訊息，以及收到錯誤回應所花的時間。
延遲：哪些百分位數受到影響（P50 / P90 / P95 / P99）、相較於客戶基準值高出多少，以及附有傳送與接收時間戳記的慢速請求範例。
兩者：錯誤或延遲資料的螢幕截圖或表格，以及您如何判斷錯誤率或延遲高於預期。

常見疑難排解情境

發生逾時但服務健康狀態看起來正常

可能原因：請求在到達 OpenAI 之前已逾時。

檢查：

用戶端或代理逾時設定
本機網路或負載平衡器變更
服務健康狀態儀表板中是否存在 499 錯誤（這些錯誤在您自己的系統中可能顯示為 5xx 錯誤）。

未部署卻發生延遲增加

可能原因：輸出 Token 大小或推理用量增加，及／或流量在服務層級之間轉移。

檢查：

用量儀表板中每個請求的平均輸出 Token 數（需下載資料，並將輸出 Token 數除以請求總數）。
服務健康狀態儀表板中的 Request Time 與 TTFT 百分位數。

優先或規模層級看起來變慢

可能原因：指標混合了不同層級，導致標準層級流量掩蓋了付費層級的效能。

檢查：

篩選條件已限制為單一層級與模型。
不同層級之間的 Token 速率比較。

5XX 錯誤激增

可能原因：暫時性故障影響一小部分流量。

檢查：

錯誤率百分比
流量是否同時發生變化

問題只影響一個專案

可能原因：專案特定的設定或使用模式。

檢查：

專案層級篩選
與未受影響專案進行比較

最後重點

解讀指標前，請視需要依模型、層級與專案篩選。
延遲分析請使用百分位數，不要使用平均值。
少量錯誤率屬於預期範圍。
資料遺失通常表示上游問題。
用量資料可協助解釋延遲變化的原因；服務健康狀態則顯示行為變化的時間。