從正確的預設值開始
開啟服務健康狀態儀表板時,預設為:
所有專案
過去 30 天
每小時解析度
此視圖僅適合用於掌握概況。有意義的疑難排解一律需要篩選。
調查前先篩選
正確篩選是最重要的一步。大多數誤讀源於混合了不同模型、層級或專案。
按模型篩選(每次一個)
務必篩選至單一模型。
原因:
低流量模型上的問題可能被較高流量掩蓋
高流量模型可能令局部問題看似全域問題
不同模型有不同的效能目標
注意:選取多個模型會將其彙總,而不是在它們之間切換。
按服務層級篩選
如果你使用多於一個層級(標準、優先、規模),務必篩選至你正在調查的層級。
原因:
不同層級有不同的效能特性
優先和規模層級有明確的 SLA
混合層級會掩蓋付費層級的效能
這對延遲分析尤其重要。
按專案篩選
服務健康狀態預設顯示所有專案。
如要進行疑難排解,請篩選至觀察到問題的專案。
原因:
單一高流量專案可以主導指標。
較小的受影響專案可能被不相關流量掩蓋。
只有在你認為問題確實影響整個組織時,才保留選取「所有專案」。
錯誤疑難排解
使用 HTTP 要求視圖
如要調查錯誤:
按模型和服務層級篩選。
開啟 HTTP 要求分頁,而不是運作時間分頁。
此視圖會按 HTTP 狀態碼顯示要求總數和錯誤數。放大至分鐘級解析度,以識別細微的高峰或變化。
解讀錯誤率,而非錯誤數
任何生產系統都預期會出現一些錯誤。重點關注錯誤百分比,而非原始總數。
總流量越大,即使錯誤率極低,可能出現的錯誤數也越多。
服務健康狀態中缺少錯誤時
如果你看到用戶端錯誤,但服務健康狀態中沒有對應資料:
要求很可能未到達 OpenAI。
問題通常在上游(逾時、代理、網絡)。
這在用戶端逾時設定過於嚴格時很常見。
延遲疑難排解
延遲分析在有明確 SLA 的優先和規模層級最有意義。標準層級可能顯示較大的延遲差異,而且沒有保證延遲。
關鍵指標
如要查看各項指標,請點擊相關分頁:
Token 速度:每秒生成的 token 數;不受提示詞大小影響。
要求時間:要求總耗時;深受輸出大小和推理影響。
首個 token 生成時間 (TTFT):生成首個 token 所需時間;深受未快取輸入提示詞大小和推理影響。
務必檢視 P50 / P75 / P95 百分位數。平均值可能掩蓋真實用戶影響。
6. 將延遲與 token 使用量關聯
服務健康狀態顯示行為改變的時間。使用量資料有助解釋原因。
在使用量儀表板中,請執行以下操作,以確保你查看的資料與服務健康狀態儀表板中的視圖相關:
篩選至相同專案和模型。
如適用,按服務層級分組。
重點關注輸出 token,因為它們對延遲影響最大。
如需更深入分析,請匯出活動資料,並檢查一段時間內每個要求的 token 數。
7. 需要時應與支援團隊分享的內容
如果你聯絡支援團隊,請包括:
受影響的組織 ID (重要)
受影響的端點,例如 Chat Completions 或 Responses (重要)
受影響的模型 (重要)
這是否屬於規模或優先層級 (重要)
延遲或錯誤的時間範圍及時區 (重要)
相關的 x-request-id 或 X-Client-Request-Id(如有)
你提供的要求之時間戳記及時區,或至少日期
如有,亦請包括:
與要求相關的專案 ID
資料駐留要求是否受影響,以及哪些要求受影響
你所看到趨勢的描述
針對問題類型,請包括:
錯誤:失敗或出錯要求的大約百分比、回應代碼、錯誤訊息,以及收到錯誤回應所需時間。
延遲:受影響的百分位數(P50 / P90 / P95 / P99)、相較於客戶基準的高出程度,以及包含傳送和接收時間戳記的慢速要求範例。
兩者:錯誤或延遲資料的截圖或表格,以及你如何判斷錯誤率或延遲高於預期。
常見疑難排解情境
發生逾時但服務健康狀態看似正常
可能原因:要求在到達 OpenAI 前已逾時。
檢查:
用戶端或代理逾時設定
本地網絡或負載平衡器變更
服務健康狀態儀表板中是否存在 499 錯誤(這些錯誤在你自己的系統中可能顯示為 5xx 錯誤)。
未部署但延遲增加
可能原因:輸出 token 大小或推理使用量增加,及/或流量在服務層級之間轉移。
檢查:
使用量儀表板中每個要求的平均輸出 token 數(需要下載資料,並以輸出 token 除以要求總數)。
服務健康狀態儀表板中的要求時間和 TTFT 百分位數。
優先或規模層級顯得緩慢
可能原因:指標混合了不同層級的資料,即標準層級流量掩蓋了付費層級的效能。
檢查:
篩選器是否限制為單一層級和模型。
層級之間的 token 速度比較。
5XX 錯誤激增
可能原因:影響少量流量的短暫故障。
檢查:
錯誤率百分比
流量是否同時出現變化
問題只影響一個專案
可能原因:專案特定的配置或使用模式。
檢查:
專案層級篩選
與未受影響專案比較
最終重點
在解讀指標前,按相關模型、層級和專案篩選。
延遲分析應使用百分位數,而非平均值。
小幅錯誤率屬預期情況。
缺少資料通常表示上游問題。
使用量資料有助解釋延遲改變的原因;服務健康狀態則顯示行為改變的時間。
