OpenAI
Această pagină a fost tradusă automat. Vezi articolul original în limba engleză.

Depanarea erorilor API și a latenței

Acest articol explică cum să folosiți tablourile de bord Service Health și Usage pentru a depana erorile frecvente și problemele de latență la utilizarea API-ului OpenAI.

Actualizat: 4 days ago

Linkuri importante

*Tabloul de bord Service Health este disponibil în prezent doar pentru clienții Enterprise API.

Începeți cu valorile implicite corecte

Când deschideți tabloul de bord Service Health, acesta este setat implicit la:

  • Toate proiectele

  • Ultimele 30 de zile

  • Rezoluție orară

Această vizualizare este utilă doar pentru orientare. O depanare relevantă necesită întotdeauna filtrare.


Filtrați înainte de a investiga

Filtrarea corectă este cel mai important pas. Cele mai multe interpretări greșite provin din combinarea modelelor, nivelurilor sau proiectelor.

Filtrați după model (câte unul)

Filtrați întotdeauna la un singur model.

De ce:

  • Problemele pe modelele cu trafic redus pot fi ascunse de traficul cu volum mai mare

  • Modelele cu volum mare pot face ca problemele localizate să pară globale

  • Modelele diferite au obiective de performanță diferite

Notă: selectarea mai multor modele le agregă — nu comută între ele.

Filtrați după nivelul de serviciu

Dacă folosiți mai mult de un nivel (standard, priority, scale), filtrați întotdeauna la nivelul pe care îl investigați.

De ce:

  • Nivelurile au caracteristici de performanță diferite

  • Nivelurile priority și scale au SLA-uri definite

  • Combinarea nivelurilor ascunde performanța nivelurilor plătite

Acest lucru este deosebit de important pentru analiza latenței.

Filtrați după proiect

Implicit, Service Health afișează toate proiectele.

Pentru depanare, filtrați la proiectul sau proiectele în care a fost observată problema.

De ce:

  • Un singur proiect cu volum mare poate domina indicatorii

  • Proiectele afectate mai mici pot fi mascate de trafic fără legătură

Lăsați selectat „Toate proiectele” doar dacă credeți că problema afectează într-adevăr întreaga organizație.


Depanarea erorilor

Folosiți vizualizarea HTTP Requests

Pentru a investiga erorile:

  1. Filtrați după model și nivel

  2. Pentru a trece de la Uptime la HTTP Requests, faceți clic pe fila HTTP Requests

Această vizualizare arată numărul total de cereri și numărul de erori după codul de stare HTTP. Măriți până la rezoluția la nivel de minut pentru a identifica vârfuri sau modificări detaliate.

Interpretați ratele de eroare, nu numerele

Unele erori sunt de așteptat în orice sistem de producție. Concentrați-vă pe procentul de erori, nu pe totalurile brute.

Cu cât volumul total este mai mare, cu atât numărul potențial de erori este mai mare, chiar și cu o rată de eroare extrem de mică.

Când erorile lipsesc din Service Health

Dacă vedeți erori pe partea de client, dar nu există date corespunzătoare în Service Health:

  • Cel mai probabil, cererile nu au ajuns la OpenAI

  • Problema este de obicei în amonte (timeout-uri, proxy-uri, rețea)

Acest lucru este frecvent în cazul timeout-urilor agresive pe partea de client.


Depanarea latenței

Analiza latenței este cea mai relevantă pentru nivelurile priority și scale, care au SLA-uri definite. Nivelul standard poate afișa variații mai mari ale latenței și nu are latență garantată.

Indicatori cheie

Pentru a vedea fiecare dintre acești indicatori, faceți clic pe fila relevantă:

Viteza tokenurilor

  • Tokenuri generate pe secundă.

  • Independent de dimensiunea solicitării.

Timpul cererii

  • Durata totală a cererii.

  • Puternic influențată de dimensiunea ieșirii și de raţionament.

Timp până la primul token (TTFT)

  • Timpul până când este generat primul token.

  • Puternic influențat de dimensiunea solicitării de intrare necache-uite și de raţionament.

Examinați întotdeauna percentilele P50 / P75 / P95. Mediile pot ascunde impactul asupra utilizatorilor reali.


6. Corelarea latenței cu utilizarea tokenurilor

Service Health arată când s-a schimbat comportamentul. Datele de utilizare ajută la explicarea motivului de ce.

În tabloul de bord Usage, faceți următoarele pentru a vă asigura că analizați datele relevante pentru vizualizarea din tabloul de bord Service Health:

  • Filtrați la același proiect, model

  • Grupați după nivel de serviciu dacă este cazul

  • Concentrați-vă pe tokenurile de ieșire, care afectează cel mai mult latența

Pentru o analiză mai aprofundată, exportați Activity Data și examinați tokenurile per cerere în timp.


7. Ce să trimiteți echipei de suport (dacă este necesar)

Dacă contactați suportul, includeți:

  • ID-urile organizațiilor afectate (acest lucru este important)

  • Punctele finale afectate (Chat Completions, Responses etc.) (acest lucru este important)

  • Modelele afectate (acest lucru este important)

  • Este vorba despre nivelul scale sau priority? (acest lucru este important)

  • Intervalele de timp cu fusul orar pentru latență sau eroare (acest lucru este important)

  • x-request-id sau X-Client-Request-Id relevant (adesea important; includeți-l dacă este posibil)

    • Marcaje temporale cu fus orar (sau cel puțin data) pentru cererile furnizate

    • Latență - dacă oferiți exemple de cereri lente, precizați cât a durat la dvs. În mod ideal, includeți și marcajele temporale pentru momentul în care cererea a fost trimisă și când a fost primită.

    • Erori - indicați procentul aproximativ al cererilor care au eșuat/au dat eroare, codul/codurile de răspuns, mesajul/mesajele de eroare și cât a durat până ați primit răspunsul de eroare

  • ID-ul proiectului asociat cererilor

  • Afectează acest lucru cererile privind rezidența datelor? Dacă da, pe care?

  • Descrieri ale tendințelor pe care le observați

    • Erori: % aproximativ al cererilor care eșuează/au erori

    • Latență: Ce percentile sunt afectate (p50 / p90 / p95 / p99) și cât de ridicate sunt comparativ cu nivelul de bază al clientului

    • Ambele: Capturi de ecran sau tabel cu date despre erori ori latență (Cum ați stabilit că rata erorilor sau latența este mai mare decât era de așteptat?)


Scenarii comune de depanare

Apar timeout-uri, dar Service Health pare normal

Cauză posibilă: cererile expiră înainte de a ajunge la OpenAI.

Verificați:

  • Setările de timeout ale clientului sau proxy-ului

  • Modificări ale rețelei locale sau ale echilibrorului de sarcină

  • Prezența erorilor 499 în tabloul de bord Service Health (acestea pot apărea ca erori 5xx în propriile dvs. sisteme).


Latența a crescut fără un deployment

Cauză posibilă: Dimensiunea tokenurilor de ieșire sau utilizarea raţionamentului a crescut și/sau traficul s-a mutat între nivelurile de serviciu

Verificați:

  • Media tokenurilor de ieșire per cerere în tabloul de bord Usage (necesită descărcarea datelor și împărțirea tokenurilor de ieșire la numărul total de cereri).

  • Percentilele Request Time și TTFT din tabloul de bord Service Health.


Nivelul Priority sau Scale pare lent

Cauză posibilă: indicatorii sunt combinați între niveluri (ceea ce înseamnă că traficul de nivel standard maschează performanța nivelurilor plătite)

Verificați:

  • Filtrele sunt restrânse la un singur nivel și model

  • Comparația vitezei tokenurilor între niveluri


Creștere bruscă a erorilor 5XX

Cauză probabilă: eșecuri tranzitorii care afectează un procent mic din trafic.

Verificați:

  • Procentul ratei de eroare

  • Dacă volumul de trafic s-a schimbat în același timp


Problema afectează doar un singur proiect

Cauză probabilă: configurație sau model de utilizare specific proiectului.

Verificați:

  • Filtrarea la nivel de proiect

  • Comparația cu proiectele neafectate


Concluzii finale

  • Filtrați după model, nivel și, unde este relevant, proiect înainte de a interpreta indicatorii

  • Folosiți percentile, nu medii, pentru analiza latenței

  • Rate mici de eroare sunt de așteptat

  • Datele lipsă indică de obicei probleme în amonte

  • Datele de utilizare pot ajuta la explicarea motivului pentru care s-a schimbat latența; Service Health ajută la a arăta când

A fost util acest articol?