OpenAI
Deze pagina is automatisch vertaald. Bekijk het oorspronkelijke Engelstalige artikel.

Problemen met API-fouten en latentie oplossen

In dit artikel wordt uitgelegd hoe je de dashboards Service Health en Usage gebruikt om veelvoorkomende fouten en latentieproblemen op te lossen bij het gebruik van de OpenAI API.

Bijgewerkt: 14 days ago

Belangrijke links

*Het Service Health-dashboard is momenteel alleen beschikbaar voor Enterprise API-klanten.

Begin met de juiste standaarden

Wanneer je het Service Health-dashboard opent, staat het standaard op:

  • Alle projecten

  • Afgelopen 30 dagen

  • Resolutie per uur

Deze weergave is alleen nuttig ter oriëntatie. Zinvolle probleemoplossing vereist altijd filtering.


Filter voordat je onderzoekt

Correct filteren is de belangrijkste stap. De meeste misinterpretaties ontstaan door modellen, tiers of projecten te combineren.

Filter op model (één tegelijk)

Filter altijd op één model.

Waarom:

  • Problemen bij modellen met weinig verkeer kunnen worden verborgen door verkeer met een hoger volume

  • Modellen met een hoog volume kunnen lokale problemen wereldwijd doen lijken

  • Verschillende modellen hebben verschillende prestatiedoelen

Opmerking: als je meerdere modellen selecteert, worden ze samengevoegd — er wordt niet tussen gewisseld.

Filter op servicetier

Als je meer dan één tier gebruikt (standard, priority, scale), filter dan altijd op de tier die je onderzoekt.

Waarom:

  • Tiers hebben verschillende prestatiekenmerken

  • Priority- en scale-tiers hebben gedefinieerde SLA's

  • Het combineren van tiers verbergt de prestaties van betaalde tiers

Dit is vooral belangrijk voor latentieanalyse.

Filter op project

Standaard toont Service Health alle projecten.

Filter voor probleemoplossing op het project of de projecten waar het probleem is waargenomen.

Waarom:

  • Eén project met een hoog volume kan de metrics domineren

  • Kleinere getroffen projecten kunnen worden gemaskeerd door niet-gerelateerd verkeer

Laat alleen "Alle projecten" geselecteerd als je denkt dat het probleem echt organisatiebreed is.


Problemen met fouten oplossen

Gebruik de HTTP Requests-weergave

Om fouten te onderzoeken:

  1. Filter op model en tier

  2. Klik op het tabblad HTTP Requests om van Uptime naar HTTP Requests te schakelen

Deze weergave toont het totale aantal verzoeken en het aantal fouten per HTTP-statuscode. Zoom in naar een resolutie op minuutniveau om gedetailleerde pieken of veranderingen te identificeren.

Interpreteer foutpercentages, geen aantallen

Sommige fouten zijn te verwachten in elk productiesysteem. Focus op het percentage fouten, niet op ruwe totalen.

Hoe groter je totale volume, hoe groter het potentiële aantal fouten, zelfs bij een uiterst laag foutpercentage.

Wanneer fouten ontbreken in Service Health

Als je client-side fouten ziet maar geen overeenkomstige data in Service Health:

  • Hebben verzoeken OpenAI waarschijnlijk niet bereikt

  • Bevindt het probleem zich meestal upstream (timeouts, proxies, netwerken)

Dit komt vaak voor bij agressieve client-side timeouts.


Problemen met latentie oplossen

Latentieanalyse is het meest zinvol op priority- en scale-tiers, die gedefinieerde SLA's hebben. De standard-tier kan grotere latentievariatie vertonen en heeft geen gegarandeerde latentie.

Belangrijke metrics

Klik op het relevante tabblad om elk van deze metrics te bekijken:

Tokensnelheid

  • Tokens die per seconde worden gegenereerd.

  • Onafhankelijk van de promptgrootte.

Request Time

  • Totale duur van het verzoek.

  • Sterk beïnvloed door outputgrootte en redenering.

Time to First Token (TTFT)

  • Tijd totdat de eerste token wordt gegenereerd.

  • Sterk beïnvloed door de grootte van de niet-gecachete invoerprompt en redenering.

Controleer altijd de P50- / P75- / P95-percentielen. Gemiddelden kunnen de impact op echte gebruikers verbergen.


6. Latentie correleren met tokengebruik

Service Health laat zien wanneer gedrag veranderde. Usage-data helpt te verklaren waarom.

Doe in het Usage-dashboard het volgende om ervoor te zorgen dat je kijkt naar de data die relevant is voor je weergave in het Service Health-dashboard:

  • Filter op hetzelfde project, model

  • Groepeer op servicetier indien van toepassing

  • Focus op outputtokens, die de meeste invloed hebben op latentie

Exporteer voor een diepere analyse Activity Data en bekijk tokens per verzoek in de tijd.


7. Wat je met Support moet delen (indien nodig)

Als je contact opneemt met support, voeg dan het volgende toe:

  • Betrokken Org ID's (dit is belangrijk)

  • Betrokken endpoints (Chat Completions, Responses, enz.) (dit is belangrijk)

  • Betrokken modellen (dit is belangrijk)

  • Gaat het om de scale- of priority-tier? (dit is belangrijk)

  • Tijdsbereiken met tijdzone voor latentie of fouten (dit is belangrijk)

  • Relevante x-request-id of X-Client-Request-Id (vaak belangrijk; voeg toe indien mogelijk)

    • Tijdstempels met tijdzone (of op zijn minst de datum) van de opgegeven verzoeken

    • Latentie - als je voorbeelden van trage verzoeken deelt, geef dan aan hoe lang het aan jouw kant duurde. Idealiter voeg je ook de tijdstempels toe van wanneer het verzoek is verzonden en wanneer het is ontvangen.

    • Fouten - deel het geschatte percentage mislukte/foutgevende verzoeken, responsecode(s), foutmelding(en) en hoe lang het duurde voordat je de foutrespons kreeg

  • Project-id gekoppeld aan verzoeken

  • Heeft dit invloed op verzoeken met gegevensresidentie? Zo ja, welke?

  • Beschrijvingen van de trends die je ziet

    • Fouten: Geschat % mislukte/foutgevende verzoeken

    • Latentie: Welke percentielen worden beïnvloed (p50 / p90 / p95 / p99), en hoe hoog ze zijn vergeleken met de baseline van de klant

    • Beide: Screenshots of een tabel met fout- of latentiedata (Hoe heb je vastgesteld dat foutpercentages of latentie hoger zijn dan verwacht?)


Veelvoorkomende scenario's voor probleemoplossing

Timeouts treden op maar Service Health ziet er normaal uit

Mogelijke oorzaak: verzoeken verlopen door een time-out voordat ze OpenAI bereiken.

Controleer:

  • Timeoutinstellingen van client of proxy

  • Wijzigingen in lokaal netwerk of load balancer

  • De aanwezigheid van 499-fouten in het Service Health-dashboard (deze kunnen in je eigen systemen als 5xx-fouten verschijnen).


Latentie nam toe zonder een deployment

Mogelijke oorzaak: de grootte van outputtokens of het gebruik van redenering nam toe en\of verkeer verschoof tussen servicetiers

Controleer:

  • Gemiddeld aantal outputtokens per verzoek in het Usage-dashboard (vereist het downloaden van data en het delen van outputtokens door het totale aantal verzoeken).

  • Request Time- en TTFT-percentielen in het Service Health-dashboard.


Priority- of scale-tier lijkt traag

Mogelijke oorzaak: metrics zijn gemengd over tiers heen (wat betekent dat verkeer van de standard-tier de prestaties van betaalde tiers maskeert)

Controleer:

  • Filters zijn beperkt tot één tier en model

  • Vergelijking van tokensnelheid tussen tiers


Piek in 5XX-fouten

Waarschijnlijke oorzaak: tijdelijke storingen die een klein percentage van het verkeer beïnvloeden.

Controleer:

  • Foutpercentage

  • Of het verkeersvolume tegelijk veranderde


Probleem treft slechts één project

Waarschijnlijke oorzaak: projectspecifieke configuratie of gebruikspatroon.

Controleer:

  • Filtering op projectniveau

  • Vergelijking met niet-getroffen projecten


Belangrijkste conclusies

  • Filter op model, tier en waar relevant project voordat je metrics interpreteert

  • Gebruik percentielen, geen gemiddelden, voor latentieanalyse

  • Kleine foutpercentages zijn te verwachten

  • Ontbrekende data duidt meestal op upstream-problemen

  • Usage-data kan helpen verklaren waarom latentie veranderde; Service Health helpt te tonen wanneer

Was dit artikel nuttig?