OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

Fehlerbehebung bei API-Fehlern und Latenz

In diesem Artikel wird erklärt, wie Sie die Dashboards „Service Health“ und „Usage“ verwenden, um häufige Fehler und Latenzprobleme bei der Nutzung der OpenAI API zu beheben.

Aktualisiert: yesterday

Wichtige Links

*Das Service-Health-Dashboard ist derzeit nur für Enterprise-API-Kund:innen verfügbar.

Mit den richtigen Standardeinstellungen beginnen

Wenn Sie das Service-Health-Dashboard öffnen, ist standardmäßig Folgendes ausgewählt:

  • Alle Projekte

  • Letzte 30 Tage

  • Stündliche Auflösung

Diese Ansicht dient nur zur Orientierung. Für eine aussagekräftige Fehlerbehebung ist immer eine Filterung erforderlich.


Vor der Untersuchung filtern

Die korrekte Filterung ist der wichtigste Schritt. Die meisten Fehlinterpretationen entstehen durch das Vermischen von Modellen, Tiers oder Projekten.

Nach Modell filtern (jeweils nur eins)

Filtern Sie immer auf ein einzelnes Modell.

Warum:

  • Probleme bei Modellen mit wenig Traffic können durch Traffic mit höherem Volumen verdeckt werden

  • Modelle mit hohem Volumen können lokale Probleme global erscheinen lassen

  • Verschiedene Modelle haben unterschiedliche Leistungsziele

Hinweis: Wenn Sie mehrere Modelle auswählen, werden diese aggregiert – es wird nicht zwischen ihnen umgeschaltet.

Nach Service-Tier filtern

Wenn Sie mehr als ein Tier verwenden (Standard, Priority, Scale), filtern Sie immer auf das Tier, das Sie untersuchen.

Warum:

  • Tiers haben unterschiedliche Leistungsmerkmale

  • Priority- und Scale-Tiers haben definierte SLAs

  • Das Vermischen von Tiers verschleiert die Leistung kostenpflichtiger Tiers

Das ist besonders wichtig für die Latenzanalyse.

Nach Projekt filtern

Standardmäßig zeigt Service Health alle Projekte an.

Filtern Sie zur Fehlerbehebung auf das Projekt bzw. die Projekte, bei denen das Problem beobachtet wurde.

Warum:

  • Ein einzelnes Projekt mit hohem Volumen kann Metriken dominieren

  • Kleinere betroffene Projekte können durch nicht zusammenhängenden Traffic verdeckt werden

Lassen Sie nur dann „Alle Projekte“ ausgewählt, wenn Sie glauben, dass das Problem tatsächlich die gesamte Organisation betrifft.


Fehlerbehebung bei Fehlern

Die Ansicht „HTTP Requests“ verwenden

So untersuchen Sie Fehler:

  1. Nach Modell und Tier filtern

  2. Um von „Uptime“ zu „HTTP Requests“ zu wechseln, klicken Sie auf den Tab „HTTP Requests“

Diese Ansicht zeigt Gesamtanfragen und Fehleranzahlen nach HTTP-Statuscode. Zoomen Sie auf eine Auflösung auf Minutenebene, um feinkörnige Spitzen oder Änderungen zu identifizieren.

Fehlerraten interpretieren, nicht Anzahlen

Einige Fehler sind in jedem Produktionssystem zu erwarten. Konzentrieren Sie sich auf den prozentualen Fehleranteil, nicht auf rohe Gesamtzahlen.

Je höher Ihr Gesamtvolumen, desto höher die potenzielle Anzahl an Fehlern – selbst bei einer extrem niedrigen Fehlerrate.

Wenn Fehler in Service Health fehlen

Wenn Sie clientseitige Fehler sehen, aber keine entsprechenden Daten in Service Health:

  • Haben Anfragen OpenAI wahrscheinlich nicht erreicht

  • Liegt das Problem in der Regel vorgelagert (Time-outs, Proxys, Netzwerk)

Das ist bei aggressiven clientseitigen Time-outs häufig der Fall.


Fehlerbehebung bei Latenz

Die Latenzanalyse ist auf Priority- und Scale-Tiers am aussagekräftigsten, da diese definierte SLAs haben. Das Standard-Tier kann eine größere Latenzvariation zeigen und hat keine garantierte Latenz.

Wichtige Metriken

Um jede dieser Metriken anzuzeigen, klicken Sie auf den entsprechenden Tab:

Token Velocity

  • Pro Sekunde generierte Token.

  • Unabhängig von der Prompt-Größe.

Request Time

  • Gesamtdauer der Anfrage.

  • Stark beeinflusst von Ausgabegröße und Reasoning.

Time to First Token (TTFT)

  • Zeit bis zur Generierung des ersten Tokens.

  • Stark beeinflusst von der Größe des nicht gecachten Eingabe-Prompts und von Reasoning.

Prüfen Sie immer die Perzentile P50 / P75 / P95. Durchschnittswerte können die Auswirkungen auf echte Nutzer:innen verschleiern.


6. Latenz mit Token-Nutzung korrelieren

Service Health zeigt, wann sich das Verhalten geändert hat. Usage-Daten helfen zu erklären, warum.

Führen Sie im Usage-Dashboard Folgendes durch, um sicherzustellen, dass Sie sich die für Ihre Ansicht im Service-Health-Dashboard relevanten Daten ansehen:

  • Nach demselben Projekt und Modell filtern

  • Falls zutreffend, nach Service-Tier gruppieren

  • Konzentrieren Sie sich auf Output-Token, da diese die Latenz am stärksten beeinflussen

Für eine tiefergehende Analyse exportieren Sie Activity Data und untersuchen die Token pro Anfrage im Zeitverlauf.


7. Was Sie mit dem Support teilen sollten (falls nötig)

Wenn Sie den Support kontaktieren, geben Sie Folgendes an:

  • Betroffene Org-IDs (das ist wichtig)

  • Betroffene Endpunkte (Chat Completions, Responses usw.) (das ist wichtig)

  • Betroffene Modelle (das ist wichtig)

  • Handelt es sich um ein Scale- oder Priority-Tier? (das ist wichtig)

  • Zeiträume mit Zeitzone für Latenz oder Fehler (das ist wichtig)

  • Relevante x-request-id oder X-Client-Request-Id (oft wichtig; wenn möglich angeben)

    • Zeitstempel mit Zeitzone (oder zumindest das Datum) der angegebenen Anfragen

    • Latenz – wenn Sie Beispiele für langsame Anfragen teilen, geben Sie an, wie lange es auf Ihrer Seite gedauert hat. Idealerweise geben Sie auch die Zeitstempel dafür an, wann die Anfrage gesendet und wann sie empfangen wurde.

    • Fehler – bitte teilen Sie den ungefähren Prozentsatz fehlgeschlagener/fehlerhafter Anfragen, Antwortcode(s), Fehlermeldung(en) und wie lange es bis zur Fehlerantwort gedauert hat

  • Projekt-ID im Zusammenhang mit den Anfragen

  • Beeinflusst dies Anfragen zur Datenresidenz? Wenn ja, welche?

  • Beschreibungen der Trends, die Sie beobachten

    • Fehler: Ungefährer % der fehlgeschlagenen/fehlerhaften Anfragen

    • Latenz: Welche Perzentile betroffen sind (p50 / p90 / p95 / p99) und wie hoch sie im Vergleich zur Baseline der Kund:innen sind

    • Beides: Screenshots oder Tabelle mit Fehler- oder Latenzdaten (Wie haben Sie festgestellt, dass Fehlerraten oder Latenz höher als erwartet sind?)


Häufige Fehlerbehebungsszenarien

Time-outs treten auf, aber Service Health sieht normal aus

Mögliche Ursache: Anfragen laufen ab, bevor sie OpenAI erreichen.

Prüfen Sie:

  • Client- oder Proxy-Time-out-Einstellungen

  • Änderungen im lokalen Netzwerk oder Load Balancer

  • Ob im Service-Health-Dashboard 499-Fehler vorhanden sind (diese können in Ihren eigenen Systemen als 5xx-Fehler erscheinen).


Latenz ohne Deployment gestiegen

Mögliche Ursache: Die Größe der Output-Token oder die Nutzung von Reasoning hat zugenommen und\oder der Traffic hat sich zwischen Service-Tiers verlagert

Prüfen Sie:

  • Durchschnittliche Output-Token pro Anfrage im Usage-Dashboard (erfordert das Herunterladen von Daten und das Dividieren der Output-Token durch die Gesamtzahl der Anfragen).

  • Perzentile für Request Time und TTFT im Service-Health-Dashboard.


Priority- oder Scale-Tier scheint langsam

Mögliche Ursache: Metriken werden über Tiers hinweg vermischt (d. h. Traffic auf dem Standard-Tier verdeckt die Leistung kostenpflichtiger Tiers)

Prüfen Sie:

  • Filter sind auf ein einzelnes Tier und Modell beschränkt

  • Vergleich der Token Velocity zwischen Tiers


Spitze bei 5XX-Fehlern

Wahrscheinliche Ursache: Vorübergehende Ausfälle, die einen kleinen Prozentsatz des Traffics betreffen.

Prüfen Sie:

  • Prozentuale Fehlerrate

  • Ob sich das Traffic-Volumen gleichzeitig verändert hat


Problem betrifft nur ein Projekt

Wahrscheinliche Ursache: Projektspezifische Konfiguration oder Nutzungsmuster.

Prüfen Sie:

  • Filterung auf Projektebene

  • Vergleich mit nicht betroffenen Projekten


Wichtigste Erkenntnisse zum Schluss

  • Vor der Interpretation von Metriken nach Modell, Tier und, wo relevant, Projekt filtern

  • Für die Latenzanalyse Perzentile statt Durchschnittswerte verwenden

  • Kleine Fehlerraten sind zu erwarten

  • Fehlende Daten deuten in der Regel auf vorgelagerte Probleme hin

  • Usage-Daten können helfen zu erklären, warum sich die Latenz geändert hat; Service Health hilft zu zeigen, wann

War dieser Artikel hilfreich?