API-virheiden ja latenssin vianmääritys

Tässä artikkelissa kerrotaan, miten Service Health- ja Usage-koontinäyttöjen avulla selvitetään yleisiä virheitä ja latenssiongelmia OpenAI API:a käytettäessä.

Tärkeät linkit

Palvelun kunnon koontinäyttö (tällä hetkellä vain Enterprise API -asiakkaiden saatavilla)
Käytön koontinäyttö

Aloita oikeilla oletuksilla

Kun avaat Palvelun kunnon koontinäytön, sen oletukset ovat:

Kaikki projektit
Viimeiset 30 päivää
Tuntitason tarkkuus

Tämä näkymä on hyödyllinen vain yleiskuvan saamiseen. Merkityksellinen vianmääritys edellyttää aina suodatusta.

Suodata ennen tutkimista

Oikea suodatus on tärkein vaihe. Useimmat virhetulkinnat johtuvat mallien, tasojen tai projektien sekoittamisesta.

Suodata mallin mukaan (yksi kerrallaan)

Suodata aina yhteen malliin.

Miksi:

Vähäliikenteisten mallien ongelmat voivat peittyä suuremman volyymin liikenteeseen
Suuren volyymin mallit voivat saada paikalliset ongelmat näyttämään globaaleilta
Eri malleilla on erilaiset suorituskykytavoitteet

Huomautus: useiden mallien valitseminen yhdistää ne – se ei vaihda niiden välillä.

Suodata palvelutason mukaan

Jos käytät useampaa kuin yhtä tasoa (vakio, priority, scale), suodata aina tutkittavaan tasoon.

Miksi:

Tasoilla on erilaiset suorituskykyominaisuudet
Priority- ja skaalatasoilla on määritellyt SLA:t
Tasojen sekoittaminen hämärtää maksullisen tason suorituskykyä

Tämä on erityisen tärkeää viiveanalyysissä.

Suodata projektin mukaan

Oletusarvoisesti Palvelun kunto näyttää kaikki projektit.

Suodata vianmääritystä varten projektiin tai projekteihin, joissa ongelma havaittiin.

Miksi:

Yksi suuren volyymin projekti voi hallita mittareita.
Pienemmät projektit, joihin ongelma vaikuttaa, voivat peittyä asiaan liittymättömään liikenteeseen.

Jätä ”Kaikki projektit” valituksi vain, jos uskot ongelman todella koskevan koko organisaatiota.

Virheiden vianmääritys

Käytä HTTP-pyyntöjen näkymää

Virheiden tutkiminen:

Suodata mallin ja palvelutason mukaan.
Avaa HTTP-pyynnöt-välilehti Käyttöaika-välilehden sijaan.

Tämä näkymä näyttää pyyntöjen kokonaismäärän ja virheiden määrät HTTP-tilakoodin mukaan. Tarkenna minuutin tarkkuuteen, jotta voit tunnistaa yksityiskohtaiset piikit tai muutokset.

Tulkitse virheprosentteja, älä määriä

Joitakin virheitä on odotettavissa missä tahansa tuotantojärjestelmässä. Keskity virheiden prosenttiosuuteen, älä raakamääriin.

Mitä suurempi kokonaisvolyymi on, sitä suurempi voi olla virheiden määrä, vaikka virheprosentti olisi erittäin pieni.

Kun virheitä puuttuu Palvelun kunnosta

Jos näet asiakaspuolen virheitä, mutta Palvelun kunnossa ei ole vastaavia tietoja:

Pyynnöt eivät todennäköisesti saavuttaneet OpenAI:ta.
Ongelma on yleensä ylävirrassa (aikakatkaisut, välityspalvelimet, verkko).

Tämä on yleistä aggressiivisten asiakaspuolen aikakatkaisujen yhteydessä.

Viiveen vianmääritys

Viiveanalyysi on merkityksellisintä priority- ja scale-tasoilla, joilla on määritellyt SLA:t. Vakiotasolla viive voi vaihdella enemmän, eikä viivettä taata.

Keskeiset mittarit

Näet kunkin mittarin napsauttamalla asianmukaista välilehteä:

Token-nopeus: sekunnissa luodut tokenit; riippumaton kehotteen koosta.
Pyyntöaika: pyynnön kokonaiskesto; tulosteen koko ja päättely vaikuttavat siihen voimakkaasti.
Aika ensimmäiseen tokeniin (TTFT): aika ensimmäisen tokenin luomiseen; välimuistiin tallentamattoman syötekehotteen koko ja päättely vaikuttavat siihen voimakkaasti.

Tarkista aina P50-, P75- ja P95-persentiilit. Keskiarvot voivat peittää todellisen vaikutuksen käyttäjiin.

6. Viiveen korrelointi tokenien käytön kanssa

Palvelun kunto näyttää, milloin toiminta muuttui. Käyttötiedot auttavat selittämään, miksi.

Tee Käytön koontinäytössä seuraavat asiat varmistaaksesi, että tarkastelet Palvelun kunnon koontinäytön näkymääsi liittyviä tietoja:

Suodata saman projektin ja mallin mukaan.
Ryhmittele palvelutason mukaan, jos sovellettavissa.
Keskity tulostokeneihin, jotka vaikuttavat viiveeseen eniten.

Vie syvempää analyysiä varten toimintatiedot ja tarkastele tokeneita pyyntöä kohti ajan myötä.

7. Mitä jakaa tuelle (tarvittaessa)

Jos otat yhteyttä tukeen, sisällytä:

Vaikutuksen kohteena olevat organisaatiotunnukset (tärkeää)
Vaikutuksen kohteena olevat endpointit, kuten Chat Completions tai Responses (tärkeää)
Vaikutuksen kohteena olevat mallit (tärkeää)
Onko kyseessä Scale- vai Priority-taso (tärkeää)
Aikavälit ja aikavyöhyke viiveille tai virheille (tärkeää)
Asiaankuuluva x-request-id tai X-Client-Request-Id, jos saatavilla
Aikaleimat ja aikavyöhyke, tai vähintään päivämäärä, toimittamistasi pyynnöistä

Jos saatavilla, sisällytä myös:

Pyyntöihin liittyvä projektitunnus
Vaikuttaako ongelma tietojen sijaintipaikkaa koskeviin pyyntöihin ja mihin niistä
Kuvaukset havaitsemistasi trendeistä

Sisällytä ongelmatyypin osalta:

Virheet: epäonnistuvien tai virheellisten pyyntöjen likimääräinen prosenttiosuus, vastauskoodit, virheilmoitukset ja kuinka kauan virhevastauksen saaminen kesti.
Viive: mihin persentiileihin ongelma vaikuttaa (P50 / P90 / P95 / P99), kuinka korkeita ne ovat asiakkaan perustasoon verrattuna sekä esimerkkejä hitaista pyynnöistä lähetys- ja vastaanottoaikaleimoineen.
Molemmat: näyttökuvat tai taulukko virhe- tai viivetiedoista sekä miten määritit, että virheprosentit tai viive olivat odotettua suurempia.

Yleiset vianmääritystilanteet

Aikakatkaisuja tapahtuu, mutta Palvelun kunto näyttää normaalilta

Mahdollinen syy: pyynnöt aikakatkaistaan ennen kuin ne saavuttavat OpenAI:n.

Tarkista:

Asiakkaan tai välityspalvelimen aikakatkaisuasetukset
Paikallisen verkon tai kuormantasaajan muutokset
499-virheiden esiintyminen Palvelun kunnon koontinäytössä (ne voivat näkyä omissa järjestelmissäsi 5xx-virheinä).

Viive kasvoi ilman käyttöönottoa

Mahdollinen syy: tulostokenien määrä tai päättelyn käyttö kasvoi ja/tai liikenne siirtyi palvelutasojen välillä.

Tarkista:

Keskimääräiset tulostokenit pyyntöä kohti Käytön koontinäytössä (edellyttää tietojen lataamista ja tulostokenien jakamista pyyntöjen kokonaismäärällä).
Request Time- ja TTFT-persentiilit Palvelun kunnon koontinäytössä.

Priority- tai Skaalataso vaikuttaa hitaalta

Mahdollinen syy: mittarit ovat sekoittuneet tasojen välillä, jolloin vakiotason liikenne peittää maksullisen tason suorituskyvyn.

Tarkista:

Suodattimet on rajattu yhteen tasoon ja malliin.
Token-nopeuden vertailu tasojen välillä.

5XX-virheiden piikki

Todennäköinen syy: tilapäiset häiriöt, jotka vaikuttavat pieneen osaan liikenteestä.

Tarkista:

Virheprosentti
Muuttuiko liikenteen määrä samaan aikaan

Ongelma vaikuttaa vain yhteen projektiin

Todennäköinen syy: projektikohtainen määritys tai käyttötapa.

Tarkista:

Projektitason suodatus
Vertailu projekteihin, joihin ongelma ei vaikuta

Lopulliset huomiot

Suodata tarvittaessa mallin, tason ja projektin mukaan ennen mittarien tulkintaa.
Käytä viiveanalyysissä persentiilejä, älä keskiarvoja.
Pieniä virheprosentteja on odotettavissa.
Puuttuvat tiedot viittaavat yleensä ylävirran ongelmiin.
Käyttötiedot voivat auttaa selittämään, miksi viive muuttui; Palvelun kunto näyttää, milloin toiminta muuttui.