OpenAI
Tämä sivu on konekäännetty. Katso alkuperäinen englanninkielinen artikkeli.

API-virheiden ja latenssin vianmääritys

Tässä artikkelissa kerrotaan, miten Service Health- ja Usage-koontinäyttöjen avulla selvitetään yleisiä virheitä ja latenssiongelmia OpenAI API:a käytettäessä.

Päivitetty: 7 days ago

Tärkeät linkit

*Service Health -koontinäyttö on tällä hetkellä saatavilla vain Enterprise API -asiakkaille.

Aloita oikeilla oletusasetuksilla

Kun avaat Service Health -koontinäytön, oletusasetukset ovat:

  • Kaikki projektit

  • Viimeiset 30 päivää

  • Tuntikohtainen tarkkuus

Tämä näkymä on hyödyllinen vain yleiskuvan saamiseksi. Tarkka vianmääritys edellyttää aina suodatusta.


Suodata ennen tutkimista

Oikea suodatus on tärkein vaihe. Useimmat virhetulkinnat johtuvat mallien, tasojen tai projektien sekoittamisesta.

Suodata mallin mukaan (yksi kerrallaan)

Suodata aina yhteen malliin.

Miksi:

  • Vähäliikenteisten mallien ongelmat voivat jäädä suuremman liikennemäärän alle

  • Suuren liikennemäärän mallit voivat saada paikalliset ongelmat näyttämään yleisiltä

  • Eri malleilla on eri suorituskykytavoitteet

Huomaa: usean mallin valitseminen yhdistää ne — se ei vaihda niiden välillä.

Suodata palvelutason mukaan

Jos käytät useampaa kuin yhtä tasoa (standard, priority, scale), suodata aina tutkittavaan tasoon.

Miksi:

  • Tasoilla on erilaiset suorituskykyominaisuudet

  • Priority- ja scale-tasoilla on määritellyt SLA:t

  • Tasojen sekoittaminen peittää maksullisten tasojen suorituskyvyn

Tämä on erityisen tärkeää latenssianalyysissä.

Suodata projektin mukaan

Oletuksena Service Health näyttää kaikki projektit.

Vianmääritystä varten suodata niihin projekteihin, joissa ongelma havaittiin.

Miksi:

  • Yksi suuren liikennemäärän projekti voi hallita mittareita

  • Pienemmät projektit, joihin ongelma vaikuttaa, voivat peittyä muun liikenteen alle

Jätä vain "Kaikki projektit" valituksi, jos uskot ongelman koskevan todella koko organisaatiota.


Virheiden vianmääritys

Käytä HTTP Requests -näkymää

Virheiden tutkimiseksi:

  1. Suodata mallin ja tason mukaan

  2. Voit vaihtaa Uptime-näkymästä HTTP Requests -näkymään napsauttamalla HTTP Requests -välilehteä

Tämä näkymä näyttää pyyntöjen kokonaismäärän ja virheiden määrän HTTP-tilakoodeittain. Tarkenna minuutin tarkkuuteen tunnistaaksesi yksityiskohtaiset piikit tai muutokset.

Tulkitse virheprosentteja, älä määriä

Joissakin virheissä on odotettavaa missä tahansa tuotantojärjestelmässä. Keskity virheiden prosenttiosuuteen, älä raakoihin kokonaismääriin.

Mitä suurempi kokonaisvolyymisi on, sitä suurempi mahdollinen virheiden määrä on, vaikka virheaste olisi erittäin alhainen.

Kun virheitä ei näy Service Healthissä

Jos näet asiakaspuolen virheitä mutta Service Healthissä ei ole vastaavia tietoja:

  • Pyynnöt eivät todennäköisesti saavuttaneet OpenAI:ta

  • Ongelma on yleensä upstreamissa (aikakatkaisut, välityspalvelimet, verkko)

Tämä on yleistä aggressiivisten asiakaspuolen aikakatkaisujen yhteydessä.


Latenssin vianmääritys

Latenssianalyysi on merkityksellisintä priority- ja scale-tasoilla, joilla on määritellyt SLA:t. Standard-tasolla latenssi voi vaihdella enemmän, eikä sille taata latenssia.

Keskeiset mittarit

Näet kunkin näistä mittareista napsauttamalla asianmukaista välilehteä:

Token Velocity

  • Sekunnissa luodut tokenit.

  • Riippumaton kehotteen koosta.

Request Time

  • Pyynnön kokonaiskesto.

  • Vaikuttavat voimakkaasti tulosteen koko ja päättely.

Time to First Token (TTFT)

  • Aika ensimmäisen tokenin luomiseen.

  • Vaikuttavat voimakkaasti välimuistittoman syötekehotteen koko ja päättely.

Tarkista aina P50 / P75 / P95 -persentiilit. Keskiarvot voivat peittää todellisen vaikutuksen käyttäjiin.


6. Latenssin suhteuttaminen tokenien käyttöön

Service Health näyttää, milloin toiminta muuttui. Usage-tiedot auttavat selittämään, miksi.

Tee Usage-koontinäytössä seuraavat toimet varmistaaksesi, että tarkastelet Service Health -koontinäytön näkymän kannalta olennaisia tietoja:

  • Suodata samaan projektiin ja malliin

  • Ryhmittele palvelutason mukaan tarvittaessa

  • Keskity output tokeneihin, jotka vaikuttavat voimakkaimmin latenssiin

Syvempää analyysiä varten vie Activity Data ja tarkastele pyyntökohtaisten tokenien määrää ajan kuluessa.


7. Mitä jakaa tuelle (tarvittaessa)

Jos otat yhteyttä tukeen, liitä mukaan:

  • Vaikutuksen kohteena olevat Org ID:t (tämä on tärkeää)

  • Vaikutuksen kohteena olevat endpointit (Chat Completions, Responses jne.) (tämä on tärkeää)

  • Vaikutuksen kohteena olevat mallit (tämä on tärkeää)

  • Onko tämä scale- vai priority-tasolla? (tämä on tärkeää)

  • Aikavälit aikavyöhykkeineen latenssia tai virheitä varten (tämä on tärkeää)

  • Asiaankuuluvat x-request-id- tai X-Client-Request-Id-tunnukset (usein tärkeitä; liitä mukaan, jos mahdollista)

    • Aikaleimat aikavyöhykkeineen (tai ainakin päivämäärä) annetuista pyynnöistä

    • Latenssi – jos jaat esimerkkejä hitaista pyynnöistä, kerro kuinka kauan ne kestivät omalla puolellasi. Ihannetapauksessa liitä mukaan myös aikaleimat sille, milloin pyyntö lähetettiin ja milloin se vastaanotettiin.

    • Virheet – kerro arvio epäonnistuneiden/virheellisten pyyntöjen prosenttiosuudesta, vastauskoodi(t), virheilmoitus/virheilmoitukset ja kuinka kauan virhevastausta kesti saada

  • Pyyntöihin liittyvä project id

  • Vaikuttaako tämä tietojen sijaintipaikkaa koskeviin pyyntöihin? Jos kyllä, mihin niistä?

  • Kuvaukset havaitsemistasi trendeistä

    • Virheet: arvio epäonnistuneiden/virheellisten pyyntöjen prosenttiosuudesta

    • Latenssi: mihin persentiileihin vaikutus kohdistuu (p50 / p90 / p95 / p99) ja kuinka korkeita ne ovat verrattuna asiakkaan lähtötasoon

    • Molemmat: kuvakaappaukset tai taulukko virhe- tai latenssitiedoista (Miten määritit, että virheasteet tai latenssi ovat odotettua korkeampia?)


Yleisiä vianmääritystilanteita

Aikakatkaisuja esiintyy, mutta Service Health näyttää normaalilta

Mahdollinen syy: pyynnöt aikakatkaistaan ennen kuin ne saavuttavat OpenAI:n.

Tarkista:

  • Asiakkaan tai välityspalvelimen aikakatkaisuasetukset

  • Paikallisen verkon tai kuormantasaajan muutokset

  • 499-virheiden esiintyminen Service Health -koontinäytössä (ne voivat näkyä omissa järjestelmissäsi 5xx-virheinä).


Latenssi kasvoi ilman käyttöönottoa

Mahdollinen syy: output-tokenien määrä tai päättelyn käyttö kasvoi ja\or liikenne siirtyi palvelutasojen välillä

Tarkista:

  • Keskimääräiset output-tokenit pyyntöä kohden Usage-koontinäytössä (edellyttää tietojen lataamista ja output-tokenien jakamista pyyntöjen kokonaismäärällä).

  • Request Time- ja TTFT-persentiilit Service Health -koontinäytössä.


Priority- tai Scale-taso näyttää hitaalta

Mahdollinen syy: mittarit ovat sekoittuneet tasojen välillä (eli standard-tason liikenne peittää maksullisten tasojen suorituskyvyn)

Tarkista:

  • Suodattimet on rajattu yhteen tasoon ja malliin

  • Token velocity -vertailu tasojen välillä


Piikki 5XX-virheissä

Todennäköinen syy: ohimenevät häiriöt, jotka vaikuttavat pieneen osaan liikenteestä.

Tarkista:

  • Virheprosentti

  • Muuttuiko liikennemäärä samaan aikaan


Ongelma vaikuttaa vain yhteen projektiin

Todennäköinen syy: projektikohtainen määritys tai käyttötapa.

Tarkista:

  • Projektitason suodatus

  • Vertailu projekteihin, joihin ongelma ei vaikuta


Lopulliset huomiot

  • Suodata mallin, tason ja tarvittaessa projektin mukaan ennen mittareiden tulkitsemista

  • Käytä latenssianalyysissä persentiilejä, älä keskiarvoja

  • Pienet virheasteet ovat odotettavissa

  • Puuttuvat tiedot viittaavat yleensä upstream-ongelmiin

  • Usage-tiedot voivat auttaa selittämään, miksi latenssi muuttui; Service Health auttaa näyttämään, milloin

Oliko tästä artikkelista apua?