Svarbios nuorodos
Paslaugos būklės ataskaitų sritis (šiuo metu pasiekiama tik Enterprise API klientams)
Pradėkite nuo tinkamų numatytųjų nustatymų
Atidarius Paslaugos būklės ataskaitų sritį, numatytieji nustatymai yra:
Visi projektai
Pastarosios 30 dienų
Valandinė skyra
Šis rodinys naudingas tik orientacijai. Prasmingam trikčių šalinimui visada reikia filtravimo.
Filtruokite prieš tirdami
Teisingas filtravimas yra svarbiausias žingsnis. Dauguma klaidingų interpretacijų kyla maišant modelius, lygmenis arba projektus.
Filtruokite pagal modelį (po vieną)
Visada filtruokite iki vieno modelio.
Kodėl:
Mažo srauto modelių problemos gali būti paslėptos didesnės apimties srauto
Didelės apimties modeliai gali sudaryti įspūdį, kad lokalios problemos yra globalios
Skirtingi modeliai turi skirtingus našumo tikslus
Pastaba: pasirinkus kelis modelius, jie agreguojami — sistema nepersijungia tarp jų.
Filtruokite pagal paslaugos lygmenį
Jei naudojate daugiau nei vieną lygmenį (standartinį, prioriteto, plėtros), visada filtruokite iki tiriamo lygmens.
Kodėl:
Lygmenys turi skirtingas našumo charakteristikas
Prioriteto ir plėtros lygmenys turi nustatytus SLA
Lygmenų maišymas užgožia mokamo lygmens našumą
Tai ypač svarbu delsos analizei.
Filtruokite pagal projektą
Pagal numatytuosius nustatymus Service Health rodo visus projektus.
Trikčių šalinimui filtruokite iki projekto (-ų), kuriame (-iuose) pastebėta problema.
Kodėl:
Vienas didelės apimties projektas gali dominuoti metrikose.
Mažesni paveikti projektai gali būti užgožti nesusijusio srauto.
Palikite pasirinktą „Visi projektai“ tik jei manote, kad problema iš tiesų apima visą organizaciją.
Klaidų trikčių šalinimas
Naudokite HTTP užklausų rodinį
Norėdami tirti klaidas:
Filtruokite pagal modelį ir paslaugos lygmenį.
Atidarykite skirtuką HTTP Requests, o ne skirtuką Uptime.
Šiame rodinyje rodomas bendras užklausų skaičius ir klaidų skaičiai pagal HTTP būsenos kodą. Priartinkite iki minutės lygio skyros, kad nustatytumėte smulkius šuolius arba pokyčius.
Interpretuokite klaidų dažnius, o ne skaičius
Kai kurios klaidos tikėtinos bet kurioje gamybinėje sistemoje. Sutelkite dėmesį į klaidų procentą, o ne į neapdorotas bendras sumas.
Kuo didesnė bendra apimtis, tuo didesnis galimas klaidų skaičius net esant itin mažam klaidų dažniui.
Kai klaidų nėra Service Health ataskaitų srityje
Jei matote kliento pusės klaidas, bet Service Health nėra atitinkamų duomenų:
Užklausos greičiausiai nepasiekė OpenAI.
Problema paprastai yra aukštesniame lygmenyje (laiko limitai, tarpiniai serveriai, tinklas).
Tai dažna taikant agresyvius kliento pusės laiko limitus.
Delsos trikčių šalinimas
Delsos analizė prasmingiausia prioriteto ir plėtros lygmenyse, kuriuose nustatyti SLA. Standartiniame lygmenyje delsa gali kisti plačiau, o garantuota delsa nesuteikiama.
Pagrindinės metrikos
Norėdami peržiūrėti kiekvieną metriką, spustelėkite atitinkamą skirtuką:
Žetonų sparta: per sekundę sugeneruoti žetonai; nepriklauso nuo užklausos dydžio.
Užklausos laikas: bendra užklausos trukmė; ją labai veikia išvesties dydis ir protavimas.
Laikas iki pirmojo žetono (TTFT): laikas, kol sugeneruojamas pirmasis žetonas; jį labai veikia neįrašytos į podėlį įvesties užklausos dydis ir protavimas.
Visada peržiūrėkite P50 / P75 / P95 procentilius. Vidurkiai gali paslėpti poveikį tikriesiems naudotojams.
6. Delsos koreliavimas su žetonų naudojimu
Service Health rodo, kada elgsena pasikeitė. Naudojimo duomenys padeda paaiškinti, kodėl.
Naudojimo ataskaitų srityje atlikite šiuos veiksmus, kad įsitikintumėte, jog žiūrite duomenis, susijusius su jūsų rodiniu Paslaugos būklės ataskaitų srityje:
Filtruokite pagal tą patį projektą ir modelį.
Grupuokite pagal paslaugos lygmenį, jei taikoma.
Sutelkite dėmesį į išvesties žetonus, kurie labiausiai veikia delsą.
Gilesnei analizei eksportuokite veiklos duomenis ir nagrinėkite žetonus vienai užklausai laikui bėgant.
7. Ką pateikti palaikymo komandai (jei reikia)
Jei kreipiatės į palaikymo komandą, įtraukite:
Paveikti organizacijų ID (svarbu)
Paveikti prieigos taškai, pvz., Chat Completions arba Responses (svarbu)
Paveikti modeliai (svarbu)
Ar tai vyksta Plėtros arba prioriteto lygmenyje (svarbu)
Laiko intervalai su laiko juosta delsai arba klaidoms (svarbu)
Atitinkamas x-request-id arba X-Client-Request-Id, jei yra
Jūsų pateikiamų užklausų laiko žymos su laiko juosta arba bent data
Jei yra, taip pat įtraukite:
Su užklausomis susijęs projekto ID
Ar paveiktos duomenų saugojimo vietos užklausos ir kurios iš jų
Pastebimų tendencijų aprašai
Pagal problemos tipą įtraukite:
Klaidos: apytikslis nepavykstančių arba klaidas grąžinančių užklausų procentas, atsakymų kodai, klaidų pranešimai ir kiek laiko užtruko gauti klaidos atsakymą.
Delsa: kurie procentiliai paveikti (P50 / P90 / P95 / P99), kiek jie didesni už kliento bazinį lygį, ir lėtų užklausų pavyzdžiai su siuntimo ir gavimo laiko žymomis.
Abu: klaidų arba delsos duomenų ekrano kopijos ar lentelė, taip pat kaip nustatėte, kad klaidų dažniai arba delsa buvo didesni nei tikėtasi.
Dažni trikčių šalinimo scenarijai
Įvyksta laiko limitai, bet Service Health atrodo normaliai
Galima priežastis: užklausoms baigiasi laikas prieš pasiekiant OpenAI.
Patikrinkite:
Kliento arba tarpinio serverio laiko limito nustatymai
Vietinio tinklo arba apkrovos balansavimo priemonės pokyčiai
499 klaidų buvimas Service Health ataskaitų srityje (jūsų sistemose jos gali būti rodomos kaip 5xx klaidos).
Delsa padidėjo be diegimo
Galima priežastis: padidėjo išvesties žetonų dydis arba protavimo naudojimas ir (arba) srautas persikėlė tarp paslaugos lygmenų.
Patikrinkite:
Vidutinis išvesties žetonų skaičius vienai užklausai naudojimo ataskaitų srityje (reikia atsisiųsti duomenis ir padalyti išvesties žetonus iš visų užklausų).
Request Time ir TTFT procentiliai Paslaugos būklės ataskaitų srityje.
Prioriteto arba Plėtros lygmuo veikia lėtai
Galima priežastis: metrikos sumaišytos tarp lygmenų, todėl standartinio lygmens srautas užgožia mokamo lygmens našumą.
Patikrinkite:
Filtrai apriboti vienu lygmeniu ir modeliu.
Žetonų spartos palyginimas tarp lygmenų.
5XX klaidų šuolis
Tikėtina priežastis: laikini sutrikimai, paveikiantys nedidelę srauto dalį.
Patikrinkite:
Klaidų dažnio procentas
Ar tuo pačiu metu pasikeitė srauto apimtis
Problema paveikia tik vieną projektą
Tikėtina priežastis: projektui būdinga konfigūracija arba naudojimo modelis.
Patikrinkite:
Filtravimas projekto lygmeniu
Palyginimas su nepaveiktais projektais
Galutinės išvados
Prieš interpretuodami metrikas, kai aktualu, filtruokite pagal modelį, lygmenį ir projektą.
Delsos analizei naudokite procentilius, o ne vidurkius.
Nedideli klaidų dažniai yra tikėtini.
Trūkstami duomenys paprastai rodo aukštesnio lygio problemas.
Naudojimo duomenys gali padėti paaiškinti, kodėl delsa pasikeitė; Service Health rodo, kada elgsena pasikeitė.
