Αντιμετώπιση σφαλμάτων API και καθυστέρησης

Αυτό το άρθρο εξηγεί πώς να χρησιμοποιείτε τους πίνακες ελέγχου Service Health και Usage για την αντιμετώπιση συνήθων σφαλμάτων και ζητημάτων καθυστέρησης κατά τη χρήση του OpenAI API.

Σημαντικοί σύνδεσμοι

Πίνακας Service Health (προς το παρόν διαθέσιμος μόνο σε πελάτες Enterprise API)
Πίνακας χρήσης

Ξεκινήστε με τις σωστές προεπιλογές

Όταν ανοίγετε τον πίνακα Service Health, από προεπιλογή εμφανίζονται:

Όλα τα έργα
Τελευταίες 30 ημέρες
Ωριαία ανάλυση

Αυτή η προβολή είναι χρήσιμη μόνο για προσανατολισμό. Η ουσιαστική αντιμετώπιση προβλημάτων απαιτεί πάντα φιλτράρισμα.

Φιλτράρισμα πριν από τη διερεύνηση

Το σωστό φιλτράρισμα είναι το πιο σημαντικό βήμα. Οι περισσότερες παρερμηνείες προέρχονται από ανάμειξη μοντέλων, επιπέδων ή έργων.

Φιλτράρισμα κατά μοντέλο (ένα κάθε φορά)

Να φιλτράρετε πάντα σε ένα μόνο μοντέλο.

Γιατί:

Ζητήματα σε μοντέλα χαμηλής κίνησης μπορεί να κρύβονται από κίνηση υψηλότερου όγκου
Τα μοντέλα υψηλού όγκου μπορεί να κάνουν τα τοπικά ζητήματα να φαίνονται καθολικά
Διαφορετικά μοντέλα έχουν διαφορετικούς στόχους απόδοσης

Σημείωση: η επιλογή πολλών μοντέλων τα συγκεντρώνει — δεν εναλλάσσεται μεταξύ τους.

Φιλτράρισμα κατά επίπεδο υπηρεσίας

Αν χρησιμοποιείτε περισσότερα από ένα επίπεδα (τυπικό, προτεραιότητας, κλιμάκωσης), να φιλτράρετε πάντα στο επίπεδο που διερευνάτε.

Γιατί:

Τα επίπεδα έχουν διαφορετικά χαρακτηριστικά απόδοσης
Τα επίπεδα προτεραιότητας και κλιμάκωσης έχουν καθορισμένα SLA
Η ανάμειξη επιπέδων αποκρύπτει την απόδοση του πληρωμένου επιπέδου

Αυτό είναι ιδιαίτερα σημαντικό για την ανάλυση καθυστέρησης.

Φιλτράρισμα κατά έργο

Από προεπιλογή, το Service Health εμφανίζει όλα τα έργα.

Για την αντιμετώπιση προβλημάτων, φιλτράρετε στο έργο ή στα έργα όπου παρατηρήθηκε το ζήτημα.

Γιατί:

Ένα μόνο έργο υψηλού όγκου μπορεί να κυριαρχεί στις μετρήσεις.
Μικρότερα επηρεαζόμενα έργα μπορεί να επισκιαστούν από άσχετη κίνηση.

Αφήστε επιλεγμένο το "Όλα τα έργα" μόνο αν πιστεύετε ότι το ζήτημα αφορά πραγματικά ολόκληρο τον οργανισμό.

Αντιμετώπιση σφαλμάτων

Χρησιμοποιήστε την προβολή HTTP Requests

Για να διερευνήσετε σφάλματα:

Φιλτράρετε κατά μοντέλο και επίπεδο υπηρεσίας.
Ανοίξτε την καρτέλα HTTP Requests αντί για την καρτέλα Uptime.

Αυτή η προβολή εμφανίζει τα συνολικά αιτήματα και τον αριθμό σφαλμάτων ανά κωδικό κατάστασης HTTP. Μεγεθύνετε σε ανάλυση επιπέδου λεπτού για να εντοπίσετε λεπτομερείς αιχμές ή αλλαγές.

Ερμηνεύστε ποσοστά σφαλμάτων, όχι πλήθη

Ορισμένα σφάλματα είναι αναμενόμενα σε κάθε σύστημα παραγωγής. Εστιάστε στο ποσοστό σφαλμάτων, όχι στα ακατέργαστα σύνολα.

Όσο μεγαλύτερος είναι ο συνολικός όγκος σας, τόσο μεγαλύτερος είναι ο πιθανός αριθμός σφαλμάτων, ακόμη και με εξαιρετικά χαμηλό ποσοστό σφαλμάτων.

Όταν λείπουν σφάλματα από το Service Health

Αν βλέπετε σφάλματα στην πλευρά του πελάτη αλλά δεν υπάρχουν αντίστοιχα δεδομένα στο Service Health:

Τα αιτήματα πιθανότατα δεν έφτασαν στην OpenAI.
Το ζήτημα συνήθως βρίσκεται upstream (χρονικά όρια, proxy, δικτύωση).

Αυτό είναι συνηθισμένο με επιθετικά χρονικά όρια στην πλευρά του πελάτη.

Αντιμετώπιση καθυστέρησης

Η ανάλυση καθυστέρησης έχει μεγαλύτερη σημασία στα επίπεδα προτεραιότητας και κλιμάκωσης, που έχουν καθορισμένα SLA. Το τυπικό επίπεδο μπορεί να εμφανίζει μεγαλύτερη διακύμανση καθυστέρησης και δεν έχει εγγυημένη καθυστέρηση.

Βασικές μετρήσεις

Για να δείτε κάθε μέτρηση, κάντε κλικ στη σχετική καρτέλα:

Ταχύτητα token: Token που δημιουργούνται ανά δευτερόλεπτο, ανεξάρτητα από το μέγεθος της προτροπής.
Request Time: Συνολική διάρκεια αιτήματος, που επηρεάζεται έντονα από το μέγεθος εξόδου και τη συλλογιστική.
Time to First Token (TTFT): Χρόνος μέχρι να δημιουργηθεί το πρώτο token, που επηρεάζεται έντονα από το μέγεθος της μη αποθηκευμένης στην κρυφή μνήμη προτροπής εισόδου και τη συλλογιστική.

Να εξετάζετε πάντα τα εκατοστημόρια P50 / P75 / P95. Οι μέσοι όροι μπορούν να κρύψουν τον αντίκτυπο στους πραγματικούς χρήστες.

6. Συσχέτιση καθυστέρησης με χρήση token

Το Service Health δείχνει πότε άλλαξε η συμπεριφορά. Τα δεδομένα χρήσης βοηθούν να εξηγηθεί γιατί.

Στον πίνακα χρήσης, κάντε τα εξής για να βεβαιωθείτε ότι βλέπετε τα δεδομένα που σχετίζονται με την προβολή σας στον πίνακα Service Health:

Φιλτράρετε στο ίδιο έργο και μοντέλο.
Ομαδοποιήστε κατά επίπεδο υπηρεσίας, αν ισχύει.
Εστιάστε στα token εξόδου, τα οποία επηρεάζουν περισσότερο την καθυστέρηση.

Για βαθύτερη ανάλυση, εξαγάγετε τα Activity Data και εξετάστε τα token ανά αίτημα με την πάροδο του χρόνου.

7. Τι να μοιραστείτε με την υποστήριξη (αν χρειάζεται)

Αν επικοινωνήσετε με την υποστήριξη, συμπεριλάβετε:

Επηρεαζόμενα Org IDs (σημαντικό)
Επηρεαζόμενα τελικά σημεία, όπως Chat Completions ή Responses (σημαντικό)
Επηρεαζόμενα μοντέλα (σημαντικό)
Αν αυτό αφορά επίπεδο κλιμάκωσης ή προτεραιότητας (σημαντικό)
Χρονικά διαστήματα με ζώνη ώρας για καθυστέρηση ή σφάλματα (σημαντικό)
Σχετικό x-request-id ή X-Client-Request-Id, αν είναι διαθέσιμο
Χρονικές σημάνσεις με ζώνη ώρας, ή τουλάχιστον την ημερομηνία, για τα αιτήματα που παρέχετε

Αν είναι διαθέσιμα, συμπεριλάβετε επίσης:

Project ID που σχετίζεται με τα αιτήματα
Αν επηρεάζονται αιτήματα γεωγραφικής διαμονής δεδομένων και ποια
Περιγραφές των τάσεων που βλέπετε

Για τον τύπο ζητήματος, συμπεριλάβετε:

Σφάλματα: Κατά προσέγγιση ποσοστό αιτημάτων που αποτυγχάνουν ή παρουσιάζουν σφάλμα, κωδικούς απόκρισης, μηνύματα σφάλματος και πόσος χρόνος χρειάστηκε για να ληφθεί η απόκριση σφάλματος.
Καθυστέρηση: Ποια εκατοστημόρια επηρεάζονται (P50 / P90 / P95 / P99), πόσο υψηλά είναι σε σύγκριση με τη βασική γραμμή του πελάτη και παραδείγματα αργών αιτημάτων με χρονικές σημάνσεις αποστολής και λήψης.
Και τα δύο: Στιγμιότυπα οθόνης ή πίνακας δεδομένων σφαλμάτων ή καθυστέρησης, καθώς και πώς προσδιορίσατε ότι τα ποσοστά σφαλμάτων ή η καθυστέρηση ήταν υψηλότερα από το αναμενόμενο.

Συνήθη σενάρια αντιμετώπισης προβλημάτων

Προκύπτουν χρονικά όρια, αλλά το Service Health φαίνεται κανονικό

Πιθανή αιτία: τα αιτήματα λήγουν λόγω χρονικού ορίου πριν φτάσουν στην OpenAI.

Ελέγξτε:

Ρυθμίσεις χρονικού ορίου πελάτη ή proxy
Αλλαγές στο τοπικό δίκτυο ή στον εξισορροπητή φόρτου
Παρουσία σφαλμάτων 499 στον πίνακα Service Health (αυτά μπορεί να εμφανίζονται ως σφάλματα 5xx στα δικά σας συστήματα).

Η καθυστέρηση αυξήθηκε χωρίς ανάπτυξη

Πιθανή αιτία: αυξήθηκε το μέγεθος των token εξόδου ή η χρήση συλλογιστικής ή/και η κίνηση μετακινήθηκε μεταξύ επιπέδων υπηρεσίας.

Ελέγξτε:

Μέσος όρος token εξόδου ανά αίτημα στον πίνακα χρήσης (απαιτεί λήψη δεδομένων και διαίρεση των token εξόδου με το σύνολο των αιτημάτων).
Εκατοστημόρια Request Time και TTFT στον πίνακα Service Health.

Το επίπεδο προτεραιότητας ή κλιμάκωσης φαίνεται αργό

Πιθανή αιτία: οι μετρήσεις αναμειγνύονται μεταξύ επιπέδων, δηλαδή η κίνηση του τυπικού επιπέδου αποκρύπτει την απόδοση του πληρωμένου επιπέδου.

Ελέγξτε:

Τα φίλτρα περιορίζονται σε ένα μόνο επίπεδο και μοντέλο.
Σύγκριση ταχύτητας token μεταξύ επιπέδων.

Αύξηση σφαλμάτων 5XX

Πιθανή αιτία: παροδικές αστοχίες που επηρεάζουν ένα μικρό ποσοστό της κίνησης.

Ελέγξτε:

Ποσοστό σφαλμάτων
Αν ο όγκος κίνησης άλλαξε ταυτόχρονα

Το ζήτημα επηρεάζει μόνο ένα έργο

Πιθανή αιτία: διαμόρφωση ή μοτίβο χρήσης ειδικά για το έργο.

Ελέγξτε:

Φιλτράρισμα σε επίπεδο έργου
Σύγκριση με έργα που δεν επηρεάζονται

Τελικά συμπεράσματα

Φιλτράρετε κατά μοντέλο, επίπεδο και έργο, όπου χρειάζεται, πριν ερμηνεύσετε τις μετρήσεις.
Χρησιμοποιήστε εκατοστημόρια, όχι μέσους όρους, για την ανάλυση καθυστέρησης.
Αναμένονται μικρά ποσοστά σφαλμάτων.
Τα δεδομένα που λείπουν συνήθως υποδεικνύουν ζητήματα upstream.
Τα δεδομένα χρήσης μπορούν να βοηθήσουν να εξηγηθεί γιατί άλλαξε η καθυστέρηση· το Service Health δείχνει πότε άλλαξε η συμπεριφορά.