Khắc phục sự cố lỗi API và độ trễ

Bài viết này giải thích cách dùng bảng điều khiển Tình trạng dịch vụ và Mức sử dụng để khắc phục các lỗi thường gặp và vấn đề độ trễ khi dùng API OpenAI.

Liên kết quan trọng

Bảng điều khiển Tình trạng dịch vụ (hiện chỉ khả dụng cho khách hàng Enterprise API)
Bảng điều khiển Mức sử dụng

Bắt đầu với các mặc định phù hợp

Khi bạn mở bảng điều khiển Tình trạng dịch vụ, mặc định là:

Tất cả dự án
30 ngày qua
Độ phân giải theo giờ

Chế độ xem này chỉ hữu ích để định hướng. Khắc phục sự cố có ý nghĩa luôn yêu cầu lọc.

Lọc trước khi điều tra

Lọc đúng là bước quan trọng nhất. Hầu hết hiểu sai đến từ việc trộn lẫn mô hình, gói hoặc dự án.

Lọc theo mô hình (mỗi lần một mô hình)

Luôn lọc về một mô hình duy nhất.

Lý do:

Sự cố trên các mô hình có lưu lượng thấp có thể bị che khuất bởi lưu lượng lớn hơn
Các mô hình lưu lượng cao có thể khiến sự cố cục bộ trông như sự cố toàn cầu
Các mô hình khác nhau có mục tiêu hiệu năng khác nhau

Lưu ý: chọn nhiều mô hình sẽ tổng hợp chúng—không chuyển đổi giữa các mô hình.

Lọc theo Gói dịch vụ

Nếu bạn dùng nhiều gói (tiêu chuẩn, ưu tiên, cấp năng lực xử lý), luôn lọc theo gói bạn đang điều tra.

Lý do:

Các gói có đặc tính hiệu năng khác nhau
Các gói ưu tiên và cấp năng lực xử lý có SLA được xác định
Trộn các gói làm che khuất hiệu năng của gói trả phí

Điều này đặc biệt quan trọng khi phân tích độ trễ.

Lọc theo dự án

Theo mặc định, Tình trạng dịch vụ hiển thị tất cả dự án.

Để khắc phục sự cố, hãy lọc theo (các) dự án nơi sự cố được quan sát thấy.

Lý do:

Một dự án có lưu lượng cao có thể chi phối các chỉ số.
Các dự án nhỏ hơn bị ảnh hưởng có thể bị che khuất bởi lưu lượng không liên quan.

Chỉ để chọn "Tất cả dự án" nếu bạn tin rằng sự cố thực sự xảy ra trên toàn tổ chức.

Khắc phục lỗi

Sử dụng chế độ xem Yêu cầu HTTP

Để điều tra lỗi:

Lọc theo mô hình và gói dịch vụ.
Mở tab Yêu cầu HTTP thay vì tab Thời gian hoạt động.

Chế độ xem này hiển thị tổng số yêu cầu và số lỗi theo mã trạng thái HTTP. Phóng to đến độ phân giải theo phút để xác định các đợt tăng đột biến hoặc thay đổi chi tiết.

Diễn giải tỷ lệ lỗi, không phải số lượng

Một số lỗi là điều dự kiến trong bất kỳ hệ thống sản xuất nào. Tập trung vào tỷ lệ phần trăm lỗi, không phải tổng số thô.

Tổng lưu lượng của bạn càng lớn, số lỗi tiềm năng càng lớn, ngay cả khi tỷ lệ lỗi cực kỳ thấp.

Khi lỗi không xuất hiện trong Tình trạng dịch vụ

Nếu bạn thấy lỗi phía máy khách nhưng không có dữ liệu tương ứng trong Tình trạng dịch vụ:

Các yêu cầu có khả năng chưa đến được OpenAI.
Sự cố thường nằm ở phía thượng nguồn (hết thời gian chờ, proxy, mạng).

Điều này thường gặp với thiết lập thời gian chờ phía máy khách quá gắt.

Khắc phục sự cố độ trễ

Phân tích độ trễ có ý nghĩa nhất trên các gói ưu tiên và cấp năng lực xử lý, vốn có SLA được xác định. Gói tiêu chuẩn có thể có độ trễ biến động rộng hơn và không có độ trễ được đảm bảo.

Chỉ số chính

Để xem từng chỉ số, hãy nhấp vào tab liên quan:

Tốc độ token: Số token được tạo mỗi giây; không phụ thuộc vào kích thước câu lệnh.
Thời gian yêu cầu: Tổng thời lượng yêu cầu; bị ảnh hưởng mạnh bởi kích thước đầu ra và suy luận.
Thời gian đến token đầu tiên (TTFT): Thời gian cho đến khi token đầu tiên được tạo; bị ảnh hưởng mạnh bởi kích thước câu lệnh đầu vào chưa lưu vào bộ nhớ đệm và suy luận.

Luôn xem xét các phân vị P50 / P75 / P95. Giá trị trung bình có thể che giấu tác động đến người dùng thực.

6. Tương quan độ trễ với mức sử dụng token

Tình trạng dịch vụ cho biết khi nào hành vi thay đổi. Dữ liệu mức sử dụng giúp giải thích vì sao.

Trong bảng điều khiển Mức sử dụng, hãy làm như sau để đảm bảo bạn đang xem dữ liệu liên quan đến chế độ xem của mình trong Bảng điều khiển Tình trạng dịch vụ:

Lọc theo cùng dự án và mô hình.
Nhóm theo gói dịch vụ, nếu áp dụng.
Tập trung vào token đầu ra, yếu tố ảnh hưởng mạnh nhất đến độ trễ.

Để phân tích sâu hơn, hãy xuất Dữ liệu hoạt động và kiểm tra số token trên mỗi yêu cầu theo thời gian.

7. Cần chia sẻ gì với bộ phận hỗ trợ (nếu cần)

Nếu bạn liên hệ với bộ phận hỗ trợ, hãy bao gồm:

ID tổ chức bị ảnh hưởng (quan trọng)
Các điểm cuối bị ảnh hưởng, chẳng hạn như Chat Completions hoặc Responses (quan trọng)
Các mô hình bị ảnh hưởng (quan trọng)
Liệu sự cố xảy ra trên gói Scale hay Priority (quan trọng)
Khoảng thời gian kèm múi giờ cho độ trễ hoặc lỗi (quan trọng)
x-request-id hoặc X-Client-Request-Id liên quan, nếu có
Dấu thời gian kèm múi giờ, hoặc ít nhất là ngày, cho các yêu cầu bạn cung cấp

Nếu có, cũng bao gồm:

ID dự án liên quan đến các yêu cầu
Liệu các yêu cầu về nơi lưu trú dữ liệu có bị ảnh hưởng hay không, và đó là những yêu cầu nào
Mô tả các xu hướng bạn đang thấy

Đối với loại sự cố, hãy bao gồm:

Lỗi: Tỷ lệ phần trăm ước tính của các yêu cầu thất bại hoặc gặp lỗi, mã phản hồi, thông báo lỗi và thời gian để nhận phản hồi lỗi.
Độ trễ: Các phân vị bị ảnh hưởng (P50 / P90 / P95 / P99), mức cao của chúng so với đường cơ sở của khách hàng, và ví dụ về các yêu cầu chậm kèm dấu thời gian gửi và nhận.
Cả hai: Ảnh chụp màn hình hoặc bảng dữ liệu lỗi hay độ trễ, cùng cách bạn xác định tỷ lệ lỗi hoặc độ trễ cao hơn dự kiến.

Các tình huống khắc phục sự cố thường gặp

Xảy ra hết thời gian chờ nhưng Tình trạng dịch vụ trông bình thường

Nguyên nhân có thể: yêu cầu hết thời gian chờ trước khi đến OpenAI.

Kiểm tra:

Cài đặt thời gian chờ của máy khách hoặc proxy
Thay đổi về mạng cục bộ hoặc bộ cân bằng tải
Sự hiện diện của lỗi 499 trong bảng điều khiển Tình trạng dịch vụ (chúng có thể hiển thị thành lỗi 5xx trong hệ thống của bạn).

Độ trễ tăng mà không có triển khai

Nguyên nhân có thể: kích thước token đầu ra hoặc mức sử dụng suy luận tăng và/hoặc lưu lượng chuyển giữa các gói dịch vụ.

Kiểm tra:

Số token đầu ra trung bình trên mỗi yêu cầu trong bảng điều khiển Mức sử dụng (cần tải dữ liệu xuống và chia số token đầu ra cho tổng số yêu cầu).
Các phân vị Thời gian yêu cầu và TTFT trong bảng điều khiển Tình trạng dịch vụ.

Gói Priority hoặc Cấp năng lực xử lý có vẻ chậm

Nguyên nhân có thể: các chỉ số bị trộn giữa các gói, nghĩa là lưu lượng gói tiêu chuẩn đang che khuất hiệu năng của gói trả phí.

Kiểm tra:

Bộ lọc được giới hạn ở một gói và một mô hình.
So sánh tốc độ token giữa các gói.

Lỗi 5XX tăng đột biến

Nguyên nhân có khả năng: lỗi tạm thời ảnh hưởng đến một tỷ lệ nhỏ lưu lượng.

Kiểm tra:

Tỷ lệ phần trăm lỗi
Liệu lưu lượng truy cập có thay đổi cùng thời điểm hay không

Sự cố chỉ ảnh hưởng đến một dự án

Nguyên nhân có khả năng: cấu hình hoặc mẫu sử dụng riêng của dự án.

Kiểm tra:

Lọc ở cấp dự án
So sánh với các dự án không bị ảnh hưởng

Kết luận chính

Lọc theo mô hình, gói và dự án khi phù hợp trước khi diễn giải chỉ số.
Sử dụng phân vị, không dùng giá trị trung bình, để phân tích độ trễ.
Tỷ lệ lỗi nhỏ là điều dự kiến.
Dữ liệu bị thiếu thường cho thấy sự cố ở phía thượng nguồn.
Dữ liệu mức sử dụng có thể giúp giải thích vì sao độ trễ thay đổi; Tình trạng dịch vụ cho biết khi nào hành vi thay đổi.