Pemecahan Masalah Error API dan Latensi

Artikel ini menjelaskan cara menggunakan dashboard Service Health dan Usage untuk memecahkan masalah error umum dan masalah latensi saat menggunakan OpenAI API.

Tautan Penting

Dasbor Kondisi Layanan (saat ini hanya tersedia untuk pelanggan API Enterprise)
Dasbor Penggunaan

Mulai dengan Default yang Tepat

Saat Anda membuka dasbor Kondisi Layanan, default-nya adalah:

Semua proyek
30 hari terakhir
Resolusi per jam

Tampilan ini hanya berguna untuk orientasi. Pemecahan masalah yang bermakna selalu memerlukan pemfilteran.

Filter Sebelum Menyelidiki

Pemfilteran yang benar adalah langkah paling penting. Sebagian besar salah tafsir berasal dari pencampuran model, tingkat, atau proyek.

Filter berdasarkan Model (Satu per Satu)

Selalu filter ke satu model.

Alasannya:

Masalah pada model dengan lalu lintas rendah dapat tersembunyi oleh lalu lintas yang lebih besar
Model bervolume tinggi dapat membuat masalah lokal terlihat global
Model yang berbeda memiliki sasaran kinerja yang berbeda

Catatan: memilih beberapa model akan mengagregasikannya—bukan beralih di antara model tersebut.

Filter berdasarkan Tingkat Layanan

Jika Anda menggunakan lebih dari satu tingkat (standar, prioritas, skala), selalu filter ke tingkat yang sedang Anda selidiki.

Alasannya:

Tingkat memiliki karakteristik kinerja yang berbeda
Tingkat prioritas dan skala memiliki SLA yang ditetapkan
Mencampur tingkat mengaburkan kinerja tingkat berbayar

Ini sangat penting untuk analisis latensi.

Filter berdasarkan Proyek

Secara default, Kondisi Layanan menampilkan semua proyek.

Untuk pemecahan masalah, filter ke proyek tempat masalah diamati.

Alasannya:

Satu proyek bervolume tinggi dapat mendominasi metrik.
Proyek terdampak yang lebih kecil dapat tertutupi oleh lalu lintas yang tidak terkait.

Biarkan hanya "Semua proyek" yang dipilih jika Anda yakin masalahnya benar-benar terjadi di seluruh organisasi.

Memecahkan Masalah Kesalahan

Gunakan Tampilan Permintaan HTTP

Untuk menyelidiki kesalahan:

Filter berdasarkan model dan tingkat layanan.
Buka tab Permintaan HTTP, bukan tab Waktu Aktif.

Tampilan ini menunjukkan total permintaan dan jumlah kesalahan berdasarkan kode status HTTP. Perbesar ke resolusi tingkat menit untuk mengidentifikasi lonjakan atau perubahan granular.

Tafsirkan Tingkat Kesalahan, Bukan Jumlah

Sebagian kesalahan memang diperkirakan terjadi di sistem produksi mana pun. Fokus pada persentase kesalahan, bukan total mentah.

Semakin besar volume total Anda, semakin besar potensi jumlah kesalahan meskipun tingkat kesalahannya sangat rendah.

Saat Kesalahan Tidak Muncul di Kondisi Layanan

Jika Anda melihat kesalahan sisi klien tetapi tidak ada data yang sesuai di Kondisi Layanan:

Permintaan kemungkinan tidak mencapai OpenAI.
Masalahnya biasanya berada di upstream (timeout, proxy, jaringan).

Ini umum terjadi dengan timeout sisi klien yang agresif.

Memecahkan Masalah Latensi

Analisis latensi paling bermakna pada tingkat prioritas dan skala, yang memiliki SLA yang ditetapkan. Tingkat standar dapat menunjukkan variasi latensi yang lebih luas, dan tidak memiliki latensi yang dijamin.

Metrik Utama

Untuk melihat setiap metrik, klik tab yang relevan:

Kecepatan Token: Token yang dihasilkan per detik; tidak bergantung pada ukuran prompt.
Waktu Permintaan: Total durasi permintaan; sangat dipengaruhi oleh ukuran output dan penalaran.
Waktu hingga Token Pertama (TTFT): Waktu hingga token pertama dihasilkan; sangat dipengaruhi oleh ukuran prompt input yang tidak di-cache dan penalaran.

Selalu tinjau persentil P50 / P75 / P95. Rata-rata dapat menyembunyikan dampak pada pengguna nyata.

6. Mengorelasikan Latensi dengan Penggunaan Token

Kondisi Layanan menunjukkan kapan perilaku berubah. Data penggunaan membantu menjelaskan mengapa.

Di dasbor Penggunaan, lakukan hal berikut untuk memastikan Anda melihat data yang relevan dengan tampilan Anda di Dasbor Kondisi Layanan:

Filter ke proyek dan model yang sama.
Kelompokkan berdasarkan tingkat layanan, jika berlaku.
Fokus pada token output, yang paling kuat memengaruhi latensi.

Untuk analisis yang lebih mendalam, ekspor Data Aktivitas dan periksa token per permintaan dari waktu ke waktu.

7. Yang Perlu Dibagikan dengan Dukungan (Jika Diperlukan)

Jika Anda menghubungi dukungan, sertakan:

ID Org yang terdampak (penting)
Endpoint yang terdampak, seperti Chat Completions atau Responses (penting)
Model yang terdampak (penting)
Apakah ini terjadi pada tingkat Skala atau Prioritas (penting)
Rentang waktu dengan zona waktu untuk latensi atau kesalahan (penting)
x-request-id atau X-Client-Request-Id yang relevan, jika tersedia
Timestamp dengan zona waktu, atau setidaknya tanggal, untuk permintaan yang Anda berikan

Jika tersedia, sertakan juga:

ID Proyek yang terkait dengan permintaan
Apakah permintaan residensi data terdampak, dan permintaan mana saja
Deskripsi tren yang Anda lihat

Untuk jenis masalah, sertakan:

Kesalahan: Perkiraan persentase permintaan yang gagal atau mengalami kesalahan, kode respons, pesan kesalahan, dan berapa lama waktu yang dibutuhkan untuk menerima respons kesalahan.
Latensi: Persentil mana yang terdampak (P50 / P90 / P95 / P99), seberapa tinggi nilainya dibandingkan baseline pelanggan, dan contoh permintaan lambat dengan timestamp kirim dan terima.
Keduanya: Screenshot atau tabel data kesalahan atau latensi, plus cara Anda menentukan bahwa tingkat kesalahan atau latensi lebih tinggi dari yang diharapkan.

Skenario Pemecahan Masalah Umum

Timeout Terjadi tetapi Kondisi Layanan Terlihat Normal

Kemungkinan penyebab: permintaan mengalami timeout sebelum mencapai OpenAI.

Periksa:

Pengaturan timeout klien atau proxy
Perubahan jaringan lokal atau load balancer
Adanya kesalahan 499 di dasbor Kondisi Layanan (ini dapat muncul sebagai kesalahan 5xx di sistem Anda sendiri).

Latensi Meningkat Tanpa Deployment

Kemungkinan penyebab: ukuran token output atau penggunaan penalaran meningkat dan/atau lalu lintas berpindah antar tingkat layanan.

Periksa:

Rata-rata token output per permintaan di dasbor Penggunaan (memerlukan pengunduhan data dan pembagian token output dengan total permintaan).
Persentil Waktu Permintaan dan TTFT di dasbor Kondisi Layanan.

Tingkat Prioritas atau Tingkat Skala Terlihat Lambat

Kemungkinan penyebab: metrik tercampur di berbagai tingkat, sehingga lalu lintas tingkat standar menutupi kinerja tingkat berbayar.

Periksa:

Filter dibatasi pada satu tingkat dan model.
Perbandingan kecepatan token antar tingkat.

Lonjakan Kesalahan 5XX

Kemungkinan penyebab: kegagalan sementara yang memengaruhi sebagian kecil lalu lintas.

Periksa:

Persentase tingkat kesalahan
Apakah volume lalu lintas berubah pada saat yang sama

Masalah Hanya Memengaruhi Satu Proyek

Kemungkinan penyebab: konfigurasi atau pola penggunaan khusus proyek.

Periksa:

Pemfilteran tingkat proyek
Perbandingan dengan proyek yang tidak terdampak

Poin Akhir

Filter berdasarkan model, tingkat, dan proyek jika relevan sebelum menafsirkan metrik.
Gunakan persentil, bukan rata-rata, untuk analisis latensi.
Tingkat kesalahan kecil memang diperkirakan terjadi.
Data yang hilang biasanya menunjukkan masalah di sisi upstream.
Data penggunaan dapat membantu menjelaskan mengapa latensi berubah; Kondisi Layanan menunjukkan kapan perilaku berubah.