Kami menawarkan Mode Cepat bagi pelanggan API yang menginginkan performa lebih cepat dan konsisten pada model tertentu. Berikut jawaban atas pertanyaan umum tentang cara kerjanya, harga, ketersediaan model, batas laju, keandalan, kebijakan, dan kelayakan.

Catatan: Pemrosesan Prioritas berganti nama menjadi Mode Cepat pada 30 Juli 2026. Anda dapat menggunakan service_tier: priority atau service_tier: fast dalam permintaan API.

Pelajari selengkapnya di sini.

Apakah Mode Cepat tersedia di semua wilayah?

Ketersediaan Mode Cepat bergantung pada hukum dan peraturan yang berlaku di setiap yurisdiksi. Hubungi Direktur Akun Anda jika memiliki pertanyaan tentang ketersediaan di wilayah Anda.

Cara kerjanya

Pelanggan dapat mengarahkan traffic ke Mode Cepat untuk setiap permintaan menggunakan parameter service_tier yang ada, dengan opsi service_tier = "fast".

Token yang dilayani oleh Mode Cepat akan ditagih per token, dengan harga premium dibandingkan tarif Pemrosesan Standar.

Selain dikonfigurasi pada tingkat permintaan, Anda juga dapat menetapkan Mode Cepat sebagai default proyek melalui Pengaturan proyek > Tingkat Layanan Default: Cepat. Anda tetap dapat menggantinya untuk setiap permintaan. Memilih Cepat dalam pengaturan proyek setara dengan memilih Prioritas.

Bagaimana Mode Cepat digunakan bersama Tingkat Skala?

Tingkat Skala akan tetap terpisah dari Mode Cepat. Permintaan yang dikirim ke Mode Cepat akan ditagih secara terpisah dan tidak diperhitungkan dalam paket TPM Tingkat Skala yang Anda beli.

Dapatkah saya secara otomatis mengirim kelebihan traffic Tingkat Skala ke Mode Cepat?

Tidak. Traffic yang dikirim ke Tingkat Skala tidak akan dialihkan secara otomatis ke Mode Cepat saat kapasitas terlampaui.

Bagaimana penagihan Mode Cepat dilakukan?

Token yang dilayani oleh Mode Cepat akan ditagih per token, dengan harga premium dibandingkan tarif Pemrosesan Standar.

Apakah komitmen tahunan saya terikat pada mode pemrosesan tertentu?

Tidak. Semua mode pemrosesan diperhitungkan dalam komitmen pengeluaran Enterprise tahunan Anda.

Apakah saya tetap mendapatkan diskon untuk token input yang di-cache?

Ya! Input yang di-cache mendapatkan diskon 50–75% yang sama seperti pada Pemrosesan Standar.

Bagaimana cara melihat penggunaan dan pengeluaran Mode Cepat saya?

Untuk melihat token yang diproses oleh Mode Cepat (sebelumnya Pemrosesan Prioritas), buka dasbor Penggunaan, pilih Chat Completions atau Responses, lalu Kelompokkan berdasarkan Tingkat Layanan.

Untuk melihat biaya Mode Cepat, buka dasbor Penggunaan, lalu pilih Kelompokkan berdasarkan Item Baris.

Di dasbor Penggunaan, permintaan yang menggunakan priority atau fast sebagai service_tier akan tetap ditampilkan sebagai priority. Tampilan ini akan diperbarui untuk model mendatang.

Model

Apakah Mode Cepat tersedia untuk konteks panjang, model yang disetel secara khusus, embedding, dan sebagainya?

Belum untuk saat ini. Ke depannya, kami akan mengevaluasi apakah Mode Cepat akan ditawarkan pada produk lain selain model terbaru kami.

Bagaimana modalitas lain berfungsi dengan Mode Cepat?

Mode Cepat mendukung kemampuan multimodal yang sama dengan Pemrosesan Standar. Secara khusus, gambar dapat digunakan sebagai input untuk Pemrosesan Prioritas dan diproses dengan latensi cepat yang sama.

Apakah model mendatang akan didukung?

Kami berencana menawarkan Mode Cepat pada model GPT baru, tetapi tidak menjamin bahwa setiap model akan didukung.

Batas laju

Berapa batas lajunya?

Untuk batas laju, penggunaan Pemrosesan Prioritas diperlakukan sama seperti traffic API standar.

Berapa batas laju peningkatannya?

Mode Cepat memiliki batas laju peningkatan untuk memastikan performa tinggi yang konsisten bagi semua pelanggan, sekaligus tetap menyediakan harga fleksibel sesuai permintaan. Jika (a) performa Mode Cepat menurun DAN (b) traffic pelanggan meningkat terlalu cepat, dalam kasus yang jarang terjadi beberapa permintaan dapat diturunkan ke Pemrosesan Standar.

Batas laju peningkatan Mode Cepat saat ini dijelaskan dalam dokumentasi utama kami di sini.

Praktik terbaik agar tetap berada dalam batas laju peningkatan

Tingkatkan traffic secara bertahap saat mengganti model. Misalnya, jika aplikasi Anda beralih dari snapshot sebelumnya ke snapshot baru, gunakan tanda fitur untuk mengalihkan traffic secara bertahap selama beberapa jam, bukan sekaligus.

Hindari menjalankan pemrosesan data berskala besar atau tugas asinkron dalam Mode Cepat. Tugas tersebut dapat meningkatkan traffic dengan sangat cepat dan sering kali tidak memerlukan peningkatan performa Mode Cepat.

Jika Anda sering mencapai batas laju peningkatan, pertimbangkan untuk membeli kuota Tingkat Skala.

Apakah batas laju peningkatan digunakan bersama oleh semua proyek atau organisasi saya?

Ya, seluruh traffic Anda diperhitungkan dalam batas laju peningkatan yang sama.

Kebijakan

Apa yang terjadi jika Mode Cepat tidak mencapai target latensi?

Hubungi AD Anda jika memiliki pertanyaan atau kekhawatiran. SLA Mode Cepat akan diperlakukan sama seperti SLA Tingkat Skala. Kredit layanan akan diberikan jika kami gagal memenuhi SLA tersebut bagi pelanggan dengan perjanjian Enterprise dalam jangka waktu tertentu.

Apakah Mode Cepat kompatibel dengan Residensi Data?

Ya.

Apakah Mode Cepat kompatibel dengan ZDR dan BAA?

Ya.

Tanya Jawab Mode Cepat