OpenAI
Halaman ini diterjemahkan oleh mesin. Lihat artikel asli dalam bahasa Inggris.

FAQ Pemrosesan Prioritas

Pertanyaan yang sering diajukan tentang pemrosesan Prioritas

Diperbarui: 13 days ago

Kami kini menawarkan pemrosesan Prioritas untuk pelanggan Enterprise API yang menginginkan akses ke performa yang lebih cepat dan lebih konsisten pada model tertentu. Di bawah ini adalah jawaban atas pertanyaan umum tentang cara kerjanya, harga, ketersediaan model, batas laju, keandalan, kebijakan, dan kelayakan.

Pelajari lebih lanjut di sini.

Akses

Siapa yang dapat mengakses pemrosesan Prioritas?

Pemrosesan Prioritas saat ini tersedia untuk pelanggan Enterprise.

Apakah pemrosesan Prioritas tersedia di semua wilayah?

Ketersediaan pemrosesan Prioritas bergantung pada hukum dan peraturan yang berlaku di tiap yurisdiksi. Silakan hubungi Account Director Anda jika Anda memiliki pertanyaan tentang ketersediaan di wilayah Anda.

Harga

Bagaimana cara mulai menggunakan pemrosesan Prioritas?

Pelanggan dapat mengarahkan traffic ke pemrosesan Prioritas per permintaan menggunakan parameter service_tier yang sudah ada, dengan opsi service_tier="priority".

Bagaimana ini berinteraksi dengan Scale Tier?

Scale Tier akan tetap terpisah dari pemrosesan Prioritas. Permintaan yang dikirim ke pemrosesan Prioritas akan ditagih secara terpisah dan tidak akan dihitung terhadap bundel TPM Scale Tier yang Anda beli.

Bisakah saya secara otomatis mengirim traffic spillover Scale Tier saya ke pemrosesan Prioritas?

Tidak. Traffic yang dikirim ke Scale Tier tidak akan secara otomatis dialihkan (spill over) ke pemrosesan Prioritas.

Bagaimana penagihan pemrosesan Prioritas?

Token yang dilayani oleh pemrosesan Prioritas akan ditagih per token, dengan harga premium dibandingkan tarif pemrosesan Standar.

Apakah komitmen tahunan saya terikat pada mode pemrosesan tertentu?

Tidak. Semua mode pemrosesan dihitung terhadap komitmen belanja Enterprise tahunan Anda.

Apakah saya masih mendapatkan diskon untuk token input yang di-cache?

Ya! Cached Inputs mendapatkan diskon 50–75% yang sama seperti pada pemrosesan Standar.

Bagaimana cara melihat penggunaan dan pengeluaran pemrosesan Prioritas saya?

Untuk melihat token yang diproses oleh pemrosesan Prioritas, buka dashboard Usage, pilih Chat Completions atau Responses, lalu Group by Service Tier. Untuk melihat biaya pemrosesan Prioritas, buka dashboard Usage, lalu pilih Group by Line Item.

Model

Apakah pemrosesan Prioritas tersedia untuk long context, model fine-tuned, embeddings, dll.?

Belum saat ini. Ke depannya, kami akan mengevaluasi apakah akan menawarkan pemrosesan Prioritas pada produk tambahan di luar model terbaru kami.

Bagaimana modalitas lain bekerja dengan pemrosesan Prioritas?

Pemrosesan Prioritas mendukung kemampuan multimodal yang sama seperti yang tersedia pada Standar. Secara khusus, gambar dapat digunakan sebagai input untuk pemrosesan Prioritas dan diproses dengan latensi cepat yang sama.

Apakah model-model di masa depan akan didukung?

Kami berencana menawarkan pemrosesan Prioritas pada model GPT baru, tetapi kami tidak menjamin bahwa setiap model akan didukung.

Batas laju

Apa batas lajunya?

Konsumsi pemrosesan Prioritas diperlakukan sama seperti traffic API standar untuk batas laju.

Apa batas laju ramp?

Pemrosesan Prioritas memiliki batas laju ramp untuk memastikan performa tinggi yang konsisten bagi semua pelanggan, sekaligus tetap menyediakan harga fleksibel sesuai permintaan. Jika (a) performa pemrosesan Prioritas menurun DAN (b) traffic pelanggan meningkat terlalu cepat, maka dalam kasus yang jarang terjadi, beberapa permintaan Prioritas dapat diturunkan menjadi pemrosesan Standar.

Batas laju ramp pemrosesan Prioritas saat ini didefinisikan dalam dokumentasi utama kami di sini.

Praktik terbaik agar tetap berada dalam batas laju ramp Anda

  • Tingkatkan traffic secara bertahap saat mengganti model. Misalnya, jika aplikasi Anda sedang beralih dari snapshot sebelumnya ke yang baru, gunakan feature flag untuk mengalihkan traffic selama beberapa jam, bukan sekaligus.

  • Hindari menjalankan pemrosesan data besar atau pekerjaan asinkron pada pemrosesan Prioritas. Pekerjaan ini dapat meningkatkan traffic dengan sangat cepat, dan sering kali tidak memerlukan peningkatan performa dari pemrosesan Prioritas.

  • Jika Anda rutin menemui batas laju ramp, pertimbangkan untuk membeli kuota Scale Tier sebagai gantinya.

Apakah batas laju ramp dibagikan di seluruh project atau organisasi saya?

Ya, semua traffic Anda berkontribusi pada batas laju ramp yang sama.

Kebijakan

Apa yang terjadi jika pemrosesan Prioritas tidak memenuhi target latensi?

Silakan hubungi AD Anda jika ada pertanyaan atau kekhawatiran. SLA pemrosesan Prioritas akan diperlakukan sama seperti SLA Scale Tier; service credit akan diberikan jika kami gagal memenuhi SLA tersebut untuk pelanggan dengan perjanjian Enterprise dalam jendela waktu tertentu.

Apakah pemrosesan Prioritas kompatibel dengan Data Residency?

Ya.

Apakah pemrosesan Prioritas kompatibel dengan ZDR dan BAA?

Ya.

Apakah artikel ini membantu?