より高速で一貫したパフォーマンスを特定のモデルで利用したい Enterprise API のお客様向けに、Priority 処理の提供を開始しました。以下では、仕組み、料金、モデルの提供状況、レート制限、信頼性、ポリシー、利用資格に関するよくある質問に回答します。
詳細はこちらをご覧ください。
アクセス
Priority 処理にアクセスできるのは誰ですか?
Priority 処理は現在、Enterprise のお客様にご利用いただけます。
Priority 処理はすべての地域で利用できますか?
Priority 処理の利用可否は、各法域で適用される法律および規制によって異なります。お客様の地域での利用可否についてご質問がある場合は、Account Director までお問い合わせください。
料金
Priority 処理の利用を開始するにはどうすればよいですか?
お客様は既存の service_tier パラメーターを使用し、オプション service_tier="priority" を指定することで、リクエストごとにトラフィックを Priority 処理へ送ることができます。
これはスケールティアとどのように連携しますか?
スケールティアは Priority 処理とは別のものとして維持されます。Priority 処理に送信されたリクエストは個別に請求され、購入済みのスケールティア TPM バンドルには算入されません。
スケールティアのスピルオーバートラフィックを自動的に Priority 処理へ送信できますか?
いいえ。スケールティアに送信されたトラフィックが、自動的に Priority 処理へスピルオーバーすることはありません。
Priority 処理はどのように請求されますか?
Priority 処理で提供されたトークンは、Standard 処理の料金に対してプレミアムを上乗せした価格で、トークン単位で請求されます。
年間コミットメントは特定の処理モードに紐づいていますか?
いいえ。すべての処理モードは、お客様の年間 Enterprise 利用額コミットメントに算入されます。
キャッシュされた入力トークンにも割引は適用されますか?
はい!Cached Inputs には、Standard 処理と同じ 50〜75% の割引が適用されます。
Priority 処理の使用量と利用額はどのように確認できますか?
Priority 処理で処理されたトークンを確認するには、Usage ダッシュボードに移動し、Chat Completions または Responses を選択して、Service Tier でグループ化します。Priority 処理のコストを確認するには、Usage ダッシュボードに移動し、Line Item でグループ化を選択します。
モデル
Priority 処理は長いコンテキスト、ファインチューニング済みモデル、埋め込みなどで利用できますか?
現時点では利用できません。今後、最新モデル以外の追加プロダクトにも Priority 処理を提供するかどうかを評価します。
他のモダリティは Priority 処理でどのように機能しますか?
Priority 処理は、Standard で利用可能なものと同じマルチモーダル機能をサポートしています。特に、画像は Priority 処理への入力として使用でき、同じ高速レイテンシで処理されます。
将来のモデルはサポートされますか?
新しい GPT モデルで Priority 処理を提供する予定ですが、すべてのモデルがサポートされることは保証しません。
レート制限
レート制限とは何ですか?
Priority 処理の消費量は、レート制限において標準 API トラフィックと同じ扱いになります。
ランプレート制限とは何ですか?
Priority 処理にはランプレート制限があり、柔軟なオンデマンド料金を提供しながら、すべてのお客様に一貫して高いパフォーマンスを確保します。(a) Priority 処理のパフォーマンスが低下し、かつ (b) お客様のトラフィックが急激に増加している場合、まれに一部の Priority リクエストが代わりに Standard 処理へダウングレードされることがあります。
現在の Priority 処理のランプレート制限は、主要ドキュメントのこちらで定義されています。
ランプレート制限内に収めるためのベストプラクティス
モデルを変更する際は、トラフィックを段階的に増やします。たとえば、アプリケーションを以前のスナップショットから新しいものへ移行する場合、一度にすべて切り替えるのではなく、機能フラグを使って数時間かけてトラフィックを移行します。
Priority 処理で大規模なデータ処理ジョブや非同期ジョブを実行することは避けてください。これらのジョブではトラフィックが非常に急速に増加する可能性があり、多くの場合、Priority 処理の向上したパフォーマンスは必要ありません。
ランプレート制限に頻繁に達する場合は、代わりにスケールティアのクォータ購入をご検討ください。
ランプレート制限はプロジェクト間または組織間で共有されますか?
はい、お客様のすべてのトラフィックが同じランプレート制限に影響します。
ポリシー
Priority 処理がレイテンシ目標を満たしていない場合はどうなりますか?
ご質問や懸念事項がある場合は、AD までお問い合わせください。Priority 処理の SLA はスケールティアの SLA と同じ扱いになります。一定の時間枠内に Enterprise 契約のお客様についてこれらの SLA を満たせなかった場合、サービスクレジットが提供されます。
Priority 処理はデータレジデンシーに対応していますか?
はい。
Priority 処理は ZDR および BAA に対応していますか?
はい。
