OpenAI
このページは機械翻訳されています。元の英語の記事を表示

優先処理 FAQ

優先処理に関するよくある質問

更新日: 4 hours ago

特定のモデルで、より高速で安定したパフォーマンスへのアクセスを求める Enterprise API のお客様向けに、優先処理の提供を開始しました。以下では、仕組み、料金、モデル提供状況、レート制限、信頼性、ポリシー、利用資格に関するよくある質問にお答えします。

詳細はこちらをご覧ください。

利用

優先処理は誰が利用できますか?

現在、優先処理は Enterprise のお客様に提供されています。

優先処理はすべての地域で利用できますか?

優先処理の提供可否は、各法域で適用される法律および規制によって異なります。お住まいの地域での提供状況についてご不明点がある場合は、Account Director までお問い合わせください。

料金

優先処理の利用を開始するにはどうすればよいですか?

既存の service_tier パラメーターを用いて、リクエスト単位でトラフィックを優先処理に向けることができます。オプションは service_tier="priority" です。

Scale Tier とはどのように連携しますか?

Scale Tier は優先処理とは別のままです。優先処理に送信されたリクエストは別途課金され、購入済みの Scale Tier の TPM バンドルにはカウントされません。

Scale Tier のスピルオーバー トラフィックを自動的に優先処理へ送れますか?

いいえ。Scale Tier に送信されたトラフィックが自動的に優先処理へスピルオーバーすることはありません。

優先処理はどのように課金されますか?

優先処理で提供されるトークンはトークン単位で課金され、Standard 処理の料金に対してプレミアム価格となります。

年間コミットメントは特定の処理モードに紐づきますか?

いいえ。すべての処理モードが年間の Enterprise 支出コミットメントに算入されます。

Cached input tokens の割引は引き続き適用されますか?

はい!Cached Inputs には、Standard 処理と同じく 50〜75% の割引が適用されます。

優先処理の利用量と支出はどこで確認できますか?

優先処理で処理されたトークンを確認するには、Usage ダッシュボードで Chat Completions または Responses を選択し、Service Tier でグループ化してください。優先処理のコストを確認するには、Usage ダッシュボードで Line Item でグループ化を選択してください。

モデル

優先処理は長文コンテキスト、ファインチューニング済みモデル、埋め込みなどで利用できますか?

現時点では利用できません。今後、最新モデル以外の追加プロダクトにも優先処理を提供するかどうかを評価します。

他のモダリティは優先処理でどのように動作しますか?

優先処理は、Standard で利用可能なマルチモーダル機能と同じ機能をサポートします。特に、画像は優先処理への入力として使用でき、同様に低レイテンシで処理されます。

今後のモデルもサポートされますか?

新しい GPT モデルでも優先処理を提供する予定ですが、すべてのモデルがサポートされることを保証するものではありません。

レート制限

レート制限はどのようになっていますか?

優先処理の消費量は、レート制限上、標準の API トラフィックと同様に扱われます。

ランプ レート制限とは何ですか?

優先処理には、柔軟なオンデマンド料金を提供しつつ、すべてのお客様に一貫して高いパフォーマンスを確保するためのランプ レート制限があります。(a) 優先処理のパフォーマンスが低下しており、かつ (b) お客様のトラフィックの立ち上がりが速すぎる場合、まれに一部の Priority リクエストが Standard 処理へダウングレードされることがあります。

現在の優先処理のランプ レート制限は、主要ドキュメントのこちらで定義されています。

ランプ レート制限内に収めるためのベストプラクティス

  • モデルを変更する際は、トラフィックを段階的に増やしてください。たとえば、アプリケーションが以前のスナップショットから新しいものへ移行する場合、機能フラグを使って数時間かけてトラフィックを移行し、一度に切り替えないようにします。

  • 大規模なデータ処理や非同期ジョブを優先処理で実行することは避けてください。これらのジョブはトラフィックを非常に急速に増やす可能性があり、また多くの場合、優先処理の性能向上を必要としません。

  • ランプ レート制限に常時達する場合は、代わりに Scale tier のクォータ購入を検討してください。

ランプ レート制限はプロジェクトや組織間で共有されますか?

はい。すべてのトラフィックが同一のランプ レート制限に寄与します。

ポリシー

優先処理がレイテンシ目標を満たしていない場合はどうなりますか?

ご質問や懸念がある場合は、AD までご連絡ください。優先処理の SLA は Scale Tier の SLA と同様に扱われます。特定の期間内に Enterprise 契約のお客様に対して当該 SLA を満たせなかった場合、サービス クレジットを提供します。

優先処理は Data Residency と互換性がありますか?

はい。

優先処理は ZDR と BAA と互換性がありますか?

はい。

この記事は役に立ちましたか?