OpenAI
このページは機械翻訳されています。元の英語の記事を表示

API のレート制限を管理するためのベストプラクティスは何ですか?

レート制限エラーが出ますが、レート制限の範囲内だと思います。何が起きているのでしょうか?

更新日: 14 days ago

レート制限の概要

レート制限は、一定期間内にユーザーまたはクライアントが当社のサービスへアクセスできる回数に対して、当社 API が設ける制限です。

レート制限は量子化される場合があり、より短い期間で適用されます(例:60,000 リクエスト/分 が 1,000 リクエスト/秒 として適用されるなど)。短時間のリクエストのバースト送信や、コンテキスト(プロンプト+max_completion_tokens)が長すぎる場合、分あたりのレート制限を技術的には下回っていても、レート制限エラーにつながることがあります。

レート制限エラーを防ぐためのベストプラクティス

デフォルトの org

異なる請求プランと使用量ティアを持つ複数の org に所属している場合は、デフォルトの組織が適切な org に設定されていることを確認してください。これにより、API キーでリクエストを行う際に、既定でどの組織が使用されるかを制御できます。

指数バックオフ

コードに指数バックオフのロジックを組み込んでください。失敗したリクエストを検知して再試行できます。

トークン上限

max_completion_tokensを、生成する completion のサイズに合わせて減らしてください。使用量の見積もりはこの値に基づくため、これを下げることで、想定外にレート制限エラーを受け取る可能性が低くなります。たとえば、プロンプトが約 400 トークンの completion を生成する場合、max_tokens の値も同程度にするのがよいでしょう。

プロンプトを最適化することも有効です。指示を短くし、余計な言葉を削り、不要な例を減らしてください。これらの変更後も問題なく動作することを確認するために、プロンプトを調整してテストする必要があるかもしれません。プロンプトが短いほどコストも下がります。サポートが必要な場合は、お知らせください。

使用量ティア

これらのベストプラクティスを実装してもレート制限エラーが解消しない場合は、使用量ティアを引き上げることでレート制限を増やせます。現在のレート制限、現在の使用量ティア、使用量ティア/上限の引き上げ方法は、アカウント設定のLimits セクションで確認できます。

参考資料

使用量ティアとレート制限に関する包括的なドキュメントはこちらをご覧ください。

この記事は役に立ちましたか?