レート制限の概要
レート制限は、一定期間内にユーザーまたはクライアントが当社のサービスへアクセスできる回数に対して、当社 API が設ける制限です。
レート制限は量子化される場合があり、より短い期間で適用されます(例:60,000 リクエスト/分 が 1,000 リクエスト/秒 として適用されるなど)。短時間のリクエストのバースト送信や、コンテキスト(プロンプト+max_completion_tokens)が長すぎる場合、分あたりのレート制限を技術的には下回っていても、レート制限エラーにつながることがあります。
レート制限エラーを防ぐためのベストプラクティス
デフォルトの org
異なる請求プランと使用量ティアを持つ複数の org に所属している場合は、デフォルトの組織が適切な org に設定されていることを確認してください。これにより、API キーでリクエストを行う際に、既定でどの組織が使用されるかを制御できます。
指数バックオフ
コードに指数バックオフのロジックを組み込んでください。失敗したリクエストを検知して再試行できます。
トークン上限
max_completion_tokensを、生成する completion のサイズに合わせて減らしてください。使用量の見積もりはこの値に基づくため、これを下げることで、想定外にレート制限エラーを受け取る可能性が低くなります。たとえば、プロンプトが約 400 トークンの completion を生成する場合、max_tokens の値も同程度にするのがよいでしょう。
プロンプトを最適化することも有効です。指示を短くし、余計な言葉を削り、不要な例を減らしてください。これらの変更後も問題なく動作することを確認するために、プロンプトを調整してテストする必要があるかもしれません。プロンプトが短いほどコストも下がります。サポートが必要な場合は、お知らせください。
使用量ティア
これらのベストプラクティスを実装してもレート制限エラーが解消しない場合は、使用量ティアを引き上げることでレート制限を増やせます。現在のレート制限、現在の使用量ティア、使用量ティア/上限の引き上げ方法は、アカウント設定のLimits セクションで確認できます。
参考資料
使用量ティアとレート制限に関する包括的なドキュメントはこちらをご覧ください。
