レート制限の概要
レート制限とは、指定された期間内にユーザーまたはクライアントが当社のサービスにアクセスできる回数に対して、当社の API が課す制限です。
レート制限は量子化される場合があります。つまり、より短い期間で適用されることがあります(例: 60,000 リクエスト/分が 1,000 リクエスト/秒として適用される場合があります)。短いバーストでリクエストを送信したり、長すぎるコンテキスト(プロンプト + max_completion_tokens)を送信したりすると、技術的には 1 分あたりのレート制限を下回っていても、レート制限エラーにつながる可能性があります。
レート制限エラーを防ぐためのベストプラクティス
デフォルト組織
複数の組織に所属していて、それぞれ請求プランや使用量ティアが異なる場合は、API キーでリクエストを行う際にデフォルトで使用される組織を制御できるよう、デフォルトの組織が適切な組織に設定されていることを確認してください。
指数バックオフ
コードに指数バックオフロジックを含めてください。これにより、失敗したリクエストを捕捉して再試行できます。
トークン制限
補完のサイズに合わせて max_completion_tokens を減らしてください。使用量の必要量はこの値から推定されるため、値を減らすと、予期せずレート制限エラーを受け取る可能性が低くなります。たとえば、プロンプトによって約 400 トークンの補完が作成される場合、max_tokens の値も同程度のサイズにする必要があります。
プロンプトを最適化する。これは、指示を短くし、余分な語句を削除し、不要な例を取り除くことで実現できます。これらの変更後も正常に機能することを確認するため、プロンプトを調整してテストする必要がある場合があります。プロンプトが短くなることで、コストを削減できるという追加の利点もあります。サポートが必要な場合はお知らせください。
使用量ティア
これらのベストプラクティスを実装してもレート制限エラーが続く場合は、使用量ティアを引き上げることでレート制限を引き上げることができます。アカウント設定の制限セクションで、現在のレート制限、現在の使用量ティア、および使用量ティア/制限を引き上げる方法を確認できます。
参考資料
使用量ティアとレート制限に関する包括的なドキュメントはこちらをご覧ください。
