速率限制簡介
速率限制係我哋嘅 API 對用戶或用戶端喺指定時間內可存取我哋服務次數所施加嘅限制。
速率限制可以量化執行,即係會喺較短時段內生效(例如每分鐘 60,000 個請求,可能會以每秒 1,000 個請求嘅形式執行)。喺短時間內傳送大量請求,或者內容(提示詞+max_completion_tokens)過長,即使你技術上仍低於每分鐘嘅速率限制,仍可能導致速率限制錯誤。
防止速率限制錯誤嘅最佳做法
預設組織
如果你屬於多個採用不同收費方案同使用層級嘅組織,請確保你嘅預設組織已設為合適嘅組織,以控制當你用 API 金鑰發出請求時,預設會使用邊個組織。
指數退避
喺你嘅程式碼中加入指數退避邏輯。咁樣可以捕捉失敗嘅請求並重試。
Token 限制
降低max_completion_tokens,令佢配合你完成內容嘅長度。系統會根據呢個值估算使用需求,所以減低呢個值可以降低你意外收到速率限制錯誤嘅機會。例如,如果你嘅提示詞產生約 400 個 token 嘅完成內容,max_tokens 值就應該大約相同。
優化你嘅提示詞。你可以透過縮短指示、刪除多餘字詞,同埋移除額外示例嚟做到。作出呢啲變更之後,你可能需要再調整提示詞並測試,確保佢仍然運作良好。提示詞更短仲有一個額外好處,就係可以降低你嘅成本。如果你需要協助,請話我哋知。
使用層級
如果你已經實施咗呢啲最佳做法,但仍然遇到速率限制錯誤,你可以透過提高你嘅使用層級嚟增加速率限制。你可以喺帳戶設定嘅限制部分查看你目前嘅速率限制、目前嘅使用層級,以及點樣提升使用層級/限制。
延伸閱讀
喺呢度查閱我哋有關使用層級同速率限制嘅完整文件。
