요청 한도 소개
요청 한도는 지정된 기간 내에 사용자 또는 클라이언트가 서비스에 액세스할 수 있는 횟수에 대해 API가 부과하는 제한입니다.
요청 한도는 세분화되어 더 짧은 기간 단위로 적용될 수 있습니다(예: 분당 60,000건의 요청이 초당 1,000건의 요청으로 적용될 수 있음). 짧은 시간에 요청을 몰아서 보내거나 컨텍스트(프롬프트+max_completion_tokens)가 너무 길면, 기술적으로 분당 요청 한도 미만이어도 요청 한도 오류가 발생할 수 있습니다.
요청 한도 오류를 방지하기 위한 모범 사례
기본 조직
서로 다른 청구 요금제와 사용량 등급을 가진 여러 조직에 속해 있다면, API 키로 요청할 때 기본적으로 사용되는 조직을 제어할 수 있도록 기본 조직이 적절한 조직으로 설정되어 있는지 확인하세요.
지수 백오프
코드에 지수 백오프 로직을 포함하세요. 그러면 실패한 요청을 포착하여 다시 시도합니다.
토큰 한도
완성 크기에 맞게 max_completion_tokens를 줄이세요. 사용량 요구량은 이 값을 기준으로 추정되므로, 이를 줄이면 예상치 못하게 요청 한도 오류를 받을 가능성이 낮아집니다. 예를 들어 프롬프트가 약 400개의 토큰 분량의 완성을 생성한다면, max_tokens 값도 비슷한 크기여야 합니다.
프롬프트를 최적화하세요. 지침을 더 짧게 만들고, 불필요한 단어를 제거하고, 추가 예시를 없애면 됩니다. 이러한 변경 후에도 여전히 잘 작동하는지 확인하려면 프롬프트를 다듬고 테스트해야 할 수 있습니다. 프롬프트가 짧아지면 비용도 절감되는 추가 이점이 있습니다. 도움이 필요하면 알려주세요.
사용량 등급
이러한 모범 사례를 적용했는데도 요청 한도 오류가 계속 발생한다면, 사용량 등급을 높여 요청 한도를 늘릴 수 있습니다. 계정 설정의 한도 섹션에서 현재 요청 한도, 현재 사용량 등급, 사용량 등급/한도를 높이는 방법을 확인할 수 있습니다.
추가 자료
사용량 등급 및 요청 한도에 대한 종합 문서를 여기에서 확인하세요.
