속도 제한 소개
속도 제한은 일정 기간 동안 사용자 또는 클라이언트가 당사 서비스를 액세스할 수 있는 횟수에 대해 API가 부과하는 제한입니다.
속도 제한은 양자화될 수 있는데, 이는 더 짧은 시간 단위로 적용된다는 뜻입니다(예: 분당 60,000회 요청이 초당 1,000회 요청으로 적용될 수 있음). 짧은 시간에 요청을 몰아서 보내거나 컨텍스트(프롬프트+max_completion_tokens)가 너무 길면, 분당 기준으로는 기술적으로 속도 제한 이하이더라도 속도 제한 오류가 발생할 수 있습니다.
속도 제한 오류를 예방하기 위한 모범 사례
기본 조직
서로 다른 결제 플랜과 사용량 티어를 가진 여러 조직에 속해 있다면, API 키로 요청할 때 기본적으로 어떤 조직이 사용되는지 제어할 수 있도록 기본 조직이 적절한 조직으로 설정되어 있는지 확인하세요.
지수 백오프
코드에 지수 백오프 로직을 포함하세요. 이렇게 하면 실패한 요청을 포착해 재시도할 수 있습니다.
토큰 한도
완성 결과의 크기에 맞게 max_completion_tokens를 줄이세요. 사용량 필요치는 이 값으로 추정되므로, 이를 줄이면 예상치 못하게 속도 제한 오류를 받게 될 가능성이 낮아집니다. 예를 들어 프롬프트가 약 400 토큰 정도의 완성 결과를 만든다면, max_tokens 값도 비슷한 크기여야 합니다.
프롬프트를 최적화하세요. 지시문을 더 짧게 만들고, 불필요한 단어를 제거하며, 추가 예시를 없애는 방식으로 할 수 있습니다. 이런 변경 후에도 잘 작동하는지 확인하기 위해 프롬프트를 다듬고 테스트해야 할 수도 있습니다. 프롬프트가 짧아지면 비용이 줄어든다는 추가적인 이점도 있습니다. 도움이 필요하면 알려주세요.
사용량 티어
이러한 모범 사례를 적용했는데도 여전히 속도 제한 오류가 발생한다면, 사용량 티어를 올려 속도 제한을 늘릴 수 있습니다. 계정 설정의 한도 섹션에서 현재 속도 제한, 현재 사용량 티어, 그리고 사용량 티어/한도를 올리는 방법을 확인할 수 있습니다.
추가 자료
사용량 티어와 속도 제한에 대한 종합 문서는 여기에서 확인하세요.
