이제 특정 모델에서 더 빠르고 일관된 성능을 원하는 Enterprise API 고객을 위해 우선 처리(Priority processing)를 제공합니다. 아래에서는 작동 방식, 요금, 모델 제공 여부, 속도 제한, 신뢰성, 정책 및 자격 요건에 관한 일반적인 질문에 답합니다.
자세한 내용은 여기에서 확인하세요.
접근
누가 우선 처리를 이용할 수 있나요?
우선 처리는 현재 Enterprise 고객에게 제공됩니다.
우선 처리는 모든 지역에서 이용 가능한가요?
우선 처리의 제공 여부는 각 관할권의 적용 법률 및 규정에 따라 달라집니다. 지역별 제공 여부에 대해 궁금한 점이 있으면 Account Director에게 문의해 주세요.
요금
우선 처리를 어떻게 시작하나요?
고객은 기존 service_tier 파라미터를 사용해 요청 단위로 트래픽을 우선 처리로 보낼 수 있으며, 옵션으로 service_tier="priority"를 지정하면 됩니다.
Scale Tier와는 어떻게 연동되나요?
Scale Tier는 우선 처리와 별도로 유지됩니다. 우선 처리로 전송된 요청은 별도로 청구되며, 구매하신 Scale Tier TPM 번들 한도에 포함되지 않습니다.
Scale Tier 초과 트래픽을 자동으로 우선 처리로 보낼 수 있나요?
아니요. Scale Tier로 전송된 트래픽은 자동으로 우선 처리로 넘어가지 않습니다.
우선 처리는 어떻게 과금되나요?
우선 처리로 제공된 토큰은 토큰 단위로 과금되며, Standard 처리 요금 대비 프리미엄 요금이 적용됩니다.
연간 약정은 특정 처리 모드에 묶이나요?
아니요. 모든 처리 모드는 연간 Enterprise 지출 약정에 포함되어 집계됩니다.
Cached input 토큰 할인은 여전히 적용되나요?
네! Cached Inputs는 Standard 처리와 동일하게 50~75% 할인이 적용됩니다.
우선 처리 사용량과 지출은 어떻게 확인하나요?
우선 처리로 처리된 토큰을 보려면 Usage 대시보드로 이동해 Chat Completions 또는 Responses를 선택한 다음, Service Tier 기준으로 Group by를 선택하세요. 우선 처리 비용을 보려면 Usage 대시보드에서 Line Item 기준으로 Group by를 선택하세요.
모델
긴 컨텍스트, 파인튜닝 모델, 임베딩 등에서도 우선 처리를 사용할 수 있나요?
현재로서는 제공되지 않습니다. 향후 최신 모델 외의 추가 제품에도 우선 처리를 제공할지 여부를 검토할 예정입니다.
다른 모달리티는 우선 처리에서 어떻게 동작하나요?
우선 처리는 Standard에서 제공되는 것과 동일한 멀티모달 기능을 지원합니다. 특히 이미지는 우선 처리의 입력으로 사용할 수 있으며, 동일하게 빠른 지연 시간으로 처리됩니다.
향후 모델도 지원되나요?
새로운 GPT 모델에 우선 처리를 제공할 계획이지만, 모든 모델이 지원된다고 보장하지는 않습니다.
속도 제한
속도 제한은 어떻게 되나요?
우선 처리 사용량은 속도 제한 측면에서 표준 API 트래픽과 동일하게 취급됩니다.
램프 속도 제한(ramp rate limits)이란 무엇인가요?
우선 처리에는 모든 고객에게 일관되게 높은 성능을 보장하면서도 유연한 온디맨드 요금을 제공하기 위해 램프 속도 제한이 있습니다. (a) 우선 처리 성능이 저하되고 AND (b) 고객 트래픽이 너무 빠르게 증가하는 경우, 드물게 일부 우선 처리 요청이 대신 Standard 처리로 다운그레이드될 수 있습니다.
현재 우선 처리 램프 속도 제한은 주요 문서의 여기에서 정의되어 있습니다.
램프 속도 제한을 준수하기 위한 모범 사례
모델을 변경할 때 트래픽을 점진적으로 늘리세요. 예를 들어, 애플리케이션이 이전 스냅샷에서 새로운 스냅샷으로 전환하는 경우, 기능 플래그(feature flag)를 사용해 한 번에 전환하기보다 몇 시간에 걸쳐 트래픽을 전환하세요.
대규모 데이터 처리 또는 비동기 작업을 우선 처리에서 실행하는 것은 피하세요. 이러한 작업은 트래픽을 매우 빠르게 증가시킬 수 있으며, 종종 우선 처리의 향상된 성능이 필요하지 않습니다.
램프 속도 제한에 자주 걸린다면, 대신 Scale tier 쿼터 구매를 고려하세요.
램프 속도 제한은 내 프로젝트나 조직 간에 공유되나요?
네, 모든 트래픽이 동일한 램프 속도 제한에 반영됩니다.
정책
우선 처리가 지연 시간 목표를 충족하지 못하면 어떻게 되나요?
질문이나 우려 사항이 있으면 AD에게 문의해 주세요. 우선 처리 SLA는 Scale Tier SLA와 동일하게 취급되며, 특정 기간 동안 Enterprise 계약 고객에 대해 해당 SLA를 충족하지 못한 경우 서비스 크레딧이 제공됩니다.
우선 처리는 데이터 레지던시(Data Residency)와 호환되나요?
네.
우선 처리는 ZDR 및 BAA와 호환되나요?
네.
