API 오류 및 지연 시간 문제 해결

이 문서에서는 OpenAI API 사용 시 발생하는 일반적인 오류와 지연 시간 문제를 해결하기 위해 Service Health 및 Usage 대시보드를 사용하는 방법을 설명합니다.

중요 링크

서비스 상태 대시보드(현재 Enterprise API 고객에게만 제공)
사용량 대시보드

올바른 기본값으로 시작하기

서비스 상태 대시보드를 열면 기본값은 다음과 같습니다.

모든 프로젝트
지난 30일
시간 단위 해상도

이 보기는 방향을 파악하는 데에만 유용합니다. 의미 있는 문제 해결에는 항상 필터링이 필요합니다.

조사 전에 필터링하기

올바른 필터링이 가장 중요한 단계입니다. 대부분의 오해는 모델, 등급 또는 프로젝트를 섞어 보는 데서 발생합니다.

모델별로 필터링(한 번에 하나씩)

항상 단일 모델로 필터링하세요.

이유:

트래픽이 적은 모델의 문제가 더 많은 볼륨의 트래픽에 가려질 수 있음
볼륨이 큰 모델은 국지적인 문제를 전역적인 문제처럼 보이게 할 수 있음
모델마다 성능 목표가 다름

참고: 여러 모델을 선택하면 해당 모델들이 집계되며, 모델 간에 전환되는 것은 아닙니다.

서비스 등급별 필터링

두 개 이상의 등급(표준, 우선순위, 스케일)을 사용하는 경우 항상 조사 중인 등급으로 필터링하세요.

이유:

등급마다 성능 특성이 다름
우선순위 및 스케일 등급에는 정의된 SLA가 있음
등급을 섞으면 유료 등급 성능이 흐려짐

이는 지연 시간 분석에 특히 중요합니다.

프로젝트별 필터링

기본적으로 서비스 상태는 모든 프로젝트를 표시합니다.

문제 해결을 위해 문제가 관찰된 프로젝트로 필터링하세요.

이유:

하나의 고볼륨 프로젝트가 지표를 지배할 수 있음
영향을 받는 더 작은 프로젝트가 관련 없는 트래픽에 가려질 수 있음

문제가 실제로 조직 전체에 해당한다고 판단되는 경우에만 “모든 프로젝트”를 선택한 상태로 두세요.

오류 문제 해결

HTTP 요청 보기 사용

오류를 조사하려면:

모델 및 서비스 등급별로 필터링합니다.
가동 시간 탭 대신 HTTP 요청 탭을 엽니다.

이 보기는 HTTP 상태 코드별 총 요청 수와 오류 수를 표시합니다. 세부적인 급증이나 변화를 식별하려면 분 단위 해상도로 확대하세요.

오류 수가 아닌 오류율 해석

모든 프로덕션 시스템에서는 일부 오류가 예상됩니다. 원시 총계가 아니라 오류 백분율에 집중하세요.

총 볼륨이 클수록 오류율이 매우 낮더라도 잠재적인 오류 수는 더 커질 수 있습니다.

서비스 상태에 오류가 표시되지 않는 경우

클라이언트 측 오류가 보이지만 서비스 상태에 해당 데이터가 없는 경우:

요청이 OpenAI에 도달하지 않았을 가능성이 높습니다.
문제는 일반적으로 업스트림(시간 초과, 프록시, 네트워킹)에 있습니다.

이는 공격적인 클라이언트 측 시간 초과에서 흔히 발생합니다.

지연 시간 문제 해결

지연 시간 분석은 정의된 SLA가 있는 우선순위 및 스케일 등급에서 가장 의미가 있습니다. 표준 등급은 지연 시간 변동 폭이 더 클 수 있으며, 지연 시간이 보장되지 않습니다.

주요 지표

각 지표를 보려면 관련 탭을 클릭하세요.

토큰 속도: 초당 생성된 토큰 수이며, 프롬프트 크기와는 무관합니다.
요청 시간: 총 요청 소요 시간이며, 출력 크기와 추론의 영향을 크게 받습니다.
첫 토큰까지의 시간(TTFT): 첫 번째 토큰이 생성될 때까지의 시간이며, 캐시되지 않은 입력 프롬프트 크기와 추론의 영향을 크게 받습니다.

항상 P50 / P75 / P95 백분위수를 검토하세요. 평균값은 실제 사용자 영향을 숨길 수 있습니다.

6. 지연 시간과 토큰 사용량의 상관관계 파악

서비스 상태는 동작이 언제 변경되었는지 보여줍니다. 사용량 데이터는 왜 그런지 설명하는 데 도움이 됩니다.

사용량 대시보드에서 서비스 상태 대시보드의 보기와 관련된 데이터를 보고 있는지 확인하려면 다음을 수행하세요.

동일한 프로젝트와 모델로 필터링합니다.
해당하는 경우 서비스 등급별로 그룹화합니다.
지연 시간에 가장 큰 영향을 주는 출력 토큰에 집중하세요.

더 심층적인 분석을 위해 활동 데이터를 내보내고 시간 경과에 따른 요청당 토큰 수를 살펴보세요.

7. 지원팀에 공유할 내용(필요한 경우)

지원팀에 문의하는 경우 다음을 포함하세요.

영향을 받은 조직 ID (중요)
Chat Completions 또는 Responses와 같은 영향을 받은 엔드포인트 (중요)
영향을 받은 모델 (중요)
스케일 또는 우선순위 등급인지 여부 (중요)
지연 시간 또는 오류에 대한 시간대 포함 기간 (중요)
사용 가능한 경우 관련 x-request-id 또는 X-Client-Request-Id
제공하는 요청의 시간대가 포함된 타임스탬프 또는 최소한 날짜

사용 가능한 경우 다음도 포함하세요.

요청과 관련된 프로젝트 ID
데이터 레지던시 요청이 영향을 받았는지 여부와 어떤 요청인지
관찰 중인 추세에 대한 설명

문제 유형별로 다음을 포함하세요.

오류: 실패하거나 오류가 발생한 요청의 대략적인 비율, 응답 코드, 오류 메시지, 오류 응답을 받는 데 걸린 시간.
지연 시간: 영향을 받는 백분위수(P50 / P90 / P95 / P99), 고객 기준선 대비 얼마나 높은지, 전송 및 수신 타임스탬프가 포함된 느린 요청의 예.
둘 다: 오류 또는 지연 시간 데이터의 스크린샷이나 표, 그리고 오류율 또는 지연 시간이 예상보다 높다고 판단한 방법.

일반적인 문제 해결 시나리오

시간 초과가 발생하지만 서비스 상태는 정상으로 보임

가능한 원인: 요청이 OpenAI에 도달하기 전에 시간 초과되고 있습니다.

확인:

클라이언트 또는 프록시 시간 초과 설정
로컬 네트워크 또는 로드 밸런서 변경 사항
서비스 상태 대시보드에 499 오류가 있는지 여부(이 오류는 자체 시스템에서 5xx 오류로 표시될 수 있음).

배포 없이 지연 시간이 증가함

가능한 원인: 출력 토큰 크기 또는 추론 사용량이 증가했거나, 트래픽이 서비스 등급 간에 이동했습니다.

확인:

사용량 대시보드의 요청당 평균 출력 토큰 수(데이터를 다운로드한 후 출력 토큰을 총 요청 수로 나누어야 함).
서비스 상태 대시보드의 요청 시간 및 TTFT 백분위수.

우선순위 또는 스케일 등급이 느려 보임

가능한 원인: 지표가 여러 등급에 걸쳐 섞여 있어 표준 등급 트래픽이 유료 등급 성능을 가리고 있습니다.

확인:

필터가 단일 등급과 모델로 제한되어 있는지 확인합니다.
등급 간 토큰 속도 비교.

5XX 오류 급증

가능성 높은 원인: 트래픽의 일부에 영향을 주는 일시적 장애입니다.

확인:

오류율 백분율
동시에 트래픽 볼륨이 변경되었는지 여부

문제가 하나의 프로젝트에만 영향을 줌

가능성 높은 원인: 프로젝트별 구성 또는 사용 패턴입니다.

확인:

프로젝트 수준 필터링
영향을 받지 않은 프로젝트와의 비교

최종 요점

지표를 해석하기 전에 관련되는 경우 모델, 등급, 프로젝트별로 필터링하세요.
지연 시간 분석에는 평균이 아니라 백분위수를 사용하세요.
작은 오류율은 예상될 수 있습니다.
데이터 누락은 일반적으로 업스트림 문제를 나타냅니다.
사용량 데이터는 지연 시간이 왜 변경되었는지 설명하는 데 도움이 되며, 서비스 상태는 동작이 언제 변경되었는지 보여줍니다.