OpenAI
이 페이지는 기계 번역되었습니다. 영어 원문 보기

API 오류 및 지연 시간 문제 해결

이 문서에서는 OpenAI API 사용 시 발생하는 일반적인 오류와 지연 시간 문제를 해결하기 위해 Service Health 및 Usage 대시보드를 사용하는 방법을 설명합니다.

마지막 수정: 13 days ago

중요 링크

*Service Health 대시보드는 현재 Enterprise API 고객에게만 제공됩니다.

올바른 기본값부터 시작하기

Service Health 대시보드를 열면 기본값은 다음과 같습니다.

  • 모든 프로젝트

  • 지난 30일

  • 시간별 해상도

이 보기는 방향을 잡는 용도로만 유용합니다. 의미 있는 문제 해결을 위해서는 항상 필터링이 필요합니다.


조사 전에 먼저 필터링하기

올바른 필터링은 가장 중요한 단계입니다. 대부분의 오해는 모델, 티어 또는 프로젝트를 섞어서 볼 때 발생합니다.

모델별로 필터링하기(한 번에 하나씩)

항상 단일 모델로 필터링하세요.

이유:

  • 트래픽이 적은 모델의 문제는 트래픽이 많은 모델에 가려질 수 있습니다.

  • 트래픽이 많은 모델은 국지적인 문제를 전체적인 문제처럼 보이게 할 수 있습니다.

  • 모델마다 성능 목표가 다릅니다.

참고: 여러 모델을 선택하면 모델 간 전환이 아니라 집계됩니다.

서비스 티어별로 필터링하기

둘 이상의 티어(standard, priority, scale)를 사용하는 경우, 조사 중인 티어로 항상 필터링하세요.

이유:

  • 티어마다 성능 특성이 다릅니다.

  • priority 및 scale 티어에는 정의된 SLA가 있습니다.

  • 티어를 섞으면 유료 티어의 성능이 가려집니다.

이는 특히 지연 시간 분석에서 중요합니다.

프로젝트별로 필터링하기

기본적으로 Service Health는 모든 프로젝트를 표시합니다.

문제를 해결할 때는 문제가 관찰된 프로젝트로 필터링하세요.

이유:

  • 트래픽이 많은 단일 프로젝트가 지표를 좌우할 수 있습니다.

  • 영향을 받은 소규모 프로젝트는 관련 없는 트래픽에 가려질 수 있습니다.

문제가 실제로 조직 전체에 걸친 것이라고 판단되는 경우에만 "모든 프로젝트"를 선택된 상태로 두세요.


오류 문제 해결

HTTP Requests 보기 사용하기

오류를 조사하려면:

  1. 모델과 티어로 필터링합니다.

  2. Uptime에서 HTTP Requests로 전환하려면 HTTP Requests 탭을 클릭합니다.

이 보기는 총 요청 수와 HTTP 상태 코드별 오류 수를 보여줍니다. 세부적인 급증이나 변화를 식별하려면 분 단위 해상도로 확대하세요.

오류 수가 아니라 오류율 해석하기

일부 오류는 모든 프로덕션 시스템에서 예상되는 현상입니다. 원시 총계가 아니라 오류 비율에 집중하세요.

총 볼륨이 클수록 오류율이 극히 낮더라도 잠재적인 오류 수는 커집니다.

Service Health에 오류가 표시되지 않을 때

클라이언트 측 오류는 보이지만 Service Health에 해당 데이터가 없다면:

  • 요청이 OpenAI에 도달하지 못했을 가능성이 높습니다.

  • 문제는 보통 업스트림(타임아웃, 프록시, 네트워킹)에 있습니다.

이는 클라이언트 측 타임아웃이 공격적으로 설정된 경우 흔히 발생합니다.


지연 시간 문제 해결

지연 시간 분석은 정의된 SLA가 있는 priorityscale 티어에서 가장 의미가 있습니다. standard 티어는 지연 시간 변동 폭이 더 클 수 있으며, 지연 시간이 보장되지 않습니다.

주요 지표

각 지표를 보려면 관련 탭을 클릭하세요.

토큰 속도

  • 초당 생성되는 토큰 수.

  • 프롬프트 크기와 무관합니다.

요청 시간

  • 총 요청 지속 시간.

  • 출력 크기와 추론의 영향을 크게 받습니다.

첫 토큰까지 걸리는 시간(TTFT)

  • 첫 번째 토큰이 생성될 때까지 걸리는 시간.

  • 캐시되지 않은 입력 프롬프트 크기와 추론의 영향을 크게 받습니다.

항상 P50 / P75 / P95 백분위를 검토하세요. 평균값은 실제 사용자 영향을 가릴 수 있습니다.


6. 토큰 사용량과 지연 시간의 상관관계 분석

Service Health는 동작이 언제 바뀌었는지를 보여줍니다. Usage 데이터는 그런지 설명하는 데 도움이 됩니다.

Usage 대시보드에서, Service Health 대시보드의 보기와 관련된 데이터를 보고 있는지 확인하려면 다음을 수행하세요.

  • 필터를 동일한 프로젝트, 모델로 설정

  • 해당하는 경우 서비스 티어별로 그룹화

  • 지연 시간에 가장 큰 영향을 주는 출력 토큰에 집중

더 깊이 있는 분석을 위해서는 Activity Data를 내보내고 시간 경과에 따른 요청당 토큰 수를 살펴보세요.


7. 지원팀에 공유할 내용(필요한 경우)

지원팀에 문의하는 경우 다음을 포함하세요.

  • 영향받은 Org ID (중요)

  • 영향받은 엔드포인트(Chat Completions, Responses 등) (중요)

  • 영향받은 모델 (중요)

  • 이 문제가 scale 또는 priority 티어에서 발생하나요? (중요)

  • 지연 시간 또는 오류가 발생한 시간대와 타임존 (중요)

  • 관련 x-request-id 또는 X-Client-Request-Id(대개 중요하므로 가능하면 포함)

    • 제공한 요청의 타임스탬프와 타임존(또는 최소한 날짜)

    • 지연 시간 - 느린 요청의 예를 공유하는 경우, 사용자 측에서 얼마나 오래 걸렸는지 공유하세요. 가능하다면 요청이 전송된 시각과 수신된 시각의 타임스탬프도 포함하세요.

    • 오류 - 실패/오류가 발생한 요청의 대략적인 비율, 응답 코드, 오류 메시지, 그리고 오류 응답을 받기까지 걸린 시간을 공유해 주세요.

  • 요청과 관련된 프로젝트 id

  • 데이터 레지던시 요청에 영향이 있나요? 그렇다면 어떤 요청인가요?

  • 관찰 중인 추세에 대한 설명

    • 오류: 실패/오류가 발생한 요청의 대략적인 %

    • 지연 시간: 어떤 백분위수(p50 / p90 / p95 / p99)가 영향을 받는지, 그리고 고객의 기준선과 비교해 얼마나 높은지

    • 둘 다: 오류 또는 지연 시간 데이터의 스크린샷이나 표(오류율 또는 지연 시간이 예상보다 높다고 어떻게 판단했나요?)


일반적인 문제 해결 시나리오

타임아웃이 발생하지만 Service Health는 정상으로 보이는 경우

가능한 원인: 요청이 OpenAI에 도달하기 전에 타임아웃되고 있습니다.

확인 사항:

  • 클라이언트 또는 프록시 타임아웃 설정

  • 로컬 네트워크 또는 로드 밸런서 변경

  • Service Health 대시보드에 499 오류가 있는지 여부(자체 시스템에서는 5xx 오류로 표시될 수 있음)


배포 없이 지연 시간이 증가한 경우

가능한 원인: 출력 토큰 크기 또는 추론 사용량이 증가했거나 서비스 티어 간 트래픽이 이동했습니다.

확인 사항:

  • Usage 대시보드에서 요청당 평균 출력 토큰 수(데이터를 다운로드한 후 출력 토큰을 총 요청 수로 나누어야 함)

  • Service Health 대시보드의 Request Time 및 TTFT 백분위수


Priority 또는 Scale 티어가 느리게 보이는 경우

가능한 원인: 지표가 티어 전반에 걸쳐 섞여 있습니다(즉, standard 티어 트래픽이 유료 티어 성능을 가리고 있음).

확인 사항:

  • 필터가 단일 티어와 모델로 제한되어 있는지

  • 티어 간 토큰 속도 비교


5XX 오류 급증

가능성 높은 원인: 트래픽의 일부 비율에 영향을 주는 일시적 장애.

확인 사항:

  • 오류율 비율

  • 같은 시점에 트래픽 볼륨이 변했는지 여부


문제가 한 프로젝트에만 영향을 미치는 경우

가능성 높은 원인: 프로젝트별 구성 또는 사용 패턴.

확인 사항:

  • 프로젝트 수준 필터링

  • 영향받지 않은 프로젝트와의 비교


최종 핵심 사항

  • 지표를 해석하기 전에 모델, 티어, 그리고 관련이 있는 경우 프로젝트 별로 필터링하세요.

  • 지연 시간 분석에는 평균이 아니라 백분위수를 사용하세요.

  • 작은 오류율은 예상 가능한 범위입니다.

  • 누락된 데이터는 보통 업스트림 문제를 나타냅니다.

  • Usage 데이터는 지연 시간이 변했는지 설명하는 데 도움이 되고, Service Health는 언제 변했는지를 보여줍니다.

이 문서가 도움이 되었나요?