OpenAI
Esta página foi traduzida automaticamente. Veja o artigo original em inglês.

Solução de problemas de erros e latência da API

Este artigo explica como usar os painéis de Integridade do Serviço e de Uso para solucionar erros comuns e problemas de latência ao usar a API da OpenAI.

Atualizado: yesterday

Links importantes

*O Painel de Integridade do Serviço está disponível no momento apenas para clientes Enterprise da API.

Comece com os padrões corretos

Ao abrir o painel de Integridade do Serviço, ele vem por padrão com:

  • Todos os projetos

  • Últimos 30 dias

  • Resolução por hora

Essa visualização é útil apenas para orientação. Uma análise de solução de problemas significativa sempre exige filtragem.


Filtre antes de investigar

A filtragem correta é a etapa mais importante. A maioria das interpretações equivocadas vem de misturar modelos, tiers ou projetos.

Filtre por modelo (um de cada vez)

Sempre filtre para um único modelo.

Por quê:

  • Problemas em modelos com pouco tráfego podem ser ocultados por tráfego de maior volume

  • Modelos de alto volume podem fazer problemas localizados parecerem globais

  • Modelos diferentes têm metas de desempenho diferentes

Observação: selecionar vários modelos os agrega — isso não alterna entre eles.

Filtre por tier de serviço

Se você usa mais de um tier (standard, priority, scale), sempre filtre para o tier que está investigando.

Por quê:

  • Tiers têm características de desempenho diferentes

  • Os tiers priority e scale têm SLAs definidos

  • Misturar tiers obscurece o desempenho dos tiers pagos

Isso é especialmente importante para análise de latência.

Filtre por projeto

Por padrão, a Integridade do Serviço mostra todos os projetos.

Para solução de problemas, filtre para o(s) projeto(s) em que o problema foi observado.

Por quê:

  • Um único projeto com alto volume pode dominar as métricas

  • Projetos menores afetados podem ser mascarados por tráfego não relacionado

Deixe "Todos os projetos" selecionado somente se você acreditar que o problema realmente afeta toda a organização.


Solução de problemas de erros

Use a visualização de solicitações HTTP

Para investigar erros:

  1. Filtre por modelo e tier

  2. Para mudar de Uptime para HTTP Requests, clique na aba HTTP Requests

Essa visualização mostra o total de solicitações e contagens de erros por código de status HTTP. Aplique zoom para resolução em nível de minuto para identificar picos ou mudanças granulares.

Interprete taxas de erro, não contagens

Alguns erros são esperados em qualquer sistema de produção. Foque na porcentagem de erros, não nos totais brutos.

Quanto maior seu volume total, maior o número potencial de erros, mesmo com uma taxa de erro extremamente baixa.

Quando erros não aparecem na Integridade do Serviço

Se você vir erros no lado do cliente, mas nenhum dado correspondente na Integridade do Serviço:

  • É provável que as solicitações não tenham chegado à OpenAI

  • O problema geralmente está upstream (timeouts, proxies, rede)

Isso é comum com timeouts agressivos no lado do cliente.


Solução de problemas de latência

A análise de latência é mais significativa nos tiers priority e scale, que têm SLAs definidos. O tier standard pode apresentar variação de latência mais ampla e não tem latência garantida.

Métricas principais

Para visualizar cada uma dessas métricas, clique na aba relevante:

Velocidade de tokens

  • Tokens gerados por segundo.

  • Independente do tamanho do prompt.

Tempo da solicitação

  • Duração total da solicitação.

  • Fortemente afetado pelo tamanho da saída e pelo raciocínio.

Tempo até o primeiro token (TTFT)

  • Tempo até o primeiro token ser gerado.

  • Fortemente afetado pelo tamanho do prompt de entrada sem cache e pelo raciocínio.

Sempre revise os percentis P50 / P75 / P95. Médias podem ocultar o impacto para usuários reais.


6. Correlacionando latência com uso de tokens

A Integridade do Serviço mostra quando o comportamento mudou. Os dados de Uso ajudam a explicar por quê.

No painel de Uso, faça o seguinte para garantir que você está olhando para os dados relevantes para sua visualização no Painel de Integridade do Serviço:

  • Filtre para o mesmo projeto, modelo

  • Agrupe por tier de serviço se aplicável

  • Concentre-se nos tokens de saída, que afetam mais fortemente a latência

Para uma análise mais aprofundada, exporte os Dados de Atividade e examine os tokens por solicitação ao longo do tempo.


7. O que compartilhar com o suporte (se necessário)

Se você entrar em contato com o suporte, inclua:

  • IDs das orgs afetadas (isso é importante)

  • Endpoints afetados (Chat Completions, Responses etc.) (isso é importante)

  • Modelos afetados (isso é importante)

  • Isso está no tier scale ou priority? (isso é importante)

  • Intervalos de tempo com fuso horário para latência ou erro (isso é importante)

  • x-request-id ou X-Client-Request-Id relevantes (geralmente importantes; inclua se possível)

    • Timestamps com fuso horário (ou pelo menos a data) das solicitações fornecidas

    • Latência - se compartilhar exemplos de solicitações lentas, compartilhe quanto tempo levou do seu lado. O ideal é também incluir os timestamps de quando a solicitação foi enviada e quando foi recebida.

    • Erros - compartilhe a porcentagem aproximada de solicitações que falharam/deram erro, código(s) de resposta, mensagem(ns) de erro e quanto tempo levou para receber a resposta de erro

  • ID do projeto relacionado às solicitações

  • Isso está impactando solicitações de residência de dados? Se sim, quais?

  • Descrições das tendências que você está vendo

    • Erros: % aproximada de solicitações que falharam/deram erro

    • Latência: quais percentis são afetados (p50 / p90 / p95 / p99) e quão altos estão em comparação com a linha de base do cliente

    • Ambos: capturas de tela ou tabela de dados de erro ou latência (Como você determinou que as taxas de erro ou a latência estão acima do esperado?)


Cenários comuns de solução de problemas

Timeouts ocorrem, mas a Integridade do Serviço parece normal

Causa possível: as solicitações estão expirando antes de chegar à OpenAI.

Verifique:

  • Configurações de timeout do cliente ou proxy

  • Mudanças na rede local ou no balanceador de carga

  • Presença de erros 499 no painel de Integridade do Serviço (eles podem aparecer como erros 5xx em seus próprios sistemas).


A latência aumentou sem um deployment

Causa possível: O tamanho dos tokens de saída ou o uso de raciocínio aumentou e\ou o tráfego mudou entre tiers de serviço

Verifique:

  • Média de tokens de saída por solicitação no painel de Uso (requer baixar os dados e dividir os tokens de saída pelo total de solicitações).

  • Percentis de Tempo da solicitação e TTFT no painel de Integridade do Serviço.


O tier Priority ou Scale parece lento

Causa possível: as métricas estão misturadas entre tiers (ou seja, o tráfego do tier standard está mascarando o desempenho do tier pago)

Verifique:

  • Os filtros estão restritos a um único tier e modelo

  • Comparação da velocidade de tokens entre tiers


Pico de erros 5XX

Causa provável: falhas transitórias afetando uma pequena porcentagem do tráfego.

Verifique:

  • Porcentagem da taxa de erro

  • Se o volume de tráfego mudou ao mesmo tempo


O problema afeta apenas um projeto

Causa provável: configuração ou padrão de uso específico do projeto.

Verifique:

  • Filtragem em nível de projeto

  • Comparação com projetos não afetados


Considerações finais

  • Filtre por modelo, tier e, quando relevante, projeto antes de interpretar as métricas

  • Use percentis, não médias, para análise de latência

  • Pequenas taxas de erro são esperadas

  • Dados ausentes geralmente indicam problemas upstream

  • Os dados de Uso podem ajudar a explicar por que a latência mudou; a Integridade do Serviço ajuda a mostrar quando

Este artigo foi útil?