Links importantes
*O Painel de Integridade do Serviço está disponível no momento apenas para clientes Enterprise da API.
Comece com os padrões corretos
Ao abrir o painel de Integridade do Serviço, ele vem por padrão com:
Todos os projetos
Últimos 30 dias
Resolução por hora
Essa visualização é útil apenas para orientação. Uma análise de solução de problemas significativa sempre exige filtragem.
Filtre antes de investigar
A filtragem correta é a etapa mais importante. A maioria das interpretações equivocadas vem de misturar modelos, tiers ou projetos.
Filtre por modelo (um de cada vez)
Sempre filtre para um único modelo.
Por quê:
Problemas em modelos com pouco tráfego podem ser ocultados por tráfego de maior volume
Modelos de alto volume podem fazer problemas localizados parecerem globais
Modelos diferentes têm metas de desempenho diferentes
Observação: selecionar vários modelos os agrega — isso não alterna entre eles.
Filtre por tier de serviço
Se você usa mais de um tier (standard, priority, scale), sempre filtre para o tier que está investigando.
Por quê:
Tiers têm características de desempenho diferentes
Os tiers priority e scale têm SLAs definidos
Misturar tiers obscurece o desempenho dos tiers pagos
Isso é especialmente importante para análise de latência.
Filtre por projeto
Por padrão, a Integridade do Serviço mostra todos os projetos.
Para solução de problemas, filtre para o(s) projeto(s) em que o problema foi observado.
Por quê:
Um único projeto com alto volume pode dominar as métricas
Projetos menores afetados podem ser mascarados por tráfego não relacionado
Deixe "Todos os projetos" selecionado somente se você acreditar que o problema realmente afeta toda a organização.
Solução de problemas de erros
Use a visualização de solicitações HTTP
Para investigar erros:
Filtre por modelo e tier
Para mudar de Uptime para HTTP Requests, clique na aba HTTP Requests
Essa visualização mostra o total de solicitações e contagens de erros por código de status HTTP. Aplique zoom para resolução em nível de minuto para identificar picos ou mudanças granulares.
Interprete taxas de erro, não contagens
Alguns erros são esperados em qualquer sistema de produção. Foque na porcentagem de erros, não nos totais brutos.
Quanto maior seu volume total, maior o número potencial de erros, mesmo com uma taxa de erro extremamente baixa.
Quando erros não aparecem na Integridade do Serviço
Se você vir erros no lado do cliente, mas nenhum dado correspondente na Integridade do Serviço:
É provável que as solicitações não tenham chegado à OpenAI
O problema geralmente está upstream (timeouts, proxies, rede)
Isso é comum com timeouts agressivos no lado do cliente.
Solução de problemas de latência
A análise de latência é mais significativa nos tiers priority e scale, que têm SLAs definidos. O tier standard pode apresentar variação de latência mais ampla e não tem latência garantida.
Métricas principais
Para visualizar cada uma dessas métricas, clique na aba relevante:
Velocidade de tokens
Tokens gerados por segundo.
Independente do tamanho do prompt.
Tempo da solicitação
Duração total da solicitação.
Fortemente afetado pelo tamanho da saída e pelo raciocínio.
Tempo até o primeiro token (TTFT)
Tempo até o primeiro token ser gerado.
Fortemente afetado pelo tamanho do prompt de entrada sem cache e pelo raciocínio.
Sempre revise os percentis P50 / P75 / P95. Médias podem ocultar o impacto para usuários reais.
6. Correlacionando latência com uso de tokens
A Integridade do Serviço mostra quando o comportamento mudou. Os dados de Uso ajudam a explicar por quê.
No painel de Uso, faça o seguinte para garantir que você está olhando para os dados relevantes para sua visualização no Painel de Integridade do Serviço:
Filtre para o mesmo projeto, modelo
Agrupe por tier de serviço se aplicável
Concentre-se nos tokens de saída, que afetam mais fortemente a latência
Para uma análise mais aprofundada, exporte os Dados de Atividade e examine os tokens por solicitação ao longo do tempo.
7. O que compartilhar com o suporte (se necessário)
Se você entrar em contato com o suporte, inclua:
IDs das orgs afetadas (isso é importante)
Endpoints afetados (Chat Completions, Responses etc.) (isso é importante)
Modelos afetados (isso é importante)
Isso está no tier scale ou priority? (isso é importante)
Intervalos de tempo com fuso horário para latência ou erro (isso é importante)
x-request-id ou X-Client-Request-Id relevantes (geralmente importantes; inclua se possível)
Timestamps com fuso horário (ou pelo menos a data) das solicitações fornecidas
Latência - se compartilhar exemplos de solicitações lentas, compartilhe quanto tempo levou do seu lado. O ideal é também incluir os timestamps de quando a solicitação foi enviada e quando foi recebida.
Erros - compartilhe a porcentagem aproximada de solicitações que falharam/deram erro, código(s) de resposta, mensagem(ns) de erro e quanto tempo levou para receber a resposta de erro
ID do projeto relacionado às solicitações
Isso está impactando solicitações de residência de dados? Se sim, quais?
Descrições das tendências que você está vendo
Erros: % aproximada de solicitações que falharam/deram erro
Latência: quais percentis são afetados (p50 / p90 / p95 / p99) e quão altos estão em comparação com a linha de base do cliente
Ambos: capturas de tela ou tabela de dados de erro ou latência (Como você determinou que as taxas de erro ou a latência estão acima do esperado?)
Cenários comuns de solução de problemas
Timeouts ocorrem, mas a Integridade do Serviço parece normal
Causa possível: as solicitações estão expirando antes de chegar à OpenAI.
Verifique:
Configurações de timeout do cliente ou proxy
Mudanças na rede local ou no balanceador de carga
Presença de erros 499 no painel de Integridade do Serviço (eles podem aparecer como erros 5xx em seus próprios sistemas).
A latência aumentou sem um deployment
Causa possível: O tamanho dos tokens de saída ou o uso de raciocínio aumentou e\ou o tráfego mudou entre tiers de serviço
Verifique:
Média de tokens de saída por solicitação no painel de Uso (requer baixar os dados e dividir os tokens de saída pelo total de solicitações).
Percentis de Tempo da solicitação e TTFT no painel de Integridade do Serviço.
O tier Priority ou Scale parece lento
Causa possível: as métricas estão misturadas entre tiers (ou seja, o tráfego do tier standard está mascarando o desempenho do tier pago)
Verifique:
Os filtros estão restritos a um único tier e modelo
Comparação da velocidade de tokens entre tiers
Pico de erros 5XX
Causa provável: falhas transitórias afetando uma pequena porcentagem do tráfego.
Verifique:
Porcentagem da taxa de erro
Se o volume de tráfego mudou ao mesmo tempo
O problema afeta apenas um projeto
Causa provável: configuração ou padrão de uso específico do projeto.
Verifique:
Filtragem em nível de projeto
Comparação com projetos não afetados
Considerações finais
Filtre por modelo, tier e, quando relevante, projeto antes de interpretar as métricas
Use percentis, não médias, para análise de latência
Pequenas taxas de erro são esperadas
Dados ausentes geralmente indicam problemas upstream
Os dados de Uso podem ajudar a explicar por que a latência mudou; a Integridade do Serviço ajuda a mostrar quando
