Agora oferecemos processamento prioritário para clientes da API Enterprise que desejam acesso a um desempenho mais rápido e consistente em determinados modelos. Abaixo estão respostas a perguntas comuns sobre como ele funciona, preços, disponibilidade de modelos, limites de taxa, confiabilidade, políticas e elegibilidade.

Saiba mais aqui.

Acesso

Quem pode acessar o processamento prioritário?

No momento, o processamento prioritário está disponível para clientes Enterprise.

O processamento prioritário está disponível em todas as regiões?

A disponibilidade do processamento prioritário depende das leis e regulamentações aplicáveis em cada jurisdição. Entre em contato com seu diretor de contas se tiver dúvidas sobre a disponibilidade na sua região.

Preços

Como começo a usar o processamento prioritário?

Os clientes podem direcionar tráfego para o processamento prioritário por solicitação usando o parâmetro existente service_tier, com a opção service_tier="priority".

Como isso interage com o Nível de escala?

O Nível de escala permanecerá separado do processamento prioritário. As solicitações enviadas ao processamento prioritário serão cobradas separadamente e não contarão para os pacotes de TPM do Nível de escala que você comprou.

Posso enviar automaticamente o tráfego excedente do meu Nível de escala para o processamento prioritário?

Não. O tráfego enviado ao Nível de escala não será transferido automaticamente para o processamento prioritário.

Como o processamento prioritário é cobrado?

Os tokens atendidos pelo processamento prioritário serão cobrados por token, com preço premium em relação às tarifas do processamento Standard.

Meu compromisso anual está vinculado a um modo de processamento específico?

Não. Todos os modos de processamento contam para o seu compromisso anual de gastos Enterprise.

Ainda recebo desconto em tokens de entrada em cache?

Sim! As entradas em cache recebem o mesmo desconto de 50 a 75% que recebem no processamento Standard.

Como posso ver meu uso e meus gastos com processamento prioritário?

Para ver os tokens processados pelo processamento prioritário, acesse o painel de Uso, selecione Chat Completions ou Responses e agrupe por Nível de serviço. Para ver o custo do processamento prioritário, acesse o painel de Uso e selecione Agrupar por item de linha.

Modelos

O processamento prioritário está disponível para contexto longo, modelos ajustados, embeddings etc.?

Não neste momento. No futuro, avaliaremos se devemos oferecer processamento prioritário em outros produtos além dos nossos modelos mais recentes.

Como outras modalidades funcionam com o processamento prioritário?

O processamento prioritário oferece suporte aos mesmos recursos multimodais disponíveis no Standard. Em particular, imagens podem ser usadas como entradas para o processamento prioritário e são processadas com a mesma baixa latência.

Modelos futuros terão suporte?

Planejamos oferecer processamento prioritário em novos modelos GPT, mas não garantimos que todos os modelos terão suporte.

Limites de taxa

Quais são os limites de taxa?

O consumo do processamento prioritário é tratado da mesma forma que o tráfego padrão da API para limites de taxa.

Quais são os limites de taxa de aumento?

O processamento prioritário tem limites de taxa de aumento para garantir desempenho consistentemente alto para todos os clientes, ao mesmo tempo que oferece preços flexíveis sob demanda. Se (a) o desempenho do processamento prioritário estiver degradado E (b) o tráfego de um cliente estiver aumentando rápido demais, algumas solicitações Priority poderão ser rebaixadas para o processamento Standard em raras ocasiões.

O limite atual de taxa de aumento do processamento prioritário está definido na nossa documentação principal aqui.

Práticas recomendadas para permanecer dentro do seu limite de taxa de aumento

Aumente o tráfego gradualmente ao trocar de modelo. Por exemplo, se o seu aplicativo estiver fazendo a transição de um snapshot anterior para um novo, use uma sinalização de recurso para fazer a transição do tráfego ao longo de algumas horas, em vez de tudo de uma vez.

Evite executar grandes trabalhos de processamento de dados ou assíncronos no processamento prioritário. Esses trabalhos podem aumentar o tráfego muito rapidamente e, muitas vezes, não precisam do desempenho aprimorado do processamento prioritário.
Se você encontrar limites de taxa de aumento com frequência, considere comprar uma cota do Nível de escala.

Os limites de taxa de aumento são compartilhados entre meus projetos ou organizações?

Sim, todo o seu tráfego contribui para o mesmo limite de taxa de aumento.

Políticas

O que acontece se o processamento prioritário não estiver atingindo a meta de latência?

Entre em contato com seu AD se tiver dúvidas ou preocupações. Os SLAs do processamento prioritário serão tratados da mesma forma que os SLAs do Nível de escala; créditos de serviço serão oferecidos caso não cumpramos esses SLAs para clientes com contratos Enterprise durante uma determinada janela de tempo.

O processamento prioritário é compatível com residência de dados?

Sim.

O processamento prioritário é compatível com ZDR e o BAA?