Agora oferecemos Processamento Prioritário para clientes Enterprise da API que desejam acesso a um desempenho mais rápido e consistente em determinados modelos. Abaixo estão as respostas para dúvidas comuns sobre como funciona, preços, disponibilidade de modelos, limites de taxa, confiabilidade, políticas e elegibilidade.
Saiba mais aqui.
Acesso
Quem pode acessar o Processamento Prioritário?
No momento, o Processamento Prioritário está disponível para clientes Enterprise.
O Processamento Prioritário está disponível em todas as regiões?
A disponibilidade do Processamento Prioritário depende das leis e regulamentações aplicáveis em cada jurisdição. Entre em contato com seu Account Director se tiver dúvidas sobre a disponibilidade na sua região.
Preços
Como começo a usar o Processamento Prioritário?
Os clientes podem direcionar tráfego para o Processamento Prioritário por solicitação usando o parâmetro existente service_tier, com a opção service_tier="priority".
Como isso interage com o Scale Tier?
O Scale Tier permanecerá separado do Processamento Prioritário. Solicitações enviadas ao Processamento Prioritário serão cobradas separadamente e não serão contabilizadas nos seus pacotes de TPM do Scale Tier adquiridos.
Posso enviar automaticamente meu tráfego excedente do Scale Tier para o Processamento Prioritário?
Não. O tráfego enviado ao Scale Tier não transbordará automaticamente para o Processamento Prioritário.
Como o Processamento Prioritário é cobrado?
Os tokens atendidos pelo Processamento Prioritário serão cobrados por token, com preço premium em relação às tarifas do Processamento Padrão.
Meu compromisso anual está vinculado a um modo de processamento específico?
Não. Todos os modos de processamento contam para seu compromisso anual de gastos Enterprise.
Ainda recebo desconto em tokens de entrada em cache?
Sim! Entradas em cache recebem o mesmo desconto de 50–75% que recebem no Processamento Padrão.
Como vejo meu uso e gasto com Processamento Prioritário?
Para ver os tokens processados pelo Processamento Prioritário, acesse o painel de Uso, selecione Chat Completions ou Responses e Agrupe por Service Tier. Para ver o custo do Processamento Prioritário, acesse o painel de Uso e selecione Agrupar por Line Item.
Modelos
O Processamento Prioritário está disponível para contexto longo, modelos fine-tuned, embeddings etc.?
No momento, não. No futuro, avaliaremos oferecer Processamento Prioritário em produtos adicionais além dos nossos modelos mais recentes.
Como outras modalidades funcionam com o Processamento Prioritário?
O Processamento Prioritário oferece as mesmas capacidades multimodais disponíveis no Padrão. Em particular, imagens podem ser usadas como entradas no Processamento Prioritário e são processadas com a mesma baixa latência.
Modelos futuros serão compatíveis?
Planejamos oferecer Processamento Prioritário em novos modelos GPT, mas não garantimos que todos os modelos serão compatíveis.
Limites de taxa
Quais são os limites de taxa?
O consumo do Processamento Prioritário é tratado da mesma forma que o tráfego padrão da API para fins de limites de taxa.
Quais são os limites de taxa de rampa?
O Processamento Prioritário tem limites de taxa de rampa para garantir desempenho consistentemente alto para todos os clientes, ao mesmo tempo em que oferece preços flexíveis, sob demanda. Se (a) o desempenho do Processamento Prioritário estiver degradado E (b) o tráfego de um cliente estiver aumentando rápido demais, então, em casos raros, algumas solicitações de Priority podem ser rebaixadas para o Processamento Padrão.
O limite atual de taxa de rampa do Processamento Prioritário está definido em nossa documentação principal aqui.
Boas práticas para ficar dentro do seu limite de taxa de rampa
Aumente o tráfego gradualmente ao trocar de modelo. Por exemplo, se seu aplicativo estiver migrando de um snapshot anterior para um novo, use um feature flag para transferir o tráfego ao longo de algumas horas, em vez de tudo de uma vez.
Evite executar grandes processamentos de dados ou jobs assíncronos no Processamento Prioritário. Esses jobs podem aumentar o tráfego muito rapidamente e, muitas vezes, não precisam do desempenho melhorado do Processamento Prioritário.
Se você encontra limites de taxa de rampa com frequência, considere comprar cota do Scale Tier em vez disso.
Os limites de taxa de rampa são compartilhados entre meus projetos ou organizações?
Sim, todo o seu tráfego contribui para o mesmo limite de taxa de rampa.
Políticas
O que acontece se o Processamento Prioritário não estiver atingindo a meta de latência?
Entre em contato com seu AD em caso de dúvidas ou preocupações. Os SLAs de Processamento Prioritário serão tratados da mesma forma que os SLAs do Scale Tier; créditos de serviço serão oferecidos caso não consigamos cumprir esses SLAs para clientes com contratos Enterprise durante uma determinada janela de tempo.
O Processamento Prioritário é compatível com Data Residency?
Sim.
O Processamento Prioritário é compatível com ZDR e o BAA?
Sim.
