Passámos a disponibilizar o processamento prioritário para clientes Enterprise API que pretendem acesso a um desempenho mais rápido e mais consistente em determinados modelos. Seguem-se respostas a perguntas comuns sobre o seu funcionamento, preços, disponibilidade de modelos, limites de taxa, fiabilidade, políticas e elegibilidade.
Saiba mais aqui.
Acesso
Quem pode aceder ao processamento prioritário?
O processamento prioritário está atualmente disponível para clientes Enterprise.
O processamento prioritário está disponível em todas as regiões?
A disponibilidade do processamento prioritário depende das leis e regulamentos aplicáveis em cada jurisdição. Contacte o seu Account Director se tiver dúvidas sobre a disponibilidade na sua região.
Preços
Como começo a utilizar o processamento prioritário?
Os clientes podem direcionar tráfego para o processamento prioritário por pedido, utilizando o parâmetro existente service_tier, com a opção service_tier="priority".
Como é que isto interage com o Scale Tier?
O Scale Tier continuará separado do processamento prioritário. Os pedidos enviados para o processamento prioritário serão faturados em separado e não contarão para os seus pacotes TPM do Scale Tier adquiridos.
Posso enviar automaticamente o tráfego excedente do meu Scale Tier para o processamento prioritário?
Não. O tráfego enviado para o Scale Tier não transitará automaticamente para o processamento prioritário.
Como é faturado o processamento prioritário?
Os tokens processados pelo processamento prioritário serão faturados por token, com um preço premium relativamente às tarifas do processamento Standard.
O meu compromisso anual está associado a um modo de processamento específico?
Não. Todos os modos de processamento contam para o seu compromisso anual de despesa Enterprise.
Continuo a ter desconto nos tokens de entrada em cache?
Sim! As Cached Inputs recebem o mesmo desconto de 50-75% que no processamento Standard.
Como vejo a minha utilização e despesa de processamento prioritário?
Para ver os tokens processados pelo processamento prioritário, aceda ao painel Utilização, selecione Chat Completions ou Responses e, em seguida, Group by Service Tier. Para ver o custo do processamento prioritário, aceda ao painel Utilização e selecione Group by Line Item.
Modelos
O processamento prioritário está disponível para contexto longo, modelos afinados, embeddings, etc.?
Neste momento, não. No futuro, iremos avaliar se disponibilizamos o processamento prioritário em produtos adicionais para além dos nossos modelos mais recentes.
Como funcionam outras modalidades com o processamento prioritário?
O processamento prioritário suporta as mesmas capacidades multimodais disponíveis no Standard. Em particular, as imagens podem ser utilizadas como entradas no processamento prioritário e são processadas com a mesma latência rápida.
Os modelos futuros serão suportados?
Planeamos disponibilizar o processamento prioritário em novos modelos GPT, mas não garantimos que todos os modelos sejam suportados.
Limites de taxa
Quais são os limites de taxa?
O consumo do processamento prioritário é tratado da mesma forma que o tráfego API standard para efeitos de limites de taxa.
Quais são os limites de taxa de aceleração?
O processamento prioritário tem limites de taxa de aceleração para garantir um desempenho consistentemente elevado para todos os clientes, ao mesmo tempo que oferece preços flexíveis, a pedido. Se (a) o desempenho do processamento prioritário estiver degradado E (b) o tráfego de um cliente estiver a aumentar demasiado depressa, então, em casos raros, alguns pedidos prioritários podem ser rebaixados para processamento Standard.
O limite atual da taxa de aceleração do processamento prioritário está definido na nossa documentação principal aqui.
Boas práticas para se manter dentro do seu limite de taxa de aceleração
Aumente gradualmente o tráfego ao mudar de modelo. Por exemplo, se a sua aplicação estiver a transitar de um snapshot anterior para um novo, utilize uma feature flag para fazer a transição do tráfego ao longo de algumas horas, em vez de o fazer todo de uma vez.
Evite executar grandes tarefas de processamento de dados ou tarefas assíncronas no processamento prioritário. Estas tarefas podem aumentar o tráfego muito rapidamente e, muitas vezes, não necessitam do melhor desempenho do processamento prioritário.
Se encontrar rotineiramente limites de taxa de aceleração, considere adquirir quota do Scale tier.
Os limites de taxa de aceleração são partilhados entre os meus projetos ou organizações?
Sim, todo o seu tráfego contribui para o mesmo limite de taxa de aceleração.
Políticas
O que acontece se o processamento prioritário não cumprir o objetivo de latência?
Contacte o seu AD em caso de dúvidas ou preocupações. Os SLAs do processamento prioritário serão tratados da mesma forma que os SLAs do Scale Tier; serão oferecidos créditos de serviço caso não consigamos cumprir esses SLAs para clientes com contratos Enterprise durante um determinado período.
O processamento prioritário é compatível com residência de dados?
Sim.
O processamento prioritário é compatível com ZDR e o BAA?
Sim.
