Disponibilizamos agora processamento prioritário para clientes da API Enterprise que pretendem aceder a um desempenho mais rápido e mais consistente em determinados modelos. Abaixo encontra respostas a perguntas comuns sobre o seu funcionamento, preços, disponibilidade de modelos, limites de taxa, fiabilidade, políticas e elegibilidade.

Saiba mais aqui.

Acesso

Quem pode aceder ao processamento prioritário?

Atualmente, o processamento prioritário está disponível para clientes Enterprise.

O processamento prioritário está disponível em todas as regiões?

A disponibilidade do processamento prioritário depende das leis e regulamentos aplicáveis em cada jurisdição. Contacte o seu Diretor de Conta se tiver dúvidas sobre a disponibilidade na sua região.

Preços

Como começo a utilizar o processamento prioritário?

Os clientes podem encaminhar tráfego para o processamento prioritário por pedido, utilizando o parâmetro existente service_tier, com a opção service_tier="priority".

Como é que isto interage com a Camada de escala?

A Camada de escala continuará separada do processamento prioritário. Os pedidos enviados para processamento prioritário serão faturados separadamente e não contarão para os pacotes TPM da Camada de escala que comprou.

Posso enviar automaticamente o tráfego excedente da minha Camada de escala para o processamento prioritário?

Não. O tráfego enviado para a Camada de escala não transitará automaticamente para o processamento prioritário.

Como é faturado o processamento prioritário?

Os tokens servidos pelo processamento prioritário serão faturados por token, com um preço superior às tarifas do processamento Standard.

O meu compromisso anual está associado a um modo de processamento específico?

Não. Todos os modos de processamento contam para o seu compromisso anual de despesa Enterprise.

Continuo a obter um desconto nos tokens de entrada em cache?

Sim! As entradas em cache recebem o mesmo desconto de 50-75% que recebem no processamento Standard.

Como posso ver a minha utilização e despesa de processamento prioritário?

Para ver os tokens processados pelo processamento prioritário, aceda ao painel de Utilização, selecione Chat Completions ou Responses e agrupe por Camada de serviço. Para ver o custo do processamento prioritário, aceda ao painel de Utilização e selecione Agrupar por item de linha.

Modelos

O processamento prioritário está disponível para contexto longo, modelos com fine-tuning, embeddings, etc.?

Neste momento, não. No futuro, iremos avaliar se disponibilizamos processamento prioritário em produtos adicionais para além dos nossos modelos mais recentes.

Como funcionam outras modalidades com o processamento prioritário?

O processamento prioritário suporta as mesmas capacidades multimodais disponíveis no Standard. Em particular, as imagens podem ser utilizadas como entradas para o processamento prioritário e são processadas com a mesma baixa latência.

Os modelos futuros serão suportados?

Planeamos oferecer processamento prioritário em novos modelos GPT, mas não garantimos que todos os modelos sejam suportados.

Limites de taxa

Quais são os limites de taxa?

O consumo de processamento prioritário é tratado da mesma forma que o tráfego de API Standard para efeitos de limites de taxa.

Quais são os limites de taxa de aumento?

O processamento prioritário tem limites de taxa de aumento para garantir um desempenho elevado e consistente a todos os clientes, mantendo ao mesmo tempo preços flexíveis e a pedido. Se (a) o desempenho do processamento prioritário estiver degradado E (b) o tráfego de um cliente estiver a aumentar demasiado depressa, então, em casos raros, alguns pedidos Priority poderão ser antes rebaixados para processamento Standard.

O limite de taxa de aumento atual do processamento prioritário está definido na nossa documentação principal aqui.

Melhores práticas para se manter dentro do seu limite de taxa de aumento

Aumente gradualmente o tráfego ao mudar de modelos. Por exemplo, se a sua aplicação estiver a fazer a transição de um snapshot anterior para um novo, utilize uma flag de funcionalidade para fazer a transição do tráfego ao longo de algumas horas, em vez de tudo de uma só vez.

Evite executar grandes trabalhos de processamento de dados ou trabalhos assíncronos no processamento prioritário. Estes trabalhos podem aumentar o tráfego muito rapidamente e, muitas vezes, não precisam do desempenho melhorado do processamento prioritário.
Se encontrar habitualmente limites de taxa de aumento, considere antes comprar quota da Camada de escala.

Os limites de taxa de aumento são partilhados entre os meus projetos ou organizações?

Sim, todo o seu tráfego contribui para o mesmo limite de taxa de aumento.

Políticas

O que acontece se o processamento prioritário não cumprir o objetivo de latência?

Contacte o seu AD se tiver perguntas ou preocupações. Os SLAs do processamento prioritário serão tratados da mesma forma que os SLAs da Camada de escala; serão oferecidos créditos de serviço caso não cumpramos esses SLAs para clientes com contratos Enterprise durante uma determinada janela temporal.

O processamento prioritário é compatível com a residência de dados?

Sim.

O processamento prioritário é compatível com ZDR e o BAA?