OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

FAQ sobre Processamento prioritário

Perguntas frequentes sobre o processamento prioritário

Atualizado: 13 days ago

Passámos a disponibilizar o processamento prioritário para clientes Enterprise API que pretendem acesso a um desempenho mais rápido e mais consistente em determinados modelos. Seguem-se respostas a perguntas comuns sobre o seu funcionamento, preços, disponibilidade de modelos, limites de taxa, fiabilidade, políticas e elegibilidade.

Saiba mais aqui.

Acesso

Quem pode aceder ao processamento prioritário?

O processamento prioritário está atualmente disponível para clientes Enterprise.

O processamento prioritário está disponível em todas as regiões?

A disponibilidade do processamento prioritário depende das leis e regulamentos aplicáveis em cada jurisdição. Contacte o seu Account Director se tiver dúvidas sobre a disponibilidade na sua região.

Preços

Como começo a utilizar o processamento prioritário?

Os clientes podem direcionar tráfego para o processamento prioritário por pedido, utilizando o parâmetro existente service_tier, com a opção service_tier="priority".

Como é que isto interage com o Scale Tier?

O Scale Tier continuará separado do processamento prioritário. Os pedidos enviados para o processamento prioritário serão faturados em separado e não contarão para os seus pacotes TPM do Scale Tier adquiridos.

Posso enviar automaticamente o tráfego excedente do meu Scale Tier para o processamento prioritário?

Não. O tráfego enviado para o Scale Tier não transitará automaticamente para o processamento prioritário.

Como é faturado o processamento prioritário?

Os tokens processados pelo processamento prioritário serão faturados por token, com um preço premium relativamente às tarifas do processamento Standard.

O meu compromisso anual está associado a um modo de processamento específico?

Não. Todos os modos de processamento contam para o seu compromisso anual de despesa Enterprise.

Continuo a ter desconto nos tokens de entrada em cache?

Sim! As Cached Inputs recebem o mesmo desconto de 50-75% que no processamento Standard.

Como vejo a minha utilização e despesa de processamento prioritário?

Para ver os tokens processados pelo processamento prioritário, aceda ao painel Utilização, selecione Chat Completions ou Responses e, em seguida, Group by Service Tier. Para ver o custo do processamento prioritário, aceda ao painel Utilização e selecione Group by Line Item.

Modelos

O processamento prioritário está disponível para contexto longo, modelos afinados, embeddings, etc.?

Neste momento, não. No futuro, iremos avaliar se disponibilizamos o processamento prioritário em produtos adicionais para além dos nossos modelos mais recentes.

Como funcionam outras modalidades com o processamento prioritário?

O processamento prioritário suporta as mesmas capacidades multimodais disponíveis no Standard. Em particular, as imagens podem ser utilizadas como entradas no processamento prioritário e são processadas com a mesma latência rápida.

Os modelos futuros serão suportados?

Planeamos disponibilizar o processamento prioritário em novos modelos GPT, mas não garantimos que todos os modelos sejam suportados.

Limites de taxa

Quais são os limites de taxa?

O consumo do processamento prioritário é tratado da mesma forma que o tráfego API standard para efeitos de limites de taxa.

Quais são os limites de taxa de aceleração?

O processamento prioritário tem limites de taxa de aceleração para garantir um desempenho consistentemente elevado para todos os clientes, ao mesmo tempo que oferece preços flexíveis, a pedido. Se (a) o desempenho do processamento prioritário estiver degradado E (b) o tráfego de um cliente estiver a aumentar demasiado depressa, então, em casos raros, alguns pedidos prioritários podem ser rebaixados para processamento Standard.

O limite atual da taxa de aceleração do processamento prioritário está definido na nossa documentação principal aqui.

Boas práticas para se manter dentro do seu limite de taxa de aceleração

  • Aumente gradualmente o tráfego ao mudar de modelo. Por exemplo, se a sua aplicação estiver a transitar de um snapshot anterior para um novo, utilize uma feature flag para fazer a transição do tráfego ao longo de algumas horas, em vez de o fazer todo de uma vez.

  • Evite executar grandes tarefas de processamento de dados ou tarefas assíncronas no processamento prioritário. Estas tarefas podem aumentar o tráfego muito rapidamente e, muitas vezes, não necessitam do melhor desempenho do processamento prioritário.

  • Se encontrar rotineiramente limites de taxa de aceleração, considere adquirir quota do Scale tier.

Os limites de taxa de aceleração são partilhados entre os meus projetos ou organizações?

Sim, todo o seu tráfego contribui para o mesmo limite de taxa de aceleração.

Políticas

O que acontece se o processamento prioritário não cumprir o objetivo de latência?

Contacte o seu AD em caso de dúvidas ou preocupações. Os SLAs do processamento prioritário serão tratados da mesma forma que os SLAs do Scale Tier; serão oferecidos créditos de serviço caso não consigamos cumprir esses SLAs para clientes com contratos Enterprise durante um determinado período.

O processamento prioritário é compatível com residência de dados?

Sim.

O processamento prioritário é compatível com ZDR e o BAA?

Sim.

Este artigo foi útil?