OpenAI
Esta página foi traduzida automaticamente. Veja o artigo original em inglês.

Como controlar o tamanho das respostas dos modelos da OpenAI

Saiba como definir limites de saída para modelos da OpenAI usando configurações de token, prompts claros, exemplos e sequências de parada.

Atualizado: 21 hours ago

Visão geral

Controlar o tamanho da resposta de um modelo é útil por vários motivos: ajuda a gerenciar custos (pois você paga por token), melhora a latência/o desempenho (respostas mais curtas são retornadas mais rápido) e garante a relevância ao evitar saídas longas ou verbosas demais.

Você pode fazer isso usando limites de token, configurações de raciocínio e detalhamento, instruções claras, exemplos e sequências de parada. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.

Defina um tamanho máximo de saída

API Responses

Usada com modelos GPT-5 e a maioria dos modelos da série O: use max_output_tokens para limitar o número de tokens que o modelo vai gerar. Em solicitações compaction_trigger, omita max_output_tokens ou defina-o como pelo menos 20000; valores menores são rejeitados. A API Responses não oferece suporte a múltiplas conclusões (n).

API chat completions

Usada para GPT-3.5 legado, GPT-4o e, às vezes, modelos da série O.

  • Para modelos de raciocínio como o3 e o4-mini, use max_completion_tokens (alias de max_tokens)

  • Para modelos anteriores/sem raciocínio, max_tokens ainda funciona

  • Oferece suporte a stop e n (múltiplas conclusões).

Observação: Não existe configuração de “tokens mínimos”. Se precisar de um tamanho mínimo, especifique-o no seu prompt.

Limites de token por grupo de modelos

Para ver limites de token, tamanhos de contexto e limites máximos de saída atualizados, consulte a documentação do modelo específico.

Exemplos rápidos

API Responses

{ "model": "gpt-5", "input": "Resuma as descobertas em ~80 palavras.", "max_output_tokens": 120 }

Chat Completions (modelo de raciocínio)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Escreva cinco opções de uma linha."}], "max_completion_tokens": 100 }

Controles específicos dos modelos GPT-5: verbosity e reasoning.effort

Esses controles estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro etc.). Modelos da série O e modelos legados não oferecem suporte a eles.

`verbosity` aceita "low", "medium" (padrão) ou "high". Isso influencia o nível de detalhe, mas não os limites rígidos.

{ "model": "gpt-5", "input": "Explique o PageRank em linhas gerais.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. GPT-5.2 aceita none,low, medium, high,and xhigh. gpt-5.2-pro aceita apenas medium, high,and xhigh. Modelos de raciocínio anteriores aceitam apenas low, medium e high.

{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }

Você pode definir `reasoning.effort` como none para fazer o modelo se comportar como um modelo sem raciocínio em casos de uso sensíveis à latência.

Forneça instruções específicas

Peça o tamanho ou formato exato que você deseja. Exemplos:

  • “Liste exatamente cinco opções.”

  • “Escreva um resumo de 50 palavras.”

  • “No máximo 100 tokens. Se precisar de mais espaço, diga ‘Preciso de mais espaço.’”

Use exemplos com tamanho consistente

Exemplos few-shot que correspondem ao tamanho desejado ajudam o modelo a manter o padrão.

Aplique sequências de parada estratégicas

Use stop para interromper a geração quando o modelo atingir um delimitador ou o limite de uma lista numerada.

{ "stop": ["\n###", "6."] }

Múltiplos candidatos

  • Chat Completions: n retorna várias conclusões em uma única chamada.

  • API Responses: n não é compatível; faça várias chamadas se precisar de mais de uma saída.

Este artigo foi útil?