Saiba como definir limites de saída para modelos da OpenAI usando configurações de token, prompts claros, exemplos e sequências de parada.

Visão geral

Controlar o tamanho da resposta de um modelo é útil por vários motivos: ajuda a gerenciar custos (pois você paga por token), melhora a latência/o desempenho (respostas mais curtas são retornadas mais rápido) e garante a relevância ao evitar saídas longas ou verbosas demais.

Você pode fazer isso usando limites de token, configurações de raciocínio e detalhamento, instruções claras, exemplos e sequências de parada. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.

Defina um tamanho máximo de saída

API Responses

Usada com modelos GPT-5 e a maioria dos modelos da série O: use max_output_tokens para limitar o número de tokens que o modelo vai gerar. Em solicitações compaction_trigger, omita max_output_tokens ou defina-o como pelo menos 20000; valores menores são rejeitados. A API Responses não oferece suporte a múltiplas conclusões (n).

API chat completions

Usada para GPT-3.5 legado, GPT-4o e, às vezes, modelos da série O.

Para modelos de raciocínio como o3 e o4-mini, use max_completion_tokens (alias de max_tokens)
Para modelos anteriores/sem raciocínio, max_tokens ainda funciona
Oferece suporte a stop e n (múltiplas conclusões).

Observação: Não existe configuração de “tokens mínimos”. Se precisar de um tamanho mínimo, especifique-o no seu prompt.

Limites de token por grupo de modelos

Para ver limites de token, tamanhos de contexto e limites máximos de saída atualizados, consulte a documentação do modelo específico.

Exemplos rápidos

API Responses

{ "model": "gpt-5", "input": "Resuma as descobertas em ~80 palavras.", "max_output_tokens": 120 }

Chat Completions (modelo de raciocínio)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Escreva cinco opções de uma linha."}], "max_completion_tokens": 100 }

Controles específicos dos modelos GPT-5: `verbosity` e `reasoning.effort`

Esses controles estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro etc.). Modelos da série O e modelos legados não oferecem suporte a eles.

`verbosity` aceita "low", "medium" (padrão) ou "high". Isso influencia o nível de detalhe, mas não os limites rígidos.

{ "model": "gpt-5", "input": "Explique o PageRank em linhas gerais.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. GPT-5.2 aceita none,low, medium, high,and xhigh. gpt-5.2-pro aceita apenas medium, high,and xhigh. Modelos de raciocínio anteriores aceitam apenas low, medium e high.

{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }

Você pode definir `reasoning.effort` como none para fazer o modelo se comportar como um modelo sem raciocínio em casos de uso sensíveis à latência.

Forneça instruções específicas

Peça o tamanho ou formato exato que você deseja. Exemplos:

“Liste exatamente cinco opções.”
“Escreva um resumo de 50 palavras.”
“No máximo 100 tokens. Se precisar de mais espaço, diga ‘Preciso de mais espaço.’”

Use exemplos com tamanho consistente

Exemplos few-shot que correspondem ao tamanho desejado ajudam o modelo a manter o padrão.

Aplique sequências de parada estratégicas

Use stop para interromper a geração quando o modelo atingir um delimitador ou o limite de uma lista numerada.

{ "stop": ["\n###", "6."] }

Múltiplos candidatos

Chat Completions: n retorna várias conclusões em uma única chamada.
API Responses: n não é compatível; faça várias chamadas se precisar de mais de uma saída.

Como controlar o tamanho das respostas dos modelos da OpenAI

Visão geral

Defina um tamanho máximo de saída

API Responses

API chat completions

Limites de token por grupo de modelos

Exemplos rápidos

Controles específicos dos modelos GPT-5: `verbosity` e `reasoning.effort`

Forneça instruções específicas

Use exemplos com tamanho consistente

Aplique sequências de parada estratégicas

Múltiplos candidatos

Este artigo foi útil?

Como controlar o tamanho das respostas dos modelos da OpenAI

Visão geral

Defina um tamanho máximo de saída

API Responses

API chat completions

Limites de token por grupo de modelos

Exemplos rápidos

Controles específicos dos modelos GPT-5: verbosity e reasoning.effort

Forneça instruções específicas

Use exemplos com tamanho consistente

Aplique sequências de parada estratégicas

Múltiplos candidatos

Este artigo foi útil?

Controles específicos dos modelos GPT-5: `verbosity` e `reasoning.effort`