Visão geral
Controlar o tamanho da resposta de um modelo é útil por vários motivos: ajuda a gerenciar custos (pois você paga por token), melhora a latência/o desempenho (respostas mais curtas são retornadas mais rápido) e garante a relevância ao evitar saídas longas ou verbosas demais.
Você pode fazer isso usando limites de token, configurações de raciocínio e detalhamento, instruções claras, exemplos e sequências de parada. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.
Defina um tamanho máximo de saída
API Responses
Usada com modelos GPT-5 e a maioria dos modelos da série O: use max_output_tokens para limitar o número de tokens que o modelo vai gerar. Em solicitações compaction_trigger, omita max_output_tokens ou defina-o como pelo menos 20000; valores menores são rejeitados. A API Responses não oferece suporte a múltiplas conclusões (n).
API chat completions
Usada para GPT-3.5 legado, GPT-4o e, às vezes, modelos da série O.
Para modelos de raciocínio como o3 e o4-mini, use
max_completion_tokens(alias demax_tokens)Para modelos anteriores/sem raciocínio,
max_tokensainda funcionaOferece suporte a
stopen(múltiplas conclusões).
Observação: Não existe configuração de “tokens mínimos”. Se precisar de um tamanho mínimo, especifique-o no seu prompt.
Limites de token por grupo de modelos
Para ver limites de token, tamanhos de contexto e limites máximos de saída atualizados, consulte a documentação do modelo específico.
Exemplos rápidos
API Responses
{ "model": "gpt-5", "input": "Resuma as descobertas em ~80 palavras.", "max_output_tokens": 120 }Chat Completions (modelo de raciocínio)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Escreva cinco opções de uma linha."}], "max_completion_tokens": 100 }Controles específicos dos modelos GPT-5: verbosity e reasoning.effort
Esses controles estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro etc.). Modelos da série O e modelos legados não oferecem suporte a eles.
`verbosity` aceita "low", "medium" (padrão) ou "high". Isso influencia o nível de detalhe, mas não os limites rígidos.
{ "model": "gpt-5", "input": "Explique o PageRank em linhas gerais.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. GPT-5.2 aceita none,low, medium, high,and xhigh. gpt-5.2-pro aceita apenas medium, high,and xhigh. Modelos de raciocínio anteriores aceitam apenas low, medium e high.
{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }Você pode definir `reasoning.effort` como none para fazer o modelo se comportar como um modelo sem raciocínio em casos de uso sensíveis à latência.
Forneça instruções específicas
Peça o tamanho ou formato exato que você deseja. Exemplos:
“Liste exatamente cinco opções.”
“Escreva um resumo de 50 palavras.”
“No máximo 100 tokens. Se precisar de mais espaço, diga ‘Preciso de mais espaço.’”
Use exemplos com tamanho consistente
Exemplos few-shot que correspondem ao tamanho desejado ajudam o modelo a manter o padrão.
Aplique sequências de parada estratégicas
Use stop para interromper a geração quando o modelo atingir um delimitador ou o limite de uma lista numerada.
{ "stop": ["\n###", "6."] }Múltiplos candidatos
Chat Completions:
nretorna várias conclusões em uma única chamada.API Responses:
nnão é compatível; faça várias chamadas se precisar de mais de uma saída.
