Visão geral
Controlar o comprimento da resposta de um modelo é útil por vários motivos: ajuda a gerenciar custos (já que você paga por token), melhora a latência/desempenho (respostas mais curtas retornam mais rápido) e garante relevância ao evitar saídas longas demais ou verbosas.
Você pode fazer isso usando limites de tokens, configurações de raciocínio e verbosidade, instruções claras, exemplos e sequências de parada. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.
Defina um comprimento máximo de saída
API Responses
Usada para modelos GPT-5 e a maioria dos modelos da série o: use max_output_tokens para limitar o número de tokens que o modelo vai gerar. Compatível com stop, mas não oferece suporte a múltiplas conclusões (n).
API Chat Completions
Usada para GPT-3.5 legado, GPT-4o e, às vezes, modelos da série o.
Para modelos de raciocínio como o3 e o4-mini, use
max_completion_tokens(apelido demax_tokens)Para modelos anteriores/sem raciocínio,
max_tokensainda funcionaCompatível com
stopen(múltiplas conclusões).
Observação: não existe configuração de “tokens mínimos”. Se você precisar de um comprimento mínimo, especifique isso no seu prompt.
Limites de tokens por grupo de modelos
Para limites de tokens, tamanhos de contexto e limites de saída atualizados, consulte a documentação específica do modelo.
Exemplos rápidos
API Responses
{ "model": "gpt-5", "input": "Resuma as conclusões em ~80 palavras.", "max_output_tokens": 120 }Chat Completions (modelo de raciocínio)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Escreva cinco opções de uma linha."}], "max_completion_tokens": 100 }Controles específicos dos modelos GPT-5: verbosity e reasoning.effort
Esses controles estão disponíveis apenas nos modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro etc.). Modelos da série o e modelos legados não oferecem suporte a eles.
verbosity aceita "low", "medium" (padrão) ou "high". Ela influencia o nível de detalhes, mas não limites rígidos.
{ "model": "gpt-5", "input": "Explique o PageRank em alto nível.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. O GPT-5.2 aceita none,low, medium, high,and xhigh. O gpt-5.2-pro aceita apenas medium, high,and xhigh. Modelos de raciocínio anteriores aceitam apenas low, medium e high.
{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }Você pode definir reasoning.effort como none para fazer o modelo se comportar como um modelo sem raciocínio em casos de uso sensíveis à latência.
Forneça instruções específicas
Peça o tamanho ou o formato exato que você quer. Exemplos:
“Liste exatamente cinco opções.”
“Escreva um resumo de 50 palavras.”
“No máximo 100 tokens. Se precisar de mais, diga ‘Preciso de mais espaço’.”
Use exemplos com comprimento consistente
Exemplos few-shot que correspondem ao comprimento desejado ajudam o modelo a continuar o padrão.
Aplique sequências de parada estratégicas
Use stop para interromper a geração quando o modelo alcançar um delimitador ou o limite de uma lista numerada.
{ "stop": ["\n###", "6."] }Múltiplos candidatos
Chat Completions:
nretorna múltiplas conclusões em uma única chamada.API Responses:
nnão é compatível; faça várias chamadas se precisar de mais de uma saída.
