Visão geral
Controlar o comprimento da resposta de um modelo é útil por vários motivos: ajuda a gerir custos (uma vez que paga por token), melhora a latência/o desempenho (as respostas mais curtas são devolvidas mais rapidamente) e garante relevância ao evitar saídas demasiado longas ou verbosas.
Pode conseguir isto usando limites de tokens, definições de raciocínio e verbosidade, instruções claras, exemplos e sequências de paragem. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.
Definir um comprimento máximo de saída
API Responses
Usada para modelos GPT-5 e a maioria dos modelos da série o: use max_output_tokens para limitar o número de tokens que o modelo irá gerar. Suporta stop, mas não suporta múltiplas conclusões (n).
API chat completions
Usada para GPT-3.5, GPT-4o e, por vezes, modelos da série o legados.
Para modelos de raciocínio como o3 e o4-mini, use
max_completion_tokens(alias demax_tokens)Para modelos anteriores/sem raciocínio,
max_tokenscontinua a funcionarSuporta
stopen(múltiplas conclusões).
Nota: Não existe uma definição de “tokens mínimos”. Se precisar de um comprimento mínimo, especifique-o no prompt.
Limites de tokens por grupo de modelos
Para limites de tokens, tamanhos de contexto e limites de saída atualizados, consulte a documentação específica do modelo.
Exemplos rápidos
API Responses
{ "model": "gpt-5", "input": "Resume as conclusões em ~80 palavras.", "max_output_tokens": 120 }Chat Completions (modelo de raciocínio)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Controlos específicos dos modelos GPT-5: verbosity e reasoning.effort
Estes controlos estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Os modelos da série o e os modelos legados não os suportam.
verbosity aceita "low", "medium" (predefinição) ou "high". Influencia o nível de detalhe, mas não limites rígidos.
{ "model": "gpt-5", "input": "Explica o PageRank a um nível geral.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. O GPT-5.2 suporta none,low, medium, high,and xhigh. O gpt-5.2-pro suporta apenas medium, high,and xhigh. Os modelos de raciocínio anteriores suportam apenas low, medium e high.
{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }Pode definir reasoning.effort para none para fazer com que o modelo se comporte como um modelo sem raciocínio em casos de uso sensíveis à latência.
Forneça instruções específicas
Peça o comprimento ou formato exato que pretende. Exemplos:
“Liste exatamente cinco opções.”
“Escreva um resumo de 50 palavras.”
“Não mais de 100 tokens. Se precisar de mais, diga ‘Preciso de mais espaço.’”
Use exemplos com comprimento consistente
Exemplos few-shot que correspondam ao comprimento pretendido ajudam o modelo a continuar o padrão.
Aplique sequências de paragem estratégicas
Use stop para interromper a geração quando o modelo atinge um delimitador ou o limite de uma lista numerada.
{ "stop": ["
###", "6."] }Vários candidatos
Chat Completions:
ndevolve várias conclusões numa só chamada.API Responses:
nnão é suportado; faça várias chamadas se precisar de mais do que uma saída.
