Descrição geral
Controlar a extensão da resposta de um modelo é útil por vários motivos: ajuda a gerir custos (uma vez que paga por token), melhora a latência/desempenho (as respostas mais curtas são devolvidas mais depressa) e garante relevância, evitando saídas demasiado longas ou prolixas.
Pode conseguir isto usando limites de tokens, definições de raciocínio e verbosidade, instruções claras, exemplos e sequências de paragem. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.
Defina uma extensão máxima de saída
API Responses
Utilizada para modelos GPT-5 e para a maioria dos modelos da série o: use max_output_tokens para limitar o número de tokens que o modelo irá gerar. Para pedidos compaction_trigger, omita max_output_tokens ou defina-o como, pelo menos, 20000; valores inferiores são rejeitados. A API Responses não suporta várias conclusões (n).
API chat completions
Utilizada para GPT-3.5 legado, GPT-4o e, por vezes, modelos da série o.
Para modelos de raciocínio como o3 e o4-mini, use
max_completion_tokens(alias demax_tokens)Para modelos anteriores/sem raciocínio,
max_tokensainda funcionaSuporta
stopen(várias conclusões).
Nota: Não existe uma definição de “tokens mínimos”. Se precisar de um comprimento mínimo, especifique-o no prompt.
Limites de tokens por grupo de modelos
Para consultar limites de tokens, tamanhos de contexto e limites máximos de saída atualizados, consulte a documentação do modelo específico.
Exemplos rápidos
API Responses
{ "model": "gpt-5", "input": "Resume as conclusões em ~80 palavras.", "max_output_tokens": 120 }Chat Completions (modelo de raciocínio)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Controlos específicos dos modelos GPT-5: verbosity e reasoning.effort
Estes controlos estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Os modelos da série O e os modelos legados não os suportam.
`verbosity` aceita "low", "medium" (predefinição) ou "high". Influencia o nível de detalhe, mas não os limites rígidos.
{ "model": "gpt-5", "input": "Explica o PageRank a um nível geral.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. GPT-5.2 suporta none,low, medium, high,and xhigh. gpt-5.2-pro suporta apenas medium, high,and xhigh. Os modelos de raciocínio anteriores suportam apenas low, medium e high.
{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }Pode definir `reasoning.effort` como none para fazer com que o modelo se comporte como um modelo sem raciocínio em casos de utilização sensíveis à latência.
Forneça instruções específicas
Peça a extensão ou o formato exato que pretende. Exemplos:
«Liste exatamente cinco opções.»
«Escreva um resumo de 50 palavras.»
«No máximo 100 tokens. Se precisar de mais, diga “Preciso de mais espaço.”»
Use exemplos com extensão consistente
Exemplos few-shot que correspondam à extensão pretendida ajudam o modelo a manter o padrão.
Aplique sequências de paragem estratégicas
Use stop para interromper a geração quando o modelo atingir um delimitador ou o limite de uma lista numerada.
{ "stop": ["
###", "6."] }Vários candidatos
Chat Completions:
ndevolve várias conclusões numa única chamada.API Responses:
nnão é suportado; faça várias chamadas se precisar de mais do que uma saída.
