Saiba como definir limites de saída para modelos OpenAI com definições de tokens, prompts claros, exemplos e sequências de paragem.

Descrição geral

Controlar a extensão da resposta de um modelo é útil por vários motivos: ajuda a gerir custos (uma vez que paga por token), melhora a latência/desempenho (as respostas mais curtas são devolvidas mais depressa) e garante relevância, evitando saídas demasiado longas ou prolixas.

Pode conseguir isto usando limites de tokens, definições de raciocínio e verbosidade, instruções claras, exemplos e sequências de paragem. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.

Defina uma extensão máxima de saída

API Responses

Utilizada para modelos GPT-5 e para a maioria dos modelos da série o: use max_output_tokens para limitar o número de tokens que o modelo irá gerar. Para pedidos compaction_trigger, omita max_output_tokens ou defina-o como, pelo menos, 20000; valores inferiores são rejeitados. A API Responses não suporta várias conclusões (n).

API chat completions

Utilizada para GPT-3.5 legado, GPT-4o e, por vezes, modelos da série o.

Para modelos de raciocínio como o3 e o4-mini, use max_completion_tokens (alias de max_tokens)
Para modelos anteriores/sem raciocínio, max_tokens ainda funciona
Suporta stop e n (várias conclusões).

Nota: Não existe uma definição de “tokens mínimos”. Se precisar de um comprimento mínimo, especifique-o no prompt.

Limites de tokens por grupo de modelos

Para consultar limites de tokens, tamanhos de contexto e limites máximos de saída atualizados, consulte a documentação do modelo específico.

Exemplos rápidos

API Responses

{ "model": "gpt-5", "input": "Resume as conclusões em ~80 palavras.", "max_output_tokens": 120 }

Chat Completions (modelo de raciocínio)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Controlos específicos dos modelos GPT-5: `verbosity` e `reasoning.effort`

Estes controlos estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Os modelos da série O e os modelos legados não os suportam.

`verbosity` aceita "low", "medium" (predefinição) ou "high". Influencia o nível de detalhe, mas não os limites rígidos.

{ "model": "gpt-5", "input": "Explica o PageRank a um nível geral.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. GPT-5.2 suporta none,low, medium, high,and xhigh. gpt-5.2-pro suporta apenas medium, high,and xhigh. Os modelos de raciocínio anteriores suportam apenas low, medium e high.

{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }

Pode definir `reasoning.effort` como none para fazer com que o modelo se comporte como um modelo sem raciocínio em casos de utilização sensíveis à latência.

Forneça instruções específicas

Peça a extensão ou o formato exato que pretende. Exemplos:

«Liste exatamente cinco opções.»
«Escreva um resumo de 50 palavras.»
«No máximo 100 tokens. Se precisar de mais, diga “Preciso de mais espaço.”»

Use exemplos com extensão consistente

Exemplos few-shot que correspondam à extensão pretendida ajudam o modelo a manter o padrão.

Aplique sequências de paragem estratégicas

Use stop para interromper a geração quando o modelo atingir um delimitador ou o limite de uma lista numerada.

{ "stop": ["
###", "6."] }

Vários candidatos

Chat Completions: n devolve várias conclusões numa única chamada.
API Responses: n não é suportado; faça várias chamadas se precisar de mais do que uma saída.

Controlar o comprimento das respostas dos modelos OpenAI

Descrição geral

Defina uma extensão máxima de saída

API Responses

API chat completions

Limites de tokens por grupo de modelos

Exemplos rápidos

Controlos específicos dos modelos GPT-5: `verbosity` e `reasoning.effort`

Forneça instruções específicas

Use exemplos com extensão consistente

Aplique sequências de paragem estratégicas

Vários candidatos

Este artigo foi útil?

Controlar o comprimento das respostas dos modelos OpenAI

Descrição geral

Defina uma extensão máxima de saída

API Responses

API chat completions

Limites de tokens por grupo de modelos

Exemplos rápidos

Controlos específicos dos modelos GPT-5: verbosity e reasoning.effort

Forneça instruções específicas

Use exemplos com extensão consistente

Aplique sequências de paragem estratégicas

Vários candidatos

Este artigo foi útil?

Controlos específicos dos modelos GPT-5: `verbosity` e `reasoning.effort`