OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

Controlar o comprimento das respostas dos modelos OpenAI

Saiba como definir limites de saída para modelos OpenAI com definições de tokens, prompts claros, exemplos e sequências de paragem.

Atualizado: 11 hours ago

Descrição geral

Controlar a extensão da resposta de um modelo é útil por vários motivos: ajuda a gerir custos (uma vez que paga por token), melhora a latência/desempenho (as respostas mais curtas são devolvidas mais depressa) e garante relevância, evitando saídas demasiado longas ou prolixas.

Pode conseguir isto usando limites de tokens, definições de raciocínio e verbosidade, instruções claras, exemplos e sequências de paragem. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.

Defina uma extensão máxima de saída

API Responses

Utilizada para modelos GPT-5 e para a maioria dos modelos da série o: use max_output_tokens para limitar o número de tokens que o modelo irá gerar. Para pedidos compaction_trigger, omita max_output_tokens ou defina-o como, pelo menos, 20000; valores inferiores são rejeitados. A API Responses não suporta várias conclusões (n).

API chat completions

Utilizada para GPT-3.5 legado, GPT-4o e, por vezes, modelos da série o.

  • Para modelos de raciocínio como o3 e o4-mini, use max_completion_tokens (alias de max_tokens)

  • Para modelos anteriores/sem raciocínio, max_tokens ainda funciona

  • Suporta stop e n (várias conclusões).

Nota: Não existe uma definição de “tokens mínimos”. Se precisar de um comprimento mínimo, especifique-o no prompt.

Limites de tokens por grupo de modelos

Para consultar limites de tokens, tamanhos de contexto e limites máximos de saída atualizados, consulte a documentação do modelo específico.

Exemplos rápidos

API Responses

{ "model": "gpt-5", "input": "Resume as conclusões em ~80 palavras.", "max_output_tokens": 120 }

Chat Completions (modelo de raciocínio)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Controlos específicos dos modelos GPT-5: verbosity e reasoning.effort

Estes controlos estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Os modelos da série O e os modelos legados não os suportam.

`verbosity` aceita "low", "medium" (predefinição) ou "high". Influencia o nível de detalhe, mas não os limites rígidos.

{ "model": "gpt-5", "input": "Explica o PageRank a um nível geral.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. GPT-5.2 suporta none,low, medium, high,and xhigh. gpt-5.2-pro suporta apenas medium, high,and xhigh. Os modelos de raciocínio anteriores suportam apenas low, medium e high.

{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }

Pode definir `reasoning.effort` como none para fazer com que o modelo se comporte como um modelo sem raciocínio em casos de utilização sensíveis à latência.

Forneça instruções específicas

Peça a extensão ou o formato exato que pretende. Exemplos:

  • «Liste exatamente cinco opções.»

  • «Escreva um resumo de 50 palavras

  • «No máximo 100 tokens. Se precisar de mais, diga “Preciso de mais espaço.”»

Use exemplos com extensão consistente

Exemplos few-shot que correspondam à extensão pretendida ajudam o modelo a manter o padrão.

Aplique sequências de paragem estratégicas

Use stop para interromper a geração quando o modelo atingir um delimitador ou o limite de uma lista numerada.

{ "stop": ["
###", "6."] }

Vários candidatos

  • Chat Completions: n devolve várias conclusões numa única chamada.

  • API Responses: n não é suportado; faça várias chamadas se precisar de mais do que uma saída.

Este artigo foi útil?