OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

Controlar o comprimento das respostas dos modelos OpenAI

Saiba como definir limites de saída para modelos OpenAI com definições de tokens, prompts claros, exemplos e sequências de paragem.

Atualizado: 6 hours ago

Visão geral

Controlar o comprimento da resposta de um modelo é útil por vários motivos: ajuda a gerir custos (uma vez que paga por token), melhora a latência/o desempenho (as respostas mais curtas são devolvidas mais rapidamente) e garante relevância ao evitar saídas demasiado longas ou verbosas.

Pode conseguir isto usando limites de tokens, definições de raciocínio e verbosidade, instruções claras, exemplos e sequências de paragem. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.

Definir um comprimento máximo de saída

API Responses

Usada para modelos GPT-5 e a maioria dos modelos da série o: use max_output_tokens para limitar o número de tokens que o modelo irá gerar. Suporta stop, mas não suporta múltiplas conclusões (n).

API chat completions

Usada para GPT-3.5, GPT-4o e, por vezes, modelos da série o legados.

  • Para modelos de raciocínio como o3 e o4-mini, use max_completion_tokens (alias de max_tokens)

  • Para modelos anteriores/sem raciocínio, max_tokens continua a funcionar

  • Suporta stop e n (múltiplas conclusões).

Nota: Não existe uma definição de “tokens mínimos”. Se precisar de um comprimento mínimo, especifique-o no prompt.

Limites de tokens por grupo de modelos

Para limites de tokens, tamanhos de contexto e limites de saída atualizados, consulte a documentação específica do modelo.

Exemplos rápidos

API Responses

{ "model": "gpt-5", "input": "Resume as conclusões em ~80 palavras.", "max_output_tokens": 120 }

Chat Completions (modelo de raciocínio)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Controlos específicos dos modelos GPT-5: verbosity e reasoning.effort

Estes controlos estão disponíveis apenas em modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Os modelos da série o e os modelos legados não os suportam.

verbosity aceita "low", "medium" (predefinição) ou "high". Influencia o nível de detalhe, mas não limites rígidos.

{ "model": "gpt-5", "input": "Explica o PageRank a um nível geral.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. O GPT-5.2 suporta none,low, medium, high,and xhigh. O gpt-5.2-pro suporta apenas medium, high,and xhigh. Os modelos de raciocínio anteriores suportam apenas low, medium e high.

{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }

Pode definir reasoning.effort para none para fazer com que o modelo se comporte como um modelo sem raciocínio em casos de uso sensíveis à latência.

Forneça instruções específicas

Peça o comprimento ou formato exato que pretende. Exemplos:

  • “Liste exatamente cinco opções.”

  • “Escreva um resumo de 50 palavras.”

  • “Não mais de 100 tokens. Se precisar de mais, diga ‘Preciso de mais espaço.’”

Use exemplos com comprimento consistente

Exemplos few-shot que correspondam ao comprimento pretendido ajudam o modelo a continuar o padrão.

Aplique sequências de paragem estratégicas

Use stop para interromper a geração quando o modelo atinge um delimitador ou o limite de uma lista numerada.

{ "stop": ["
###", "6."] }

Vários candidatos

  • Chat Completions: n devolve várias conclusões numa só chamada.

  • API Responses: n não é suportado; faça várias chamadas se precisar de mais do que uma saída.

Este artigo foi útil?