OpenAI
Esta página foi traduzida automaticamente. Veja o artigo original em inglês.

Controlando o comprimento das respostas dos modelos da OpenAI

Aprenda a definir limites de saída para modelos da OpenAI usando configurações de tokens, prompts claros, exemplos e sequências de parada.

Atualizado: yesterday

Visão geral

Controlar o comprimento da resposta de um modelo é útil por vários motivos: ajuda a gerenciar custos (já que você paga por token), melhora a latência/desempenho (respostas mais curtas retornam mais rápido) e garante relevância ao evitar saídas longas demais ou verbosas.

Você pode fazer isso usando limites de tokens, configurações de raciocínio e verbosidade, instruções claras, exemplos e sequências de parada. Para obter os detalhes mais atuais e completos, consulte sempre a referência oficial da API em platform.openai.com.

Defina um comprimento máximo de saída

API Responses

Usada para modelos GPT-5 e a maioria dos modelos da série o: use max_output_tokens para limitar o número de tokens que o modelo vai gerar. Compatível com stop, mas não oferece suporte a múltiplas conclusões (n).

API Chat Completions

Usada para GPT-3.5 legado, GPT-4o e, às vezes, modelos da série o.

  • Para modelos de raciocínio como o3 e o4-mini, use max_completion_tokens (apelido de max_tokens)

  • Para modelos anteriores/sem raciocínio, max_tokens ainda funciona

  • Compatível com stop e n (múltiplas conclusões).

Observação: não existe configuração de “tokens mínimos”. Se você precisar de um comprimento mínimo, especifique isso no seu prompt.

Limites de tokens por grupo de modelos

Para limites de tokens, tamanhos de contexto e limites de saída atualizados, consulte a documentação específica do modelo.

Exemplos rápidos

API Responses

{ "model": "gpt-5", "input": "Resuma as conclusões em ~80 palavras.", "max_output_tokens": 120 }

Chat Completions (modelo de raciocínio)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Escreva cinco opções de uma linha."}], "max_completion_tokens": 100 }

Controles específicos dos modelos GPT-5: verbosity e reasoning.effort

Esses controles estão disponíveis apenas nos modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro etc.). Modelos da série o e modelos legados não oferecem suporte a eles.

verbosity aceita "low", "medium" (padrão) ou "high". Ela influencia o nível de detalhes, mas não limites rígidos.

{ "model": "gpt-5", "input": "Explique o PageRank em alto nível.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort controla quantos tokens de raciocínio são gerados antes de produzir uma resposta. O GPT-5.2 aceita none,low, medium, high,and xhigh. O gpt-5.2-pro aceita apenas medium, high,and xhigh. Modelos de raciocínio anteriores aceitam apenas low, medium e high.

{ "model": "gpt-5", "input": "Quanto ouro seria necessário para revestir a Estátua da Liberdade com uma camada de 1 mm?", "reasoning": { "effort": "minimal" } }

Você pode definir reasoning.effort como none para fazer o modelo se comportar como um modelo sem raciocínio em casos de uso sensíveis à latência.

Forneça instruções específicas

Peça o tamanho ou o formato exato que você quer. Exemplos:

  • “Liste exatamente cinco opções.”

  • “Escreva um resumo de 50 palavras.”

  • “No máximo 100 tokens. Se precisar de mais, diga ‘Preciso de mais espaço’.”

Use exemplos com comprimento consistente

Exemplos few-shot que correspondem ao comprimento desejado ajudam o modelo a continuar o padrão.

Aplique sequências de parada estratégicas

Use stop para interromper a geração quando o modelo alcançar um delimitador ou o limite de uma lista numerada.

{ "stop": ["\n###", "6."] }

Múltiplos candidatos

  • Chat Completions: n retorna múltiplas conclusões em uma única chamada.

  • API Responses: n não é compatível; faça várias chamadas se precisar de mais de uma saída.

Este artigo foi útil?