Descripción general
Controlar la longitud de la respuesta de un modelo es útil por varias razones: ayuda a gestionar el costo (ya que pagas por token), mejora la latencia/el rendimiento (las respuestas más cortas se devuelven más rápido) y garantiza la relevancia al evitar salidas demasiado largas o verbosas.
Puedes lograrlo usando topes de tokens, configuraciones de razonamiento y verbosidad, instrucciones claras, ejemplos y secuencias de detención. Para obtener los detalles más actuales y completos, consulta siempre la referencia oficial de la API en platform.openai.com.
Establecer una longitud máxima de salida
Responses API
Se usa para modelos GPT-5 y la mayoría de los modelos de la serie o: usa max_output_tokens para limitar la cantidad de tokens que el modelo generará. Admite stop, pero no admite múltiples completaciones (n).
Chat Completions API
Se usa para los modelos heredados GPT-3.5, GPT-4o y, a veces, para los de la serie o.
Para modelos de razonamiento como o3 y o4-mini, usa
max_completion_tokens(alias demax_tokens)Para modelos anteriores o sin razonamiento,
max_tokenssigue funcionandoAdmite
stopyn(múltiples completaciones).
Nota: No existe una configuración de “tokens mínimos”. Si necesitas una longitud mínima, especifícala en tu prompt.
Límites de tokens por grupo de modelos
Para conocer los límites de tokens, tamaños de contexto y topes de salida actualizados, consulta la documentación específica del modelo.
Ejemplos rápidos
Responses API
{ "model": "gpt-5", "input": "Resume los hallazgos en ~80 palabras.", "max_output_tokens": 120 }Chat Completions (modelo de razonamiento)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Escribe cinco opciones de una sola línea."}], "max_completion_tokens": 100 }Controles específicos de modelos GPT-5: verbosity y reasoning.effort
Estos controles están disponibles solo en los modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). La serie o y los modelos heredados no los admiten.
verbosity acepta "low", "medium" (predeterminado) o "high". Influye en el nivel de detalle, pero no en límites estrictos.
{ "model": "gpt-5", "input": "Explica PageRank a un nivel general.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort controla cuántos tokens de razonamiento se generan antes de producir una respuesta. GPT-5.2 admite none,low, medium, high,and xhigh. gpt-5.2-pro solo admite medium, high,and xhigh. Los modelos de razonamiento anteriores solo admiten low, medium y high.
{ "model": "gpt-5", "input": "¿Cuánto oro haría falta para recubrir la Estatua de la Libertad con una capa de 1 mm?", "reasoning": { "effort": "minimal" } }Puedes configurar reasoning.effort en none para que el modelo se comporte como uno sin razonamiento en casos de uso sensibles a la latencia.
Proporciona instrucciones específicas
Pide la longitud o el formato exactos que quieres. Ejemplos:
“Enumera exactamente cinco opciones”.
“Escribe un resumen de 50 palabras”.
“No más de 100 tokens. Si necesitas más, di ‘Necesito más espacio’”.
Usa ejemplos con longitud consistente
Los ejemplos few-shot que coinciden con la longitud deseada ayudan al modelo a continuar el patrón.
Aplica secuencias de detención estratégicas
Usa stop para detener la generación cuando el modelo llegue a un delimitador o al límite de una lista numerada.
{ "stop": ["\n###", "6."] }Varios candidatos
Chat Completions:
ndevuelve múltiples completaciones en una sola llamada.Responses API:
nno es compatible; realiza varias llamadas si necesitas más de una salida.
