OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Control de la longitud de las respuestas de los modelos de OpenAI

Aprende a fijar límites de salida para modelos de OpenAI con ajustes de tokens, prompts claros, ejemplos y secuencias de parada.

Actualización: 4 days ago

Resumen

Controlar la longitud de la respuesta de un modelo es útil por varios motivos: ayuda a gestionar el coste (ya que pagas por token), mejora la latencia y el rendimiento (las respuestas más cortas se devuelven antes) y garantiza la relevancia al evitar salidas demasiado largas o verbosas.

Puedes lograrlo usando límites de tokens, ajustes de razonamiento y verbosidad, instrucciones claras, ejemplos y secuencias de parada. Para obtener los detalles más actuales y completos, consulta siempre la referencia oficial de la API en platform.openai.com.

Establecer una longitud máxima de salida

API de Responses

Se usa para los modelos GPT-5 y la mayoría de los modelos de la serie o: usa max_output_tokens para limitar el número de tokens que generará el modelo. Para solicitudes de compaction_trigger, omite max_output_tokens o establécelo al menos en 20000; los valores inferiores se rechazan. La API de Responses no admite varias compleciones (n).

API para completar chats

Se usa para GPT-3.5, GPT-4o heredados y, a veces, para la serie o.

  • Para modelos de razonamiento como o3 y o4-mini, usa max_completion_tokens (alias de max_tokens).

  • Para modelos anteriores o que no son de razonamiento, max_tokens sigue funcionando.

  • Admite stop y n (varias compleciones).

Nota: No existe un ajuste de «tokens mínimos». Si necesitas una longitud mínima, indícalo en tu prompt.

Límites de tokens por grupo de modelos

Para consultar límites de tokens, tamaños de contexto y límites de salida actualizados, consulta la documentación específica del modelo.

Ejemplos rápidos

API de Responses

{ "model": "gpt-5", "input": "Resume los hallazgos en ~80 palabras.", "max_output_tokens": 120 }

Completado de chat (modelo de razonamiento)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Controles específicos de los modelos GPT-5: verbosity y reasoning.effort

Estos controles solo están disponibles en los modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Los modelos de la serie O y los heredados no los admiten.

`verbosity` acepta "low", "medium" (predeterminado) o "high". Influye en el nivel de detalle, pero no en los límites estrictos.

{ "model": "gpt-5", "input": "Explica PageRank a alto nivel.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controla cuántos tokens de razonamiento se generan antes de producir una respuesta. GPT-5.2 admite none,low, medium, high,and xhigh. gpt-5.2-pro solo admite medium, high,and xhigh. Los modelos de razonamiento anteriores solo admiten low, medium y high.

{ "model": "gpt-5", "input": "¿Cuánto oro haría falta para recubrir la Estatua de la Libertad con una capa de 1 mm?", "reasoning": { "effort": "minimal" } }

Puedes establecer `reasoning.effort` en none para que el modelo se comporte como un modelo que no es de razonamiento en casos de uso sensibles a la latencia.

Dar instrucciones específicas

Pide la longitud o la forma exactas que quieras. Ejemplos:

  • «Enumera exactamente cinco opciones».

  • «Escribe un resumen de 50 palabras».

  • «No más de 100 tokens. Si necesitas más, di ‹Necesito más espacio›».

Usar ejemplos con una longitud uniforme

Los ejemplos con pocos ejemplos que coinciden con la longitud deseada ayudan al modelo a continuar el patrón.

Aplicar secuencias de parada estratégicas

Usa stop para detener la generación cuando el modelo llegue a un delimitador o al límite de una lista numerada.

{ "stop": ["
###", "6."] }

Varios candidatos

  • Completado de chat: n devuelve varias compleciones en una llamada.

  • API de Responses: n no se admite; haz varias llamadas si necesitas más de una salida.

¿Te ha resultado útil este artículo?