OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Controlar la longitud de las respuestas de los modelos de OpenAI

Aprende a establecer límites de salida para los modelos de OpenAI usando configuraciones de tokens, prompts claros, ejemplos y secuencias de detención.

Última actualización: 9 days ago

Descripción general

Controlar la longitud de la respuesta de un modelo es útil por varias razones: ayuda a gestionar el costo (ya que pagas por token), mejora la latencia/el rendimiento (las respuestas más cortas se devuelven más rápido) y garantiza la relevancia al evitar salidas demasiado largas o verbosas.

Puedes lograrlo usando topes de tokens, configuraciones de razonamiento y verbosidad, instrucciones claras, ejemplos y secuencias de detención. Para obtener los detalles más actuales y completos, consulta siempre la referencia oficial de la API en platform.openai.com.

Establecer una longitud máxima de salida

Responses API

Se usa para modelos GPT-5 y la mayoría de los modelos de la serie o: usa max_output_tokens para limitar la cantidad de tokens que el modelo generará. Admite stop, pero no admite múltiples completaciones (n).

Chat Completions API

Se usa para los modelos heredados GPT-3.5, GPT-4o y, a veces, para los de la serie o.

  • Para modelos de razonamiento como o3 y o4-mini, usa max_completion_tokens (alias de max_tokens)

  • Para modelos anteriores o sin razonamiento, max_tokens sigue funcionando

  • Admite stop y n (múltiples completaciones).

Nota: No existe una configuración de “tokens mínimos”. Si necesitas una longitud mínima, especifícala en tu prompt.

Límites de tokens por grupo de modelos

Para conocer los límites de tokens, tamaños de contexto y topes de salida actualizados, consulta la documentación específica del modelo.

Ejemplos rápidos

Responses API

{ "model": "gpt-5", "input": "Resume los hallazgos en ~80 palabras.", "max_output_tokens": 120 }

Chat Completions (modelo de razonamiento)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Escribe cinco opciones de una sola línea."}], "max_completion_tokens": 100 }

Controles específicos de modelos GPT-5: verbosity y reasoning.effort

Estos controles están disponibles solo en los modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). La serie o y los modelos heredados no los admiten.

verbosity acepta "low", "medium" (predeterminado) o "high". Influye en el nivel de detalle, pero no en límites estrictos.

{ "model": "gpt-5", "input": "Explica PageRank a un nivel general.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort controla cuántos tokens de razonamiento se generan antes de producir una respuesta. GPT-5.2 admite none,low, medium, high,and xhigh. gpt-5.2-pro solo admite medium, high,and xhigh. Los modelos de razonamiento anteriores solo admiten low, medium y high.

{ "model": "gpt-5", "input": "¿Cuánto oro haría falta para recubrir la Estatua de la Libertad con una capa de 1 mm?", "reasoning": { "effort": "minimal" } }

Puedes configurar reasoning.effort en none para que el modelo se comporte como uno sin razonamiento en casos de uso sensibles a la latencia.

Proporciona instrucciones específicas

Pide la longitud o el formato exactos que quieres. Ejemplos:

  • “Enumera exactamente cinco opciones”.

  • “Escribe un resumen de 50 palabras”.

  • “No más de 100 tokens. Si necesitas más, di ‘Necesito más espacio’”.

Usa ejemplos con longitud consistente

Los ejemplos few-shot que coinciden con la longitud deseada ayudan al modelo a continuar el patrón.

Aplica secuencias de detención estratégicas

Usa stop para detener la generación cuando el modelo llegue a un delimitador o al límite de una lista numerada.

{ "stop": ["\n###", "6."] }

Varios candidatos

  • Chat Completions: n devuelve múltiples completaciones en una sola llamada.

  • Responses API: n no es compatible; realiza varias llamadas si necesitas más de una salida.

¿Este artículo te fue útil?