Apprenez à fixer des limites de sortie pour les modèles OpenAI avec les paramètres de token, des invites claires, des exemples et des séquences d’arrêt.

Aperçu

Contrôler la longueur de la réponse d’un modèle est utile pour plusieurs raisons : cela aide à gérer les coûts (puisque vous payez par token), améliore la latence et les performances (les réponses plus courtes sont renvoyées plus rapidement) et assure la pertinence en évitant les sorties trop longues ou trop verbeuses.

Vous pouvez y parvenir au moyen de plafonds de tokens, de paramètres de raisonnement et de verbosité, d’instructions claires, d’exemples et de séquences d’arrêt. Pour obtenir les détails les plus récents et complets, consultez toujours la référence officielle de l’API sur platform.openai.com.

Définir une longueur de sortie maximale

API Responses

Utilisée pour les modèles GPT-5 et la plupart des modèles de la série o : utilisez max_output_tokens pour plafonner le nombre de tokens que le modèle générera. Pour les requêtes compaction_trigger, omettez max_output_tokens ou réglez-le à au moins 20000; les valeurs inférieures sont rejetées. L’API Responses ne prend pas en charge les complétions multiples (n).

API Chat Completions

Utilisée pour les anciens modèles GPT-3.5, GPT-4o et parfois pour la série o.

Pour les modèles de raisonnement comme o3 et o4-mini, utilisez max_completion_tokens (alias de max_tokens)
Pour les modèles antérieurs ou sans raisonnement, max_tokens fonctionne toujours
Prend en charge stop et n (complétions multiples).

Remarque : Il n’existe aucun paramètre de « tokens minimums ». Si vous avez besoin d’une longueur minimale, précisez-le dans votre invite.

Limites de tokens par groupe de modèles

Pour connaître les limites de tokens, les tailles de contexte et les plafonds de sortie à jour, veuillez consulter la documentation du modèle spécifique.

Exemples rapides

API Responses

{ "model": "gpt-5", "input": "Résume les conclusions en ~80 mots.", "max_output_tokens": 120 }

Chat Completions (modèle de raisonnement)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Contrôles propres aux modèles GPT-5 : `verbosity` et `reasoning.effort`

Ces contrôles sont offerts uniquement sur les modèles GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc. Les modèles de la série O et les modèles hérités ne les prennent pas en charge.

`verbosity` accepte "low", "medium" (valeur par défaut) ou "high". Il influe sur le niveau de détail, mais pas sur les limites strictes.

{ "model": "gpt-5", "input": "Explique PageRank à un niveau élevé.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` contrôle le nombre de tokens de raisonnement générés avant de produire une réponse. GPT-5.2 prend en charge none,low, medium, high,and xhigh. gpt-5.2-pro prend uniquement en charge medium, high,and xhigh. Les modèles de raisonnement antérieurs prennent uniquement en charge low, medium et high.

{ "model": "gpt-5", "input": "Quelle quantité d’or faudrait-il pour recouvrir la Statue de la Liberté d’une couche de 1 mm?", "reasoning": { "effort": "minimal" } }

Vous pouvez régler `reasoning.effort` à none pour que le modèle se comporte comme un modèle sans raisonnement dans les cas d’utilisation sensibles à la latence.

Fournir des instructions précises

Demandez la longueur ou la forme exacte que vous voulez. Exemples :

« Listez exactement cinq options. »
« Rédigez un résumé de 50 mots. »
« Pas plus de 100 tokens. Si vous avez besoin de plus, dites : « J’ai besoin de plus d’espace. » »

Utiliser des exemples de longueur uniforme

Les exemples few-shot dont la longueur correspond à celle souhaitée aident le modèle à poursuivre le schéma.

Appliquer des séquences d’arrêt stratégiques

Utilisez stop pour arrêter la génération lorsque le modèle atteint un délimiteur ou la fin d’une liste numérotée.

{ "stop": ["
###", "6."] }

Candidats multiples

Chat Completions : n renvoie plusieurs complétions en un seul appel.
API Responses : n n’est pas pris en charge; effectuez plusieurs appels si vous avez besoin de plus d’une sortie.

Contrôler la longueur des réponses des modèles OpenAI

Aperçu

Définir une longueur de sortie maximale

API Responses

API Chat Completions

Limites de tokens par groupe de modèles

Exemples rapides

Contrôles propres aux modèles GPT-5 : `verbosity` et `reasoning.effort`

Fournir des instructions précises

Utiliser des exemples de longueur uniforme

Appliquer des séquences d’arrêt stratégiques

Candidats multiples

Cet article vous a-t-il été utile?

Contrôler la longueur des réponses des modèles OpenAI

Aperçu

Définir une longueur de sortie maximale

API Responses

API Chat Completions

Limites de tokens par groupe de modèles

Exemples rapides

Contrôles propres aux modèles GPT-5 : verbosity et reasoning.effort

Fournir des instructions précises

Utiliser des exemples de longueur uniforme

Appliquer des séquences d’arrêt stratégiques

Candidats multiples

Cet article vous a-t-il été utile?

Contrôles propres aux modèles GPT-5 : `verbosity` et `reasoning.effort`