Aperçu
Contrôler la longueur de la réponse d’un modèle est utile pour plusieurs raisons : cela aide à gérer les coûts (puisque vous payez par token), améliore la latence et les performances (les réponses plus courtes sont renvoyées plus rapidement) et assure la pertinence en évitant les sorties trop longues ou trop verbeuses.
Vous pouvez y parvenir au moyen de plafonds de tokens, de paramètres de raisonnement et de verbosité, d’instructions claires, d’exemples et de séquences d’arrêt. Pour obtenir les détails les plus récents et complets, consultez toujours la référence officielle de l’API sur platform.openai.com.
Définir une longueur de sortie maximale
API Responses
Utilisée pour les modèles GPT-5 et la plupart des modèles de la série o : utilisez max_output_tokens pour plafonner le nombre de tokens que le modèle générera. Pour les requêtes compaction_trigger, omettez max_output_tokens ou réglez-le à au moins 20000; les valeurs inférieures sont rejetées. L’API Responses ne prend pas en charge les complétions multiples (n).
API Chat Completions
Utilisée pour les anciens modèles GPT-3.5, GPT-4o et parfois pour la série o.
Pour les modèles de raisonnement comme o3 et o4-mini, utilisez
max_completion_tokens(alias demax_tokens)Pour les modèles antérieurs ou sans raisonnement,
max_tokensfonctionne toujoursPrend en charge
stopetn(complétions multiples).
Remarque : Il n’existe aucun paramètre de « tokens minimums ». Si vous avez besoin d’une longueur minimale, précisez-le dans votre invite.
Limites de tokens par groupe de modèles
Pour connaître les limites de tokens, les tailles de contexte et les plafonds de sortie à jour, veuillez consulter la documentation du modèle spécifique.
Exemples rapides
API Responses
{ "model": "gpt-5", "input": "Résume les conclusions en ~80 mots.", "max_output_tokens": 120 }Chat Completions (modèle de raisonnement)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Contrôles propres aux modèles GPT-5 : verbosity et reasoning.effort
Ces contrôles sont offerts uniquement sur les modèles GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc. Les modèles de la série O et les modèles hérités ne les prennent pas en charge.
`verbosity` accepte "low", "medium" (valeur par défaut) ou "high". Il influe sur le niveau de détail, mais pas sur les limites strictes.
{ "model": "gpt-5", "input": "Explique PageRank à un niveau élevé.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` contrôle le nombre de tokens de raisonnement générés avant de produire une réponse. GPT-5.2 prend en charge none,low, medium, high,and xhigh. gpt-5.2-pro prend uniquement en charge medium, high,and xhigh. Les modèles de raisonnement antérieurs prennent uniquement en charge low, medium et high.
{ "model": "gpt-5", "input": "Quelle quantité d’or faudrait-il pour recouvrir la Statue de la Liberté d’une couche de 1 mm?", "reasoning": { "effort": "minimal" } }Vous pouvez régler `reasoning.effort` à none pour que le modèle se comporte comme un modèle sans raisonnement dans les cas d’utilisation sensibles à la latence.
Fournir des instructions précises
Demandez la longueur ou la forme exacte que vous voulez. Exemples :
« Listez exactement cinq options. »
« Rédigez un résumé de 50 mots. »
« Pas plus de 100 tokens. Si vous avez besoin de plus, dites : « J’ai besoin de plus d’espace. » »
Utiliser des exemples de longueur uniforme
Les exemples few-shot dont la longueur correspond à celle souhaitée aident le modèle à poursuivre le schéma.
Appliquer des séquences d’arrêt stratégiques
Utilisez stop pour arrêter la génération lorsque le modèle atteint un délimiteur ou la fin d’une liste numérotée.
{ "stop": ["
###", "6."] }Candidats multiples
Chat Completions :
nrenvoie plusieurs complétions en un seul appel.API Responses :
nn’est pas pris en charge; effectuez plusieurs appels si vous avez besoin de plus d’une sortie.
