Overzicht
De lengte van de reactie van een model regelen is om verschillende redenen nuttig: het helpt kosten te beheersen (aangezien je per token betaalt), verbetert latentie/prestaties (kortere reacties worden sneller teruggegeven) en waarborgt relevantie door te lange of breedsprakige output te vermijden.
Je kunt dit bereiken met tokenlimieten, instellingen voor redenering en breedsprakigheid, duidelijke instructies, voorbeelden en stopsequenties. Raadpleeg voor de meest actuele en volledige details altijd de officiële API-referentie op platform.openai.com.
Stel een maximale outputlengte in
Responses API
Gebruikt voor GPT-5-modellen en de meeste modellen uit de o-serie: gebruik max_output_tokens om het aantal tokens te begrenzen dat het model zal genereren. Ondersteunt stop, maar ondersteunt geen meerdere completions (n).
Chat Completions-API
Gebruikt voor oudere GPT-3.5, GPT-4o en soms de o-serie.
Gebruik voor redenerende modellen zoals o3 en o4-mini
max_completion_tokens(alias vanmax_tokens)Voor eerdere/niet-redenerende modellen werkt
max_tokensnog steedsOndersteunt
stopenn(meerdere completions).
Opmerking: Er is geen instelling voor ‘minimale tokens’. Als je een minimumlengte nodig hebt, specificeer die dan in je prompt.
Tokenlimieten per modelgroep
Raadpleeg voor actuele tokenlimieten, contextgroottes en outputplafonds de specifieke modeldocumentatie.
Snelle voorbeelden
Responses API
{ "model": "gpt-5", "input": "Vat de bevindingen samen in ~80 woorden.", "max_output_tokens": 120 }Chat Completions (redenerend model)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Specifieke instellingen voor GPT-5-modellen: verbosity en reasoning.effort
Deze instellingen zijn alleen beschikbaar op GPT-5-modellen (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, enz. Modellen uit de o-serie en oudere modellen ondersteunen ze niet.
verbosity accepteert "low", "medium" (standaard) of "high". Het beïnvloedt het detailniveau maar niet harde limieten.
{ "model": "gpt-5", "input": "Leg PageRank op hoofdlijnen uit.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort bepaalt hoeveel redeneringstokens worden gegenereerd voordat een antwoord wordt gegeven. GPT-5.2 ondersteunt none,low, medium, high,and xhigh. gpt-5.2-pro ondersteunt alleen medium, high,and xhigh. Eerdere redenerende modellen ondersteunen alleen low, medium en high.
{ "model": "gpt-5", "input": "Hoeveel goud zou er nodig zijn om het Vrijheidsbeeld met een laag van 1 mm te bedekken?", "reasoning": { "effort": "minimal" } }Je kunt reasoning.effort op none zetten om het model zich te laten gedragen als een niet-redenerend model voor latentiegevoelige use cases.
Geef specifieke instructies
Vraag om de exacte lengte of vorm die je wilt. Voorbeelden:
‘Geef precies vijf opties.’
‘Schrijf een samenvatting van 50 woorden.’
‘Niet meer dan 100 tokens. Als je meer nodig hebt, zeg dan: “Meer ruimte nodig.”’
Gebruik voorbeelden met consistente lengte
Few-shot-voorbeelden die overeenkomen met de gewenste lengte helpen het model het patroon voort te zetten.
Pas strategische stopsequenties toe
Gebruik stop om de generatie te stoppen wanneer het model een scheidingsteken of de grens van een genummerde lijst bereikt.
{ "stop": ["
###", "6."] }Meerdere kandidaten
Chat Completions:
ngeeft meerdere completions terug in één aanroep.Responses API:
nwordt niet ondersteund; doe meerdere aanroepen als je meer dan één output nodig hebt.
