OpenAI
Deze pagina is automatisch vertaald. Bekijk het oorspronkelijke Engelstalige artikel.

De lengte van reacties van OpenAI-modellen regelen

Ontdek hoe je outputlimieten voor OpenAI-modellen instelt met tokeninstellingen, duidelijke prompts, voorbeelden en stopsequenties.

Bijgewerkt: yesterday

Overzicht

De lengte van de reactie van een model regelen is om verschillende redenen nuttig: het helpt kosten te beheersen (aangezien je per token betaalt), verbetert latentie/prestaties (kortere reacties worden sneller teruggegeven) en waarborgt relevantie door te lange of breedsprakige output te vermijden.

Je kunt dit bereiken met tokenlimieten, instellingen voor redenering en breedsprakigheid, duidelijke instructies, voorbeelden en stopsequenties. Raadpleeg voor de meest actuele en volledige details altijd de officiële API-referentie op platform.openai.com.

Stel een maximale outputlengte in

Responses API

Gebruikt voor GPT-5-modellen en de meeste modellen uit de o-serie: gebruik max_output_tokens om het aantal tokens te begrenzen dat het model zal genereren. Ondersteunt stop, maar ondersteunt geen meerdere completions (n).

Chat Completions-API

Gebruikt voor oudere GPT-3.5, GPT-4o en soms de o-serie.

  • Gebruik voor redenerende modellen zoals o3 en o4-mini max_completion_tokens (alias van max_tokens)

  • Voor eerdere/niet-redenerende modellen werkt max_tokens nog steeds

  • Ondersteunt stop en n (meerdere completions).

Opmerking: Er is geen instelling voor ‘minimale tokens’. Als je een minimumlengte nodig hebt, specificeer die dan in je prompt.

Tokenlimieten per modelgroep

Raadpleeg voor actuele tokenlimieten, contextgroottes en outputplafonds de specifieke modeldocumentatie.

Snelle voorbeelden

Responses API

{ "model": "gpt-5", "input": "Vat de bevindingen samen in ~80 woorden.", "max_output_tokens": 120 }

Chat Completions (redenerend model)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Specifieke instellingen voor GPT-5-modellen: verbosity en reasoning.effort

Deze instellingen zijn alleen beschikbaar op GPT-5-modellen (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, enz. Modellen uit de o-serie en oudere modellen ondersteunen ze niet.

verbosity accepteert "low", "medium" (standaard) of "high". Het beïnvloedt het detailniveau maar niet harde limieten.

{ "model": "gpt-5", "input": "Leg PageRank op hoofdlijnen uit.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort bepaalt hoeveel redeneringstokens worden gegenereerd voordat een antwoord wordt gegeven. GPT-5.2 ondersteunt none,low, medium, high,and xhigh. gpt-5.2-pro ondersteunt alleen medium, high,and xhigh. Eerdere redenerende modellen ondersteunen alleen low, medium en high.

{ "model": "gpt-5", "input": "Hoeveel goud zou er nodig zijn om het Vrijheidsbeeld met een laag van 1 mm te bedekken?", "reasoning": { "effort": "minimal" } }

Je kunt reasoning.effort op none zetten om het model zich te laten gedragen als een niet-redenerend model voor latentiegevoelige use cases.

Geef specifieke instructies

Vraag om de exacte lengte of vorm die je wilt. Voorbeelden:

  • ‘Geef precies vijf opties.’

  • ‘Schrijf een samenvatting van 50 woorden.’

  • ‘Niet meer dan 100 tokens. Als je meer nodig hebt, zeg dan: “Meer ruimte nodig.”’

Gebruik voorbeelden met consistente lengte

Few-shot-voorbeelden die overeenkomen met de gewenste lengte helpen het model het patroon voort te zetten.

Pas strategische stopsequenties toe

Gebruik stop om de generatie te stoppen wanneer het model een scheidingsteken of de grens van een genummerde lijst bereikt.

{ "stop": ["
###", "6."] }

Meerdere kandidaten

  • Chat Completions: n geeft meerdere completions terug in één aanroep.

  • Responses API: n wordt niet ondersteund; doe meerdere aanroepen als je meer dan één output nodig hebt.

Was dit artikel nuttig?