Oversikt
Å kontrollere lengden på en modells svar er nyttig av flere grunner: Det bidrar til å styre kostnader (siden du betaler per token), forbedrer ventetid/ytelse (kortere svar returneres raskere) og sikrer relevans ved å unngå altfor lange eller ordrike utdata.
Du kan oppnå dette ved hjelp av tokengrenser, innstillinger for resonnering og detaljnivå, tydelige instruksjoner, eksempler og stoppsekvenser. Du finner alltid de nyeste og mest komplette detaljene i den offisielle API-referansen på platform.openai.com.
Angi en maksimal utdatalengde
Responses API
Brukes for GPT-5-modeller og de fleste modeller i o-serien: Bruk max_output_tokens til å begrense antall tokener modellen genererer. For compaction_trigger-forespørsler må du enten utelate max_output_tokens eller sette den til minst 20000; lavere verdier avvises. Responses API støtter ikke flere fullføringer (n).
Chat Completions API (API for samtalesvar)
Brukes for eldre GPT-3.5, GPT-4o og noen ganger o-serien.
For resonneringsmodeller som o3 og o4-mini bruker du
max_completion_tokens(alias formax_tokens)For tidligere modeller / modeller uten resonnering fungerer
max_tokensfortsattStøtter
stopogn(flere fullføringer).
Merk: Det finnes ingen innstilling for «minimum tokens». Hvis du trenger en minimumslengde, spesifiser den i prompten.
Tokengrenser etter modellgruppe
Se dokumentasjonen for den aktuelle modellen for oppdaterte tokengrenser, kontekststørrelser og grenseverdier for utdata.
Korte eksempler
Responses API
{ "model": "gpt-5", "input": "Oppsummer funnene på ~80 ord.", "max_output_tokens": 120 }Chat Completions (resonneringsmodell)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Kontroller spesifikke for GPT-5-modeller: verbosity og reasoning.effort
Disse kontrollene er bare tilgjengelige for GPT-5-modeller (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro osv.). O-serien og eldre modeller støtter dem ikke.
`verbosity` godtar "low", "medium" (standard) eller "high". Den påvirker detaljnivået, men ikke faste grenser.
{ "model": "gpt-5", "input": "Forklar PageRank på et overordnet nivå.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` styrer hvor mange resonneringstokener som genereres før et svar produseres. GPT-5.2 støtter none,low, medium, high,and xhigh. gpt-5.2-pro støtter bare medium, high,and xhigh. Tidligere resonneringsmodeller støtter bare low, medium og high.
{ "model": "gpt-5", "input": "Hvor mye gull ville det kreve å dekke Frihetsgudinnen med et lag på 1 mm?", "reasoning": { "effort": "minimal" } }Du kan sette `reasoning.effort` til none for å få modellen til å oppføre seg som en modell uten resonnering i brukstilfeller der ventetid er viktig.
Gi konkrete instruksjoner
Be om nøyaktig lengde eller format. Eksempler:
«List opp nøyaktig fem alternativer.»
«Skriv et sammendrag på 50 ord.»
«Maks 100 tokener. Hvis du trenger mer plass, skriv ‘Trenger mer plass.’»
Bruk eksempler med konsekvent lengde
Eksempler med få eksempler som samsvarer med ønsket lengde, hjelper modellen med å fortsette mønsteret.
Bruk strategiske stoppsekvenser
Bruk stop til å stoppe genereringen når modellen når et skilletegn eller grensen for en nummerert liste.
{ "stop": ["
###", "6."] }Flere kandidater
Chat Completions:
nreturnerer flere fullføringer i ett kall.Responses API:
nstøttes ikke. Gjør flere kall hvis du trenger mer enn ett utdataelement.
