Oversikt
Det er nyttig å kontrollere lengden på en modellsvar av flere grunner: Det bidrar til å håndtere kostnader (siden du betaler per token), forbedrer latenstid/ytelse (kortere svar returneres raskere), og sikrer relevans ved å unngå altfor lange eller ordrike utdata.
Du kan oppnå dette ved å bruke tokengrenser, innstillinger for resonnering og detaljnivå, tydelige instruksjoner, eksempler og stoppsekvenser. For de nyeste og mest komplette detaljene bør du alltid se den offisielle API-referansen på platform.openai.com.
Angi en maksimal utgangslengde
Responses API
Brukes for GPT-5-modeller og de fleste modeller i o-serien: bruk max_output_tokens til å sette et tak på antall token modellen skal generere. Støtter stop, men støtter ikke flere fullføringer (n).
Chat Completions API (API for samtalesvar)
Brukes for eldre GPT-3.5, GPT-4o og noen ganger o-serien.
For resonneringsmodeller som o3 og o4-mini bruker du
max_completion_tokens(alias formax_tokens)For tidligere/ikke-resonnerende modeller fungerer
max_tokensfortsattStøtter
stopogn(flere fullføringer).
Merk: Det finnes ingen innstilling for «minimum tokens». Hvis du trenger en minimumslengde, spesifiser den i prompten.
Tokengrenser etter modellgruppe
For oppdaterte tokengrenser, kontekststørrelser og utgangstak, se den spesifikke modelldokumentasjonen.
Raske eksempler
Responses API
{ "model": "gpt-5", "input": "Oppsummer funnene på ~80 ord.", "max_output_tokens": 120 }Chat Completions (resonneringsmodell)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }GPT-5-modellers spesifikke kontroller: verbosity og reasoning.effort
Disse kontrollene er bare tilgjengelige på GPT-5-modeller (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro osv. O-serien og eldre modeller støtter dem ikke.
verbosity godtar "low", "medium" (standard) eller "high". Den påvirker detaljnivået, men ikke harde grenser.
{ "model": "gpt-5", "input": "Forklar PageRank på et overordnet nivå.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort styrer hvor mange resonneringstoken som genereres før et svar produseres. GPT-5.2 støtter none,low, medium, high,and xhigh. gpt-5.2-pro støtter bare medium, high,and xhigh. Tidligere resonneringsmodeller støtter bare low, medium og high.
{ "model": "gpt-5", "input": "Hvor mye gull ville det kreve å dekke Frihetsgudinnen med et lag på 1 mm?", "reasoning": { "effort": "minimal" } }Du kan sette reasoning.effort til none for å få modellen til å oppføre seg som en ikke-resonnerende modell i brukstilfeller som er følsomme for latenstid.
Gi spesifikke instruksjoner
Be om den nøyaktige lengden eller formen du vil ha. Eksempler:
«List opp nøyaktig fem alternativer.»
«Skriv et sammendrag på 50 ord.»
«Ikke mer enn 100 token. Hvis du trenger mer, si ‘Trenger mer plass.’»
Bruk eksempler med konsekvent lengde
Eksempler med få eksempler som matcher ønsket lengde, hjelper modellen med å fortsette mønsteret.
Bruk strategiske stoppsekvenser
Bruk stop til å stanse genereringen når modellen når et skilletegn eller en nummerert listegrense.
{ "stop": ["
###", "6."] }Flere kandidater
Chat Completions:
nreturnerer flere fullføringer i ett kall.Responses API:
nstøttes ikke; gjør flere kall hvis du trenger mer enn én utdata.
