Lær å sette utdatagrenser for OpenAI-modeller med tokeninnstillinger, tydelige promter, eksempler og stoppsekvenser.

Oversikt

Å kontrollere lengden på en modells svar er nyttig av flere grunner: Det bidrar til å styre kostnader (siden du betaler per token), forbedrer ventetid/ytelse (kortere svar returneres raskere) og sikrer relevans ved å unngå altfor lange eller ordrike utdata.

Du kan oppnå dette ved hjelp av tokengrenser, innstillinger for resonnering og detaljnivå, tydelige instruksjoner, eksempler og stoppsekvenser. Du finner alltid de nyeste og mest komplette detaljene i den offisielle API-referansen på platform.openai.com.

Angi en maksimal utdatalengde

Responses API

Brukes for GPT-5-modeller og de fleste modeller i o-serien: Bruk max_output_tokens til å begrense antall tokener modellen genererer. For compaction_trigger-forespørsler må du enten utelate max_output_tokens eller sette den til minst 20000; lavere verdier avvises. Responses API støtter ikke flere fullføringer (n).

Chat Completions API (API for samtalesvar)

Brukes for eldre GPT-3.5, GPT-4o og noen ganger o-serien.

For resonneringsmodeller som o3 og o4-mini bruker du max_completion_tokens (alias for max_tokens)
For tidligere modeller / modeller uten resonnering fungerer max_tokens fortsatt
Støtter stop og n (flere fullføringer).

Merk: Det finnes ingen innstilling for «minimum tokens». Hvis du trenger en minimumslengde, spesifiser den i prompten.

Tokengrenser etter modellgruppe

Se dokumentasjonen for den aktuelle modellen for oppdaterte tokengrenser, kontekststørrelser og grenseverdier for utdata.

Korte eksempler

Responses API

{ "model": "gpt-5", "input": "Oppsummer funnene på ~80 ord.", "max_output_tokens": 120 }

Chat Completions (resonneringsmodell)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Kontroller spesifikke for GPT-5-modeller: `verbosity` og `reasoning.effort`

Disse kontrollene er bare tilgjengelige for GPT-5-modeller (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro osv.). O-serien og eldre modeller støtter dem ikke.

`verbosity` godtar "low", "medium" (standard) eller "high". Den påvirker detaljnivået, men ikke faste grenser.

{ "model": "gpt-5", "input": "Forklar PageRank på et overordnet nivå.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` styrer hvor mange resonneringstokener som genereres før et svar produseres. GPT-5.2 støtter none,low, medium, high,and xhigh. gpt-5.2-pro støtter bare medium, high,and xhigh. Tidligere resonneringsmodeller støtter bare low, medium og high.

{ "model": "gpt-5", "input": "Hvor mye gull ville det kreve å dekke Frihetsgudinnen med et lag på 1 mm?", "reasoning": { "effort": "minimal" } }

Du kan sette `reasoning.effort` til none for å få modellen til å oppføre seg som en modell uten resonnering i brukstilfeller der ventetid er viktig.

Gi konkrete instruksjoner

Be om nøyaktig lengde eller format. Eksempler:

«List opp nøyaktig fem alternativer.»
«Skriv et sammendrag på 50 ord.»
«Maks 100 tokener. Hvis du trenger mer plass, skriv ‘Trenger mer plass.’»

Bruk eksempler med konsekvent lengde

Eksempler med få eksempler som samsvarer med ønsket lengde, hjelper modellen med å fortsette mønsteret.

Bruk strategiske stoppsekvenser

Bruk stop til å stoppe genereringen når modellen når et skilletegn eller grensen for en nummerert liste.

{ "stop": ["
###", "6."] }

Flere kandidater

Chat Completions: n returnerer flere fullføringer i ett kall.
Responses API: n støttes ikke. Gjør flere kall hvis du trenger mer enn ett utdataelement.

Kontroller lengden på OpenAI-modellsvar

Oversikt

Angi en maksimal utdatalengde

Responses API

Chat Completions API (API for samtalesvar)

Tokengrenser etter modellgruppe

Korte eksempler

Kontroller spesifikke for GPT-5-modeller: `verbosity` og `reasoning.effort`

Gi konkrete instruksjoner

Bruk eksempler med konsekvent lengde

Bruk strategiske stoppsekvenser

Flere kandidater

Var denne artikkelen nyttig?

Kontroller lengden på OpenAI-modellsvar

Oversikt

Angi en maksimal utdatalengde

Responses API

Chat Completions API (API for samtalesvar)

Tokengrenser etter modellgruppe

Korte eksempler

Kontroller spesifikke for GPT-5-modeller: verbosity og reasoning.effort

Gi konkrete instruksjoner

Bruk eksempler med konsekvent lengde

Bruk strategiske stoppsekvenser

Flere kandidater

Var denne artikkelen nyttig?

Kontroller spesifikke for GPT-5-modeller: `verbosity` og `reasoning.effort`