OpenAI
Denne siden ble maskinoversatt. Se den opprinnelige engelske artikkelen.

Kontroller lengden på OpenAI-modellsvar

Lær å sette utdatagrenser for OpenAI-modeller med tokeninnstillinger, tydelige promter, eksempler og stoppsekvenser.

Oppdatert: 13 hours ago

Oversikt

Det er nyttig å kontrollere lengden på en modellsvar av flere grunner: Det bidrar til å håndtere kostnader (siden du betaler per token), forbedrer latenstid/ytelse (kortere svar returneres raskere), og sikrer relevans ved å unngå altfor lange eller ordrike utdata.

Du kan oppnå dette ved å bruke tokengrenser, innstillinger for resonnering og detaljnivå, tydelige instruksjoner, eksempler og stoppsekvenser. For de nyeste og mest komplette detaljene bør du alltid se den offisielle API-referansen på platform.openai.com.

Angi en maksimal utgangslengde

Responses API

Brukes for GPT-5-modeller og de fleste modeller i o-serien: bruk max_output_tokens til å sette et tak på antall token modellen skal generere. Støtter stop, men støtter ikke flere fullføringer (n).

Chat Completions API (API for samtalesvar)

Brukes for eldre GPT-3.5, GPT-4o og noen ganger o-serien.

  • For resonneringsmodeller som o3 og o4-mini bruker du max_completion_tokens (alias for max_tokens)

  • For tidligere/ikke-resonnerende modeller fungerer max_tokens fortsatt

  • Støtter stop og n (flere fullføringer).

Merk: Det finnes ingen innstilling for «minimum tokens». Hvis du trenger en minimumslengde, spesifiser den i prompten.

Tokengrenser etter modellgruppe

For oppdaterte tokengrenser, kontekststørrelser og utgangstak, se den spesifikke modelldokumentasjonen.

Raske eksempler

Responses API

{ "model": "gpt-5", "input": "Oppsummer funnene på ~80 ord.", "max_output_tokens": 120 }

Chat Completions (resonneringsmodell)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

GPT-5-modellers spesifikke kontroller: verbosity og reasoning.effort

Disse kontrollene er bare tilgjengelige på GPT-5-modeller (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro osv. O-serien og eldre modeller støtter dem ikke.

verbosity godtar "low", "medium" (standard) eller "high". Den påvirker detaljnivået, men ikke harde grenser.

{ "model": "gpt-5", "input": "Forklar PageRank på et overordnet nivå.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort styrer hvor mange resonneringstoken som genereres før et svar produseres. GPT-5.2 støtter none,low, medium, high,and xhigh. gpt-5.2-pro støtter bare medium, high,and xhigh. Tidligere resonneringsmodeller støtter bare low, medium og high.

{ "model": "gpt-5", "input": "Hvor mye gull ville det kreve å dekke Frihetsgudinnen med et lag på 1 mm?", "reasoning": { "effort": "minimal" } }

Du kan sette reasoning.effort til none for å få modellen til å oppføre seg som en ikke-resonnerende modell i brukstilfeller som er følsomme for latenstid.

Gi spesifikke instruksjoner

Be om den nøyaktige lengden eller formen du vil ha. Eksempler:

  • «List opp nøyaktig fem alternativer.»

  • «Skriv et sammendrag på 50 ord

  • «Ikke mer enn 100 token. Hvis du trenger mer, si ‘Trenger mer plass.’»

Bruk eksempler med konsekvent lengde

Eksempler med få eksempler som matcher ønsket lengde, hjelper modellen med å fortsette mønsteret.

Bruk strategiske stoppsekvenser

Bruk stop til å stanse genereringen når modellen når et skilletegn eller en nummerert listegrense.

{ "stop": ["
###", "6."] }

Flere kandidater

  • Chat Completions: n returnerer flere fullføringer i ett kall.

  • Responses API: n støttes ikke; gjør flere kall hvis du trenger mer enn én utdata.

Var denne artikkelen nyttig?