Lue, miten OpenAI-mallien tulosteen rajoja asetetaan token-asetuksilla, selkeillä kehotteilla, esimerkeillä ja pysäytyssekvensseillä.

Yleiskatsaus

Mallin vastauksen pituuden hallinta on hyödyllistä useista syistä: se auttaa hallitsemaan kustannuksia (koska maksat tokenien mukaan), parantaa viivettä ja suorituskykyä (lyhyemmät vastaukset palautuvat nopeammin) ja varmistaa osuvuuden välttämällä liian pitkiä tai laveita tulosteita.

Voit tehdä tämän tokenirajoilla, päättely- ja laveusasetuksilla, selkeillä ohjeilla, esimerkeillä ja pysäytyssekvensseillä. Ajantasaisimmat ja kattavimmat tiedot ovat aina virallisessa API-viitteessä osoitteessa platform.openai.com.

Aseta tulosteen enimmäispituus

Responses API

Käytetään GPT-5-malleissa ja useimmissa o-sarjan malleissa: rajoita mallin luomien tokenien määrää max_output_tokens-parametrilla. compaction_trigger-pyynnöissä joko jätä max_output_tokens pois tai aseta sen arvoksi vähintään 20000; pienemmät arvot hylätään. Responses API ei tue useita täydennyksiä (n).

Keskustelun täydennys-API

Käytetään vanhoissa GPT-3.5- ja GPT-4o-malleissa sekä joskus o-sarjassa.

Käytä o3:n ja o4-minin kaltaisissa päättelymalleissa max_completion_tokens-parametria (alias parametrille max_tokens)
Aiemmissa tai ei-päättelymalleissa max_tokens toimii edelleen
Tukee stop- ja n-parametreja (useita täydennyksiä).

Huomautus: Asetusta ”vähimmäistokeneita” ei ole. Jos tarvitset vähimmäispituuden, määritä se kehotteessasi.

Tokenirajat malliryhmittäin

Ajantasaiset tokenirajat, kontekstikoot ja tulosteen enimmäismäärät löytyvät tietyn mallin dokumentaatiosta.

Pikaesimerkkejä

Responses API

{ "model": "gpt-5", "input": "Tiivistä havainnot noin 80 sanaan.", "max_output_tokens": 120 }

Keskustelun täydennykset (päättelymalli)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

GPT-5-mallien erityiset säätimet: `verbosity` ja `reasoning.effort`

Nämä säätimet ovat käytettävissä vain GPT-5-malleissa (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro jne.); O-sarjan ja vanhat mallit eivät tue niitä.

`verbosity` hyväksyy arvot "low", "medium" (oletus) tai "high". Se vaikuttaa yksityiskohtien tasoon, mutta ei tiukkoihin rajoihin.

{ "model": "gpt-5", "input": "Selitä PageRank yleisellä tasolla.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` määrittää, kuinka monta päättelytokenia luodaan ennen vastauksen tuottamista. GPT-5.2 tukee arvoja none,low, medium, high,and xhigh. gpt-5.2-pro tukee vain arvoja medium, high,and xhigh. Aiemmat päättelymallit tukevat vain arvoja low, medium ja high.

{ "model": "gpt-5", "input": "Kuinka paljon kultaa tarvittaisiin Vapaudenpatsaan päällystämiseen 1 mm:n kerroksella?", "reasoning": { "effort": "minimal" } }

Voit asettaa asetuksen `reasoning.effort` arvoon none, jolloin malli toimii viiveherkissä käyttötapauksissa kuin ei-päättelymalli.

Anna tarkat ohjeet

Pyydä täsmälleen haluamaasi pituutta tai muotoa. Esimerkkejä:

”Luettele täsmälleen viisi vaihtoehtoa.”
”Kirjoita 50 sanan yhteenveto.”
”Enintään 100 tokenia. Jos tarvitset lisää, sano ’Tarvitsen lisää tilaa.’”

Käytä yhdenmukaisen pituisia esimerkkejä

Haluttua pituutta vastaavat muutamalla esimerkillä opettavat esimerkit auttavat mallia jatkamaan kaavaa.

Käytä strategisia pysäytyssekvenssejä

Käytä stop-parametria generoinnin pysäyttämiseen, kun malli saavuttaa erotinmerkin tai numeroidun luettelon rajan.

{ "stop": ["
###", "6."] }

Useita ehdokkaita

Keskustelun täydennykset: n palauttaa useita täydennyksiä yhdessä kutsussa.
Responses API: n-parametria ei tueta; tee useita kutsuja, jos tarvitset useamman kuin yhden tulosteen.

OpenAI-mallien vastausten pituuden hallinta

Yleiskatsaus

Aseta tulosteen enimmäispituus

Responses API

Keskustelun täydennys-API

Tokenirajat malliryhmittäin

Pikaesimerkkejä

GPT-5-mallien erityiset säätimet: `verbosity` ja `reasoning.effort`

Anna tarkat ohjeet

Käytä yhdenmukaisen pituisia esimerkkejä

Käytä strategisia pysäytyssekvenssejä

Useita ehdokkaita

Oliko tästä artikkelista apua?

OpenAI-mallien vastausten pituuden hallinta

Yleiskatsaus

Aseta tulosteen enimmäispituus

Responses API

Keskustelun täydennys-API

Tokenirajat malliryhmittäin

Pikaesimerkkejä

GPT-5-mallien erityiset säätimet: verbosity ja reasoning.effort

Anna tarkat ohjeet

Käytä yhdenmukaisen pituisia esimerkkejä

Käytä strategisia pysäytyssekvenssejä

Useita ehdokkaita

Oliko tästä artikkelista apua?

GPT-5-mallien erityiset säätimet: `verbosity` ja `reasoning.effort`