Yleiskatsaus
Mallin vastauksen pituuden hallinta on hyödyllistä monesta syystä: se auttaa hallitsemaan kustannuksia (koska maksat tokeneittain), parantaa viivettä/suorituskykyä (lyhyemmät vastaukset palautuvat nopeammin) ja varmistaa olennaisuuden välttämällä liian pitkiä tai laveita tulosteita.
Tähän voi käyttää token-kattoja, päättely- ja monisanaisuusasetuksia, selkeitä ohjeita, esimerkkejä ja pysäytyssekvenssejä. Ajantasaisimmat ja täydellisimmät tiedot löydät aina virallisesta API-viitteestä osoitteessa platform.openai.com.
Aseta tulosteen enimmäispituus
Responses API
Käytetään GPT-5-malleille ja useimmille o-sarjan malleille: rajoita mallin tuottamien tokenien määrää asetuksella max_output_tokens. Tukee stop-asetusta, mutta ei tue useita täydennyksiä (n).
Keskustelun täydennys-API
Käytetään vanhoille GPT-3.5-, GPT-4o- ja joskus o-sarjan malleille.
Päättelymalleille, kuten o3 ja o4-mini, käytä asetusta
max_completion_tokens(alias asetuksellemax_tokens)Aiemmille / ei-päättelymalleille
max_tokenstoimii yhäTukee
stop- jan-asetuksia (useita täydennyksiä).
Huomautus: Asetusta ”vähimmäistokeneita” ei ole. Jos tarvitset vähimmäispituuden, määritä se kehotteessasi.
Token-rajat malliryhmittäin
Ajantasaiset token-rajat, kontekstikoot ja tulostekatot löydät mallikohtaisesta dokumentaatiosta.
Nopeat esimerkit
Responses API
{ "model": "gpt-5", "input": "Tiivistä havainnot noin 80 sanaan.", "max_output_tokens": 120 }Chat Completions (päättelymalli)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }GPT-5-mallien omat ohjaimet: verbosity ja reasoning.effort
Nämä ohjaimet ovat saatavilla vain GPT-5-malleissa (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro jne.). O-sarja ja vanhat mallit eivät tue niitä.
verbosity hyväksyy arvot "low", "medium" (oletus) tai "high". Se vaikuttaa yksityiskohtaisuuden tasoon, muttei tiukkoihin rajoihin.
{ "model": "gpt-5", "input": "Selitä PageRank yleisellä tasolla.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort ohjaa, kuinka monta päättelytokenia luodaan ennen vastauksen tuottamista. GPT-5.2 tukee arvoja none,low, medium, high,and xhigh. gpt-5.2-pro tukee vain arvoja medium, high,and xhigh. Aiemmat päättelymallit tukevat vain arvoja low, medium ja high.
{ "model": "gpt-5", "input": "Kuinka paljon kultaa tarvittaisiin Vapaudenpatsaan päällystämiseen 1 mm:n kerroksella?", "reasoning": { "effort": "minimal" } }Asetuksen reasoning.effort voi asettaa arvoon none, jolloin malli toimii kuin ei-päättelymalli viiveherkissä käyttötapauksissa.
Anna tarkat ohjeet
Pyydä täsmälleen haluamasi pituus tai muoto. Esimerkkejä:
”Listaa täsmälleen viisi vaihtoehtoa.”
”Kirjoita 50 sanan yhteenveto.”
”Enintään 100 tokenia. Jos tarvitset enemmän, sano ’Tarvitsen enemmän tilaa.’”
Käytä esimerkkejä, joiden pituus on johdonmukainen
Muutamalla esimerkillä opettaminen auttaa mallia jatkamaan samaa kaavaa, kun esimerkit vastaavat haluttua pituutta.
Käytä pysäytyssekvenssejä strategisesti
Käytä stop-asetusta pysäyttääksesi generoinnin, kun malli saavuttaa erottimen tai numeroidun luettelon rajan.
{ "stop": ["
###", "6."] }Useita vaihtoehtoja
Chat Completions:
npalauttaa useita täydennyksiä yhdellä kutsulla.Responses API:
nei ole tuettu; tee useita kutsuja, jos tarvitset enemmän kuin yhden tulosteen.
