OpenAI
Tämä sivu on konekäännetty. Katso alkuperäinen englanninkielinen artikkeli.

OpenAI-mallien vastausten pituuden hallinta

Lue, miten OpenAI-mallien tulosteen rajoja asetetaan token-asetuksilla, selkeillä kehotteilla, esimerkeillä ja pysäytyssekvensseillä.

Päivitetty: 9 days ago

Yleiskatsaus

Mallin vastauksen pituuden hallinta on hyödyllistä monesta syystä: se auttaa hallitsemaan kustannuksia (koska maksat tokeneittain), parantaa viivettä/suorituskykyä (lyhyemmät vastaukset palautuvat nopeammin) ja varmistaa olennaisuuden välttämällä liian pitkiä tai laveita tulosteita.

Tähän voi käyttää token-kattoja, päättely- ja monisanaisuusasetuksia, selkeitä ohjeita, esimerkkejä ja pysäytyssekvenssejä. Ajantasaisimmat ja täydellisimmät tiedot löydät aina virallisesta API-viitteestä osoitteessa platform.openai.com.

Aseta tulosteen enimmäispituus

Responses API

Käytetään GPT-5-malleille ja useimmille o-sarjan malleille: rajoita mallin tuottamien tokenien määrää asetuksella max_output_tokens. Tukee stop-asetusta, mutta ei tue useita täydennyksiä (n).

Keskustelun täydennys-API

Käytetään vanhoille GPT-3.5-, GPT-4o- ja joskus o-sarjan malleille.

  • Päättelymalleille, kuten o3 ja o4-mini, käytä asetusta max_completion_tokens (alias asetukselle max_tokens)

  • Aiemmille / ei-päättelymalleille max_tokens toimii yhä

  • Tukee stop- ja n-asetuksia (useita täydennyksiä).

Huomautus: Asetusta ”vähimmäistokeneita” ei ole. Jos tarvitset vähimmäispituuden, määritä se kehotteessasi.

Token-rajat malliryhmittäin

Ajantasaiset token-rajat, kontekstikoot ja tulostekatot löydät mallikohtaisesta dokumentaatiosta.

Nopeat esimerkit

Responses API

{ "model": "gpt-5", "input": "Tiivistä havainnot noin 80 sanaan.", "max_output_tokens": 120 }

Chat Completions (päättelymalli)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

GPT-5-mallien omat ohjaimet: verbosity ja reasoning.effort

Nämä ohjaimet ovat saatavilla vain GPT-5-malleissa (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro jne.). O-sarja ja vanhat mallit eivät tue niitä.

verbosity hyväksyy arvot "low", "medium" (oletus) tai "high". Se vaikuttaa yksityiskohtaisuuden tasoon, muttei tiukkoihin rajoihin.

{ "model": "gpt-5", "input": "Selitä PageRank yleisellä tasolla.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort ohjaa, kuinka monta päättelytokenia luodaan ennen vastauksen tuottamista. GPT-5.2 tukee arvoja none,low, medium, high,and xhigh. gpt-5.2-pro tukee vain arvoja medium, high,and xhigh. Aiemmat päättelymallit tukevat vain arvoja low, medium ja high.

{ "model": "gpt-5", "input": "Kuinka paljon kultaa tarvittaisiin Vapaudenpatsaan päällystämiseen 1 mm:n kerroksella?", "reasoning": { "effort": "minimal" } }

Asetuksen reasoning.effort voi asettaa arvoon none, jolloin malli toimii kuin ei-päättelymalli viiveherkissä käyttötapauksissa.

Anna tarkat ohjeet

Pyydä täsmälleen haluamasi pituus tai muoto. Esimerkkejä:

  • ”Listaa täsmälleen viisi vaihtoehtoa.”

  • ”Kirjoita 50 sanan yhteenveto.”

  • ”Enintään 100 tokenia. Jos tarvitset enemmän, sano ’Tarvitsen enemmän tilaa.’”

Käytä esimerkkejä, joiden pituus on johdonmukainen

Muutamalla esimerkillä opettaminen auttaa mallia jatkamaan samaa kaavaa, kun esimerkit vastaavat haluttua pituutta.

Käytä pysäytyssekvenssejä strategisesti

Käytä stop-asetusta pysäyttääksesi generoinnin, kun malli saavuttaa erottimen tai numeroidun luettelon rajan.

{ "stop": ["
###", "6."] }

Useita vaihtoehtoja

  • Chat Completions: n palauttaa useita täydennyksiä yhdellä kutsulla.

  • Responses API: n ei ole tuettu; tee useita kutsuja, jos tarvitset enemmän kuin yhden tulosteen.

Oliko tästä artikkelista apua?