Apžvalga
Valdyti modelio atsakymo ilgį naudinga dėl kelių priežasčių: tai padeda valdyti išlaidas (nes mokate už kiekvieną žetoną), gerina delsą ir našumą (trumpesni atsakymai grąžinami greičiau) ir užtikrina aktualumą, išvengiant pernelyg ilgų ar išsamių atsakymų.
Tai galite pasiekti naudodami žetonų apribojimus, protavimo ir išsamumo nustatymus, aiškias instrukcijas, pavyzdžius ir stabdymo sekas. Naujausią ir išsamiausią informaciją visada rasite oficialioje API nuorodoje platform.openai.com.
Nustatykite maksimalų išvesties ilgį
Responses API
Naudojama su GPT-5 modeliais ir dauguma o serijos modelių: naudokite max_output_tokens, kad apribotumėte modelio generuojamų žetonų skaičių. compaction_trigger užklausoms praleiskite max_output_tokens arba nustatykite bent 20000; mažesnės reikšmės atmetamos. Responses API nepalaiko kelių užbaigimų (n).
Pokalbių užbaigimo API
Naudojama senesniems GPT-3.5, GPT-4o ir kartais o serijos modeliams.
Tokiems protavimo modeliams kaip OpenAI o3 ir o4-mini naudokite
max_completion_tokens(max_tokenspseudonimas)Ankstesniems / ne protavimo modeliams
max_tokensvis dar veikiaPalaiko
stopirn(kelis užbaigimus).
Pastaba: Nėra „minimalaus žetonų skaičiaus“ nustatymo. Jei jums reikia minimalaus ilgio, nurodykite tai savo užklausoje.
Žetonų limitai pagal modelių grupę
Naujausius žetonų limitus, konteksto dydžius ir išvesties apribojimus rasite konkretaus modelio dokumentacijoje.
Trumpi pavyzdžiai
Responses API
{ "model": "gpt-5", "input": "Apibendrinkite išvadas ~80 žodžių.", "max_output_tokens": 120 }Chat Completions (protavimo modelis)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }GPT-5 modeliams būdingi valdikliai: verbosity ir reasoning.effort
Šie valdikliai prieinami tik GPT-5 modeliuose (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro ir kt.). O serijos ir senesni modeliai jų nepalaiko.
`verbosity` priima "low", "medium" (numatytoji reikšmė) arba "high". Tai turi įtakos detalumo lygiui, bet ne griežtiems limitams.
{ "model": "gpt-5", "input": "Aukštu lygiu paaiškinkite PageRank.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` valdo, kiek protavimo žetonų sugeneruojama prieš pateikiant atsakymą. GPT-5.2 palaiko none,low, medium, high,and xhigh. gpt-5.2-pro palaiko tik medium, high,and xhigh. Ankstesni protavimo modeliai palaiko tik low, medium ir high.
{ "model": "gpt-5", "input": "Kiek aukso reikėtų, kad Laisvės statulą padengtų 1 mm sluoksnis?", "reasoning": { "effort": "minimal" } }Galite nustatyti `reasoning.effort` į none, kad modelis delsai jautriais naudojimo atvejais elgtųsi kaip ne protavimo modelis.
Pateikite konkrečias instrukcijas
Paprašykite tiksliai nurodydami norimą ilgį ar formą. Pavyzdžiai:
„Išvardykite lygiai penkias parinktis.“
„Parašykite 50 žodžių santrauką.“
„Ne daugiau kaip 100 žetonų. Jei reikia daugiau, parašykite „Reikia daugiau vietos.““
Naudokite vienodo ilgio pavyzdžius
Naudojant kelis pavyzdžius, jų ilgis turėtų atitikti pageidaujamą – taip modelis lengviau tęs šabloną.
Strategiškai taikykite stabdymo sekas
Naudokite stop, kad generavimas būtų sustabdytas, kai modelis pasiekia skyriklį arba sunumeruoto sąrašo ribą.
{ "stop": ["
###", "6."] }Keli variantai
Chat Completions:
nvienu iškvietimu grąžina kelis užbaigimus.Responses API:
nnepalaikoma; jei reikia daugiau nei vienos išvesties, atlikite kelis iškvietimus.
