OpenAI
Šis puslapis buvo išverstas mašininiu būdu. Peržiūrėti originalų straipsnį anglų kalba.

OpenAI modelių atsakymų ilgio valdymas

Sužinokite, kaip nustatyti OpenAI modelių išvesties ribas naudojant žetonų nustatymus, aiškias užklausas, pavyzdžius ir stabdymo sekas.

Atnaujinta: 10 days ago

Apžvalga

Valdyti modelio atsakymo ilgį naudinga dėl kelių priežasčių: tai padeda valdyti išlaidas (nes mokate už kiekvieną žetoną), gerina delsą ir našumą (trumpesni atsakymai grąžinami greičiau) ir užtikrina aktualumą, išvengiant pernelyg ilgų ar išsamių atsakymų.

Tai galite pasiekti naudodami žetonų apribojimus, protavimo ir išsamumo nustatymus, aiškias instrukcijas, pavyzdžius ir stabdymo sekas. Naujausią ir išsamiausią informaciją visada rasite oficialioje API nuorodoje platform.openai.com.

Nustatykite maksimalų išvesties ilgį

Responses API

Naudojama su GPT-5 modeliais ir dauguma o serijos modelių: naudokite max_output_tokens, kad apribotumėte modelio generuojamų žetonų skaičių. compaction_trigger užklausoms praleiskite max_output_tokens arba nustatykite bent 20000; mažesnės reikšmės atmetamos. Responses API nepalaiko kelių užbaigimų (n).

Pokalbių užbaigimo API

Naudojama senesniems GPT-3.5, GPT-4o ir kartais o serijos modeliams.

  • Tokiems protavimo modeliams kaip OpenAI o3 ir o4-mini naudokite max_completion_tokens (max_tokens pseudonimas)

  • Ankstesniems / ne protavimo modeliams max_tokens vis dar veikia

  • Palaiko stop ir n (kelis užbaigimus).

Pastaba: Nėra „minimalaus žetonų skaičiaus“ nustatymo. Jei jums reikia minimalaus ilgio, nurodykite tai savo užklausoje.

Žetonų limitai pagal modelių grupę

Naujausius žetonų limitus, konteksto dydžius ir išvesties apribojimus rasite konkretaus modelio dokumentacijoje.

Trumpi pavyzdžiai

Responses API

{ "model": "gpt-5", "input": "Apibendrinkite išvadas ~80 žodžių.", "max_output_tokens": 120 }

Chat Completions (protavimo modelis)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

GPT-5 modeliams būdingi valdikliai: verbosity ir reasoning.effort

Šie valdikliai prieinami tik GPT-5 modeliuose (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro ir kt.). O serijos ir senesni modeliai jų nepalaiko.

`verbosity` priima "low", "medium" (numatytoji reikšmė) arba "high". Tai turi įtakos detalumo lygiui, bet ne griežtiems limitams.

{ "model": "gpt-5", "input": "Aukštu lygiu paaiškinkite PageRank.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` valdo, kiek protavimo žetonų sugeneruojama prieš pateikiant atsakymą. GPT-5.2 palaiko none,low, medium, high,and xhigh. gpt-5.2-pro palaiko tik medium, high,and xhigh. Ankstesni protavimo modeliai palaiko tik low, medium ir high.

{ "model": "gpt-5", "input": "Kiek aukso reikėtų, kad Laisvės statulą padengtų 1 mm sluoksnis?", "reasoning": { "effort": "minimal" } }

Galite nustatyti `reasoning.effort` į none, kad modelis delsai jautriais naudojimo atvejais elgtųsi kaip ne protavimo modelis.

Pateikite konkrečias instrukcijas

Paprašykite tiksliai nurodydami norimą ilgį ar formą. Pavyzdžiai:

  • „Išvardykite lygiai penkias parinktis.“

  • „Parašykite 50 žodžių santrauką.“

  • „Ne daugiau kaip 100 žetonų. Jei reikia daugiau, parašykite „Reikia daugiau vietos.““

Naudokite vienodo ilgio pavyzdžius

Naudojant kelis pavyzdžius, jų ilgis turėtų atitikti pageidaujamą – taip modelis lengviau tęs šabloną.

Strategiškai taikykite stabdymo sekas

Naudokite stop, kad generavimas būtų sustabdytas, kai modelis pasiekia skyriklį arba sunumeruoto sąrašo ribą.

{ "stop": ["
###", "6."] }

Keli variantai

  • Chat Completions: n vienu iškvietimu grąžina kelis užbaigimus.

  • Responses API: n nepalaikoma; jei reikia daugiau nei vienos išvesties, atlikite kelis iškvietimus.

Ar šis straipsnis buvo naudingas?