Pregled
Kontroliranje duljine odgovora modela korisno je iz nekoliko razloga: pomaže u upravljanju troškovima (jer plaćate po tokenu), poboljšava latenciju/performanse (kraći se odgovori vraćaju brže) i osigurava relevantnost izbjegavanjem predugih ili preopširnih izlaza.
To možete postići pomoću ograničenja tokena, postavki rasuđivanja i opširnosti, jasnih uputa, primjera i zaustavnih sekvenci. Za najnovije i potpune pojedinosti uvijek pogledajte službenu referencu API-ja na platform.openai.com.
Postavite maksimalnu duljinu izlaza
Responses API
Upotrebljava se za modele GPT-5 i većinu modela o-serije: upotrijebite max_output_tokens za ograničavanje broja tokena koje će model generirati. Za zahtjeve compaction_trigger izostavite max_output_tokens ili ga postavite na najmanje 20000; manje se vrijednosti odbijaju. Responses API ne podržava više dovršavanja (n).
API za dovršavanje razgovora
Upotrebljava se za naslijeđene modele GPT-3.5, GPT-4o i ponekad o-seriju.
Za modele za rasuđivanje kao što su o3 i o4-mini upotrijebite
max_completion_tokens(alias zamax_tokens)Za ranije modele ili modele bez rasuđivanja
max_tokensi dalje funkcioniraPodržava
stopin(više dovršavanja).
Napomena: Ne postoji postavka za „minimalan broj tokena”. Ako vam je potrebna minimalna duljina, navedite to u upitu.
Ograničenja tokena prema skupini modela
Za ažurna ograničenja tokena, veličine konteksta i gornje granice izlaza pogledajte dokumentaciju za određeni model.
Brzi primjeri
Responses API
{ "model": "gpt-5", "input": "Sažmi nalaze u otprilike 80 riječi.", "max_output_tokens": 120 }Dovršavanja razgovora (model za rasuđivanje)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Kontrole specifične za modele GPT-5: verbosity i reasoning.effort
Te su kontrole dostupne samo na modelima GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro itd.). Modeli O-serije i naslijeđeni modeli ih ne podržavaju.
`verbosity` prihvaća "low", "medium" (zadano) ili "high". Utječe na razinu detalja, ali ne i na stroga ograničenja.
{ "model": "gpt-5", "input": "Objasni PageRank na visokoj razini.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` kontrolira koliko se tokena za rasuđivanje generira prije izrade odgovora. GPT-5.2 podržava none,low, medium i high,and xhigh. gpt-5.2-pro podržava samo medium i high,and xhigh. Raniji modeli za rasuđivanje podržavaju samo low, medium i high.
{ "model": "gpt-5", "input": "Koliko bi zlata trebalo da se Kip slobode obloži slojem od 1 mm?", "reasoning": { "effort": "minimal" } }Možete postaviti `reasoning.effort` na none kako bi se model ponašao kao model bez rasuđivanja za slučajeve upotrebe osjetljive na latenciju.
Unesite konkretne upute
Zatražite točnu duljinu ili oblik koji želite. Primjeri:
„Navedite točno pet opcija.”
„Napišite sažetak od 50 riječi.”
„Ne više od 100 tokena. Ako vam treba više, recite: ‚Treba mi više prostora.’”
Upotrebljavajte primjere dosljedne duljine
Primjeri učenja s malim brojem primjera koji odgovaraju željenoj duljini pomažu modelu da nastavi obrazac.
Primijenite strateške zaustavne sekvence
Upotrijebite stop za zaustavljanje generiranja kada model dosegne razdjelnik ili granicu numeriranog popisa.
{ "stop": ["
###", "6."] }Više kandidata
Dovršavanja razgovora:
nvraća više dovršavanja u jednom pozivu.Responses API:
nnije podržan; uputite više poziva ako trebate više od jednog izlaza.
