OpenAI
Ova je stranica strojno prevedena. Pogledajte izvorni članak na engleskom jeziku.

Kontroliranje duljine odgovora modela OpenAI-ja

Saznajte kako postaviti ograničenja izlaza za OpenAI modele pomoću postavki tokena, jasnih upita, primjera i stop-sekvenci.

Ažurirano: this minute

Pregled

Kontroliranje duljine odgovora modela korisno je iz nekoliko razloga: pomaže u upravljanju troškovima (jer plaćate po tokenu), poboljšava latenciju/performanse (kraći se odgovori vraćaju brže) i osigurava relevantnost izbjegavanjem predugih ili preopširnih izlaza.

To možete postići pomoću ograničenja tokena, postavki rasuđivanja i opširnosti, jasnih uputa, primjera i zaustavnih sekvenci. Za najnovije i potpune pojedinosti uvijek pogledajte službenu referencu API-ja na platform.openai.com.

Postavite maksimalnu duljinu izlaza

Responses API

Upotrebljava se za modele GPT-5 i većinu modela o-serije: upotrijebite max_output_tokens za ograničavanje broja tokena koje će model generirati. Za zahtjeve compaction_trigger izostavite max_output_tokens ili ga postavite na najmanje 20000; manje se vrijednosti odbijaju. Responses API ne podržava više dovršavanja (n).

API za dovršavanje razgovora

Upotrebljava se za naslijeđene modele GPT-3.5, GPT-4o i ponekad o-seriju.

  • Za modele za rasuđivanje kao što su o3 i o4-mini upotrijebite max_completion_tokens (alias za max_tokens)

  • Za ranije modele ili modele bez rasuđivanja max_tokens i dalje funkcionira

  • Podržava stop i n (više dovršavanja).

Napomena: Ne postoji postavka za „minimalan broj tokena”. Ako vam je potrebna minimalna duljina, navedite to u upitu.

Ograničenja tokena prema skupini modela

Za ažurna ograničenja tokena, veličine konteksta i gornje granice izlaza pogledajte dokumentaciju za određeni model.

Brzi primjeri

Responses API

{ "model": "gpt-5", "input": "Sažmi nalaze u otprilike 80 riječi.", "max_output_tokens": 120 }

Dovršavanja razgovora (model za rasuđivanje)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Kontrole specifične za modele GPT-5: verbosity i reasoning.effort

Te su kontrole dostupne samo na modelima GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro itd.). Modeli O-serije i naslijeđeni modeli ih ne podržavaju.

`verbosity` prihvaća "low", "medium" (zadano) ili "high". Utječe na razinu detalja, ali ne i na stroga ograničenja.

{ "model": "gpt-5", "input": "Objasni PageRank na visokoj razini.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` kontrolira koliko se tokena za rasuđivanje generira prije izrade odgovora. GPT-5.2 podržava none,low, medium i high,and xhigh. gpt-5.2-pro podržava samo medium i high,and xhigh. Raniji modeli za rasuđivanje podržavaju samo low, medium i high.

{ "model": "gpt-5", "input": "Koliko bi zlata trebalo da se Kip slobode obloži slojem od 1 mm?", "reasoning": { "effort": "minimal" } }

Možete postaviti `reasoning.effort` na none kako bi se model ponašao kao model bez rasuđivanja za slučajeve upotrebe osjetljive na latenciju.

Unesite konkretne upute

Zatražite točnu duljinu ili oblik koji želite. Primjeri:

  • „Navedite točno pet opcija.”

  • „Napišite sažetak od 50 riječi.”

  • „Ne više od 100 tokena. Ako vam treba više, recite: ‚Treba mi više prostora.’”

Upotrebljavajte primjere dosljedne duljine

Primjeri učenja s malim brojem primjera koji odgovaraju željenoj duljini pomažu modelu da nastavi obrazac.

Primijenite strateške zaustavne sekvence

Upotrijebite stop za zaustavljanje generiranja kada model dosegne razdjelnik ili granicu numeriranog popisa.

{ "stop": ["
###", "6."] }

Više kandidata

  • Dovršavanja razgovora: n vraća više dovršavanja u jednom pozivu.

  • Responses API: n nije podržan; uputite više poziva ako trebate više od jednog izlaza.

Je li vam ovaj članak bio koristan?