Přehled
Řízení délky odpovědi modelu je užitečné z několika důvodů: pomáhá řídit náklady (protože platíte za token), zlepšuje latenci/výkon (kratší odpovědi se vracejí rychleji) a zajišťuje relevanci tím, že zabraňuje příliš dlouhým nebo rozvláčným výstupům.
Toho můžete dosáhnout pomocí omezení tokenů, nastavení uvažování a podrobnosti, jasných pokynů, příkladů a sekvencí stop. Nejaktuálnější a úplné informace vždy najdete v oficiální referenci API na platform.openai.com.
Nastavení maximální délky výstupu
Responses API
Používá se pro modely GPT-5 a většinu modelů řady o: k omezení počtu tokenů, které model vygeneruje, použijte max_output_tokens. Podporuje stop, ale nepodporuje více dokončení (n).
API na dokončování chatu
Používá se pro starší GPT-3.5, GPT-4o a někdy i řadu o.
U modelů s uvažováním, jako jsou o3 a o4-mini, použijte
max_completion_tokens(alias promax_tokens)U dřívějších/modelů bez uvažování stále funguje
max_tokensPodporuje
stopan(více dokončení).
Poznámka: Nastavení „minimum tokenů“ neexistuje. Pokud potřebujete minimální délku, uveďte ji ve svém promptu.
Limity tokenů podle skupiny modelů
Aktuální limity tokenů, velikosti kontextu a omezení výstupu najdete v dokumentaci ke konkrétním modelům.
Rychlé příklady
Responses API
{ "model": "gpt-5", "input": "Shrňte zjištění do ~80 slov.", "max_output_tokens": 120 }Chat Completions (model s uvažováním)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Specifické ovládací prvky modelů GPT-5: verbosity a reasoning.effort
Tyto ovládací prvky jsou dostupné pouze u modelů GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro atd.). Řada o ani starší modely je nepodporují.
verbosity přijímá "low", "medium" (výchozí) nebo "high". Ovlivňuje úroveň podrobnosti, ale ne pevné limity.
{ "model": "gpt-5", "input": "Vysvětlete PageRank na vysoké úrovni.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort řídí, kolik tokenů uvažování se vygeneruje před vytvořením odpovědi. GPT-5.2 podporuje none,low, medium, high,and xhigh. gpt-5.2-pro podporuje pouze medium, high,and xhigh. Dřívější modely s uvažováním podporují jen low, medium a high.
{ "model": "gpt-5", "input": "Kolik zlata by bylo potřeba k pokrytí Sochy svobody vrstvou o tloušťce 1 mm?", "reasoning": { "effort": "minimal" } }reasoning.effort můžete nastavit na none, aby se model v případech citlivých na latenci choval jako model bez uvažování.
Poskytněte konkrétní pokyny
Požádejte o přesnou délku nebo formu, kterou chcete. Příklady:
„Uveďte přesně pět možností.“
„Napište shrnutí o 50 slovech.“
„Ne více než 100 tokenů. Pokud potřebujete víc, řekněte: ‚Potřebuji více prostoru.‘“
Používejte příklady s konzistentní délkou
Příklady na několika příkladech, které odpovídají požadované délce, pomáhají modelu pokračovat ve vzoru.
Používejte strategické sekvence stop
Použijte stop k zastavení generování, když model dosáhne oddělovače nebo hranice číslovaného seznamu.
{ "stop": ["
###", "6."] }Více kandidátů
Chat Completions:
nvrací více dokončení v jednom volání.Responses API:
nnení podporováno; pokud potřebujete více než jeden výstup, proveďte více volání.
