Zjistěte, jak u modelů OpenAI nastavit limity výstupu pomocí tokenů, jasných promptů, příkladů a sekvencí stop.

Přehled

Řízení délky odpovědi modelu je užitečné z několika důvodů: pomáhá řídit náklady (protože platíte za token), zlepšuje latenci/výkon (kratší odpovědi se vracejí rychleji) a zajišťuje relevanci tím, že se vyhne příliš dlouhým nebo rozvláčným výstupům.

Toho můžete dosáhnout pomocí limitů tokenů, nastavení uvažování a výřečnosti, jasných pokynů, příkladů a stop sekvencí. Nejaktuálnější a úplné informace vždy najdete v oficiální referenci API na platform.openai.com.

Nastavte maximální délku výstupu

Responses API

Používá se pro modely GPT-5 a většinu modelů řady o: pomocí max_output_tokens omezte počet tokenů, které model vygeneruje. U požadavků compaction_trigger buď vynechte max_output_tokens, nebo ho nastavte alespoň na 20000; menší hodnoty jsou odmítnuty. Responses API nepodporuje více dokončení (n).

API na dokončování chatu

Používá se pro starší GPT-3.5, GPT-4o a někdy řadu o.

Pro modely s uvažováním, jako jsou o3 a o4-mini, použijte max_completion_tokens (alias max_tokens)
U dřívějších modelů / modelů bez uvažování stále funguje max_tokens
Podporuje stop a n (více dokončení).

Poznámka: Nastavení „minimum tokenů“ neexistuje. Pokud potřebujete minimální délku, uveďte ji ve svém promptu.

Limity tokenů podle skupiny modelů

Aktuální limity tokenů, velikosti kontextu a výstupní limity najdete v dokumentaci konkrétního modelu.

Rychlé příklady

Responses API

{ "model": "gpt-5", "input": "Shrňte zjištění do ~80 slov.", "max_output_tokens": 120 }

Dokončování chatu (model s uvažováním)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Specifické ovládací prvky modelů GPT-5: `verbosity` a `reasoning.effort`

Tyto ovládací prvky jsou dostupné pouze u modelů GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro atd.). Modely řady O a starší modely je nepodporují.

`verbosity` přijímá hodnoty "low", "medium" (výchozí) nebo "high". Ovlivňuje úroveň podrobností, ale ne pevné limity.

{ "model": "gpt-5", "input": "Vysvětlete PageRank na vysoké úrovni.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` určuje, kolik tokenů uvažování se vygeneruje před vytvořením odpovědi. GPT-5.2 podporuje none,low, medium, high,and xhigh. gpt-5.2-pro podporuje pouze medium, high,and xhigh. Dřívější modely s uvažováním podporují pouze low, medium a high.

{ "model": "gpt-5", "input": "Kolik zlata by bylo potřeba k pokrytí Sochy svobody vrstvou o tloušťce 1 mm?", "reasoning": { "effort": "minimal" } }

`reasoning.effort` můžete nastavit na none, aby se model v případech citlivých na latenci choval jako model bez uvažování.

Zadejte konkrétní pokyny

Požádejte o přesnou délku nebo podobu, kterou chcete. Příklady:

„Uveď přesně pět možností.“
„Napiš shrnutí o 50 slovech.“
„Ne více než 100 tokenů. Pokud potřebuješ víc, napiš ‚Potřebuji více prostoru.‘“

Používejte příklady s konzistentní délkou

Příklady na několika příkladech, které odpovídají požadované délce, pomáhají modelu pokračovat ve vzoru.

Používejte strategické stop sekvence

Pomocí stop zastavte generování, když model dosáhne oddělovače nebo hranice číslovaného seznamu.

{ "stop": ["
###", "6."] }

Více kandidátů

Dokončování chatu: n vrátí více dokončení v jednom volání.
Responses API: n není podporováno; pokud potřebujete více než jeden výstup, proveďte více volání.

Řízení délky odpovědí modelů OpenAI

Přehled

Nastavte maximální délku výstupu

Responses API

API na dokončování chatu

Limity tokenů podle skupiny modelů

Rychlé příklady

Specifické ovládací prvky modelů GPT-5: `verbosity` a `reasoning.effort`

Zadejte konkrétní pokyny

Používejte příklady s konzistentní délkou

Používejte strategické stop sekvence

Více kandidátů

Byl tento článek užitečný?

Řízení délky odpovědí modelů OpenAI

Přehled

Nastavte maximální délku výstupu

Responses API

API na dokončování chatu

Limity tokenů podle skupiny modelů

Rychlé příklady

Specifické ovládací prvky modelů GPT-5: verbosity a reasoning.effort

Zadejte konkrétní pokyny

Používejte příklady s konzistentní délkou

Používejte strategické stop sekvence

Více kandidátů

Byl tento článek užitečný?

Specifické ovládací prvky modelů GPT-5: `verbosity` a `reasoning.effort`