Přehled
Řízení délky odpovědi modelu je užitečné z několika důvodů: pomáhá řídit náklady (protože platíte za token), zlepšuje latenci/výkon (kratší odpovědi se vracejí rychleji) a zajišťuje relevanci tím, že se vyhne příliš dlouhým nebo rozvláčným výstupům.
Toho můžete dosáhnout pomocí limitů tokenů, nastavení uvažování a výřečnosti, jasných pokynů, příkladů a stop sekvencí. Nejaktuálnější a úplné informace vždy najdete v oficiální referenci API na platform.openai.com.
Nastavte maximální délku výstupu
Responses API
Používá se pro modely GPT-5 a většinu modelů řady o: pomocí max_output_tokens omezte počet tokenů, které model vygeneruje. U požadavků compaction_trigger buď vynechte max_output_tokens, nebo ho nastavte alespoň na 20000; menší hodnoty jsou odmítnuty. Responses API nepodporuje více dokončení (n).
API na dokončování chatu
Používá se pro starší GPT-3.5, GPT-4o a někdy řadu o.
Pro modely s uvažováním, jako jsou o3 a o4-mini, použijte
max_completion_tokens(aliasmax_tokens)U dřívějších modelů / modelů bez uvažování stále funguje
max_tokensPodporuje
stopan(více dokončení).
Poznámka: Nastavení „minimum tokenů“ neexistuje. Pokud potřebujete minimální délku, uveďte ji ve svém promptu.
Limity tokenů podle skupiny modelů
Aktuální limity tokenů, velikosti kontextu a výstupní limity najdete v dokumentaci konkrétního modelu.
Rychlé příklady
Responses API
{ "model": "gpt-5", "input": "Shrňte zjištění do ~80 slov.", "max_output_tokens": 120 }Dokončování chatu (model s uvažováním)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Specifické ovládací prvky modelů GPT-5: verbosity a reasoning.effort
Tyto ovládací prvky jsou dostupné pouze u modelů GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro atd.). Modely řady O a starší modely je nepodporují.
`verbosity` přijímá hodnoty "low", "medium" (výchozí) nebo "high". Ovlivňuje úroveň podrobností, ale ne pevné limity.
{ "model": "gpt-5", "input": "Vysvětlete PageRank na vysoké úrovni.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` určuje, kolik tokenů uvažování se vygeneruje před vytvořením odpovědi. GPT-5.2 podporuje none,low, medium, high,and xhigh. gpt-5.2-pro podporuje pouze medium, high,and xhigh. Dřívější modely s uvažováním podporují pouze low, medium a high.
{ "model": "gpt-5", "input": "Kolik zlata by bylo potřeba k pokrytí Sochy svobody vrstvou o tloušťce 1 mm?", "reasoning": { "effort": "minimal" } }`reasoning.effort` můžete nastavit na none, aby se model v případech citlivých na latenci choval jako model bez uvažování.
Zadejte konkrétní pokyny
Požádejte o přesnou délku nebo podobu, kterou chcete. Příklady:
„Uveď přesně pět možností.“
„Napiš shrnutí o 50 slovech.“
„Ne více než 100 tokenů. Pokud potřebuješ víc, napiš ‚Potřebuji více prostoru.‘“
Používejte příklady s konzistentní délkou
Příklady na několika příkladech, které odpovídají požadované délce, pomáhají modelu pokračovat ve vzoru.
Používejte strategické stop sekvence
Pomocí stop zastavte generování, když model dosáhne oddělovače nebo hranice číslovaného seznamu.
{ "stop": ["
###", "6."] }Více kandidátů
Dokončování chatu:
nvrátí více dokončení v jednom volání.Responses API:
nnení podporováno; pokud potřebujete více než jeden výstup, proveďte více volání.
