OpenAI
Tato stránka byla přeložena strojově. Zobrazit původní článek v angličtině.

Řízení délky odpovědí modelů OpenAI

Zjistěte, jak u modelů OpenAI nastavit limity výstupu pomocí tokenů, jasných promptů, příkladů a sekvencí stop.

Aktualizováno: 2 days ago

Přehled

Řízení délky odpovědi modelu je užitečné z několika důvodů: pomáhá řídit náklady (protože platíte za token), zlepšuje latenci/výkon (kratší odpovědi se vracejí rychleji) a zajišťuje relevanci tím, že zabraňuje příliš dlouhým nebo rozvláčným výstupům.

Toho můžete dosáhnout pomocí omezení tokenů, nastavení uvažování a podrobnosti, jasných pokynů, příkladů a sekvencí stop. Nejaktuálnější a úplné informace vždy najdete v oficiální referenci API na platform.openai.com.

Nastavení maximální délky výstupu

Responses API

Používá se pro modely GPT-5 a většinu modelů řady o: k omezení počtu tokenů, které model vygeneruje, použijte max_output_tokens. Podporuje stop, ale nepodporuje více dokončení (n).

API na dokončování chatu

Používá se pro starší GPT-3.5, GPT-4o a někdy i řadu o.

  • U modelů s uvažováním, jako jsou o3 a o4-mini, použijte max_completion_tokens (alias pro max_tokens)

  • U dřívějších/modelů bez uvažování stále funguje max_tokens

  • Podporuje stop a n (více dokončení).

Poznámka: Nastavení „minimum tokenů“ neexistuje. Pokud potřebujete minimální délku, uveďte ji ve svém promptu.

Limity tokenů podle skupiny modelů

Aktuální limity tokenů, velikosti kontextu a omezení výstupu najdete v dokumentaci ke konkrétním modelům.

Rychlé příklady

Responses API

{ "model": "gpt-5", "input": "Shrňte zjištění do ~80 slov.", "max_output_tokens": 120 }

Chat Completions (model s uvažováním)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Specifické ovládací prvky modelů GPT-5: verbosity a reasoning.effort

Tyto ovládací prvky jsou dostupné pouze u modelů GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro atd.). Řada o ani starší modely je nepodporují.

verbosity přijímá "low", "medium" (výchozí) nebo "high". Ovlivňuje úroveň podrobnosti, ale ne pevné limity.

{ "model": "gpt-5", "input": "Vysvětlete PageRank na vysoké úrovni.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort řídí, kolik tokenů uvažování se vygeneruje před vytvořením odpovědi. GPT-5.2 podporuje none,low, medium, high,and xhigh. gpt-5.2-pro podporuje pouze medium, high,and xhigh. Dřívější modely s uvažováním podporují jen low, medium a high.

{ "model": "gpt-5", "input": "Kolik zlata by bylo potřeba k pokrytí Sochy svobody vrstvou o tloušťce 1 mm?", "reasoning": { "effort": "minimal" } }

reasoning.effort můžete nastavit na none, aby se model v případech citlivých na latenci choval jako model bez uvažování.

Poskytněte konkrétní pokyny

Požádejte o přesnou délku nebo formu, kterou chcete. Příklady:

  • „Uveďte přesně pět možností.“

  • „Napište shrnutí o 50 slovech.“

  • „Ne více než 100 tokenů. Pokud potřebujete víc, řekněte: ‚Potřebuji více prostoru.‘“

Používejte příklady s konzistentní délkou

Příklady na několika příkladech, které odpovídají požadované délce, pomáhají modelu pokračovat ve vzoru.

Používejte strategické sekvence stop

Použijte stop k zastavení generování, když model dosáhne oddělovače nebo hranice číslovaného seznamu.

{ "stop": ["
###", "6."] }

Více kandidátů

  • Chat Completions: n vrací více dokončení v jednom volání.

  • Responses API: n není podporováno; pokud potřebujete více než jeden výstup, proveďte více volání.

Byl tento článek užitečný?