OpenAI
Táto stránka bola strojovo preložená. Prečítaj si pôvodný článok v angličtine.

Riadenie dĺžky odpovedí modelov OpenAI

Naučte sa nastavovať limity výstupu pre modely OpenAI pomocou nastavení tokenov, jasných príkazov, príkladov a sekvencií stop.

Aktualizované: 2 days ago

Prehľad

Riadenie dĺžky odpovede modelu je užitočné z viacerých dôvodov: pomáha spravovať náklady (keďže platíte za token), zlepšuje latenciu/výkon (kratšie odpovede sa vracajú rýchlejšie) a zabezpečuje relevantnosť tým, že predchádza príliš dlhým alebo rozvláčnym výstupom.

Dosiahnete to pomocou limitov tokenov, nastavení uvažovania a výrečnosti, jasných pokynov, príkladov a sekvencií zastavenia. Najaktuálnejšie a úplné podrobnosti vždy nájdete v oficiálnej referencii API na platform.openai.com.

Nastavte maximálnu dĺžku výstupu

API Responses

Používa sa pre modely GPT-5 a väčšinu modelov série o: pomocou max_output_tokens obmedzte počet tokenov, ktoré model vygeneruje. Pri požiadavkách compaction_trigger buď vynechajte max_output_tokens, alebo ho nastavte aspoň na 20000; menšie hodnoty sa odmietnu. API Responses nepodporuje viacero dokončení (n).

API na dokončovanie četu

Používa sa pre staršie GPT-3.5, GPT-4o a niekedy pre sériu o.

  • Pre uvažovacie modely, ako sú o3 a o4-mini, použite max_completion_tokens (alias parametra max_tokens)

  • Pri starších/neuvažovacích modeloch max_tokens stále funguje

  • Podporuje stop a n (viacero dokončení).

Poznámka: Neexistuje nastavenie „minimálny počet tokenov“. Ak potrebujete minimálnu dĺžku, zadajte ju vo svojom príkaze.

Limity tokenov podľa skupiny modelov

Aktuálne limity tokenov, veľkosti kontextu a obmedzenia výstupu nájdete v dokumentácii konkrétneho modelu.

Rýchle príklady

API Responses

{ "model": "gpt-5", "input": "Zhrň zistenia do ~80 slov.", "max_output_tokens": 120 }

Dokončovanie četu (uvažovací model)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Ovládacie prvky špecifické pre modely GPT-5: verbosity a reasoning.effort

Tieto ovládacie prvky sú dostupné iba v modeloch GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro atď.). Modely série O a staršie modely ich nepodporujú.

`verbosity` akceptuje "low", "medium" (predvolené) alebo "high". Ovplyvňuje úroveň podrobností, nie však pevné limity.

{ "model": "gpt-5", "input": "Vysvetli PageRank na vysokej úrovni.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` určuje, koľko tokenov uvažovania sa vygeneruje pred vytvorením odpovede. GPT-5.2 podporuje none,low, medium, high,and xhigh. gpt-5.2-pro podporuje iba medium, high,and xhigh. Staršie uvažovacie modely podporujú iba low, medium a high.

{ "model": "gpt-5", "input": "Koľko zlata by bolo treba na pokrytie Sochy slobody vrstvou s hrúbkou 1 mm?", "reasoning": { "effort": "minimal" } }

Môžete nastaviť `reasoning.effort` na none, aby sa model v prípadoch citlivých na latenciu správal ako neuvažovací model.

Zadajte konkrétne pokyny

Požiadajte o presnú dĺžku alebo formát, ktorý chcete. Príklady:

  • „Uveď presne päť možností.“

  • „Napíš 50-slovný súhrn.“

  • „Najviac 100 tokenov. Ak potrebuješ viac, povedz: ‚Potrebujem viac miesta.‘“

Používajte príklady s konzistentnou dĺžkou

Niekoľkopríkladové ukážky, ktoré zodpovedajú požadovanej dĺžke, pomáhajú modelu pokračovať vo vzore.

Používajte strategické sekvencie zastavenia

Použite stop na zastavenie generovania, keď model dosiahne oddeľovač alebo hranicu číslovaného zoznamu.

{ "stop": ["
###", "6."] }

Viacero kandidátov

  • Dokončovanie četu: n vráti viacero dokončení v jednom volaní.

  • API Responses: n sa nepodporuje; ak potrebujete viac než jeden výstup, vykonajte viacero volaní.

Bol tento článok užitočný?