Prehľad
Riadenie dĺžky odpovede modelu je užitočné z viacerých dôvodov: pomáha spravovať náklady (keďže platíte za token), zlepšuje latenciu/výkon (kratšie odpovede sa vracajú rýchlejšie) a zabezpečuje relevantnosť tým, že predchádza príliš dlhým alebo rozvláčnym výstupom.
Dosiahnete to pomocou limitov tokenov, nastavení uvažovania a výrečnosti, jasných pokynov, príkladov a sekvencií zastavenia. Najaktuálnejšie a úplné podrobnosti vždy nájdete v oficiálnej referencii API na platform.openai.com.
Nastavte maximálnu dĺžku výstupu
API Responses
Používa sa pre modely GPT-5 a väčšinu modelov série o: pomocou max_output_tokens obmedzte počet tokenov, ktoré model vygeneruje. Pri požiadavkách compaction_trigger buď vynechajte max_output_tokens, alebo ho nastavte aspoň na 20000; menšie hodnoty sa odmietnu. API Responses nepodporuje viacero dokončení (n).
API na dokončovanie četu
Používa sa pre staršie GPT-3.5, GPT-4o a niekedy pre sériu o.
Pre uvažovacie modely, ako sú o3 a o4-mini, použite
max_completion_tokens(alias parametramax_tokens)Pri starších/neuvažovacích modeloch
max_tokensstále fungujePodporuje
stopan(viacero dokončení).
Poznámka: Neexistuje nastavenie „minimálny počet tokenov“. Ak potrebujete minimálnu dĺžku, zadajte ju vo svojom príkaze.
Limity tokenov podľa skupiny modelov
Aktuálne limity tokenov, veľkosti kontextu a obmedzenia výstupu nájdete v dokumentácii konkrétneho modelu.
Rýchle príklady
API Responses
{ "model": "gpt-5", "input": "Zhrň zistenia do ~80 slov.", "max_output_tokens": 120 }Dokončovanie četu (uvažovací model)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Ovládacie prvky špecifické pre modely GPT-5: verbosity a reasoning.effort
Tieto ovládacie prvky sú dostupné iba v modeloch GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro atď.). Modely série O a staršie modely ich nepodporujú.
`verbosity` akceptuje "low", "medium" (predvolené) alebo "high". Ovplyvňuje úroveň podrobností, nie však pevné limity.
{ "model": "gpt-5", "input": "Vysvetli PageRank na vysokej úrovni.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` určuje, koľko tokenov uvažovania sa vygeneruje pred vytvorením odpovede. GPT-5.2 podporuje none,low, medium, high,and xhigh. gpt-5.2-pro podporuje iba medium, high,and xhigh. Staršie uvažovacie modely podporujú iba low, medium a high.
{ "model": "gpt-5", "input": "Koľko zlata by bolo treba na pokrytie Sochy slobody vrstvou s hrúbkou 1 mm?", "reasoning": { "effort": "minimal" } }Môžete nastaviť `reasoning.effort` na none, aby sa model v prípadoch citlivých na latenciu správal ako neuvažovací model.
Zadajte konkrétne pokyny
Požiadajte o presnú dĺžku alebo formát, ktorý chcete. Príklady:
„Uveď presne päť možností.“
„Napíš 50-slovný súhrn.“
„Najviac 100 tokenov. Ak potrebuješ viac, povedz: ‚Potrebujem viac miesta.‘“
Používajte príklady s konzistentnou dĺžkou
Niekoľkopríkladové ukážky, ktoré zodpovedajú požadovanej dĺžke, pomáhajú modelu pokračovať vo vzore.
Používajte strategické sekvencie zastavenia
Použite stop na zastavenie generovania, keď model dosiahne oddeľovač alebo hranicu číslovaného zoznamu.
{ "stop": ["
###", "6."] }Viacero kandidátov
Dokončovanie četu:
nvráti viacero dokončení v jednom volaní.API Responses:
nsa nepodporuje; ak potrebujete viac než jeden výstup, vykonajte viacero volaní.
