Общ преглед
Контролирането на дължината на отговора на модела е полезно по няколко причини: помага за управление на разходите (тъй като плащате на токен), подобрява латентността/производителността (по-кратките отговори се връщат по-бързо) и осигурява релевантност, като избягва прекалено дълги или многословни изходи.
Можете да постигнете това чрез лимити за токени, настройки за структурирано анализиране и подробност, ясни инструкции, примери и стоп последователности. За най-актуалните и пълни подробности винаги се обръщайте към официалната API справка на platform.openai.com.
Задайте максимална дължина на изхода
Responses API
Използва се за модели GPT-5 и повечето модели от серията o: използвайте max_output_tokens, за да ограничите броя токени, които моделът ще генерира. За заявки compaction_trigger или пропуснете max_output_tokens, или го задайте на поне 20000; по-малки стойности се отхвърлят. Responses API не поддържа множество завършвания (n).
API за завършване на чат
Използва се за стари модели GPT-3.5, GPT-4o и понякога серията o.
За модели със структурирано анализиране като o3 и o4-mini използвайте
max_completion_tokens(псевдоним наmax_tokens)За по-ранни модели/модели без структурирано анализиране
max_tokensвсе още работиПоддържа
stopиn(множество завършвания).
Забележка: Няма настройка за „минимален брой токени“. Ако ви трябва минимална дължина, посочете я в подканата си.
Ограничения за токени по група модели
За актуални ограничения за токени, размери на контекста и лимити за изхода вижте документацията за конкретния модел.
Бързи примери
Responses API
{ "model": "gpt-5", "input": "Обобщи откритията в ~80 думи.", "max_output_tokens": 120 }Chat Completions (модел със структурирано анализиране)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Специфични контроли за моделите GPT-5: verbosity и reasoning.effort
Тези контроли са налични само при моделите GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro и др.). Моделите от серия O и старите модели не ги поддържат.
`verbosity` приема "low", "medium" (по подразбиране) или "high". То влияе на нивото на детайлност, но не и на твърдите ограничения.
{ "model": "gpt-5", "input": "Обясни PageRank на високо ниво.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` контролира колко токена за структурирано анализиране се генерират, преди да се изведе отговор. GPT-5.2 поддържа none,low, medium, high,and xhigh. gpt-5.2-pro поддържа само medium, high,and xhigh. По-ранните модели със структурирано анализиране поддържат само low, medium и high.
{ "model": "gpt-5", "input": "Колко злато би било нужно, за да се покрие Статуята на свободата със слой от 1 мм?", "reasoning": { "effort": "minimal" } }Можете да зададете `reasoning.effort` на none, за да накарате модела да се държи като модел без структурирано анализиране за случаи на употреба, чувствителни към латентност.
Дайте конкретни инструкции
Посочете точната дължина или форма, която искате. Примери:
„Изброй точно пет опции.“
„Напиши резюме от 50 думи.“
„Не повече от 100 токена. Ако ви трябва повече, кажете „Трябва ми още място.““
Използвайте примери с постоянна дължина
Примерите с малко повторения, които съответстват на желаната дължина, помагат на модела да продължи шаблона.
Прилагайте стратегически стоп последователности
Използвайте stop, за да спрете генерирането, когато моделът достигне разделител или граница на номериран списък.
{ "stop": ["
###", "6."] }Множество кандидати
Chat Completions:
nвръща множество завършвания в едно извикване.Responses API:
nне се поддържа; направете няколко извиквания, ако ви трябва повече от един изход.
