Общ преглед
Контролирането на дължината на отговора на даден модел е полезно по няколко причини: помага за управление на разходите (тъй като плащате на токен), подобрява латентността/производителността (по-кратките отговори се връщат по-бързо) и гарантира уместност, като избягва прекалено дълги или многословни резултати.
Можете да постигнете това чрез ограничения за токени, настройки за структурирано анализиране и подробност, ясни инструкции, примери и стоп последователности. За най-актуалните и пълни подробности винаги се обръщайте към официалната справка за API на platform.openai.com.
Задайте максимална дължина на изхода
Responses API
Използва се за моделите GPT-5 и повечето модели от o-серията: използвайте max_output_tokens, за да ограничите броя токени, които моделът ще генерира. Поддържа stop, но не поддържа множество завършвания (n).
API за завършване на чат
Използва се за по-старите GPT-3.5, GPT-4o и понякога o-серията.
За модели със структурирано анализиране като o3 и o4-mini използвайте
max_completion_tokens(псевдоним наmax_tokens)За по-ранни/модели без структурирано анализиране
max_tokensвсе още работиПоддържа
stopиn(множество завършвания).
Забележка: Няма настройка за „минимален брой токени“. Ако ви трябва минимална дължина, посочете я в подканата си.
Ограничения за токени по група модели
За актуални ограничения за токени, размери на контекста и ограничения на изхода, моля, вижте документацията за конкретния модел.
Бързи примери
Responses API
{ "model": "gpt-5", "input": "Обобщи откритията в ~80 думи.", "max_output_tokens": 120 }Chat Completions (модел със структурирано анализиране)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Специфични контроли за моделите GPT-5: verbosity и reasoning.effort
Тези контроли са налични само за моделите GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro и др. O-серията и по-старите модели не ги поддържат.
verbosity приема "low", "medium" (по подразбиране) или "high". То влияе на нивото на подробност, но не и на твърдите ограничения.
{ "model": "gpt-5", "input": "Обясни PageRank на високо ниво.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort контролира колко токени за структурирано анализиране се генерират преди създаването на отговор. GPT-5.2 поддържа none,low, medium, high,and xhigh. gpt-5.2-pro поддържа само medium, high,and xhigh. По-ранните модели със структурирано анализиране поддържат само low, medium и high.
{ "model": "gpt-5", "input": "Колко злато би било нужно, за да се покрие Статуята на свободата със слой от 1 мм?", "reasoning": { "effort": "minimal" } }Можете да зададете reasoning.effort на none, за да накарате модела да се държи като модел без структурирано анализиране за случаи на употреба, чувствителни към латентността.
Дайте конкретни инструкции
Поискайте точната дължина или форма, която искате. Примери:
„Изброй точно пет варианта.“
„Напиши резюме от 50 думи.“
„Не повече от 100 токена. Ако ти трябва повече, кажи „Трябва повече място.““
Използвайте примери с постоянна дължина
Примери с малко повторения, които съответстват на желаната от вас дължина, помагат на модела да продължи модела.
Прилагайте стратегически стоп последователности
Използвайте stop, за да спрете генерирането, когато моделът достигне разделител или граница на номериран списък.
{ "stop": ["
###", "6."] }Няколко варианта
Chat Completions:
nвръща множество завършвания в едно извикване.Responses API:
nне се поддържа; направете няколко извиквания, ако ви трябва повече от един изход.
