Огляд
Керувати довжиною відповіді моделі корисно з кількох причин: це допомагає контролювати витрати (адже оплата здійснюється за токен), покращує затримку та продуктивність (коротші відповіді повертаються швидше) і забезпечує релевантність, уникаючи надто довгих або багатослівних відповідей.
Цього можна досягти за допомогою лімітів токенів, налаштувань міркування й докладності, чітких інструкцій, прикладів і послідовностей зупинки. Щоб отримати найактуальніші й найповніші відомості, завжди звертайтеся до офіційного довідника API на platform.openai.com.
Установіть максимальну довжину виводу
API Responses
Використовується для моделей GPT-5 і більшості моделей серії o: застосовуйте max_output_tokens, щоб обмежити кількість токенів, які згенерує модель. Для запитів compaction_trigger або не вказуйте max_output_tokens, або встановіть значення щонайменше 20000; менші значення відхиляються. API Responses не підтримує кілька завершень (n).
API завершення чатів
Використовується для застарілих GPT-3.5, GPT-4o, а іноді й серії o.
Для моделей міркування, як-от o3 і o4-mini, використовуйте
max_completion_tokens(псевдонімmax_tokens)Для раніших моделей або моделей без міркування
max_tokensусе ще працюєПідтримує
stopіn(кілька завершень).
Примітка: Налаштування «мінімальна кількість токенів» не існує. Якщо вам потрібна мінімальна довжина, вкажіть це у своєму запиті.
Обмеження токенів за групами моделей
Актуальні обмеження токенів, розміри контексту та ліміти виводу дивіться в документації конкретної моделі.
Короткі приклади
API Responses
{ "model": "gpt-5", "input": "Підсумуйте висновки приблизно у 80 словах.", "max_output_tokens": 120 }Chat Completions (модель міркування)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Елементи керування, специфічні для моделей GPT-5: verbosity і reasoning.effort
Ці елементи керування доступні лише в моделях GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro тощо. Моделі серії O та застарілі моделі їх не підтримують.
`verbosity` приймає "low", "medium" (за замовчуванням) або "high". Це впливає на рівень деталізації, але не на жорсткі обмеження.
{ "model": "gpt-5", "input": "Поясніть PageRank на високому рівні.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` визначає, скільки токенів міркування генерується перед створенням відповіді. GPT-5.2 підтримує none,low, medium, high,and xhigh. gpt-5.2-pro підтримує лише medium, high,and xhigh. Раніші моделі міркування підтримують лише low, medium і high.
{ "model": "gpt-5", "input": "Скільки золота знадобилося б, щоб покрити Статую Свободи шаром 1 мм?", "reasoning": { "effort": "minimal" } }Ви можете встановити `reasoning.effort` на none, щоб модель поводилася як модель без міркування для випадків використання, чутливих до затримки.
Надавайте конкретні інструкції
Укажіть точну довжину або формат, який вам потрібен. Приклади:
«Перелічіть рівно п’ять варіантів».
«Напишіть резюме на 50 слів».
«Не більше ніж 100 токенів. Якщо потрібно більше, напишіть: „Потрібно більше місця“».
Використовуйте приклади сталої довжини
Приклади з кількома прикладами, що відповідають потрібній довжині, допомагають моделі продовжувати шаблон.
Застосовуйте стратегічні послідовності зупинки
Використовуйте stop, щоб зупинити генерацію, коли модель досягає розділювача або межі нумерованого списку.
{ "stop": ["
###", "6."] }Кілька кандидатів
Chat Completions:
nповертає кілька завершень за один виклик.API Responses:
nне підтримується; якщо потрібно більше ніж один вивід, зробіть кілька викликів.
