OpenAI
Для перекладу цієї сторінки виконано машинний переклад. Ви можете переглянути оригінальну статтю англійською.

Керування довжиною відповідей моделей OpenAI

Дізнайтеся, як задавати обмеження виводу для моделей OpenAI за допомогою налаштувань токенів, чітких запитів, прикладів і стоп-послідовностей.

Оновлено: 2 days ago

Огляд

Керувати довжиною відповіді моделі корисно з кількох причин: це допомагає контролювати витрати (адже оплата здійснюється за токен), покращує затримку та продуктивність (коротші відповіді повертаються швидше) і забезпечує релевантність, уникаючи надто довгих або багатослівних відповідей.

Цього можна досягти за допомогою лімітів токенів, налаштувань міркування й докладності, чітких інструкцій, прикладів і послідовностей зупинки. Щоб отримати найактуальніші й найповніші відомості, завжди звертайтеся до офіційного довідника API на platform.openai.com.

Установіть максимальну довжину виводу

API Responses

Використовується для моделей GPT-5 і більшості моделей серії o: застосовуйте max_output_tokens, щоб обмежити кількість токенів, які згенерує модель. Для запитів compaction_trigger або не вказуйте max_output_tokens, або встановіть значення щонайменше 20000; менші значення відхиляються. API Responses не підтримує кілька завершень (n).

API завершення чатів

Використовується для застарілих GPT-3.5, GPT-4o, а іноді й серії o.

  • Для моделей міркування, як-от o3 і o4-mini, використовуйте max_completion_tokens (псевдонім max_tokens)

  • Для раніших моделей або моделей без міркування max_tokens усе ще працює

  • Підтримує stop і n (кілька завершень).

Примітка: Налаштування «мінімальна кількість токенів» не існує. Якщо вам потрібна мінімальна довжина, вкажіть це у своєму запиті.

Обмеження токенів за групами моделей

Актуальні обмеження токенів, розміри контексту та ліміти виводу дивіться в документації конкретної моделі.

Короткі приклади

API Responses

{ "model": "gpt-5", "input": "Підсумуйте висновки приблизно у 80 словах.", "max_output_tokens": 120 }

Chat Completions (модель міркування)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Елементи керування, специфічні для моделей GPT-5: verbosity і reasoning.effort

Ці елементи керування доступні лише в моделях GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro тощо. Моделі серії O та застарілі моделі їх не підтримують.

`verbosity` приймає "low", "medium" (за замовчуванням) або "high". Це впливає на рівень деталізації, але не на жорсткі обмеження.

{ "model": "gpt-5", "input": "Поясніть PageRank на високому рівні.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` визначає, скільки токенів міркування генерується перед створенням відповіді. GPT-5.2 підтримує none,low, medium, high,and xhigh. gpt-5.2-pro підтримує лише medium, high,and xhigh. Раніші моделі міркування підтримують лише low, medium і high.

{ "model": "gpt-5", "input": "Скільки золота знадобилося б, щоб покрити Статую Свободи шаром 1 мм?", "reasoning": { "effort": "minimal" } }

Ви можете встановити `reasoning.effort` на none, щоб модель поводилася як модель без міркування для випадків використання, чутливих до затримки.

Надавайте конкретні інструкції

Укажіть точну довжину або формат, який вам потрібен. Приклади:

  • «Перелічіть рівно п’ять варіантів».

  • «Напишіть резюме на 50 слів».

  • «Не більше ніж 100 токенів. Якщо потрібно більше, напишіть: „Потрібно більше місця“».

Використовуйте приклади сталої довжини

Приклади з кількома прикладами, що відповідають потрібній довжині, допомагають моделі продовжувати шаблон.

Застосовуйте стратегічні послідовності зупинки

Використовуйте stop, щоб зупинити генерацію, коли модель досягає розділювача або межі нумерованого списку.

{ "stop": ["
###", "6."] }

Кілька кандидатів

  • Chat Completions: n повертає кілька завершень за один виклик.

  • API Responses: n не підтримується; якщо потрібно більше ніж один вивід, зробіть кілька викликів.

Чи була ця стаття корисною?