OpenAI

Руководство по оплате за использование API Reinforcement Fine Tuning

Как работает оплата API RFT

Обновлено: 2 days ago

Как работает оплата API RFT

Дообучение с подкреплением (Reinforcement Fine Tuning, RFT) позволяет оптимизировать производительность моделей рассуждений OpenAI путем обучения с подкреплением. В отличие от наших предложений по контролируемому или предпочтительному дообучению, которые оплачиваются по количеству токенов в наборе обучающих данных, RFT оплачивается на основе времени, которое ваш запуск обучения тратит на выполнение основной работы по машинному обучению.

В этом руководстве объясняется, что считается оплачиваемым обучением, как оплачиваются паузы и отмены, а также как ваши конфигурации могут повлиять на стоимость.

Цены

  • Расчет: 100 долл. США за час реального времени, затраченного в основном цикле обучения для o4-mini-2025-04-16. Плата рассчитывается с точностью до секунды и округляется до двух знаков после запятой в счете (например, 2,55 часа).

  • Использование модели для оценки: Если вы используете модель OpenAI для «оценки» результатов во время обучения, токены, потребляемые этими оценочными вызовами, оплачиваются отдельно по нашим стандартным тарифам API после завершения обучения.

Мы взимаем плату только за работу по обучению, которая действительно обновляет вашу модель (то, что мы называем «зафиксированным прогрессом»).

За что выставляется счёт

Мы выставляем счет за время, которое ваш сотрудник по обучению тратит на активное обучение вашей модели, в частности:

  • Формирование образцов из вашей модели в процессе дообучения («развертывание»)

  • Оценка этих результатов с помощью одного или нескольких оценщиков, которых вы определили в задании (подробнее об оценщиках)

  • Вычисление и применение обновлений весов на основе оценок (обратное распространение).

  • Запуск любых шагов валидации (оценки), которые вы настроили.

Большинство оценщиков работают «бесплатно», что означает, что мы не взимаем дополнительную плату за их использование, кроме времени, которое они вносят в основной цикл обучения. Исключение составляют оценщики моделей, где мы также подсчитываем токены, которые эти оценщики потребляют во время вышеуказанных действий. Эти токены отображаются как отдельная строка в вашем счете. Токены, потребляемые оценщиками моделей, оплачиваются по обычным ценам на вывод (ценовая политика OpenAI).

За что мы НЕ ВЗИМАЕМ оплату

Мы не взимаем оплату за время, затраченное на:

  • Проверку вашего набора данных перед началом обучения.

  • Проверку безопасности вашего набора данных.

  • Ожидание в очереди на вычислительные ресурсы.

  • Скачивание весов или наборов данных моделей.

  • Подготовку (рендеринг) вашего набора данных в наш формат для обучения.

  • Оценку безопасности после обучения вашей дообученной модели.

Если обучение будет прервано из-за ошибки с нашей стороны (например, если рабочий процесс будет прерван и вам придется откатиться к предыдущей контрольной точке), вы не оплачиваете потерянное время вычислений или токены оценщика. Подробнее об этом см. в разделе далее.

Зафиксированные события прогресса и выставления счетов

Обучение состоит из множества небольших обновлений вашей модели. Мы отслеживаем, сколько из этих обновлений завершается успешно. Плата взимается на основе времени вычислений и токенов оценщика, связанных с этими успешными обновлениями.

Мы взимаем плату, когда происходит одно из следующих «событий выставления счетов»:

  • Обучение завершается успешно.

  • Вы приостанавливаете обучение.

  • Вы отменяете обучение.

  • Обучение не удалось.

Каждое начисление покрывает дополнительную работу, выполненную с момента последнего начисления. Например:

  • Если вы приостановите выполнение, мы сохраним контрольную точку и снимем с вас оплату за использованное время вычислений и токены с момента последнего списания.

  • После возобновления обучение продолжится с контрольной точки. Следующий платеж (при завершении, очередной паузе, отмене или неудаче) покроет только дополнительную работу, выполненную после возобновления.

  • Если вы отмените выполнение обучения, мы снимем оплату за работу, выполненную до момента отмены.

  • Если обучение будет завершено неудачно и работа, выполненная с момента последнего списания, будет потеряна, с вас не будет взиматься оплата за потерянную часть.

Этот подход «зафиксированного прогресса» гарантирует, что вы платите только за ту работу, которая сохраняется в вашей модели или от которой вы намеренно отказываетесь.

Просмотр хода выполнения работы

В заданиях RFT есть поле под названием usage_metrics, которое документирует общее использование задания до текущего шага. Это включает время, затраченное на обучение, и все токены, использованные всеми моделями-оценщиками в процессе работы. Это поле можно просмотреть через API (GET /v1/fine_tuning/jobs/{job_id}) или через панель управления дообучения.

Факторы, влияющие на время обучения

Поскольку выставление счетов основано на времени, выбор конфигурации напрямую влияет на стоимость. Список ключевых факторов включает:

  • Сложность задачи: если ваш набор данных состоит из сложных задач, модель, вероятно, будет тратить больше времени на анализ каждой задачи, что увеличивает время, необходимое для создания каждого примера.

  • Интенсивность вычислений: гиперпараметр compute_multiplier определяет, сколько вычислений выполняется на каждом шаге обучения. Более высокие значения побуждают модель более подробно обосновывать каждый набор данных, что приводит к замедлению выполнения каждого шага.

  • Настройки проверки:

    • больший валидационный набор увеличивает время, затрачиваемое на оценку.

    • Увеличение параметра eval_samples (числа результатов модели, оцениваемых на один пример валидации) увеличивает время валидации.

    • Более частое выполнение проверки (меньшее значение eval_interval) увеличивает долю времени, затрачиваемого на проверку.

  • Производительность оценщика:

    • более масштабные или более мощные модели оценщиков требуют больше времени для выставления оценки, чем более мелкие. Например, оценка с использованием модели рассуждения может занять в 10 раз больше времени, чем оценка с использованием модели без рассуждения.

    • Сложные функции оценки на Python выполняются дольше, чем простые.

Эти настройки позволяют вам находить компромисс между стоимостью, скоростью и качеством модели. Например, частая проверка может выявлять проблемы на ранней стадии, но увеличивает затраты. Оценивание с использованием более продвинутой модели может значительно повысить точность, но замедлит каждый этап и сделает работу более дорогой.

Управление затратами

Чтобы контролировать ваши расходы:

  • Начните с коротких запусков, чтобы понять, как ваша конфигурация влияет на время.

  • Используйте разумное количество примеров для валидации и eval_samples. Избегайте валидации чаще, чем это необходимо.

  • Выберите самую маленькую модель оценщика, которая соответствует вашим требованиям к качеству.

  • Поддерживайте эффективность пользовательских оценщиков Python.

  • Отрегулируйте параметр compute_multiplier для балансировки скорости сходимости и затрат.

  • Отслеживайте выполнение на панели управления или через API. Приостановить или отменить процесс можно в любое время.

Примеры

Успешное выполнение обучения

Время обученияОплаченное времяСтатусОписание
00 : 0000 : 00Пользователь создал задачу RFT через API
00 : 1000 : 00ВАЛИДАЦИЯ ФАЙЛОВ10 минут потрачено на валидацию набора данных
00 : 3000 : 00ВАЛИДАЦИЯ ФАЙЛОВ20 минут на выполнение проверок безопасности наборов данных
01 : 0000 : 00ПОСТАВЛЕНО В ОЧЕРЕДЬ30 минут ожидания доступного сотрудника
01 : 3000 : 00ВЫПОЛНЕНИЕ30 минут на настройку обучения (скачивание весов, предобработка и т. д.)
05 : 3004 : 00ВЫПОЛНЕНИЕНа обучение потрачено 4 часа
06 : 0004 : 00ВЫПОЛНЕНИЕ30 минут на проведение оценок безопасности полученной модели
06 : 0004 : 00УСПЕХОбучение завершено

В этом случае общее время составляет 6 часов, но оплачиваются только 4 часа. Стоимость составит 4 часа × 100 долл. США/час = 400 долл. США.

Пример неудачного задания

В этом примере обучение длится 2 часа, создаётся контрольная точка, обучение продолжается ещё 1 час, а затем происходит сбой. Оплачиваются только 2 часа тренировки до контрольной точки.

Время обученияОплаченное времяСтатусОписание
00 : 0000 : 00Пользователь создал задачу RFT через API
00 : 1000 : 00ВАЛИДАЦИЯ ФАЙЛОВ10 минут потрачено на валидацию набора данных
00 : 3000 : 00ВАЛИДАЦИЯ ФАЙЛОВ20 минут на выполнение проверок безопасности наборов данных
01 : 0000 : 00ПОСТАВЛЕНО В ОЧЕРЕДЬ30 минут ожидания доступного сотрудника
01 : 3000 : 00ВЫПОЛНЕНИЕ30 минут на настройку обучения (скачивание весов, предобработка и т. д.)
03 : 3002 : 00ВЫПОЛНЕНИЕНа обучение потрачено 2 часа
03 : 3002 : 00ВЫПОЛНЕНИЕНа этапе 5 создана контрольная точка
04 : 3002 : 00ВЫПОЛНЕНИЕОбучение завершается из-за внутренней ошибки на этапе 8 (через 1 час)
04 : 3002 : 00ВЫПОЛНЕНИЕ30 минут на оценку и валидацию контрольной точки
04 : 3002 : 00УСПЕХЗавершение задания (с последней контрольной точкой)

Хотя на обучение в общей сложности было потрачено 3 часа, только 2 часа были «зафиксированы» в пригодной для использования контрольной точке и подлежат оплате. Вы не оплачиваете час обучения, потерянный из-за сбоя. Стоимость составит 2 часа × 100 долл. США/час = 200 долл. США.

Часто задаваемые вопросы

Когда с меня взимается оплата?

Оплата взимается, когда процесс обучения завершается, приостанавливается, отменяется или завершается с ошибкой. Каждый счет охватывает работу, выполненную с момента выставления предыдущего счета.

Если процесс обучения завершился неудачей, я все равно должен платить?

Если обучение завершилось неудачей по нашей вине и какая-либо недавняя работа по обучению была потеряна, с вас не будет взиматься плата за потерянную часть. Если же вы самостоятельно отмените выполнение обучения, с вас будет снята оплата за работу до момента отмены.

Как оплачиваются токены модели оценщика?

Мы подсчитываем токены, используемые любыми оценщиками, которые вы настраиваете. После завершения обучения мы выставляем счет за эти токены по нашим стандартным тарифам за токен.

Могу ли я приостановить и возобновить выполнение обучения?

Да. В случае приостановки мы сохраняем контрольную точку и взимаем плату за выполненную до текущего момента работу. Когда вы возобновите работу, вам будет начислена плата только за дополнительную работу, выполненную после возобновления.

Если у вас остались вопросы о выставлении счетов за дообучение с подкреплением, свяжитесь с нашей командой поддержки.

Была ли эта статья полезной?