Как работает оплата API RFT
Дообучение с подкреплением (Reinforcement Fine Tuning, RFT) позволяет оптимизировать производительность моделей рассуждений OpenAI путем обучения с подкреплением. В отличие от наших предложений по контролируемому или предпочтительному дообучению, которые оплачиваются по количеству токенов в наборе обучающих данных, RFT оплачивается на основе времени, которое ваш запуск обучения тратит на выполнение основной работы по машинному обучению.
В этом руководстве объясняется, что считается оплачиваемым обучением, как оплачиваются паузы и отмены, а также как ваши конфигурации могут повлиять на стоимость.
Цены
Расчет: 100 долл. США за час реального времени, затраченного в основном цикле обучения для
o4-mini-2025-04-16. Плата рассчитывается с точностью до секунды и округляется до двух знаков после запятой в счете (например, 2,55 часа).Использование модели для оценки: Если вы используете модель OpenAI для «оценки» результатов во время обучения, токены, потребляемые этими оценочными вызовами, оплачиваются отдельно по нашим стандартным тарифам API после завершения обучения.
Мы взимаем плату только за работу по обучению, которая действительно обновляет вашу модель (то, что мы называем «зафиксированным прогрессом»).
За что выставляется счёт
Мы выставляем счет за время, которое ваш сотрудник по обучению тратит на активное обучение вашей модели, в частности:
Формирование образцов из вашей модели в процессе дообучения («развертывание»)
Оценка этих результатов с помощью одного или нескольких оценщиков, которых вы определили в задании (подробнее об оценщиках)
Вычисление и применение обновлений весов на основе оценок (обратное распространение).
Запуск любых шагов валидации (оценки), которые вы настроили.
Большинство оценщиков работают «бесплатно», что означает, что мы не взимаем дополнительную плату за их использование, кроме времени, которое они вносят в основной цикл обучения. Исключение составляют оценщики моделей, где мы также подсчитываем токены, которые эти оценщики потребляют во время вышеуказанных действий. Эти токены отображаются как отдельная строка в вашем счете. Токены, потребляемые оценщиками моделей, оплачиваются по обычным ценам на вывод (ценовая политика OpenAI).
За что мы НЕ ВЗИМАЕМ оплату
Мы не взимаем оплату за время, затраченное на:
Проверку вашего набора данных перед началом обучения.
Проверку безопасности вашего набора данных.
Ожидание в очереди на вычислительные ресурсы.
Скачивание весов или наборов данных моделей.
Подготовку (рендеринг) вашего набора данных в наш формат для обучения.
Оценку безопасности после обучения вашей дообученной модели.
Если обучение будет прервано из-за ошибки с нашей стороны (например, если рабочий процесс будет прерван и вам придется откатиться к предыдущей контрольной точке), вы не оплачиваете потерянное время вычислений или токены оценщика. Подробнее об этом см. в разделе далее.
Зафиксированные события прогресса и выставления счетов
Обучение состоит из множества небольших обновлений вашей модели. Мы отслеживаем, сколько из этих обновлений завершается успешно. Плата взимается на основе времени вычислений и токенов оценщика, связанных с этими успешными обновлениями.
Мы взимаем плату, когда происходит одно из следующих «событий выставления счетов»:
Обучение завершается успешно.
Вы приостанавливаете обучение.
Вы отменяете обучение.
Обучение не удалось.
Каждое начисление покрывает дополнительную работу, выполненную с момента последнего начисления. Например:
Если вы приостановите выполнение, мы сохраним контрольную точку и снимем с вас оплату за использованное время вычислений и токены с момента последнего списания.
После возобновления обучение продолжится с контрольной точки. Следующий платеж (при завершении, очередной паузе, отмене или неудаче) покроет только дополнительную работу, выполненную после возобновления.
Если вы отмените выполнение обучения, мы снимем оплату за работу, выполненную до момента отмены.
Если обучение будет завершено неудачно и работа, выполненная с момента последнего списания, будет потеряна, с вас не будет взиматься оплата за потерянную часть.
Этот подход «зафиксированного прогресса» гарантирует, что вы платите только за ту работу, которая сохраняется в вашей модели или от которой вы намеренно отказываетесь.
Просмотр хода выполнения работы
В заданиях RFT есть поле под названием usage_metrics, которое документирует общее использование задания до текущего шага. Это включает время, затраченное на обучение, и все токены, использованные всеми моделями-оценщиками в процессе работы. Это поле можно просмотреть через API (GET /v1/fine_tuning/jobs/{job_id}) или через панель управления дообучения.
Факторы, влияющие на время обучения
Поскольку выставление счетов основано на времени, выбор конфигурации напрямую влияет на стоимость. Список ключевых факторов включает:
Сложность задачи: если ваш набор данных состоит из сложных задач, модель, вероятно, будет тратить больше времени на анализ каждой задачи, что увеличивает время, необходимое для создания каждого примера.
Интенсивность вычислений: гиперпараметр
compute_multiplierопределяет, сколько вычислений выполняется на каждом шаге обучения. Более высокие значения побуждают модель более подробно обосновывать каждый набор данных, что приводит к замедлению выполнения каждого шага.Настройки проверки:
больший валидационный набор увеличивает время, затрачиваемое на оценку.
Увеличение параметра
eval_samples(числа результатов модели, оцениваемых на один пример валидации) увеличивает время валидации.Более частое выполнение проверки (меньшее значение
eval_interval) увеличивает долю времени, затрачиваемого на проверку.
Производительность оценщика:
более масштабные или более мощные модели оценщиков требуют больше времени для выставления оценки, чем более мелкие. Например, оценка с использованием модели рассуждения может занять в 10 раз больше времени, чем оценка с использованием модели без рассуждения.
Сложные функции оценки на Python выполняются дольше, чем простые.
Эти настройки позволяют вам находить компромисс между стоимостью, скоростью и качеством модели. Например, частая проверка может выявлять проблемы на ранней стадии, но увеличивает затраты. Оценивание с использованием более продвинутой модели может значительно повысить точность, но замедлит каждый этап и сделает работу более дорогой.
Управление затратами
Чтобы контролировать ваши расходы:
Начните с коротких запусков, чтобы понять, как ваша конфигурация влияет на время.
Используйте разумное количество примеров для валидации и
eval_samples. Избегайте валидации чаще, чем это необходимо.Выберите самую маленькую модель оценщика, которая соответствует вашим требованиям к качеству.
Поддерживайте эффективность пользовательских оценщиков Python.
Отрегулируйте параметр
compute_multiplierдля балансировки скорости сходимости и затрат.Отслеживайте выполнение на панели управления или через API. Приостановить или отменить процесс можно в любое время.
Примеры
Успешное выполнение обучения
| Время обучения | Оплаченное время | Статус | Описание |
| 00 : 00 | 00 : 00 | – | Пользователь создал задачу RFT через API |
| 00 : 10 | 00 : 00 | ВАЛИДАЦИЯ ФАЙЛОВ | 10 минут потрачено на валидацию набора данных |
| 00 : 30 | 00 : 00 | ВАЛИДАЦИЯ ФАЙЛОВ | 20 минут на выполнение проверок безопасности наборов данных |
| 01 : 00 | 00 : 00 | ПОСТАВЛЕНО В ОЧЕРЕДЬ | 30 минут ожидания доступного сотрудника |
| 01 : 30 | 00 : 00 | ВЫПОЛНЕНИЕ | 30 минут на настройку обучения (скачивание весов, предобработка и т. д.) |
| 05 : 30 | 04 : 00 | ВЫПОЛНЕНИЕ | На обучение потрачено 4 часа |
| 06 : 00 | 04 : 00 | ВЫПОЛНЕНИЕ | 30 минут на проведение оценок безопасности полученной модели |
| 06 : 00 | 04 : 00 | УСПЕХ | Обучение завершено |
В этом случае общее время составляет 6 часов, но оплачиваются только 4 часа. Стоимость составит 4 часа × 100 долл. США/час = 400 долл. США.
Пример неудачного задания
В этом примере обучение длится 2 часа, создаётся контрольная точка, обучение продолжается ещё 1 час, а затем происходит сбой. Оплачиваются только 2 часа тренировки до контрольной точки.
| Время обучения | Оплаченное время | Статус | Описание |
| 00 : 00 | 00 : 00 | – | Пользователь создал задачу RFT через API |
| 00 : 10 | 00 : 00 | ВАЛИДАЦИЯ ФАЙЛОВ | 10 минут потрачено на валидацию набора данных |
| 00 : 30 | 00 : 00 | ВАЛИДАЦИЯ ФАЙЛОВ | 20 минут на выполнение проверок безопасности наборов данных |
| 01 : 00 | 00 : 00 | ПОСТАВЛЕНО В ОЧЕРЕДЬ | 30 минут ожидания доступного сотрудника |
| 01 : 30 | 00 : 00 | ВЫПОЛНЕНИЕ | 30 минут на настройку обучения (скачивание весов, предобработка и т. д.) |
| 03 : 30 | 02 : 00 | ВЫПОЛНЕНИЕ | На обучение потрачено 2 часа |
| 03 : 30 | 02 : 00 | ВЫПОЛНЕНИЕ | На этапе 5 создана контрольная точка |
| 04 : 30 | 02 : 00 | ВЫПОЛНЕНИЕ | Обучение завершается из-за внутренней ошибки на этапе 8 (через 1 час) |
| 04 : 30 | 02 : 00 | ВЫПОЛНЕНИЕ | 30 минут на оценку и валидацию контрольной точки |
| 04 : 30 | 02 : 00 | УСПЕХ | Завершение задания (с последней контрольной точкой) |
Хотя на обучение в общей сложности было потрачено 3 часа, только 2 часа были «зафиксированы» в пригодной для использования контрольной точке и подлежат оплате. Вы не оплачиваете час обучения, потерянный из-за сбоя. Стоимость составит 2 часа × 100 долл. США/час = 200 долл. США.
Часто задаваемые вопросы
Когда с меня взимается оплата?
Оплата взимается, когда процесс обучения завершается, приостанавливается, отменяется или завершается с ошибкой. Каждый счет охватывает работу, выполненную с момента выставления предыдущего счета.
Если процесс обучения завершился неудачей, я все равно должен платить?
Если обучение завершилось неудачей по нашей вине и какая-либо недавняя работа по обучению была потеряна, с вас не будет взиматься плата за потерянную часть. Если же вы самостоятельно отмените выполнение обучения, с вас будет снята оплата за работу до момента отмены.
Как оплачиваются токены модели оценщика?
Мы подсчитываем токены, используемые любыми оценщиками, которые вы настраиваете. После завершения обучения мы выставляем счет за эти токены по нашим стандартным тарифам за токен.
Могу ли я приостановить и возобновить выполнение обучения?
Да. В случае приостановки мы сохраняем контрольную точку и взимаем плату за выполненную до текущего момента работу. Когда вы возобновите работу, вам будет начислена плата только за дополнительную работу, выполненную после возобновления.
Если у вас остались вопросы о выставлении счетов за дообучение с подкреплением, свяжитесь с нашей командой поддержки.
