OpenAI
Тази страница е машинно преведена. Вижте оригиналната статия на английски език.

Ръководство за таксуване за Reinforcement Fine Tuning API

Как работи таксуването за RFT API

Актуализирано: 2 days ago

Как работи таксуването за RFT

Reinforcement Fine‑Tuning (RFT) ви позволява да оптимизирате производителността на моделите със структурирано анализиране на OpenAI чрез обучение с утвърждение. За разлика от нашите предложения за supervised или preference fine-tuning, които се таксуват според броя токени в набора от обучителни данни, RFT се таксува според времето, през което обучението ви извършва основната работа по машинно обучение.

Това ръководство обяснява какво се счита за платимо време за обучение, как обработваме паузи и анулирания и как изборът ви на конфигурация може да повлияе на разходите.

Ценообразуване

  • Изчисления: $100 на час от изминалото време, прекарано в основния цикъл на обучение за o4-mini-2025-04-16. Таксите се изчисляват пропорционално до секундата и се закръглят до втория знак след десетичната запетая във фактурата (напр. 2,55 часа).

  • Използване на моделни оценители: Ако използвате модел на OpenAI, за да „оценява“ изходите по време на обучение, токените, изразходвани от тези заявки за оценяване, се таксуват отделно по нашите стандартни API тарифи след приключване на обучението.

Таксуваме само за обучителна работа, която реално актуализира модела ви (това наричаме „запазен напредък“).

За какво таксуваме

Таксуваме времето, което обучаващият ви работен процес прекарва в активно обучение на вашия модел, по-конкретно:

  • Генериране на примери от вашия модел по време на процеса на фино настройване (известно като „rollouts“)

  • Оценяване на тези изходни резултати с един или повече оценители, които сте дефинирали в заданието (научете повече за оценителите)

  • Изчисляване и прилагане на актуализации на теглата въз основа на оценките (обратно разпространение).

  • Изпълнение на всички стъпки за валидиране (оценяване), които сте конфигурирали.

Повечето оценители са „безплатни“ за изпълнение, което означава, че не начисляваме допълнителна такса за използването им извън времето, с което допринасят към основния цикъл на обучение. Изключение са моделните оценители, при които също сумираме токените, които тези оценители използват по време на горните дейности. Тези токени се показват като отделна позиция във вашата фактура. Токените, използвани от моделни оценители, се таксуват по стандартните тарифи за инференция (цени на OpenAI).

За какво НЕ таксуваме

Не начисляваме такси за време, изразходвано за:

  • Валидиране или преглед на набора ви от данни преди началото на обучението.

  • Проверки за безопасност на набора ви от данни.

  • Изчакване на опашка за изчислителни ресурси.

  • Изтегляне на тегла на модела или набори от данни.

  • Подготовка (рендиране) на набора ви от данни в нашия формат за обучение.

  • Оценки на безопасността на вашия фино настроен модел след обучението.

Ако обучителна работа бъде загубена поради грешка от наша страна (например ако работен процес се срине и трябва да се върне към предишен checkpoint), не ви таксуваме за загубеното време за изчисления или токените на оценителите. Повече подробности за това има в следващия раздел.

Запазен напредък и събития за таксуване

Обучението се състои от много малки актуализации на модела ви. Ние проследяваме колко от тези актуализации завършват успешно. Таксите се базират на времето за изчисления и токените на оценителите, свързани с тези успешни актуализации.

Начисляваме такса, когато настъпи едно от следните „събития за таксуване“:

  • Обучението завърши успешно.

  • Поставите обучението на пауза.

  • Отмените обучението.

  • Обучението се провали.

Всяка такса покрива допълнителната работа, извършена след последното таксуване. Например:

  • Ако поставите изпълнение на пауза, запазваме checkpoint и ви таксуваме за времето за изчисления и токените на оценителите, използвани след последното таксуване.

  • Когато подновите, обучението продължава от checkpoint-а. Следващата такса (при завършване, нова пауза, отмяна или неуспех) ще покрива само допълнителната работа, извършена след подновяването.

  • Ако отмените изпълнение, ви таксуваме за работата, извършена до момента на отмяната.

  • Ако обучението се провали и работата след последното таксуване се загуби, не ви таксуваме за загубената част.

Този подход на „запазен напредък“ гарантира, че плащате само за работа, която се запазва в модела ви или която умишлено изоставяте.

Преглед на напредъка на заданието

RFT заданията имат поле, наречено usage_metrics, което документира общото използване на заданието до текущата стъпка. Това включва времето, прекарано в обучение, и всички токени, използвани от всички моделни оценители в заданието. Това поле може да бъде прегледано чрез API (GET /v1/fine_tuning/jobs/{job_id}) или чрез таблото за фино настройване.

Фактори, които влияят на времето за обучение

Тъй като таксуването е базирано на време, изборът ви на конфигурация влияе пряко върху разходите. Основните фактори включват:

  • Трудност на проблема: ако наборът ви от данни се състои от трудни проблеми, моделът вероятно ще отделя повече време за структурирано анализиране на всеки проблем, което увеличава времето, необходимо за създаване на всяка извадка.

  • Интензивност на изчисленията: Хиперпараметърът compute_multiplier контролира колко изчисления извършвате на стъпка от обучението. По-високите стойности насърчават модела да анализира по-подробно всеки елемент от данните, което забавя всяка стъпка.

  • Настройки за валидиране:

    • По-голям набор за валидиране увеличава времето, отделено за оценяване.

    • Увеличаването на eval_samples (броя изходи на модела, оценявани за всеки пример за валидиране) увеличава времето за валидиране.

    • По-честото изпълнение на валидиране (по-нисък eval_interval) увеличава дела на времето, отделено за валидиране.

  • Производителност на оценителя:

    • По-големите или по-способни моделни оценители връщат оценка по-бавно от по-малките. Например оценяване с модел със структурирано анализиране може да отнеме 10 пъти повече време от оценяване с модел без структурирано анализиране.

    • Сложните Python функции за оценяване се изпълняват по-бавно от простите.

Тези настройки ви позволяват да балансирате между цена, скорост и качество на модела. Например честото валидиране може да открива проблеми по-рано, но увеличава разходите. Оценяването с по-усъвършенстван модел може значително да подобри точността на оценяването, но ще забави всяка стъпка на оценяване и ще направи задачите по-скъпи.

Управление на разходите

За да контролирате разходите си:

  • Започнете с по-кратки изпълнения, за да разберете как конфигурацията ви влияе на времето.

  • Използвайте разумен брой примери за валидиране и eval_samples. Избягвайте да валидирате по-често, отколкото е необходимо.

  • Изберете най-малкия модел за оценяване, който отговаря на изискванията ви за качество.

  • Поддържайте персонализираните Python оценители ефективни.

  • Настройвайте compute_multiplier, за да балансирате скоростта на сходимост и разходите.

  • Следете изпълнението си в таблото или чрез API. Можете да го поставите на пауза или да го отмените по всяко време.

Примери

Успешно изпълнение на обучение

Време за обучениеТаксувано времеСъстояниеОписание
00:0000:00Потребителят създава RFT задание чрез API
00:1000:00VALIDATING_FILES10 минути за валидиране на набора от данни
00:3000:00VALIDATING_FILES20 минути за проверки за безопасност на набора от данни
01:0000:00QUEUED30 минути изчакване за наличен работен процес
01:3000:00RUNNING30 минути за настройване на обучението (изтегляне на тегла, предварителна обработка и др.)
05:3004:00RUNNING4 часа обучение
06:0004:00RUNNING30 минути за изпълнение на оценки за безопасност на получения модел
06:0004:00SUCCEEDEDОбучението завършва

В този случай общото реално изминало време е 6 часа, но само 4 часа подлежат на таксуване. Цената би била 4 часа × $100/час = $400.

Пример за неуспешно задание

В този пример изпълнението се обучава 2 часа, записва контролна точка, обучава се още 1 час, но след това се проваля. Само 2-та часа обучение до контролната точка подлежат на таксуване.

Време за обучениеТаксувано времеСъстояниеОписание
00:0000:00Потребителят създава RFT задание чрез API
00:1000:00VALIDATING_FILES10 минути за валидиране на набора от данни
00:3000:00VALIDATING_FILES20 минути за проверки за безопасност на набора от данни
01:0000:00QUEUED30 минути изчакване за наличен работен процес
01:3000:00RUNNING30 минути за настройване на обучението (изтегляне на тегла, предварителна обработка и др.)
03:3002:00RUNNING2 часа обучение
03:3002:00RUNNINGКонтролна точка, създадена на стъпка 5
04:3002:00RUNNINGОбучението се проваля поради вътрешна грешка на стъпка 8 (след още 1 час)
04:3002:00RUNNING30 минути за оценяване и валидиране на контролната точка
04:3002:00SUCCEEDEDЗаданието завършва (с най-новата контролна точка)

Въпреки че общо 3 часа са прекарани в обучение, само 2 часа са „уловени“ в използваема контролна точка и се таксуват. Часът работа по обучение, изгубен поради провала, не е ваша отговорност. Цената би била 2 часа × $100/час = $200.

Често задавани въпроси

Кога ме таксувате?

Таксуваме, когато изпълнението ви завърши, бъде поставено на пауза, бъде отменено или се провали. Всяко таксуване обхваща работата, извършена след предишното таксуване.

Плащам ли, ако изпълнението се провали?

Ако изпълнението се провали поради наша грешка и скорошна работа по обучението бъде изгубена, не ви таксуваме за изгубената част. Ако отмените изпълнение, ви таксуваме за работата до момента на отмяната.

Как се таксуват токените на моделите оценители?

Броим токените, използвани от всички моделни оценители, които конфигурирате. След като обучението завърши, таксуваме тези токени по нашите стандартни тарифи за токен.

Мога ли да поставя изпълнение на пауза и да го възобновя?

Да. Когато поставите на пауза, запазваме контролна точка и таксуваме работата, извършена дотогава. Когато възобновите, ще бъдете таксувани само за допълнителната работа, извършена след възобновяването.

Ако имате други въпроси относно таксуването за фино настройване с утвърждение, свържете се с нашия екип за поддръжка.

Беше ли Ви полезна тази статия?