OpenAI
Тази страница е машинно преведена. Вижте оригиналната статия на английски език.

Ръководство за таксуване за Reinforcement Fine Tuning API

Как работи таксуването за RFT API

Актуализирано: 15 days ago

Как работи таксуването за RFT

Reinforcement Fine‑Tuning (RFT) ви позволява да оптимизирате производителността на моделите със структурирано анализиране на OpenAI чрез обучение с утвърждение. За разлика от нашите предложения за supervised или preference fine-tuning, които се таксуват според броя токени в набора от обучителни данни, RFT се таксува според времето, през което обучението ви извършва основната работа по машинно обучение.

Това ръководство обяснява какво се счита за платимо време за обучение, как обработваме паузи и анулирания и как изборът ви на конфигурация може да повлияе на разходите.

Ценообразуване

  • Изчисления: $100 на час от изминалото време, прекарано в основния цикъл на обучение за o4-mini-2025-04-16. Таксите се изчисляват пропорционално до секундата и се закръглят до втория знак след десетичната запетая във фактурата (напр. 2,55 часа).

  • Използване на моделни оценители: Ако използвате модел на OpenAI, за да „оценява“ изходите по време на обучение, токените, изразходвани от тези заявки за оценяване, се таксуват отделно по нашите стандартни API тарифи след приключване на обучението.

Таксуваме само за обучителна работа, която реално актуализира модела ви (това наричаме „запазен напредък“).

За какво таксуваме

Таксуваме за времето, през което обучителният ви работен процес активно обучава модела ви, по-конкретно:

  • Генериране на извадки от модела ви по време на процеса на фина настройка (известни като „rollouts“)

  • Оценяване на тези изходи с един или повече оценители, които сте дефинирали за задачата (научете повече за оценителите)

  • Изчисляване и прилагане на актуализации на теглата въз основа на оценките (обратно разпространение).

  • Изпълнение на всички стъпки за валидиране (оценяване), които сте конфигурирали.

Повечето оценители са „безплатни“ за изпълнение, което означава, че не начисляваме допълнително за използването им извън времето, с което допринасят към основния цикъл на обучение. Изключението са моделните оценители, при които отчитаме и токените, които те изразходват по време на горните дейности. Тези токени се показват като отделен ред във фактурата ви. Токените, изразходвани от моделни оценители, се таксуват по стандартните тарифи за inference (цени на OpenAI).

За какво НЕ таксуваме

Не начисляваме такси за време, изразходвано за:

  • Валидиране или преглед на набора ви от данни преди началото на обучението.

  • Проверки за безопасност на набора ви от данни.

  • Изчакване на опашка за изчислителни ресурси.

  • Изтегляне на тегла на модела или набори от данни.

  • Подготовка (рендиране) на набора ви от данни в нашия формат за обучение.

  • Оценки на безопасността на вашия фино настроен модел след обучението.

Ако обучителна работа бъде загубена поради грешка от наша страна (например ако работен процес се срине и трябва да се върне към предишен checkpoint), не ви таксуваме за загубеното време за изчисления или токените на оценителите. Повече подробности за това има в следващия раздел.

Запазен напредък и събития за таксуване

Обучението се състои от много малки актуализации на модела ви. Ние проследяваме колко от тези актуализации завършват успешно. Таксите се базират на времето за изчисления и токените на оценителите, свързани с тези успешни актуализации.

Начисляваме такса, когато настъпи едно от следните „събития за таксуване“:

  • Обучението завърши успешно.

  • Поставите обучението на пауза.

  • Отмените обучението.

  • Обучението се провали.

Всяка такса покрива допълнителната работа, извършена след последното таксуване. Например:

  • Ако поставите изпълнение на пауза, запазваме checkpoint и ви таксуваме за времето за изчисления и токените на оценителите, използвани след последното таксуване.

  • Когато подновите, обучението продължава от checkpoint-а. Следващата такса (при завършване, нова пауза, отмяна или неуспех) ще покрива само допълнителната работа, извършена след подновяването.

  • Ако отмените изпълнение, ви таксуваме за работата, извършена до момента на отмяната.

  • Ако обучението се провали и работата след последното таксуване се загуби, не ви таксуваме за загубената част.

Този подход на „запазен напредък“ гарантира, че плащате само за работа, която се запазва в модела ви или която умишлено изоставяте.

Преглед на напредъка на задачата

RFT задачите имат поле, наречено usage_metrics, което документира общото използване на задачата до текущата стъпка. Това включва времето, прекарано в обучение, и всички токени, използвани от всички моделни оценители в задачата. Това поле може да се преглежда чрез API (GET /v1/fine_tuning/jobs/{job_id}) или чрез таблото за фина настройка.

Фактори, които влияят на времето за обучение

Тъй като таксуването е базирано на време, изборът ви на конфигурация влияе пряко върху разходите. Основните фактори включват:

  • Трудност на проблема: ако наборът ви от данни се състои от трудни проблеми, моделът вероятно ще отделя повече време за структурирано анализиране на всеки проблем, което увеличава времето, необходимо за създаване на всяка извадка.

  • Интензивност на изчисленията: Хиперпараметърът compute_multiplier контролира колко изчисления извършвате на стъпка от обучението. По-високите стойности насърчават модела да анализира по-подробно всеки елемент от данните, което забавя всяка стъпка.

  • Настройки за валидиране:

    • По-голям набор за валидиране увеличава времето, отделено за оценяване.

    • Увеличаването на eval_samples (броя изходи на модела, оценявани за всеки пример за валидиране) увеличава времето за валидиране.

    • По-честото изпълнение на валидиране (по-нисък eval_interval) увеличава дела на времето, отделено за валидиране.

  • Производителност на оценителя:

    • По-големите или по-способни моделни оценители връщат оценка по-бавно от по-малките. Например оценяване с модел със структурирано анализиране може да отнеме 10 пъти повече време от оценяване с модел без структурирано анализиране.

    • Сложните Python функции за оценяване се изпълняват по-бавно от простите.

Тези настройки ви позволяват да балансирате между цена, скорост и качество на модела. Например честото валидиране може да открива проблеми по-рано, но увеличава разходите. Оценяването с по-усъвършенстван модел може значително да подобри точността на оценяването, но ще забави всяка стъпка на оценяване и ще направи задачите по-скъпи.

Управление на разходите

За да контролирате разходите си:

  • Започнете с по-кратки изпълнения, за да разберете как конфигурацията ви влияе на времето.

  • Използвайте разумен брой примери за валидиране и eval_samples. Избягвайте да валидирате по-често, отколкото е необходимо.

  • Изберете най-малкия модел за оценяване, който отговаря на изискванията ви за качество.

  • Поддържайте персонализираните Python оценители ефективни.

  • Настройвайте compute_multiplier, за да балансирате скоростта на сходимост и разходите.

  • Следете изпълнението си в таблото или чрез API. Можете да го поставите на пауза или да го отмените по всяко време.

Примери

Успешно изпълнение на обучението

Време за обучениеТаксувано времеСъстояниеОписание
00 : 0000 : 00Потребителят създава RFT задача чрез API
00 : 1000 : 00VALIDATING_FILES10 минути за валидиране на набора от данни
00 : 3000 : 00VALIDATING_FILES20 минути за проверки за безопасност на набора от данни
01 : 0000 : 00QUEUED30 минути изчакване за наличен работен процес
01 : 3000 : 00RUNNING30 минути за настройка на обучението (изтегляне на тегла, предварителна обработка и др.)
05 : 3004 : 00RUNNING4 часа за обучение
06 : 0004 : 00RUNNING30 минути за оценки на безопасността на получения модел
06 : 0004 : 00SUCCEEDEDОбучението завършва

В този случай общото изминало време е 6 часа, но само 4 часа подлежат на таксуване. Цената би била 4 часа × $100/час = $400.

Пример за неуспешна задача

В този пример изпълнението се обучава 2 часа, записва checkpoint, обучава се още 1 час, но след това се проваля. Само 2‑та часа обучение до checkpoint-а подлежат на таксуване.

Време за обучениеТаксувано времеСъстояниеОписание
00 : 0000 : 00Потребителят създава RFT задача чрез API
00 : 1000 : 00VALIDATING_FILES10 минути за валидиране на набора от данни
00 : 3000 : 00VALIDATING_FILES20 минути за проверки за безопасност на набора от данни
01 : 0000 : 00QUEUED30 минути изчакване за наличен работен процес
01 : 3000 : 00RUNNING30 минути за настройка на обучението (изтегляне на тегла, предварителна обработка и др.)
03 : 3002 : 00RUNNING2 часа за обучение
03 : 3002 : 00RUNNINGСъздаден е checkpoint на стъпка 5
04 : 3002 : 00RUNNINGОбучението се проваля поради вътрешна грешка на стъпка 8 (след още 1 час)
04 : 3002 : 00RUNNING30 минути за оценяване и валидиране на checkpoint-а
04 : 3002 : 00SUCCEEDEDЗадачата завършва (с най-новия checkpoint)

Въпреки че общо са изразходвани 3 часа за обучение, само 2 часа са „запазени“ в използваем checkpoint и се таксуват. Часът обучителна работа, загубен поради грешката, не е ваша отговорност. Цената би била 2 часа × $100/час = $200.

Често задавани въпроси

Кога се начислява такса?

Таксуваме, когато изпълнението приключи, бъде поставено на пауза, отменено или се провали. Всяка такса покрива работата, извършена след предишното таксуване.

Плащам ли, ако изпълнението се провали?

Ако изпълнението се провали поради наша грешка и част от скорошната обучителна работа бъде загубена, не ви таксуваме за загубената част. Ако отмените изпълнение, ви таксуваме за работата до момента на отмяната.

Как се таксуват токените на моделните оценители?

Отчитаме токените, използвани от всички моделни оценители, които конфигурирате. След приключване на обучението таксуваме тези токени по стандартните ни тарифи за токен.

Мога ли да поставя изпълнение на пауза и да го подновя?

Да. Когато поставите на пауза, запазваме checkpoint и начисляваме такса за извършената дотук работа. Когато подновите, ще бъдете таксувани само за допълнителната работа, извършена след подновяването.

Ако имате други въпроси относно таксуването на Reinforcement Fine‑Tuning, свържете се с нашия екип за поддръжка.

Беше ли Ви полезна тази статия?