RFT の課金の仕組み
強化ファインチューニング(RFT)により、OpenAI のリーズニングモデルのパフォーマンスを強化学習を使用して最適化することができます。学習データセット内のトークンの数に応じて課金される、教師あり学習やプレファレンスファインチューニングのサービスとは異なり、RFT は、コア機械学習作業の実行に費やされたトレーニング時間に基づいて課金されます。
このガイドでは、請求可能な学習時間として何が含まれるか、一時停止やキャンセルの処理方法、そして設定の選択がコストにどう影響し得るかについて説明します。
価格について
計算:
o4-mini-2025-04-16のコア学習ループに費やされた壁時計(ウォールクロック)時間1時間あたり$100。料金は秒単位で按分され、請求書では小数点以下2桁に四捨五入されます(例:2.55時間)。モデルグレーダー使用:学習中に OpenAI モデルを使用して出力を「採点(グレーディング)」する場合、これらの採点呼び出しで消費されたトークンは、学習完了後に当社の標準 API レートで別途請求されます。
私たちは、実際にモデルを更新する学習作業(私たちはこれを「キャプチャされた向上」と呼んでいます)に対してのみ料金を請求します。
請求内容
学習ワーカーがモデルの学習に能動的に費やした時間に対して課金されます。具体的には以下の通りです。
ファインチューニングプロセス中にモデルからサンプルを生成すること(「ロールアウト」として知られています)
ジョブで定義した1人以上のグレーダー(採点者)を使用して、これらの出力を評価します(グレーダーについての詳細はこちら)
採点の評価に基づいて重みを更新し適用する(バックプロパゲーション)。
設定した検証(評価)手順を実行します。
ほとんどのグレーダーは「無料」で使用でき、コア学習ループに貢献する時間以外の使用に対して追加料金を請求することはありません。ただし、モデルグレーダーの場合は例外で、それらのグレーダーが上記のアクティビティ中に消費するトークンも集計されます。これらのトークンは、請求書に別個の項目として表示されます。モデルグレーダーが消費したトークンは、通常の推論レートで課金されます(OpenAI 料金)。
請求されないもの
消費時間に対して料金はかかりません。
学習を開始する前に、データセットを検証または点検します。
データセットの安全性チェック。
コンピューティングリソースをキューで待機しています。
モデルの重みやデータセットをダウンロードします。
データセットを学習フォーマットに合わせて準備(レンダリング)しています。
ファインチューニングされたモデルの学習後の安全性評価。
当社側のエラーによって学習作業が失われた場合(例:ワーカーがクラッシュし、以前のチェックポイントにロールバックする必要がある場合)、失われた計算時間やグレーダーのトークンに対して料金は請求されません。この詳細については、次のセクションで説明します。
キャプチャされた進捗状況と請求イベント
学習は、モデルに対する多くの小さな更新で構成されています。これらの更新のうちどれだけ多くの数が成功裏に完了したかを追跡します。料金は、これらの成功した更新に関連する計算時間とグレーダー・トークンに基づいて発生します。
次の「請求イベント」のいずれかが発生した場合、料金を請求いたします。
学習が正常に完了した。
学習を一時停止する。
トレーニングをキャンセルする。
学習に失敗した。
各請求は、前回の請求以降に行われた追加作業をカバーします。例:
実行を一時停止すると、チェックポイントが保存され、前回の課金以降の計算時間とグレーダーのトークンの使用分に対して請求されます。
再開すると、学習はチェックポイントから続行されます。次への請求は(完了、再度の一時停止、キャンセル、または失敗の場合)、再開後に行われた追加作業に対してのみ請求されます。
実行をキャンセルした場合、それまでの作業に対して料金が請求されます。
学習が失敗し、最後の課金以降の作業が失われた場合、その失われた部分については請求されません。
この「キャプチャされた向上」アプローチにより、モデルに保持される作業や意図的に放棄された作業に対してのみ料金を支払うことになります。
作業の進捗状況の確認
RFT ジョブには、現在のステップまでのジョブの総使用量を記録する usage_metrics というフィールドがあります。これには、学習に費やした時間と、業務中にすべてのモデルグレーダーで使用された全トークンが含まれます。このフィールドは、API(GET /v1/fine_tuning/jobs/{job_id})またはファインチューニングダッシュボードを通じて確認できます。
学習時間に影響を与える要因
請求は時間に基づいているため、設定の選択がコストに直接影響します。主な要因は以下の通りです。
問題の難易度: データセットが難しい問題で構成されている場合、モデルは各問題に対してより多くの時間をかけて推論する可能性が高いため、各サンプルの生成にかかる時間が増加します。
コンピュート強度:
compute_multiplierハイパーパラメーターは、学習ステップごとに実行する計算量を制御します。より高い値は、モデルが各データポイントに対してより詳細に推論するのを促し、その結果、各ステップの実行は遅くなります。検証設定:
検証セットが大きいほど、評価にかかる時間が増大します。
eval_samples(検証例ごとに評価されるモデル出力の数)を増やすと、検証時間が長くなります。検証をより頻繁に実行する(
eval_intervalを短くする)と、検証に費やす時間の割合が増大します。
グレーダーのパフォーマンス
より大規模またはより高性能なモデルグレーダーは、小さいものよりも採点(評価)を返すのに時間がかかります。例えば、リーズニングモデルを使用した評価は、非推論モデルを使用した評価よりも10倍の時間がかかる場合があります。
複雑なPythonの採点関数は、単純なものよりも実行時間が長くなります。
これらの設定により、コスト、スピード、モデルの品質のバランスを取ることができます。例えば、頻繁な検証を行うことで問題を早期に発見できますが、コストが増加します。より高度なモデルを用いた採点では、採点精度を大幅に向上させることができますが、各採点ステップを遅くし、作業のコストを増加させます。
コストの管理
支出を管理するには
設定が時間にどう影響するかを理解するために、短い試行から始めてください。
妥当な数の検証例と
eval_samplesを使用してください。必要以上に検証を頻繁に行わないようにしてください。組織の品質要件を満たす最小のグレーダーモデルを選択してください。
カスタムPythonグレーダーを効率的に保ちます。
compute_multiplierを調整して、収束速度とコストのバランスを取ります。ダッシュボードまたはAPIを通じて実行を監視します。いつでも一時停止またはキャンセルすることができます。
例
成功した学習の実行
| 学習時間 | 請求された時間 | 状態 | 説明 |
| 00:00 | 00:00 | – | ユーザーが API を通じて RFT ジョブを作成 |
| 00:10 | 00:00 | ファイル検証 | データセットの検証に10分間消費 |
| 0:30 | 00:00 | ファイル検証 | データセットの安全性チェックを20分間実行 |
| 01:00 | 00:00 | キューに追加されました | 利用可能な作業員を30分間待機 |
| 01:30 | 00:00 | 実行 | 学習の設定に30分間(重みのダウンロード、前処理など) |
| 05:30 | 04:00 | 実行 | 学習に4時間消費 |
| 06:00 | 04:00 | 実行 | 得られたモデルの安全性評価を30分間実行 |
| 06:00 | 04:00 | 成功しました | 学習完了 |
この場合、総ウォールクロック時間は6時間ですが、請求対象となる時間は4時間のみです。費用は 4 時間 × $100/時間 = $400 です。
失敗した仕事の例
この例では、実行によって2時間学習し、チェックポイントを作成し、さらに1時間学習しますが、その後失敗します。チェックポイントまでの2時間の学習のみが請求対象です。
| 学習時間 | 請求された時間 | 状態 | 説明 |
| 00:00 | 00:00 | – | ユーザーが API を通じて RFT ジョブを作成 |
| 00:10 | 00:00 | ファイル検証 | データセットの検証に10分間消費 |
| 0:30 | 00:00 | ファイル検証 | データセットの安全性チェックを20分間実行 |
| 01:00 | 00:00 | キューに追加されました | 利用可能な作業員を30分間待機 |
| 01:30 | 00:00 | 実行 | 学習の設定に30分間(重みのダウンロード、前処理など) |
| 03:30 | 02:00 | 実行 | 2 時間の学習 |
| 03:30 | 02:00 | 実行 | ステップ5でチェックポイントが作成されました |
| 04:30 | 02:00 | 実行 | ステップ8で内部エラーにより学習が失敗しました(さらに1時間後) |
| 04:30 | 02:00 | 実行 | チェックポイントを評価し検証するのに30分消費 |
| 04:30 | 02:00 | 成功しました | ジョブ完了(最新のチェックポイント付き) |
学習には計3時間が費やされましたが、使用可能なチェックポイントにおいて「キャプチャ」され、課金されるのは2時間のみです。失敗によって失われた学習作業の時間は、あなたの責任ではありません。費用は 2 時間 × $100/時間 = $200になります。
よくある質問
いつ請求されるのでしょうか?
実行が完了した際、一時停止された際、キャンセルされた際、または失敗した際に請求が発生します。各請求書には、前回の請求以降に行われた作業が含まれます。
実行が失敗した場合、料金を支払う必要がありますか?
当社のエラーにより実行が失敗し、最近の学習作業が失われた場合、その失われた部分については料金が請求されません。実行をキャンセルした場合、それまでの作業に対して料金が発生します。
グレーダーモデルのトークンはどのように課金されますか?
設定したモデルグレーダーによって使用されるトークンをカウントします。学習が終了した後、これらのトークンは、当社の1トークンあたりの標準料金で請求されます。
実行を一時停止して再開することは可能ですか?
はい。一時停止すると、チェックポイントが保存され、それまでの作業に対して料金が発生します。再開すると、再開後に行われた追加作業に対してのみ料金が発生します。
強化ファインチューニングの請求に関して他にご質問がございましたら、サポートチームにお問い合わせください。
