RFT 的計費方式

Reinforcement Fine‑Tuning (RFT) 讓你可透過強化學習，優化 OpenAI 推理模型的表現。不同於我們的監督式或偏好式微調方案按訓練資料集中的 token 數量收費，RFT 會按你的訓練執行在進行核心機器學習工作時所花的時間收費。

本指南會說明哪些訓練時間會被計費、我們如何處理暫停和取消，以及你的配置選擇如何影響成本。

定價

運算：就 o4-mini-2025-04-16 而言，在核心訓練迴圈中花費的實際時鐘時間，每小時 $100。費用按秒比例計算，並在發票上四捨五入至小數點後兩位（例如 2.55 小時）。
模型評分器用量： 如果你在訓練期間使用 OpenAI 模型為輸出進行「評分」，這些評分呼叫所消耗的 token 會在訓練完成後，按我們的標準 API 費率另行收費。

我們只會就實際有更新你模型的訓練工作收費（我們稱之為「已捕捉的前向進展」）。

收費項目

我們會就訓練工作節點主動訓練您模型所花的時間收費，具體包括：

在微調過程中從您的模型產生樣本（稱為「軌跡採樣」）
使用您在作業中定義的一個或多個評分器評估這些輸出（進一步了解評分器）
根據評分計算並套用權重更新（反向傳播）。
執行您已配置的任何驗證（評估）步驟。

大多數評分器可「免費」執行，意思是除了它們為核心訓練循環增加的時間外，我們不會就其使用額外收費。例外是模型評分器；我們也會統計這些評分器在上述活動期間消耗的 token。這些 token 會在您的發票上顯示為獨立項目。模型評分器消耗的 token 會按正常推理費率計費（OpenAI 定價）。

我們不會為哪些項目收費

我們不會就以下所花的時間收費：

在訓練開始前驗證或檢查你的資料集。
對你的資料集進行安全檢查。
在佇列中等待運算資源。
下載模型權重或資料集。
將你的資料集準備（轉換）成我們的訓練格式。
對你已微調模型進行訓練後安全評估。

如果因我們一方的錯誤導致訓練工作遺失（例如工作器當機而必須回復到先前的檢查點），你毋須為遺失的運算時間或評分器 token 付費。下一節會提供更多詳情。

已捕捉的前向進展與計費事件

訓練由許多對模型的小型更新組成。我們會追蹤當中有多少更新成功完成。收費會根據與這些成功更新相關的運算時間及評分器 token 而定。

當以下其中一種「計費事件」發生時，我們便會收費：

訓練成功完成。
你暫停訓練。
你取消訓練。
訓練失敗。

每次收費涵蓋自上一次收費以來所完成的增量工作。例如：

如果你暫停執行，我們會儲存檢查點，並就自上一次收費以來所用的運算時間及評分器 token 向你收費。
當你恢復後，訓練會從檢查點繼續。下一次收費（在完成、再次暫停、取消或失敗時）只會涵蓋恢復後額外完成的工作。
如果你取消執行，我們會就截至取消時已完成的工作向你收費。
如果訓練失敗，而自上一次收費以來的工作已遺失，你毋須為遺失的部分付費。

這種「已捕捉的前向進展」方式可確保你只需為保留在模型中的工作，或你有意放棄的工作付費。

查看作業進度

RFT 作業有一個名為 usage_metrics 的欄位，記錄該作業截至目前步驟的總用量。這包括訓練所花的時間，以及作業中所有模型評分器使用的全部 token。您可以透過 API（GET /v1/fine_tuning/jobs/{job_id}）或微調控制台查看此欄位。

影響訓練時間的因素

由於計費以時間為基礎，你的配置選擇會直接影響成本。主要因素包括：

問題難度：如果你的資料集由困難問題組成，模型很可能要花更多時間對每個問題進行推理，從而增加產生每個樣本所需的時間。
運算強度：compute_multiplier 超參數控制每個訓練步驟所進行的計算量。較高的數值會鼓勵模型對每個資料點作出更詳細的推理，因此每個步驟的執行速度會較慢。
驗證設定：
- 較大的驗證集會增加評估所需時間。
- 增加 eval_samples（每個驗證樣本要評分的模型輸出數量）會增加驗證時間。
- 更頻繁執行驗證（較低的 eval_interval）會增加花在驗證上的時間比例。
評分器效能：
- 較大或能力較強的模型評分器，比起較小的評分器，需要更長時間才會返回評分。例如，用推理模型評分，所需時間可能比非推理模型長 10 倍。
- 複雜的 Python 評分函式比簡單函式需要更長執行時間。

這些設定讓你可以在成本、速度和模型品質之間作出取捨。例如，頻繁驗證可更早發現問題，但會增加成本。使用更先進的模型作評分，可大幅提升評分準確度，但亦會拖慢每個評分步驟，令工作變得更昂貴。

管理成本

如要控制支出：

先以較短的執行開始，了解你的配置如何影響時間。
使用合理數量的驗證示例和 eval_samples。避免比需要更頻繁地進行驗證。
選擇可滿足你品質要求的最小評分器模型。
保持自訂 Python 評分器高效。
調整 compute_multiplier，在收斂速度與成本之間取得平衡。
在儀表板或透過 API 監察你的執行。你可隨時暫停或取消。

示例

成功的訓練執行

訓練時間	計費時間	狀態	說明
00:00	00:00	–	用戶透過 API 建立 RFT 作業
00:10	00:00	VALIDATING_FILES	花 10 分鐘驗證資料集
00:30	00:00	VALIDATING_FILES	執行資料集安全檢查 20 分鐘
01:00	00:00	QUEUED	等待可用工作節點 30 分鐘
01:30	00:00	RUNNING	設定訓練 30 分鐘（下載權重、預處理等）
05:30	04:00	RUNNING	花 4 小時訓練
06:00	04:00	RUNNING	對產生的模型執行安全評估 30 分鐘
06:00	04:00	SUCCEEDED	訓練完成

在此情況下，總實際經過時間為 6 小時，但只有 4 小時可計費。費用為 4 小時 × $100/小時 = $400。

失敗作業範例

在此例中，執行會訓練 2 小時、寫入檢查點，再訓練 1 小時後失敗。只有截至檢查點為止的 2 小時訓練可計費。

訓練時間	計費時間	狀態	說明
00:00	00:00	–	用戶透過 API 建立 RFT 作業
00:10	00:00	VALIDATING_FILES	花 10 分鐘驗證資料集
00:30	00:00	VALIDATING_FILES	執行資料集安全檢查 20 分鐘
01:00	00:00	QUEUED	等待可用工作節點 30 分鐘
01:30	00:00	RUNNING	設定訓練 30 分鐘（下載權重、預處理等）
03:30	02:00	RUNNING	花 2 小時訓練
03:30	02:00	RUNNING	在步驟 5 建立檢查點
04:30	02:00	RUNNING	訓練在步驟 8 因內部錯誤而失敗（多訓練 1 小時後）
04:30	02:00	RUNNING	花 30 分鐘評估並驗證檢查點
04:30	02:00	SUCCEEDED	作業完成（使用最新檢查點）

即使總共花了 3 小時訓練，只有 2 小時「保留」在可用檢查點中並會收費。因失敗而損失的 1 小時訓練工作不會由您承擔。費用為 2 小時 × $100/小時 = $200。

常見問題

何時向我收費？

我們會在您的執行完成、暫停、取消或失敗時收費。每張帳單涵蓋自上一張帳單以來完成的工作。

如果執行失敗，我需要付款嗎？

如果執行因我們的錯誤而失敗，且任何近期訓練工作遺失，您無需為遺失部分付費。如果您取消執行，我們會就取消前已完成的工作收費。

評分器模型 token 如何計費？

我們會計算您配置的任何模型評分器所使用的 token。訓練完成後，我們會按標準每 token 費率對這些 token 收費。

我可以暫停並恢復執行嗎？

可以。當您暫停時，我們會儲存檢查點，並就目前已完成的工作收費。當您恢復時，我們只會就恢復後完成的額外工作收費。

如果您對強化微調計費有其他疑問，請聯絡我們的支援團隊。

Reinforcement Fine Tuning API 計費指南