RFT 的計費方式
Reinforcement Fine‑Tuning (RFT) 讓你可透過強化學習,優化 OpenAI 推理模型的表現。不同於我們的監督式或偏好式微調方案按訓練資料集中的 token 數量收費,RFT 會按你的訓練執行在進行核心機器學習工作時所花的時間收費。
本指南會說明哪些訓練時間會被計費、我們如何處理暫停和取消,以及你的配置選擇如何影響成本。
定價
運算:就
o4-mini-2025-04-16而言,在核心訓練迴圈中花費的實際時鐘時間,每小時 $100。費用按秒比例計算,並在發票上四捨五入至小數點後兩位(例如 2.55 小時)。模型評分器用量: 如果你在訓練期間使用 OpenAI 模型為輸出進行「評分」,這些評分呼叫所消耗的 token 會在訓練完成後,按我們的標準 API 費率另行收費。
我們只會就實際有更新你模型的訓練工作收費(我們稱之為「已捕捉的前向進展」)。
我們會為哪些項目收費
我們會就你的訓練工作器主動訓練模型所花的時間收費,具體包括:
在微調過程中從你的模型產生樣本(稱為「rollouts」)
使用你在工作中定義的一個或多個評分器評估這些輸出(了解更多評分器資訊)
根據評分計算並套用權重更新(反向傳播)。
執行你已配置的任何驗證(評估)步驟。
大多數評分器均可「免費」執行,這表示除了它們對核心訓練迴圈所貢獻的時間外,我們不會就其使用另行收費。例外情況是模型評分器,我們亦會統計這些評分器在上述活動中消耗的 token。這些 token 會作為發票上的獨立項目列出。模型評分器消耗的 token 會按一般推理費率收費(OpenAI 定價)。
我們不會為哪些項目收費
我們不會就以下所花的時間收費:
在訓練開始前驗證或檢查你的資料集。
對你的資料集進行安全檢查。
在佇列中等待運算資源。
下載模型權重或資料集。
將你的資料集準備(轉換)成我們的訓練格式。
對你已微調模型進行訓練後安全評估。
如果因我們一方的錯誤導致訓練工作遺失(例如工作器當機而必須回復到先前的檢查點),你毋須為遺失的運算時間或評分器 token 付費。下一節會提供更多詳情。
已捕捉的前向進展與計費事件
訓練由許多對模型的小型更新組成。我們會追蹤當中有多少更新成功完成。收費會根據與這些成功更新相關的運算時間及評分器 token 而定。
當以下其中一種「計費事件」發生時,我們便會收費:
訓練成功完成。
你暫停訓練。
你取消訓練。
訓練失敗。
每次收費涵蓋自上一次收費以來所完成的增量工作。例如:
如果你暫停執行,我們會儲存檢查點,並就自上一次收費以來所用的運算時間及評分器 token 向你收費。
當你恢復後,訓練會從檢查點繼續。下一次收費(在完成、再次暫停、取消或失敗時)只會涵蓋恢復後額外完成的工作。
如果你取消執行,我們會就截至取消時已完成的工作向你收費。
如果訓練失敗,而自上一次收費以來的工作已遺失,你毋須為遺失的部分付費。
這種「已捕捉的前向進展」方式可確保你只需為保留在模型中的工作,或你有意放棄的工作付費。
查看工作進度
RFT 工作設有一個名為 usage_metrics 的欄位,用來記錄截至目前步驟為止的工作總用量。當中包括訓練所花的時間,以及該工作中所有模型評分器使用的全部 token。你可透過 API(GET /v1/fine_tuning/jobs/{job_id})或微調儀表板查看此欄位。
影響訓練時間的因素
由於計費以時間為基礎,你的配置選擇會直接影響成本。主要因素包括:
問題難度:如果你的資料集由困難問題組成,模型很可能要花更多時間對每個問題進行推理,從而增加產生每個樣本所需的時間。
運算強度:
compute_multiplier超參數控制每個訓練步驟所進行的計算量。較高的數值會鼓勵模型對每個資料點作出更詳細的推理,因此每個步驟的執行速度會較慢。驗證設定:
較大的驗證集會增加評估所需時間。
增加
eval_samples(每個驗證樣本要評分的模型輸出數量)會增加驗證時間。更頻繁執行驗證(較低的
eval_interval)會增加花在驗證上的時間比例。
評分器效能:
較大或能力較強的模型評分器,比起較小的評分器,需要更長時間才會返回評分。例如,用推理模型評分,所需時間可能比非推理模型長 10 倍。
複雜的 Python 評分函式比簡單函式需要更長執行時間。
這些設定讓你可以在成本、速度和模型品質之間作出取捨。例如,頻繁驗證可更早發現問題,但會增加成本。使用更先進的模型作評分,可大幅提升評分準確度,但亦會拖慢每個評分步驟,令工作變得更昂貴。
管理成本
如要控制支出:
先以較短的執行開始,了解你的配置如何影響時間。
使用合理數量的驗證示例和
eval_samples。避免比需要更頻繁地進行驗證。選擇可滿足你品質要求的最小評分器模型。
保持自訂 Python 評分器高效。
調整
compute_multiplier,在收斂速度與成本之間取得平衡。在儀表板或透過 API 監察你的執行。你可隨時暫停或取消。
示例
成功的訓練執行
| 訓練時間 | 計費時間 | 狀態 | 說明 |
| 00 : 00 | 00 : 00 | – | 使用者透過 API 建立 RFT 工作 |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 花 10 分鐘驗證資料集 |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 花 20 分鐘執行資料集安全檢查 |
| 01 : 00 | 00 : 00 | QUEUED | 等待可用工作器 30 分鐘 |
| 01 : 30 | 00 : 00 | RUNNING | 花 30 分鐘設定訓練(下載權重、預處理等) |
| 05 : 30 | 04 : 00 | RUNNING | 花 4 小時進行訓練 |
| 06 : 00 | 04 : 00 | RUNNING | 花 30 分鐘對所得模型進行安全評估 |
| 06 : 00 | 04 : 00 | SUCCEEDED | 訓練完成 |
在此情況下,總實際經過時間為 6 小時,但只有 4 小時會被計費。費用將為 4 小時 × $100/小時 = $400。
失敗工作示例
在此示例中,該執行先訓練 2 小時、寫入一個檢查點,再多訓練 1 小時,但之後失敗。只有檢查點之前的 2 小時訓練會被計費。
| 訓練時間 | 計費時間 | 狀態 | 說明 |
| 00 : 00 | 00 : 00 | – | 使用者透過 API 建立 RFT 工作 |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 花 10 分鐘驗證資料集 |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 花 20 分鐘執行資料集安全檢查 |
| 01 : 00 | 00 : 00 | QUEUED | 等待可用工作器 30 分鐘 |
| 01 : 30 | 00 : 00 | RUNNING | 花 30 分鐘設定訓練(下載權重、預處理等) |
| 03 : 30 | 02 : 00 | RUNNING | 花 2 小時進行訓練 |
| 03 : 30 | 02 : 00 | RUNNING | 在步驟 5 建立檢查點 |
| 04 : 30 | 02 : 00 | RUNNING | 在步驟 8 因內部錯誤而訓練失敗(再多 1 小時後) |
| 04 : 30 | 02 : 00 | RUNNING | 花 30 分鐘評估及驗證檢查點 |
| 04 : 30 | 02 : 00 | SUCCEEDED | 工作完成(採用最新檢查點) |
即使總共花了 3 小時進行訓練,只有 2 小時被「捕捉」到可用的檢查點中,因此會被計費。因失敗而損失的 1 小時訓練工作,並非由你承擔。費用將為 2 小時 × $100/小時 = $200。
常見問題
我會在甚麼時候被收費?
當你的執行完成、暫停、取消或失敗時,我們便會計費。每次收費涵蓋自上一次收費以來所完成的工作。
如果執行失敗,我要付款嗎?
如果執行因我們的錯誤而失敗,且最近的部分訓練工作因此遺失,你毋須為遺失的部分付費。如果你取消執行,則會按取消前已完成的工作收費。
評分器模型 token 如何收費?
我們會計算你所配置的任何模型評分器使用的 token。訓練完成後,我們會按標準每 token 費率就這些 token 收費。
我可以暫停及恢復執行嗎?
可以。當你暫停時,我們會儲存檢查點,並就目前為止已完成的工作收費。當你恢復時,你只會就恢復後額外完成的工作被收費。
如果你對 Reinforcement Fine‑Tuning 計費還有其他問題,請聯絡我們的支援團隊。
