OpenAI
此頁面由機器翻譯。查看原文英文文章

Reinforcement Fine Tuning API 計費指南

RFT API 的計費方式

更新日期:14 days ago

RFT 的計費方式

Reinforcement Fine‑Tuning (RFT) 讓你可透過強化學習,優化 OpenAI 推理模型的表現。不同於我們的監督式或偏好式微調方案按訓練資料集中的 token 數量收費,RFT 會按你的訓練執行在進行核心機器學習工作時所花的時間收費。

本指南會說明哪些訓練時間會被計費、我們如何處理暫停和取消,以及你的配置選擇如何影響成本。

定價

  • 運算:就 o4-mini-2025-04-16 而言,在核心訓練迴圈中花費的實際時鐘時間,每小時 $100。費用按秒比例計算,並在發票上四捨五入至小數點後兩位(例如 2.55 小時)。

  • 模型評分器用量: 如果你在訓練期間使用 OpenAI 模型為輸出進行「評分」,這些評分呼叫所消耗的 token 會在訓練完成後,按我們的標準 API 費率另行收費。

我們只會就實際有更新你模型的訓練工作收費(我們稱之為「已捕捉的前向進展」)。

我們會為哪些項目收費

我們會就你的訓練工作器主動訓練模型所花的時間收費,具體包括:

  • 在微調過程中從你的模型產生樣本(稱為「rollouts」)

  • 使用你在工作中定義的一個或多個評分器評估這些輸出(了解更多評分器資訊

  • 根據評分計算並套用權重更新(反向傳播)。

  • 執行你已配置的任何驗證(評估)步驟。

大多數評分器均可「免費」執行,這表示除了它們對核心訓練迴圈所貢獻的時間外,我們不會就其使用另行收費。例外情況是模型評分器,我們亦會統計這些評分器在上述活動中消耗的 token。這些 token 會作為發票上的獨立項目列出。模型評分器消耗的 token 會按一般推理費率收費(OpenAI 定價)。

我們不會為哪些項目收費

我們不會就以下所花的時間收費:

  • 在訓練開始前驗證或檢查你的資料集。

  • 對你的資料集進行安全檢查。

  • 在佇列中等待運算資源。

  • 下載模型權重或資料集。

  • 將你的資料集準備(轉換)成我們的訓練格式。

  • 對你已微調模型進行訓練後安全評估。

如果因我們一方的錯誤導致訓練工作遺失(例如工作器當機而必須回復到先前的檢查點),你毋須為遺失的運算時間或評分器 token 付費。下一節會提供更多詳情。

已捕捉的前向進展與計費事件

訓練由許多對模型的小型更新組成。我們會追蹤當中有多少更新成功完成。收費會根據與這些成功更新相關的運算時間及評分器 token 而定。

當以下其中一種「計費事件」發生時,我們便會收費:

  • 訓練成功完成。

  • 你暫停訓練。

  • 你取消訓練。

  • 訓練失敗。

每次收費涵蓋自上一次收費以來所完成的增量工作。例如:

  • 如果你暫停執行,我們會儲存檢查點,並就自上一次收費以來所用的運算時間及評分器 token 向你收費。

  • 當你恢復後,訓練會從檢查點繼續。下一次收費(在完成、再次暫停、取消或失敗時)只會涵蓋恢復後額外完成的工作。

  • 如果你取消執行,我們會就截至取消時已完成的工作向你收費。

  • 如果訓練失敗,而自上一次收費以來的工作已遺失,你毋須為遺失的部分付費。

這種「已捕捉的前向進展」方式可確保你只需為保留在模型中的工作,或你有意放棄的工作付費。

查看工作進度

RFT 工作設有一個名為 usage_metrics 的欄位,用來記錄截至目前步驟為止的工作總用量。當中包括訓練所花的時間,以及該工作中所有模型評分器使用的全部 token。你可透過 API(GET /v1/fine_tuning/jobs/{job_id})或微調儀表板查看此欄位。

影響訓練時間的因素

由於計費以時間為基礎,你的配置選擇會直接影響成本。主要因素包括:

  • 問題難度:如果你的資料集由困難問題組成,模型很可能要花更多時間對每個問題進行推理,從而增加產生每個樣本所需的時間。

  • 運算強度compute_multiplier 超參數控制每個訓練步驟所進行的計算量。較高的數值會鼓勵模型對每個資料點作出更詳細的推理,因此每個步驟的執行速度會較慢。

  • 驗證設定

    • 較大的驗證集會增加評估所需時間。

    • 增加 eval_samples(每個驗證樣本要評分的模型輸出數量)會增加驗證時間。

    • 更頻繁執行驗證(較低的 eval_interval)會增加花在驗證上的時間比例。

  • 評分器效能

    • 較大或能力較強的模型評分器,比起較小的評分器,需要更長時間才會返回評分。例如,用推理模型評分,所需時間可能比非推理模型長 10 倍。

    • 複雜的 Python 評分函式比簡單函式需要更長執行時間。

這些設定讓你可以在成本、速度和模型品質之間作出取捨。例如,頻繁驗證可更早發現問題,但會增加成本。使用更先進的模型作評分,可大幅提升評分準確度,但亦會拖慢每個評分步驟,令工作變得更昂貴。

管理成本

如要控制支出:

  • 先以較短的執行開始,了解你的配置如何影響時間。

  • 使用合理數量的驗證示例和 eval_samples。避免比需要更頻繁地進行驗證。

  • 選擇可滿足你品質要求的最小評分器模型。

  • 保持自訂 Python 評分器高效。

  • 調整 compute_multiplier,在收斂速度與成本之間取得平衡。

  • 在儀表板或透過 API 監察你的執行。你可隨時暫停或取消。

示例

成功的訓練執行

訓練時間計費時間狀態說明
00 : 0000 : 00使用者透過 API 建立 RFT 工作
00 : 1000 : 00VALIDATING_FILES花 10 分鐘驗證資料集
00 : 3000 : 00VALIDATING_FILES花 20 分鐘執行資料集安全檢查
01 : 0000 : 00QUEUED等待可用工作器 30 分鐘
01 : 3000 : 00RUNNING花 30 分鐘設定訓練(下載權重、預處理等)
05 : 3004 : 00RUNNING花 4 小時進行訓練
06 : 0004 : 00RUNNING花 30 分鐘對所得模型進行安全評估
06 : 0004 : 00SUCCEEDED訓練完成

在此情況下,總實際經過時間為 6 小時,但只有 4 小時會被計費。費用將為 4 小時 × $100/小時 = $400

失敗工作示例

在此示例中,該執行先訓練 2 小時、寫入一個檢查點,再多訓練 1 小時,但之後失敗。只有檢查點之前的 2 小時訓練會被計費。

訓練時間計費時間狀態說明
00 : 0000 : 00使用者透過 API 建立 RFT 工作
00 : 1000 : 00VALIDATING_FILES花 10 分鐘驗證資料集
00 : 3000 : 00VALIDATING_FILES花 20 分鐘執行資料集安全檢查
01 : 0000 : 00QUEUED等待可用工作器 30 分鐘
01 : 3000 : 00RUNNING花 30 分鐘設定訓練(下載權重、預處理等)
03 : 3002 : 00RUNNING花 2 小時進行訓練
03 : 3002 : 00RUNNING在步驟 5 建立檢查點
04 : 3002 : 00RUNNING在步驟 8 因內部錯誤而訓練失敗(再多 1 小時後)
04 : 3002 : 00RUNNING花 30 分鐘評估及驗證檢查點
04 : 3002 : 00SUCCEEDED工作完成(採用最新檢查點)

即使總共花了 3 小時進行訓練,只有 2 小時被「捕捉」到可用的檢查點中,因此會被計費。因失敗而損失的 1 小時訓練工作,並非由你承擔。費用將為 2 小時 × $100/小時 = $200

常見問題

我會在甚麼時候被收費?

當你的執行完成、暫停、取消或失敗時,我們便會計費。每次收費涵蓋自上一次收費以來所完成的工作。

如果執行失敗,我要付款嗎?

如果執行因我們的錯誤而失敗,且最近的部分訓練工作因此遺失,你毋須為遺失的部分付費。如果你取消執行,則會按取消前已完成的工作收費。

評分器模型 token 如何收費?

我們會計算你所配置的任何模型評分器使用的 token。訓練完成後,我們會按標準每 token 費率就這些 token 收費。

我可以暫停及恢復執行嗎?

可以。當你暫停時,我們會儲存檢查點,並就目前為止已完成的工作收費。當你恢復時,你只會就恢復後額外完成的工作被收費。

如果你對 Reinforcement Fine‑Tuning 計費還有其他問題,請聯絡我們的支援團隊

這篇文章對你有幫助嗎?