Wie die Abrechnung für RFT funktioniert

Mit Reinforcement Fine-Tuning (RFT) kannst du die Leistung von OpenAIs Reasoning-Modellen mithilfe von Reinforcement Learning optimieren. Im Gegensatz zu unseren Angeboten für überwachte oder Präferenz-Feinabstimmung, die nach der Anzahl der Token im Trainingsdatensatz abgerechnet werden, wird RFT nach der Zeit abgerechnet, die dein Trainingslauf für die Durchführung der eigentlichen maschinellen Lernarbeit benötigt.

Dieser Leitfaden erklärt, was als abrechenbare Zeit für das Training zählt, wie wir mit Pausen und Abbrüchen umgehen und wie deine Konfigurationsentscheidungen die Kosten beeinflussen können.

Preisgestaltung

Berechnung: 100 $ pro Stunde Echtzeit, die im Kerntrainingszyklus für o4-mini-2025-04-16 verbracht wird. Die Gebühren werden sekundengenau berechnet und auf der Rechnung auf zwei Dezimalstellen gerundet (z. B. 2,55 Stunden).
Modell-Grader-Nutzung: Wenn du ein OpenAI-Modell verwendest, um Ausgaben während des Trainings zu „graden“ (bewerten), werden die durch diese Bewertungsaufrufe verbrauchten Token nach Abschluss des Trainings zu unseren Standard-API-Preisen separat abgerechnet.

Wir berechnen nur für das Training, das Ihr Modell tatsächlich aktualisiert (was wir als „erfassten Fortschritt“ bezeichnen).

Was wir berechnen

Wir berechnen die Zeit, die dein Worker mit dem aktiven Training deines Modells verbringt, insbesondere:

Generieren von Beispielen aus deinem Modell während des Feinabstimmungsprozesses (bekannt als „Rollouts“)
Bewertung dieser Ausgaben mit einem oder mehreren Gradern, die du im Auftrag definiert hast (mehr über Grader erfahren)
Berechnung und Anwendung von Gewichtsaktualisierungen basierend auf den Bewertungen (Backpropagation).
Ausführung aller konfigurierten Validierungs- (Bewertungs-) schritte.

Die meisten Grader können „kostenlos“ betrieben werden, was bedeutet, dass wir keine zusätzlichen Gebühren für ihre Nutzung außerhalb der Zeit erheben, die sie zum Kerntrainingszyklus beitragen. Die Ausnahme gilt für Modell-Grader, bei denen wir auch die Token zählen, die diese Grader während der oben genannten Aktivitäten verbrauchen. Diese Token erscheinen als separater Posten auf deiner Rechnung. Token, die von Modell-Gradern verbraucht werden, werden zu den normalen Inferenzraten abgerechnet (OpenAI-Preisgestaltung).

Was wir NICHT berechnen

Wir berechnen keine Gebühren für die aufgewendete Zeit:

Bei der Validierung oder Überprüfung deines Datensatzes, bevor das Training beginnt.
Bei Sicherheitsprüfungen für deinen Datensatz.
Beim Warten auf Rechenressourcen in der Warteschlange.
Beim Herunterladen von Modellgewichten oder Datensätzen.
Bei der Vorbereitung (Rendering) deines Datensatzes in unser Trainingsformat.
Bei Sicherheitsbewertungen deines feinabgestimmten Modells nach dem Training.

Wenn Trainingsdaten aufgrund eines Fehlers unsererseits verloren gehen (zum Beispiel, wenn ein Worker abstürzt und zu einem früheren Checkpoint zurückkehren muss), werden dir die verlorene Rechenzeit oder die Grader-Token nicht in Rechnung gestellt. Mehr Details dazu im nächsten Abschnitt.

Erfasster Fortschritt und Abrechnungsereignisse

Das Training besteht aus vielen kleinen Aktualisierungen deines Modells. Wir verfolgen, wie viele dieser Updates erfolgreich abgeschlossen werden. Die Gebühren basieren auf der Rechenzeit und den mit diesen erfolgreichen Aktualisierungen verbundenen Grader-Token.

Wir berechnen eine Gebühr, wenn eines der folgenden „Abrechnungsereignisse“ eintritt:

Das Training wird erfolgreich abgeschlossen.
Du hältst das Training an.
Du brichst das Training ab.
Das Training schlägt fehl.

Jede Abrechnung deckt die schrittweise geleistete Arbeit seit der letzten Abrechnung ab. Zum Beispiel:

Wenn du einen Durchlauf anhältst, speichern wir einen Checkpoint und berechnen dir die Rechenzeit und die seit der letzten Abrechnung verwendeten Grader-Token.
Wenn du fortfährst, wird das Training vom Checkpoint aus fortgeführt. Die nächste Gebühr (bei Abschluss, einer weiteren Pause, Abbruch oder einem Fehler) deckt nur die zusätzliche Arbeit ab, die nach der Wiederaufnahme erledigt wird.
Wenn du einen Durchlauf abbrichst, berechnen wir dir die bis zum Abbruch geleistete Arbeit.
Wenn das Training fehlschlägt und die Arbeit seit der letzten Abrechnung verloren geht, wirst dir der verlorene Teil nicht berechnet.

Dieser „erfasster Fortschritt“-Ansatz stellt sicher, dass du nur für die Arbeit bezahlst, die in deinem Modell beibehalten wird oder die du bewusst abbrichst.

Auftragsfortschritt anzeigen

RFT-Aufräge haben ein Feld namens usage_metrics, das die gesamte Nutzung des Auftrags bis zum aktuellen Schritt dokumentiert. Dies umfasst die für das Training aufgewendete Zeit sowie alle Token, die von allen Modell-Gradern im Einsatz verwendet werden. Dieses Feld kann über die API (GET /v1/fine_tuning/jobs/{job_id}) oder über das Dashboard zur Feinabstimmung eingesehen werden.

Faktoren, die die Trainingszeit beeinflussen

Da die Abrechnung zeitbasiert ist, beeinflussen deine Konfigurationen direkt die Kosten. Zu den Schlüsselfaktoren gehören:

Schwierigkeitsgrad des Problems: Wenn dein Datensatz aus schwierigen Problemen besteht, wird das Modell wahrscheinlich mehr Zeit damit verbringen, über jedes Problem nachzudenken, was die Zeit erhöht, die für die Erstellung jeder Probe benötigt wird.
Rechenintensität: Der Hyperparameter compute_multiplier steuert, wie viel Berechnung du pro Trainingsschritt durchführst. Höhere Werte veranlassen das Modell dazu, jeden Datenpunkt ausführlicher zu analysieren, was dazu führt, dass jeder Schritt langsamer abläuft.
Validierungseinstellungen:
- Ein größeres Validierungsset erhöht die Zeit, die für die Bewertung aufgewendet wird.
- Die Erhöhung von eval_samples (Anzahl der Modellausgaben, die pro Validierungsbeispiel bewertet werden) verlängert die Validierungszeit.
- Wenn du die Validierung häufiger ausführst (niedrigerer eval_interval), erhöht sich der Anteil der Zeit, die für die Validierung aufgewendet wird.
Grader-Leistung:
- Größere oder leistungsfähigere Modell-Grader benötigen länger für die Ausgabe einer Bewertung als kleinere. Zum Beispiel kann die Bewertung mit einem schlussfolgernden Modell 10-mal länger dauern als mit einem nicht schlussfolgernden Modell.
- Komplexe Python-Bewertungsfunktionen benötigen mehr Zeit zur Ausführung als einfache.

Über diese Einstellungen kannst du Kosten, Geschwindigkeit und Modellqualität abwägen. Zum Beispiel kann eine häufige Validierung Probleme früher erkennen, erhöht jedoch die Kosten. Die Bewertung mit einem fortschrittlicheren Modell kann die Genauigkeit der Bewertung drastisch verbessern, aber sie verlangsamt jeden Schritt und macht die Arbeit teurer.

Kosten verwalten

So kontrollierst du deine Ausgaben:

Beginne mit kürzeren Durchläufen, um zu verstehen, wie deine Konfiguration die Zeit beeinflusst.
Verwende eine angemessene Anzahl von Validierungsbeispielen und eval_samples. Vermeide übermäßige Validierungen.
Wähle das kleinste Grader-Modell, das deine Qualitätsanforderungen erfüllt.
Halte benutzerdefinierte Python-Grader effizient.
Passe compute_multiplier an, um die Konvergenzgeschwindigkeit und die Kosten auszugleichen.
Überwache deinen Durchlauf im Dashboard oder über die API. Du kannst den Durchlauf jederzeit anhalten oder abbrechen.

Beispiele

Erfolgreicher Trainingslauf

Trainingszeit	Abgerechnete Zeit	Status	Beschreibung
00:00	00:00	–	Benutzer:in erstellt RFT-Auftrag über API
00:10	00:00	DATEIEN WERDEN VALIDIEREN	10 Minuten mit der Validierung des Datensatzes verbracht
00:30	00:00	DATEIEN WERDEN VALIDIEREN	20 Minuten Durchführung von Datensatz-Sicherheitsüberprüfungen
01:00	00:00	IN DER WARTESCHLANGE	30 Minuten Wartezeit auf einen verfügbaren Worker
01:30	00:00	DURCHLAUF	30 Minuten Einrichtung des Trainings (Herunterladen von Gewichten, Vorverarbeitung usw.)
05:30	04:00	DURCHLAUF	4 Stunden mit dem Training verbracht
06:00	04:00	DURCHLAUF	30 Minuten Durchführung von Sicherheitsbewertungen des resultierenden Modells
06:00	04:00	ERFOLGREICH	Das Trainieren wird abgeschlossen.

In diesem Fall beträgt die Gesamtzeit 6 Stunden, aber nur 4 Stunden sind abrechenbar. Die Kosten betragen 4 Stunden × 100 $/Stunde = 400 $.

Beispiel eines fehlgeschlagenen Auftrags

In diesem Beispiel läuft das Training 2 Stunden, schreibt einen Checkpoint, trainiert 1 weitere Stunde und scheitert dann. Nur die 2 Stunden Training bis zum Checkpoint sind abrechenbar.

Trainingszeit	Abgerechnete Zeit	Status	Beschreibung
00:00	00:00	–	Benutzer:in erstellt RFT-Auftrag über API
00:10	00:00	DATEIEN WERDEN VALIDIEREN	10 Minuten mit der Validierung des Datensatzes verbracht
00:30	00:00	DATEIEN WERDEN VALIDIEREN	20 Minuten Durchführung von Datensatz-Sicherheitsüberprüfungen
01:00	00:00	IN DER WARTESCHLANGE	30 Minuten Wartezeit auf einen verfügbaren Worker
01:30	00:00	DURCHLAUF	30 Minuten Einrichtung des Trainings (Herunterladen von Gewichten, Vorverarbeitung usw.)
03:30	02:00	DURCHLAUF	2 Stunden mit dem Trainieren verbracht
03:30	02:00	DURCHLAUF	Checkpoint bei Schritt 5 erstellt
04:30	02:00	DURCHLAUF	Das Training schlägt aufgrund eines internen Fehlers bei Schritt 8 fehl (nach 1 weiterer Stunde).
04:30	02:00	DURCHLAUF	30 Minuten Bewertung und Validierung des Checkpoints
04:30	02:00	ERFOLGREICH	Auftrag abgeschlossen (mit dem neuesten Checkpoint)

Obwohl insgesamt 3 Stunden mit dem Training verbracht wurden, sind nur 2 Stunden in einem nutzbaren Checkpoint „erfasst“ und werden berechnet. Die Stunde Training, die durch den Ausfall verloren ging, liegt nicht in deiner Verantwortung. Die Kosten betragen 2 Stunden × 100 $/Stunde = 200 $.

Häufig gestellte Fragen

Wann wird mir etwas berechnet?

Wir berechnen dir Kosten, wenn dein Durchlauf abgeschlossen, angehalten oder abgebrochen wird bzw. fehlgeschlagen ist. Jede Rechnung deckt die geleistete Arbeit seit der vorherigen Rechnung ab.

Muss ich zahlen, wenn ein Durchlauf fehlschlägt?

Wenn ein Durchlauf aufgrund eines Fehlers unsererseits fehlschlägt und dabei kürzlich ermittelte Trainingsdaten verloren gehen, werden dir die verlorenen Teile nicht berechnet. Wenn du einen Durchlauf abbrichst, werden dir die bis zum Abbruch angefallenen Arbeiten berechnet.

Wie werden die Token des Grader-Modells abgerechnet?

Wir zählen die Token, die von den von dir konfigurierten Modell-Gradern verwendet werden. Nach Abschluss des Trainings werden diese Token zu unseren Standardtarifen pro Token abgerechnet.

Kann ich einen Durchlauf anhalten und fortsetzen?

Ja. Wenn du eine Pause machst, speichern wir einen Checkpoint und berechnen die bisher geleistete Arbeit. Wenn du fortfährst, werden dir nur die zusätzlichen Arbeiten nach der Wiederaufnahme berechnet.

Bei weiteren Fragen zur Abrechnung des Reinforcement Fine-Tuning kontaktiere bitte unser Support-Team.

Abrechnungsleitfaden für die Reinforcement-Fine-Tuning-API