Fonctionnement de la facturation de RFT

L’ajustement fin par renforcement (RFT) vous permet d’optimiser les performances des modèles de raisonnement d’OpenAI au moyen de l’apprentissage par renforcement. Contrairement à nos offres d’ajustement fin supervisé ou fondé sur les préférences, qui sont facturées selon le nombre de tokens dans l’ensemble de données d’entraînement, RFT est facturé en fonction du temps que votre exécution d’entraînement consacre aux tâches essentielles d’apprentissage automatique.

Ce guide explique ce qui compte comme temps d’entraînement facturable, comment nous gérons les pauses et les annulations, et comment vos choix de configuration peuvent influer sur le coût.

Tarification

Calcul : 100 $ par heure de temps réel consacrée à la boucle centrale d’entraînement pour o4-mini-2025-04-16. Les frais sont calculés au prorata à la seconde et arrondis à deux décimales sur la facture (p. ex., 2,55 heures).
Utilisation des évaluateurs de modèle : si vous utilisez un modèle OpenAI pour « évaluer » des sorties pendant l’entraînement, les tokens consommés par ces appels d’évaluation sont facturés séparément à nos tarifs API standards une fois l’entraînement terminé.

Nous facturons uniquement le travail d’entraînement qui met réellement votre modèle à jour (ce que nous appelons « progrès effectif capturé »).

Ce que nous facturons

Nous facturons le temps que votre agent de traitement d’entraînement consacre à entraîner activement votre modèle, plus précisément :

Génération d’échantillons à partir de votre modèle pendant le processus de réglage fin (appelée « rollouts »)
Évaluation de ces sorties avec un ou plusieurs évaluateurs que vous avez définis pour la tâche (en savoir plus sur les évaluateurs)
Calcul et application des mises à jour des poids en fonction des notes (rétropropagation).
Exécution de toutes les étapes de validation (évaluation) que vous avez configurées.

La plupart des évaluateurs sont « gratuits » à exécuter, ce qui signifie que nous ne facturons pas de frais supplémentaires pour leur utilisation, au-delà du temps qu’ils ajoutent à la boucle d’entraînement principale. L’exception concerne les évaluateurs de modèle, pour lesquels nous comptabilisons aussi les tokens que ces évaluateurs consomment pendant les activités ci-dessus. Ces tokens apparaissent comme un poste distinct sur votre facture. Les tokens consommés par les évaluateurs de modèle sont facturés aux tarifs d’inférence normaux (tarification d’OpenAI).

Ce que nous ne facturons PAS

Nous ne facturons pas le temps consacré à :

La validation ou l’inspection de votre ensemble de données avant le début de l’entraînement.
Les vérifications de sécurité de votre ensemble de données.
L’attente dans une file pour obtenir des ressources de calcul.
Le téléchargement des poids du modèle ou des ensembles de données.
La préparation (rendu) de votre ensemble de données dans notre format d’entraînement.
Les évaluations de sécurité après l’entraînement de votre modèle affiné.

Si du travail d’entraînement est perdu en raison d’une erreur de notre côté (par exemple, si un worker plante et doit revenir à un point de contrôle précédent), le temps de calcul perdu ou les tokens d’évaluateur perdus ne vous sont pas facturés. Vous trouverez plus de détails à ce sujet dans la section suivante.

Progrès effectif capturé et événements de facturation

L’entraînement consiste en de nombreuses petites mises à jour de votre modèle. Nous suivons combien de ces mises à jour se terminent avec succès. Les frais sont fondés sur le temps de calcul et les tokens d’évaluateur associés à ces mises à jour réussies.

Nous émettons des frais lorsqu’un des « événements de facturation » suivants se produit :

L’entraînement se termine avec succès.
Vous mettez l’entraînement en pause.
Vous annulez l’entraînement.
L’entraînement échoue.

Chaque frais couvre le travail incrémental effectué depuis le dernier frais. Par exemple :

Si vous mettez une exécution en pause, nous enregistrons un point de contrôle et vous facturons le temps de calcul et les tokens d’évaluateur utilisés depuis le dernier frais.
Lorsque vous reprenez, l’entraînement continue à partir du point de contrôle. Les frais suivants (à la fin, lors d’une autre pause, d’une annulation ou d’un échec) ne couvriront que le travail supplémentaire effectué après la reprise.
Si vous annulez une exécution, nous vous facturons le travail effectué jusqu’à l’annulation.
Si l’entraînement échoue et que le travail depuis le dernier frais est perdu, la portion perdue ne vous est pas facturée.

Cette approche de « progrès effectif capturé » garantit que vous ne payez que pour le travail qui est conservé dans votre modèle ou que vous abandonnez intentionnellement.

Afficher la progression d’une tâche

Les tâches RFT ont un champ appelé usage_metrics qui documente l’utilisation totale de la tâche jusqu’à l’étape actuelle. Cela comprend le temps consacré à l’entraînement et tous les tokens utilisés par tous les évaluateurs de modèle de la tâche. Ce champ peut être consulté au moyen de l’API (GET /v1/fine_tuning/jobs/{job_id}) ou du tableau de bord du réglage fin.

Facteurs qui influencent le temps d’entraînement

Comme la facturation est fondée sur le temps, vos choix de configuration ont un effet direct sur le coût. Les principaux facteurs comprennent :

Difficulté du problème : si votre ensemble de données contient des problèmes difficiles, le modèle passera probablement plus de temps en raisonnement sur chaque problème, ce qui augmente le temps nécessaire pour produire chaque échantillon.
Intensité de calcul : l’hyperparamètre compute_multiplier contrôle la quantité de calcul effectuée à chaque étape d’entraînement. Des valeurs plus élevées encouragent le modèle à raisonner plus en détail sur chaque point de donnée, ce qui ralentit chaque étape.
Paramètres de validation :
- Un ensemble de validation plus grand augmente le temps consacré à l’évaluation.
- L’augmentation de eval_samples (le nombre de sorties du modèle évaluées par exemple de validation) augmente le temps de validation.
- Exécuter la validation plus fréquemment (valeur eval_interval plus basse) augmente la proportion du temps consacrée à la validation.
Performance des évaluateurs :
- Les évaluateurs de modèle plus gros ou plus performants prennent plus de temps à retourner une note que les plus petits. Par exemple, évaluer avec un modèle de raisonnement peut prendre 10 fois plus de temps qu’avec un modèle sans raisonnement.
- Les fonctions d’évaluation Python complexes prennent plus de temps à s’exécuter que les fonctions simples.

Ces paramètres vous permettent d’établir un compromis entre coût, vitesse et qualité du modèle. Par exemple, une validation fréquente peut détecter les problèmes plus tôt, mais augmente le coût. L’évaluation avec un modèle plus avancé peut améliorer radicalement la précision de l’évaluation, mais ralentira chaque étape d’évaluation et rendra les tâches plus coûteuses.

Gérer les coûts

Pour contrôler vos dépenses :

Commencez par des exécutions plus courtes pour comprendre comment votre configuration influe sur le temps.
Utilisez un nombre raisonnable d’exemples de validation et de eval_samples. Évitez de valider plus souvent que nécessaire.
Choisissez le plus petit modèle d’évaluateur qui répond à vos exigences de qualité.
Gardez vos évaluateurs Python personnalisés efficaces.
Ajustez compute_multiplier pour équilibrer vitesse de convergence et coût.
Surveillez votre exécution dans le tableau de bord ou via l’API. Vous pouvez la mettre en pause ou l’annuler à tout moment.

Exemples

Exécution d’entraînement réussie

Temps d’entraînement	Temps facturé	État	Description
00:00	00:00	–	L’utilisateur crée une tâche RFT via l’API
00:10	00:00	VALIDATING_FILES	10 minutes consacrées à la validation du jeu de données
00:30	00:00	VALIDATING_FILES	20 minutes d’exécution des vérifications de sécurité du jeu de données
01:00	00:00	QUEUED	30 minutes d’attente d’un agent de traitement disponible
01:30	00:00	RUNNING	30 minutes de configuration de l’entraînement (téléchargement des poids, prétraitement, etc.)
05:30	04:00	RUNNING	4 heures consacrées à l’entraînement
06:00	04:00	RUNNING	30 minutes d’évaluations de sécurité du modèle obtenu
06:00	04:00	SUCCEEDED	L’entraînement se termine

Dans ce cas, le temps réel total est de 6 heures, mais seulement 4 heures sont facturables. Le coût serait de 4 heures × 100 $/heure = 400 $.

Exemple de tâche échouée

Dans cet exemple, l’exécution s’entraîne pendant 2 heures, écrit un point de contrôle, s’entraîne pendant 1 heure de plus, puis échoue. Seules les 2 heures d’entraînement jusqu’au point de contrôle sont facturables.

Temps d’entraînement	Temps facturé	État	Description
00:00	00:00	–	L’utilisateur crée une tâche RFT via l’API
00:10	00:00	VALIDATING_FILES	10 minutes consacrées à la validation du jeu de données
00:30	00:00	VALIDATING_FILES	20 minutes d’exécution des vérifications de sécurité du jeu de données
01:00	00:00	QUEUED	30 minutes d’attente d’un agent de traitement disponible
01:30	00:00	RUNNING	30 minutes de configuration de l’entraînement (téléchargement des poids, prétraitement, etc.)
03:30	02:00	RUNNING	2 heures consacrées à l’entraînement
03:30	02:00	RUNNING	Point de contrôle créé à l’étape 5
04:30	02:00	RUNNING	L’entraînement échoue en raison d’une erreur interne à l’étape 8 (après 1 heure de plus)
04:30	02:00	RUNNING	30 minutes d’évaluation et de validation du point de contrôle
04:30	02:00	SUCCEEDED	La tâche se termine (avec le dernier point de contrôle)

Même si 3 heures ont été consacrées à l’entraînement au total, seulement 2 heures sont « capturées » dans un point de contrôle utilisable et sont facturées. L’heure d’entraînement perdue en raison de l’échec n’est pas à votre charge. Le coût serait de 2 heures × 100 $/heure = 200 $.

Questions fréquentes

Quand suis-je facturé?

Nous facturons lorsque votre exécution se termine, est mise en pause, est annulée ou échoue. Chaque facture couvre le travail effectué depuis la facture précédente.

Dois-je payer si une exécution échoue?

Si une exécution échoue en raison d’une erreur de notre part et que du travail d’entraînement récent est perdu, la portion perdue ne vous est pas facturée. Si vous annulez une exécution, le travail effectué jusqu’à l’annulation vous est facturé.

Comment les tokens des modèles d’évaluateurs sont-ils facturés?

Nous comptons les tokens utilisés par tous les évaluateurs de modèle que vous configurez. Une fois l’entraînement terminé, nous facturons ces tokens à nos tarifs standards par token.

Puis-je mettre une exécution en pause et la reprendre?

Oui. Lorsque vous mettez en pause, nous enregistrons un point de contrôle et facturons le travail effectué jusque-là. Lorsque vous reprenez, seul le travail supplémentaire effectué après la reprise vous sera facturé.

Si vous avez d’autres questions sur la facturation de Reinforcement Fine‑Tuning, communiquez avec notre équipe de soutien.

Guide de facturation pour l’API de réglage fin par renforcement