Comment fonctionne la facturation pour le RFT

L'ajustement par renforcement (RFT) vous permet d'optimiser les performances des modèles de raisonnement d'OpenAI à l'aide de l'apprentissage par renforcement. Contrairement à nos offres d'ajustement supervisé ou par préférence, qui sont facturées en fonction du nombre de tokens dans l'ensemble de données d'entraînement, le RFT est facturé en fonction du temps que votre processus d'entraînement consacre à l'exécution du travail principal d'apprentissage automatique.

Ce guide explique ce qui est considéré comme du temps d'entraînement facturable, comment nous gérons les pauses et les annulations, et comment vos choix de configuration peuvent affecter le coût.

Tarification

Calcul : 100 dollars américains par heure réelle passée dans la boucle d'entraînement principale pour o4-mini-2025-04-16. Les frais sont calculés à la seconde près et arrondis à deux décimales sur la facture (par exemple, 2,55 heures).
Utilisation du modèle de notation : si vous utilisez un modèle OpenAI pour « noter » les résultats pendant l'entraînement, les token consommés par ces appels de notation sont facturés séparément à nos tarifs API standard une fois l'entraînement terminé.

Nous facturons uniquement les travaux d'entraînement qui permettent réellement de mettre à jour votre modèle (ce que nous appelons les « progrès capturés »).

Ce que nous facturons

Nous facturons le temps que votre opérateur consacre activement à l'entraînement de votre modèle, plus précisément :

La génération d'échantillons à partir de votre modèle pendant le processus d'ajustement (appelé « déploiement »)
L'évaluation de ces résultats avec un ou plusieurs « outils de notation (graders) » que vous avez définis pour le travail (en savoir plus sur les outils de notation)
Le calcul et l'application des mises à jour des poids en fonction des notes (rétropropagation).
L'exécution de toutes les étapes de validation (évaluation) que vous avez configurées.

La plupart des outils de notation sont gratuits, ce qui signifie que nous ne facturons pas de frais supplémentaires pour leur utilisation en dehors du temps qu'ils consacrent à la boucle d'entraînement principale. L'exception à cela concerne les outils de notation basés sur des modèles, où nous comptabilisons également les tokens que ces évaluateurs consomment lors des activités mentionnées ci-dessus. Ces tokens apparaissent comme un élément distinct sur votre facture. Les tokens consommés par les outils de notation de modèle sont facturés à la tarification normale d'inférence (tarification OpenAI).

Ce que nous ne facturons pas

Nous ne facturons pas le temps passé à :

Valider ou inspecter votre ensemble de données avant le début de l'entraînement.
Effectuer les vérifications de sécurité sur votre ensemble de données
Attendre dans une file d'attente pour des ressources informatiques.
Télécharger des poids des modèles ou des ensembles de données.
Configurer (convertir) votre ensemble de données dans notre format d'entraînement.
Évaluer la sécurité de votre modèle optimisé après l'entraînement.

Si le travail d'entraînement est perdu en raison d'une erreur de notre part (par exemple, si un opérateur plante et doit revenir à un point de contrôle précédent), vous ne serez pas facturé pour le temps de calcul perdu ni pour les tokens de notation. Pour plus de détails à ce sujet, consultez la section suivante.

Progression et événements de facturation capturés

L'entraînement consiste en de nombreuses petites mises à jour de votre modèle. Nous suivons le nombre de ces mises à jour qui sont effectuées avec succès. Les frais sont calculés en fonction du temps de calcul et des jetons de notation associés à ces mises à jour réussies.

Nous facturons des frais lorsque l'un des « événements de facturation » suivants se produit :

L'entraînement se termine avec succès.
Vous mettez l'entraînement en pause.
Vous annulez l'entraînement.
L'entraînement échoue.

Chaque facturation couvre le travail supplémentaire effectué depuis la dernière facturation. Par exemple :

Si vous interrompez une exécution, nous enregistrons un point de contrôle et vous facturons le temps de calcul et les tokens de notation utilisés depuis la dernière facturation.
Lorsque vous reprenez, l'entraînement continue à partir du point de contrôle. La facturation suivante (à la fin, lors d'une nouvelle interruption, d'une annulation ou d'un échec) ne couvrira que le travail supplémentaire effectué après la reprise.
Si vous annulez une exécution, nous vous facturerons le travail effectué jusqu'à l'annulation.
Si l'entraînement échoue et que le travail effectué depuis la dernière charge est perdu, la partie perdue ne vous sera pas facturée.

Cette approche dite « de progression capturée » garantit que vous ne payez que pour le travail conservé dans votre modèle ou que vous abandonnez intentionnellement.

Suivi de l'avancement des tâches

Les tâches de RFT comportent un champ nommé usage_metrics qui documente l'utilisation totale de la tâche jusqu'à l'étape actuelle. Cela inclut le temps passé à l'entraînement, ainsi que tous les tokens utilisés par tous les outils de notation de modèles sur la tâche. Ce champ peut être inspecté via l'API (GET /v1/fine_tuning/jobs/{job_id}) ou via le tableau de bord d'ajustement.

Facteurs influençant la durée de l'entraînement

Étant donné que la facturation est basée sur le temps, vos choix de configuration affectent directement le coût. Les facteurs clés incluent :

La difficulté du problème : si votre ensemble de données se compose de problèmes complexes, le modèle passera probablement plus de temps à raisonner sur chaque problème, ce qui augmente le temps nécessaire pour produire chaque échantillon.
L'intensité de calcul : l'hyperparamètre compute_multiplier contrôle la quantité de calcul effectuée par étape d'entraînement. Des valeurs plus élevées incitent le modèle à raisonner de manière plus verbale sur chaque point de données, ce qui ralentit l'exécution de chaque étape.
Les paramètres de validation :
- Un ensemble de validation plus important augmente le temps consacré à l'évaluation.
- Augmenter eval_samples (le nombre de sorties du modèle évaluées par exemple de validation) augmente le temps de validation.
- Effectuer la validation plus fréquemment (en diminuant eval_interval) augmente la proportion de temps consacrée à la validation.
Performance de l'outil de notation :
- Les modèles de notation plus grands ou plus performants prennent plus de temps à fournir une note que les modèles plus petits. Par exemple, l'évaluation avec un modèle de raisonnement peut prendre 10 fois plus de temps qu'avec un modèle sans raisonnement.
- Les fonctions de notation Python complexes prennent plus de temps à s'exécuter que les simples.

Ces paramètres vous permettent de faire un compromis entre le coût, la rapidité et la qualité du modèle. Par exemple, une validation fréquente peut détecter les problèmes plus tôt, mais elle augmente les coûts. L'évaluation avec un modèle plus avancé peut considérablement améliorer la précision de la notation, mais elle ralentira chaque étape de l'évaluation et rendra les tâches plus coûteuses.

Gestion des coûts

Pour contrôler vos dépenses :

Commencez par des exécutions plus courtes pour comprendre comment votre configuration influence la durée.
Utilisez un nombre raisonnable d'exemples de validation et de eval_samples. Évitez de valider plus souvent que vous ne le devez.
Choisissez le plus petit modèle d'outil de notation qui répond à vos exigences de qualité.
Rendez les outils de notation Python personnalisés efficaces.
Ajustez compute_multiplier pour équilibrer la rapidité de convergence et le coût.
Surveillez votre exécution dans le tableau de bord ou via l'API. Vous pouvez mettre en pause ou annuler à tout moment.

Exemples

Exécution de l'entraînement réussie

Temps d'entraînement	Temps facturé	Statut	Description
00:00	00:00	–	L'utilisateur crée un travail de RFT via l'API
00:10	00:00	Validation des fichiers	10 minutes passées à valider l'ensemble de données
00:30	00:00	Validation des fichiers	20 minutes pour exécuter des vérifications de sécurité des ensembles de données
01:00	00:00	EN ATTENTE	30 minutes d'attente pour un opérateur disponible
01:30	00:00	EXPLOITATION	30 minutes pour configurer l'entraînement (télécharger les poids, prétraitement, etc.)
05:30	04:00	EXPLOITATION	4 heures passées à l'entraînement
06:00	04:00	EXPLOITATION	30 minutes pour réaliser des évaluations de sécurité du modèle résultant
06:00	04:00	SUCCÈS	L'entraînement se termine

Dans ce cas, le temps total écoulé est de 6 heures, mais seules 4 heures sont facturables. Le coût serait de 4 heures × 100 $/heure = 400 $.

Exemple d'échec de tâche

Dans cet exemple, le système s'entraîne pendant deux heures, enregistre un point de contrôle, s'entraîne pendant une heure supplémentaire, mais échoue ensuite. Seules les deux heures d'entraînement jusqu'au point de contrôle sont facturables.

Temps d'entraînement	Temps facturé	Statut	Description
00:00	00:00	–	L'utilisateur crée un travail de RFT via l'API
00:10	00:00	Validation des fichiers	10 minutes passées à valider l'ensemble de données
00:30	00:00	Validation des fichiers	20 minutes pour exécuter des vérifications de sécurité des ensembles de données
01:00	00:00	EN ATTENTE	30 minutes d'attente pour un opérateur disponible
01:30	00:00	EXPLOITATION	30 minutes pour configurer l'entraînement (télécharger les poids, prétraitement, etc.)
03:30	02:00	EXPLOITATION	2 heures d'entraînement
03:30	02:00	EXPLOITATION	Point de contrôle créé à l'étape 5
04:30	02:00	EXPLOITATION	L'entraînement échoue en raison d'une erreur interne à l'étape 8 (après une heure supplémentaire)
04:30	02:00	EXPLOITATION	30 minutes pour évaluer et valider le point de contrôle
04:30	02:00	SUCCÈS	Tâche terminée (avec le dernier point de contrôle)

Même si 3 heures ont été consacrées à la formation au total, seules 2 heures sont « enregistrées » dans un point de contrôle utilisable et sont facturées. L'heure d'entraînement perdue en raison de la défaillance n'est pas de votre responsabilité. Le coût serait de 2 heures × 100 $/heure = 200 $.

Foire aux questions

Quand suis-je facturé ?

Nous facturons lorsque votre exécution est terminée, mise en pause, annulée ou échoue. Chaque facture couvre l'ensemble des services fournis depuis la facture précédente.

Dois-je payer si une exécution échoue ?

Si une exécution échoue en raison d'une erreur de notre part et que tout travail d'entraînement récent est perdu, vous ne serez pas facturé pour la partie perdue. Si vous annulez une exécution, vous serez facturé pour le travail effectué jusqu'à l'annulation.

Comment les tokens du modèle de notation sont-ils facturés ?

Nous comptons les tokens utilisés par tous les modèles de notation que vous configurez. Une fois l'entraînement terminé, nous facturons ces tokens selon nos tarifs standard par token.

Puis-je mettre en pause et reprendre un processus ?

Oui. Lorsque vous faites une pause, nous enregistrons un point de contrôle et nous facturons le travail effectué jusqu'à présent. Lorsque vous reprendrez, vous ne serez facturé que pour le travail supplémentaire effectué après la reprise.

Si vous avez d'autres questions sur la facturation de l'ajustement par renforcement, contactez notre équipe d'assistance.

Guide de facturation pour l'API d'ajustement par renforcement (RFT)