¿Cómo funciona la facturación para RFT?

El ajuste fino de refuerzo (RFT) te permite optimizar el rendimiento de los modelos de razonamiento de OpenAI mediante el uso de aprendizaje por refuerzo. A diferencia de nuestras ofertas de ajuste fino supervisado o de preferencia, que se facturan por el número de tokens en el conjunto de datos de entrenamiento, el RFT se factura según el tiempo que tu ejecución de entrenamiento demora en realizar el trabajo principal de aprendizaje automático.

Esta guía explica qué se considera tiempo de entrenamiento facturable, cómo manejamos las pausas y cancelaciones, y cómo tus opciones de configuración pueden afectar el costo.

Precios

Compute: $100 por hora de tiempo real transcurrido en el bucle principal de entrenamiento para o4-mini-2025-04-16. Los cargos se prorratean al segundo y se redondean a dos decimales en la factura (p. ej., 2.55 horas).
Uso del calificador de modelo: Si usas un modelo de OpenAI para "calificar" las salidas durante el entrenamiento, los tokens consumidos por esas llamadas de calificación se facturan por separado a nuestras tarifas estándar de API una vez que el entrenamiento se completa.

Solo cobramos por el trabajo de entrenamiento que realmente actualiza tu modelo (lo que llamamos “progreso capturado”).

Lo que cobramos

Cobramos por el tiempo que tu trabajador de entrenamiento pasa entrenando activamente tu modelo, específicamente:

Generar muestras de tu modelo durante el proceso de ajuste fino (conocido como “rollouts”)
Evaluar esos resultados con uno o más calificadores que hayas definido en el trabajo (aprende más sobre los calificadores)
Calcular y aplicar actualizaciones de pesos basadas en las calificaciones (retropropagación).
Ejecutando cualquier paso de validación (evaluación) que hayas configurado.

La mayoría de los calificadores son “gratuitos” para usar, lo que significa que no cobramos extra por su uso fuera del tiempo que contribuyen al ciclo principal de entrenamiento. La excepción a esto son los evaluadores de modelos, donde también contamos los tokens que esos evaluadores consumen durante las actividades mencionadas. Estos tokens aparecen como un elemento de línea separado en tu factura. Los tokens consumidos por los evaluadores de modelo se facturan a las tarifas normales de inferencia (precios de OpenAI).

Qué no cobramos

No cobramos por el tiempo dedicado:

Validar o inspeccionar tu conjunto de datos antes de que inicie el entrenamiento.
Verificaciones de seguridad en tu conjunto de datos.
Esperando en una fila para recursos de cálculo.
Descargando pesos del modelo o conjuntos de datos.
Preparando (procesamiento) tu conjunto de datos en nuestro formato de entrenamiento.
Evaluaciones de seguridad posteriores al entrenamiento de tu modelo afinado.

Si se pierde trabajo de entrenamiento debido a un error de nuestra parte (por ejemplo, si un trabajador falla y tiene que volver atrás a un punto de control anterior), no te cobramos por el tiempo de cómputo perdido ni por los tokens de calificación. Para más detalles sobre esto, consulta la siguiente sección.

Captura de eventos de avance y facturación

El entrenamiento consiste en muchas pequeñas actualizaciones a tu modelo. Rastreamos cuántas de estas actualizaciones se completan con éxito. Los cargos se calculan según el tiempo de cómputo y los tokens de calificación asociados con estas actualizaciones exitosas.

Emitimos un cargo cuando ocurre uno de los siguientes «eventos de facturación»:

El entrenamiento se completa con éxito.
Pausas el entrenamiento.
Tú cancelas el entrenamiento.
El entrenamiento falla.

Cada cargo cubre el trabajo incremental realizado desde el último cargo. Por ejemplo:

Si pausas una ejecución, guardamos un punto de control y te cobramos por el tiempo de cómputo y los tokens de evaluación utilizados desde el último cobro.
Cuando reanudes, el entrenamiento continuará desde el punto de control. El siguiente cargo (al completar, otra pausa, cancelación o fallo) cubrirá únicamente el trabajo adicional realizado después de la reanudación.
Si cancelas una ejecución, te cobramos por el trabajo realizado hasta el momento de la cancelación.
Si el entrenamiento falla y se pierde el trabajo desde el último cobro, no se te cobrará por la parte perdida.

Este enfoque de "progreso capturado" asegura que solo pagues por el trabajo que se retiene en tu modelo o que decides abandonar intencionalmente.

Ver el progreso del trabajo

Los trabajos RFT tienen un campo llamado “usage_metrics” que documenta el uso total del trabajo hasta el paso actual. Esto incluye el tiempo dedicado al entrenamiento y todos los tokens utilizados en todos los evaluadores de modelos en el trabajo. Este campo se puede inspeccionar mediante la API (GET /v1/fine_tuning/jobs/{job_id}) o mediante el panel de control de ajuste fino.

Factores que influyen en el tiempo de entrenamiento

Debido a que la facturación se basa en el tiempo, tus elecciones de configuración afectan directamente el costo. Entre los factores clave se incluyen:

Dificultad del problema: si tu conjunto de datos consiste en problemas difíciles, el modelo probablemente pasará más tiempo razonando sobre cada problema, lo que aumenta el tiempo necesario para producir cada muestra.
Intensidad de cómputo: el hiperparámetro compute_multiplier controla cuánto cómputo realizas por cada paso de entrenamiento. Valores más altos fomentan que el modelo analice de manera más extensa cada punto de datos, lo que provoca que cada paso se ejecute más lentamente.
Configuraciones de validación:
- Un conjunto de validación más grande incrementa el tiempo dedicado a la evaluación.
- Incrementar eval_samples (la cantidad de salidas del modelo evaluadas por cada ejemplo de validación) incrementa el tiempo de validación.
- Ejecutar la validación con más frecuencia (menor eval_interval) incrementa la proporción de tiempo dedicado a la validación.
Rendimiento del evaluador:
- Los evaluadores de modelos más grandes o más potentes tardan más en devolver una calificación que los más pequeños. Por ejemplo, calificar con un Modelo de razonamiento puede tardar 10 veces más que calificar con un modelo sin razonamiento.
- Las funciones complejas de calificación en Python tardan más en ejecutarse que las simples.

Estas configuraciones te permiten equilibrar el costo, la velocidad y la calidad del modelo. Por ejemplo, la validación frecuente puede identificar problemas antes, pero incrementa el costo. Calificar con un modelo más avanzado puede mejorar drásticamente la precisión de la calificación, pero ralentizará cada paso de calificación y encarecerá los trabajos.

Gestión de costos

Para controlar tu gasto:

Empieza con carreras más cortas para comprender cómo tu configuración afecta el tiempo.
Usa un número razonable de ejemplos de validación y eval_samples. Evita validar con más frecuencia de lo necesario.
Elige el modelo de calificador más pequeño que cumpla con tus requisitos de calidad.
Mantén eficientes los calificadores personalizados de Python.
Ajusta compute_multiplier para equilibrar la velocidad de convergencia y el costo.
Monitorea tu ejecución en el panel de control o a través de la API. Puedes pausar o cancelar en cualquier momento.

Ejemplos

Ejecución exitosa del entrenamiento

Tiempo de entrenamiento	Tiempo facturado	Estado	Descripción
00:00	00:00	–	El usuario crea un trabajo de formato de texto enriquecido (RFT) mediante la API.
00:10	00:00	Validando archivos	10 minutos dedicados a validar un conjunto de datos.
00:30	00:00	Validando archivos	20 minutos realizando comprobaciones de seguridad del conjunto de datos
01:00	00:00	En cola	30 minutos de espera para un trabajador disponible
01:30	00:00	CORRER	30 minutos para configurar el entrenamiento (descargar pesos, preprocesamiento, etc.)
05:30	04:00	CORRER	4 horas dedicadas a entrenamiento
06:00	04:00	CORRER	30 minutos de evaluación de seguridad del modelo resultante.
06:00	04:00	ÉXITO	Finalización del entrenamiento

En este caso, el tiempo total de reloj es de 6 horas, pero solo 4 horas son facturables. El costo sería 4 horas × $100/hora = $400.

Ejemplo de trabajo desaprobado

En este ejemplo, el run entrena por 2 horas, escribe un punto de control, entrena por 1 hora más, pero luego falla. Solo las 2 horas de entrenamiento hasta el punto de control son facturables.

Tiempo de entrenamiento	Tiempo facturado	Estado	Descripción
00:00	00:00	–	El usuario crea un trabajo de formato de texto enriquecido (RFT) mediante la API.
00:10	00:00	Validando archivos	10 minutos dedicados a validar un conjunto de datos.
00:30	00:00	Validando archivos	20 minutos realizando comprobaciones de seguridad del conjunto de datos
01:00	00:00	En cola	30 minutos de espera para un trabajador disponible
01:30	00:00	CORRER	30 minutos para configurar el entrenamiento (descargar pesos, preprocesamiento, etc.)
03:30	02:00	CORRER	2 horas dedicadas a entrenamiento
03:30	02:00	CORRER	Punto de control creado en el paso 5
04:30	02:00	CORRER	El entrenamiento falla por un error interno en el paso 8 (tras 1 hora adicional)
04:30	02:00	CORRER	30 minutos para evaluar y validar el punto de control
04:30	02:00	ÉXITO	El trabajo termina (con el último punto de control)

Aunque se dedicaron 3 horas al entrenamiento en total, solo 2 horas se "capturan" en un punto de control utilizable y se facturan. La hora de trabajo de entrenamiento perdida debido a la falla no es tu responsabilidad. El costo sería 2 horas × $100/hora = $200.

Preguntas frecuentes

¿Cuándo me cobran?

Facturamos cuando tu ejecución se completa, se pausa, se cancela o falla. Cada factura cubre el trabajo hecho desde la factura anterior.

¿Tengo que pagar si una ejecución falla?

Si una ejecución falla por nuestro error y se pierde trabajo de entrenamiento reciente, no se te cobrará por la parte perdida. Si cancelas una ejecución, se te cobrará por el trabajo realizado hasta la cancelación.

¿Cómo se cobran los tokens del modelo calificador?

Contamos los tokens utilizados por cualquier calificador de modelos que configures. Una vez que termina el entrenamiento, cobramos esos tokens a nuestras tarifas estándar por token.

¿Puedo pausar y continuar una actividad?

Sí. Cuando haces una pausa, guardamos un punto de control y cobramos por el trabajo realizado hasta ese momento. Cuando reanudes, solo se te cobrará por el trabajo adicional realizado después de reanudar.

Si tienes más preguntas sobre la facturación del ajuste fino de refuerzo, contacta a nuestro equipo de soporte.

Guía de facturación para la API de ajuste fino con aprendizaje por refuerzo