Como funciona a cobrança para RFT

O Ajuste Fino por Reforço (RFT) permite otimizar o desempenho dos modelos de raciocínio da OpenAI por meio de aprendizado por reforço. Diferentemente das ofertas de ajuste fino supervisionado ou baseado em preferências, que são cobradas pelo número de tokens no conjunto de dados de treinamento, o RFT é cobrado com base no tempo que a execução de treinamento leva para realizar o trabalho principal de aprendizado de máquina.

Este guia explica o que é considerado tempo de treinamento faturável, como lidamos com pausas e cancelamentos e como suas opções de configuração podem afetar o custo.

Preços

Computação: US$ 100 por hora de tempo real gasto no ciclo de treinamento principal para o4-mini-2025-04-16. Os valores cobrados são calculados proporcionalmente ao segundo e arredondados para duas casas decimais na fatura (ex.: 2,55 horas).
Utilização do Model Grader: Se você usar um modelo da OpenAI para "classificar" as saídas durante o treinamento, os tokens consumidos por essas chamadas de classificação serão cobrados separadamente, de acordo com nossas taxas padrão da API, após a conclusão do treinamento.

Cobramos apenas pelo trabalho de treinamento que efetivamente atualiza seu modelo (o que chamamos de "progresso progressivo capturado").

O que cobramos

Cobramos pelo tempo que seu instrutor dedica ao treinamento ativo do seu modelo, especificamente:

Geração de amostras do seu modelo durante o processo de ajuste fino (conhecido como "rollouts")
Avaliar esses resultados com um ou mais avaliadores que você definiu no projeto (saiba mais sobre avaliadores).
Calcular e aplicar atualizações de peso com base nas notas (retropropagação).
Executando todas as etapas de validação (avaliação) que você configurou.

A maioria dos equipamentos de nivelamento são de uso "gratuito", o que significa que não cobramos nenhum valor adicional pelo seu uso, além do tempo que eles contribuem para o ciclo principal de treinamento. A exceção a isso são os avaliadores de modelos, para os quais também contabilizamos os tokens que esses avaliadores consomem durante as atividades acima. Esses tokens aparecem como um item separado na sua fatura. Os tokens consumidos pelos avaliadores de modelos são cobrados às taxas normais de inferência (preços da OpenAI).

O que NÃO cobramos

Não cobramos pelo tempo gasto:

Validar ou inspecionar seu conjunto de dados antes de iniciar o treinamento.
Verificações de segurança em seu conjunto de dados.
Aguardando em uma fila por recursos computacionais.
Baixando pesos de modelos ou conjuntos de dados.
Preparando (renderizando) seu conjunto de dados para o nosso formato de treinamento.
Avaliações de segurança pós-treinamento do seu modelo aperfeiçoado.

Caso o trabalho de treinamento seja perdido devido a um erro de nossa parte (por exemplo, se um processo travar e precisar retornar a um ponto de verificação anterior), você não será cobrado pelo tempo de computação ou tokens de avaliação perdidos. Mais detalhes sobre isso na próxima seção.

Registro de eventos de progresso e faturamento

O treinamento consiste em várias pequenas atualizações do seu modelo. Acompanhamos quantas dessas atualizações são concluídas com sucesso. As cobranças são baseadas no tempo de computação e nos tokens de avaliação associados a essas atualizações bem-sucedidas.

Emitimos uma cobrança quando ocorre um dos seguintes "eventos de faturamento":

Treinamento concluído com sucesso.
Você interrompe o treinamento.
Você cancela o treinamento.
O treinamento falha.

Cada cobrança cobre o trabalho incremental realizado desde a última cobrança. Por exemplo:

Se você pausar uma execução, salvaremos um ponto de verificação e cobraremos o tempo de computação e os tokens de avaliação usados desde a última cobrança.
Ao retomar o treinamento, ele continua a partir do ponto de verificação. A próxima cobrança (após a conclusão, nova pausa, cancelamento ou falha) cobrirá apenas o trabalho adicional realizado após a retomada.
Se você cancelar uma corrida, cobraremos o valor referente ao trabalho realizado até o momento do cancelamento.
Caso o treinamento falhe e o trabalho realizado desde a última cobrança seja perdido, você não será cobrado pela parte perdida.

Essa abordagem de "progresso contínuo garantido" assegura que você pague apenas pelo trabalho que for mantido em seu modelo ou que você abandonar intencionalmente.

Acompanhamento do progresso do trabalho

Os trabalhos RFT possuem um campo chamado usage_metrics que documenta o uso total do trabalho até a etapa atual. Isso inclui o tempo gasto em treinamento e todos os tokens usados em todos os avaliadores de modelo em operação. Este campo pode ser inspecionado através da API (GET /v1/fine_tuning/jobs/{job_id}) ou através do painel de ajuste fino.

Fatores que influenciam o tempo de treinamento

Como a cobrança é baseada no tempo, suas opções de configuração afetam diretamente o custo. Os principais fatores incluem:

Dificuldade do problema: se o seu conjunto de dados consistir em problemas difíceis, o modelo provavelmente gastará mais tempo raciocinando sobre cada problema, o que aumenta o tempo necessário para produzir cada amostra.
Intensidade de cálculo: O hiperparâmetro compute_multiplier controla a quantidade de computação realizada por etapa de treinamento. Valores mais altos incentivam o modelo a raciocinar de forma mais detalhada sobre cada ponto de dados, o que faz com que cada etapa seja executada mais lentamente.
Configurações de validação:
- Um conjunto de validação maior aumenta o tempo gasto na avaliação.
- Aumentar o eval_samples (o número de saídas do modelo avaliadas por exemplo de validação) aumenta o tempo de validação.
- Executar a validação com mais frequência (diminuir eval_interval) aumenta a proporção de tempo gasto na validação.
Desempenho do avaliador:
- Motoniveladoras de modelos maiores ou mais potentes levam mais tempo para retornar uma medida nivelada do que as menores. Por exemplo, a avaliação com um modelo de raciocínio pode levar 10 vezes mais tempo do que a avaliação com um modelo que não utiliza raciocínio.
- Funções complexas de avaliação em Python demoram mais para serem executadas do que funções simples.

Essas configurações permitem equilibrar custo, velocidade e qualidade do modelo. Por exemplo, a validação frequente pode identificar problemas mais cedo, mas aumenta os custos. A classificação com um modelo mais avançado pode melhorar drasticamente a precisão da classificação, mas tornará cada etapa do processo mais lenta e os custos mais elevados.

Gerenciamento de custos

Para controlar seus gastos:

Comece com testes mais curtos para entender como sua configuração afeta o tempo.
Utilize um número razoável de exemplos de validação e eval_samples. Evite validar com mais frequência do que o necessário.
Escolha o modelo de classificadora de menor porte que atenda aos seus requisitos de qualidade.
Mantenha os avaliadores Python personalizados eficientes.
Ajuste compute_multiplier para equilibrar a velocidade de convergência e o custo.
Monitore sua execução no painel de controle ou através da API. Você pode pausar ou cancelar a qualquer momento.

Exemplos

Treinamento bem-sucedido

Tempo de treinamento	Tempo faturado	Status	Descrição
00h00	00h00	–	O usuário cria uma tarefa RFT via API.
00h10	00h00	Validando arquivos	10 minutos dedicados à validação do conjunto de dados
00h30	00h00	Validando arquivos	20 minutos executando verificações de segurança do conjunto de dados
01:00	00h00	NA FILA	30 minutos de espera por um funcionário disponível
01h30	00h00	EXECUTANDO	30 minutos para configurar o treino (baixar pesos, pré-processamento, etc.)
05:30	04h00	EXECUTANDO	4 horas dedicadas ao treinamento
06h00	04h00	EXECUTANDO	30 minutos de avaliações de segurança do modelo resultante.
06h00	04h00	CONSEGUIU	O treino termina.

Neste caso, o tempo total decorrido é de 6 horas, mas apenas 4 horas são faturáveis. O custo seria de 4 horas × $100/hora = $400.

Exemplo de trabalho malsucedido

Neste exemplo, o processo de treinamento dura 2 horas, cria um ponto de verificação, treina por mais 1 hora, mas depois falha. Apenas as 2 horas de treinamento até o ponto de verificação são faturáveis.

Tempo de treinamento	Tempo faturado	Status	Descrição
00h00	00h00	–	O usuário cria uma tarefa RFT via API.
00:10	00h00	Validando arquivos	10 minutos dedicados à validação do conjunto de dados
00h30	00h00	Validando arquivos	20 minutos executando verificações de segurança do conjunto de dados
01:00	00h00	NA FILA	30 minutos de espera por um funcionário disponível
01h30	00h00	EXECUTANDO	30 minutos para configurar o treino (baixar pesos, pré-processamento, etc.)
03h30	02h00	EXECUTANDO	2 horas dedicadas ao treinamento
03h30	02h00	EXECUTANDO	Ponto de verificação criado na etapa 5.
04h30	02h00	EXECUTANDO	O treinamento falhou devido a um erro interno na etapa 8 (após mais 1 hora).
04h30	02h00	EXECUTANDO	30 minutos para avaliar e validar o ponto de controle.
04h30	02h00	CONSEGUIU	Trabalho concluído (com o último ponto de verificação)

Embora tenham sido dedicadas 3 horas ao treinamento no total, apenas 2 horas são "registradas" em um ponto de verificação utilizável e são faturadas. A hora de treinamento perdida devido à falha não é de sua responsabilidade. O custo seria de 2 horas × $100/hora = $200.

Perguntas frequentes

Quando serei cobrado?

A cobrança é feita quando sua execução é concluída, pausada, cancelada ou falha. Cada fatura cobre o trabalho realizado desde a fatura anterior.

Eu pago se uma execução falhar?

Se uma corrida falhar devido a um erro nosso e todo o treino recente for perdido, você não será cobrado pela parte perdida. Se você cancelar uma sessão, será cobrado o valor referente ao trabalho realizado até a data do cancelamento.

Como são cobrados os tokens do modelo de avaliação?

Contabilizamos os tokens usados por quaisquer avaliadores de modelo que você configurar. Após o término do treinamento, cobramos esses tokens de acordo com nossas taxas padrão por token.

Posso pausar e retomar uma execução?

Sim. Ao pausar o processo, salvamos um ponto de controle e cobramos pelo trabalho já realizado. Ao retomar suas atividades, você só será cobrado pelo trabalho adicional realizado após o reinício.

Se você tiver outras dúvidas sobre a cobrança do Ajuste Fino de Reforço, entre em contato com nossa equipe de suporte.

Guia de cobrança para a API de ajuste fino por reforço