Cách tính phí cho RFT

Tinh chỉnh bằng học tăng cường (RFT) cho phép bạn tối ưu hóa hiệu suất của các mô hình suy luận của OpenAI thông qua học tăng cường. Không giống các dịch vụ tinh chỉnh có giám sát hoặc tinh chỉnh theo ưu tiên của chúng tôi, vốn được tính phí theo số token trong tập dữ liệu huấn luyện, RFT được tính phí dựa trên thời gian lượt chạy huấn luyện của bạn dành cho phần công việc học máy cốt lõi.

Hướng dẫn này giải thích những gì được tính là thời gian huấn luyện có thể tính phí, cách chúng tôi xử lý việc tạm dừng và hủy, cũng như cách các lựa chọn cấu hình của bạn có thể ảnh hưởng đến chi phí.

Giá

Tính toán: $100 mỗi giờ thời gian thực tế dành trong vòng lặp huấn luyện cốt lõi cho o4-mini-2025-04-16. Phí được tính theo tỷ lệ từng giây và làm tròn đến hai chữ số thập phân trên hóa đơn (ví dụ: 2.55 giờ).
Mức sử dụng mô hình chấm điểm: Nếu bạn dùng một mô hình OpenAI để "chấm điểm" đầu ra trong quá trình huấn luyện, các token mà những lệnh gọi chấm điểm đó tiêu thụ sẽ được tính phí riêng theo mức giá API tiêu chuẩn của chúng tôi sau khi huấn luyện hoàn tất.

Chúng tôi chỉ tính phí cho công việc huấn luyện thực sự cập nhật mô hình của bạn (điều chúng tôi gọi là "tiến độ tiến lên được ghi nhận").

Chúng tôi tính phí cho những gì

Chúng tôi tính phí cho thời gian worker huấn luyện của bạn dành để chủ động huấn luyện mô hình của bạn, cụ thể là:

Tạo mẫu từ mô hình của bạn trong quá trình tinh chỉnh (được gọi là “rollouts”)
Đánh giá các đầu ra đó bằng một hoặc nhiều bộ chấm điểm mà bạn đã xác định trong tác vụ (tìm hiểu thêm về bộ chấm điểm)
Tính toán và áp dụng các cập nhật trọng số dựa trên điểm số (lan truyền ngược).
Chạy mọi bước xác thực (đánh giá) mà bạn đã cấu hình.

Hầu hết bộ chấm điểm đều “miễn phí” khi chạy, nghĩa là chúng tôi không tính thêm phí cho việc sử dụng chúng ngoài lượng thời gian mà chúng đóng góp vào vòng lặp huấn luyện cốt lõi. Ngoại lệ là các bộ chấm điểm mô hình; với chúng, chúng tôi cũng cộng dồn số token mà các bộ chấm điểm đó tiêu thụ trong các hoạt động nêu trên. Các token này xuất hiện dưới dạng một mục riêng trên hóa đơn của bạn. Token do bộ chấm điểm mô hình tiêu thụ được tính phí theo mức suy luận thông thường (bảng giá OpenAI).

Những gì chúng tôi KHÔNG tính phí

Chúng tôi không tính phí cho thời gian dùng để:

Xác thực hoặc kiểm tra tập dữ liệu của bạn trước khi bắt đầu huấn luyện.
Kiểm tra an toàn trên tập dữ liệu của bạn.
Chờ trong hàng đợi để có tài nguyên tính toán.
Tải xuống trọng số mô hình hoặc tập dữ liệu.
Chuẩn bị (render) tập dữ liệu của bạn sang định dạng huấn luyện của chúng tôi.
Đánh giá an toàn sau huấn luyện cho mô hình đã fine-tuning của bạn.

Nếu công việc huấn luyện bị mất do lỗi từ phía chúng tôi (ví dụ: nếu một worker gặp sự cố và phải quay lui về checkpoint trước đó), bạn sẽ không bị tính phí cho thời gian tính toán hoặc token của bộ chấm điểm đã bị mất. Thêm chi tiết về điều này trong phần tiếp theo.

Tiến độ tiến lên được ghi nhận và các sự kiện tính phí

Huấn luyện bao gồm nhiều cập nhật nhỏ cho mô hình của bạn. Chúng tôi theo dõi xem có bao nhiêu cập nhật trong số đó hoàn tất thành công. Phí được tính dựa trên thời gian tính toán và token của bộ chấm điểm gắn với các cập nhật thành công này.

Chúng tôi phát sinh một khoản phí khi một trong các "sự kiện tính phí" sau xảy ra:

Huấn luyện hoàn tất thành công.
Bạn tạm dừng huấn luyện.
Bạn hủy huấn luyện.
Huấn luyện thất bại.

Mỗi khoản phí bao gồm phần công việc tăng thêm đã thực hiện kể từ lần tính phí gần nhất. Ví dụ:

Nếu bạn tạm dừng một lượt chạy, chúng tôi lưu một checkpoint và tính phí thời gian tính toán cùng token của bộ chấm điểm đã dùng kể từ lần tính phí gần nhất.
Khi bạn tiếp tục, quá trình huấn luyện sẽ tiếp diễn từ checkpoint. Khoản phí tiếp theo (khi hoàn tất, tạm dừng lần nữa, hủy hoặc thất bại) sẽ chỉ bao gồm phần công việc bổ sung được thực hiện sau khi tiếp tục.
Nếu bạn hủy một lượt chạy, chúng tôi tính phí phần công việc đã thực hiện đến thời điểm hủy.
Nếu quá trình huấn luyện thất bại và phần công việc kể từ lần tính phí gần nhất bị mất, bạn sẽ không bị tính phí cho phần bị mất đó.

Cách tiếp cận "tiến độ tiến lên được ghi nhận" này đảm bảo bạn chỉ trả tiền cho công việc được giữ lại trong mô hình của mình hoặc công việc mà bạn chủ động từ bỏ.

Xem tiến độ tác vụ

Các tác vụ RFT có một trường gọi là usage_metrics, ghi lại tổng mức sử dụng của tác vụ cho đến bước hiện tại. Mức này bao gồm thời gian dùng để huấn luyện và tất cả token được sử dụng trên mọi bộ chấm điểm mô hình trong tác vụ. Bạn có thể kiểm tra trường này qua API (GET /v1/fine_tuning/jobs/{job_id}) hoặc qua bảng điều khiển tinh chỉnh.

Các yếu tố ảnh hưởng đến thời gian huấn luyện

Vì việc tính phí dựa trên thời gian, các lựa chọn cấu hình của bạn ảnh hưởng trực tiếp đến chi phí. Những yếu tố chính gồm:

Độ khó của bài toán: nếu tập dữ liệu của bạn gồm các bài toán khó, mô hình có thể sẽ dành nhiều thời gian suy luận hơn cho từng bài toán, làm tăng thời gian để tạo ra mỗi mẫu.
Cường độ tính toán: Siêu tham số compute_multiplier kiểm soát lượng tính toán bạn thực hiện cho mỗi bước huấn luyện. Giá trị cao hơn khuyến khích mô hình suy luận dài hơn trên từng điểm dữ liệu, khiến mỗi bước chạy chậm hơn.
Cài đặt xác thực:
- Tập xác thực lớn hơn làm tăng thời gian dành cho đánh giá.
- Tăng eval_samples (số đầu ra mô hình được chấm điểm cho mỗi ví dụ xác thực) sẽ làm tăng thời gian xác thực.
- Chạy xác thực thường xuyên hơn (giảm eval_interval) sẽ làm tăng tỷ lệ thời gian dành cho xác thực.
Hiệu suất của bộ chấm điểm:
- Các mô hình chấm điểm lớn hơn hoặc mạnh hơn mất nhiều thời gian hơn để trả về kết quả chấm so với các mô hình nhỏ hơn. Ví dụ: chấm điểm bằng mô hình suy luận có thể mất lâu gấp 10 lần so với mô hình không suy luận.
- Các hàm chấm điểm Python phức tạp mất nhiều thời gian chạy hơn các hàm đơn giản.

Các cài đặt này cho phép bạn đánh đổi giữa chi phí, tốc độ và chất lượng mô hình. Ví dụ, xác thực thường xuyên có thể phát hiện vấn đề sớm hơn nhưng làm tăng chi phí. Chấm điểm bằng một mô hình tiên tiến hơn có thể cải thiện đáng kể độ chính xác chấm điểm, nhưng sẽ làm chậm mỗi bước chấm điểm và khiến tác vụ đắt hơn.

Quản lý chi phí

Để kiểm soát mức chi tiêu của bạn:

Bắt đầu với các lượt chạy ngắn hơn để hiểu cấu hình của bạn ảnh hưởng đến thời gian như thế nào.
Sử dụng số lượng ví dụ xác thực và eval_samples hợp lý. Tránh xác thực thường xuyên hơn mức cần thiết.
Chọn mô hình chấm điểm nhỏ nhất vẫn đáp ứng yêu cầu chất lượng của bạn.
Giữ cho các bộ chấm điểm Python tùy chỉnh hoạt động hiệu quả.
Điều chỉnh compute_multiplier để cân bằng giữa tốc độ hội tụ và chi phí.
Theo dõi lượt chạy của bạn trên bảng điều khiển hoặc qua API. Bạn có thể tạm dừng hoặc hủy bất cứ lúc nào.

Ví dụ

Lượt huấn luyện thành công

Thời gian huấn luyện	Thời gian tính phí	Trạng thái	Mô tả
00:00	00:00	–	Người dùng tạo tác vụ RFT qua API
00:10	00:00	VALIDATING_FILES	10 phút dùng để xác thực tập dữ liệu
00:30	00:00	VALIDATING_FILES	20 phút chạy kiểm tra an toàn tập dữ liệu
01:00	00:00	QUEUED	30 phút chờ worker khả dụng
01:30	00:00	RUNNING	30 phút thiết lập huấn luyện (tải trọng số, tiền xử lý, v.v.)
05:30	04:00	RUNNING	4 giờ dùng để huấn luyện
06:00	04:00	RUNNING	30 phút chạy đánh giá an toàn cho mô hình thu được
06:00	04:00	SUCCEEDED	Quá trình huấn luyện hoàn tất

Trong trường hợp này, tổng thời gian thực tế là 6 giờ, nhưng chỉ 4 giờ được tính phí. Chi phí sẽ là 4 giờ × $100/giờ = $400.

Ví dụ về tác vụ thất bại

Trong ví dụ này, lượt chạy huấn luyện trong 2 giờ, ghi một checkpoint, huấn luyện thêm 1 giờ, nhưng sau đó thất bại. Chỉ 2 giờ huấn luyện đến checkpoint mới được tính phí.

Thời gian huấn luyện	Thời gian tính phí	Trạng thái	Mô tả
00:00	00:00	–	Người dùng tạo tác vụ RFT qua API
00:10	00:00	VALIDATING_FILES	10 phút dùng để xác thực tập dữ liệu
00:30	00:00	VALIDATING_FILES	20 phút chạy kiểm tra an toàn tập dữ liệu
01:00	00:00	QUEUED	30 phút chờ worker khả dụng
01:30	00:00	RUNNING	30 phút thiết lập huấn luyện (tải trọng số, tiền xử lý, v.v.)
03:30	02:00	RUNNING	2 giờ dùng để huấn luyện
03:30	02:00	RUNNING	Checkpoint được tạo ở bước 5
04:30	02:00	RUNNING	Huấn luyện thất bại do lỗi nội bộ ở bước 8 (sau 1 giờ nữa)
04:30	02:00	RUNNING	30 phút đánh giá và xác thực checkpoint
04:30	02:00	SUCCEEDED	Tác vụ hoàn tất (với checkpoint mới nhất)

Mặc dù tổng cộng đã dành 3 giờ để huấn luyện, chỉ 2 giờ được "ghi nhận" trong một checkpoint có thể sử dụng và được tính phí. Bạn không phải chịu trách nhiệm cho một giờ huấn luyện bị mất do lỗi. Chi phí sẽ là 2 giờ × $100/giờ = $200.

Câu hỏi thường gặp

Khi nào tôi bị tính phí?

Chúng tôi lập hóa đơn khi lượt chạy của bạn hoàn tất, bị tạm dừng, bị hủy hoặc thất bại. Mỗi hóa đơn bao gồm phần công việc đã thực hiện kể từ hóa đơn trước đó.

Tôi có phải trả phí nếu một lượt chạy thất bại không?

Nếu lượt chạy thất bại do lỗi của chúng tôi và có phần huấn luyện gần đây bị mất, bạn sẽ không bị tính phí cho phần bị mất đó. Nếu bạn hủy một lượt chạy, bạn sẽ bị tính phí cho phần công việc đã thực hiện đến thời điểm hủy.

Token của mô hình chấm điểm được tính phí như thế nào?

Chúng tôi đếm số token được sử dụng bởi bất kỳ bộ chấm điểm mô hình nào mà bạn cấu hình. Sau khi huấn luyện hoàn tất, chúng tôi tính phí các token đó theo mức giá tiêu chuẩn trên mỗi token.

Tôi có thể tạm dừng và tiếp tục một lượt chạy không?

Có. Khi bạn tạm dừng, chúng tôi lưu một checkpoint và tính phí cho phần công việc đã thực hiện đến thời điểm đó. Khi bạn tiếp tục, bạn sẽ chỉ bị tính phí cho phần công việc bổ sung được thực hiện sau khi tiếp tục.

Nếu bạn có câu hỏi khác về thanh toán cho Reinforcement Fine‑Tuning, hãy liên hệ với đội ngũ hỗ trợ của chúng tôi.

Hướng dẫn tính phí cho API Reinforcement Fine-Tuning

Cách tính phí cho RFT

Giá

Chúng tôi tính phí cho những gì

Những gì chúng tôi KHÔNG tính phí

Tiến độ tiến lên được ghi nhận và các sự kiện tính phí

Xem tiến độ tác vụ

Các yếu tố ảnh hưởng đến thời gian huấn luyện

Quản lý chi phí

Ví dụ

Lượt huấn luyện thành công

Ví dụ về tác vụ thất bại

Câu hỏi thường gặp

Khi nào tôi bị tính phí?

Tôi có phải trả phí nếu một lượt chạy thất bại không?

Token của mô hình chấm điểm được tính phí như thế nào?

Tôi có thể tạm dừng và tiếp tục một lượt chạy không?

Bài viết này có hữu ích không?