OpenAI
Trang này được dịch bằng máy học. Xem bài viết gốc bằng tiếng Anh.

Hướng dẫn tính phí cho API Reinforcement Fine-Tuning

Cách tính phí cho API RFT

Đã cập nhật: 2 days ago

Cách tính phí cho RFT

Reinforcement Fine‑Tuning (RFT) cho phép bạn tối ưu hóa hiệu suất của các mô hình suy luận của OpenAI bằng học tăng cường. Không giống các dịch vụ tinh chỉnh có giám sát hoặc theo mức độ ưu tiên của chúng tôi, được tính phí theo số lượng token trong tập dữ liệu huấn luyện, RFT được tính phí dựa trên thời gian lượt chạy huấn luyện của bạn dành để thực hiện công việc học máy cốt lõi.

Hướng dẫn này giải thích những gì được tính là thời gian huấn luyện có thể tính phí, cách chúng tôi xử lý việc tạm dừng và hủy, cũng như cách các lựa chọn cấu hình của bạn có thể ảnh hưởng đến chi phí.

Giá

  • Tính toán: $100 mỗi giờ thời gian thực tế dành trong vòng lặp huấn luyện cốt lõi cho o4-mini-2025-04-16. Phí được tính theo tỷ lệ từng giây và làm tròn đến hai chữ số thập phân trên hóa đơn (ví dụ: 2.55 giờ).

  • Mức sử dụng mô hình chấm điểm: Nếu bạn dùng một mô hình OpenAI để "chấm điểm" đầu ra trong quá trình huấn luyện, các token mà những lệnh gọi chấm điểm đó tiêu thụ sẽ được tính phí riêng theo mức giá API tiêu chuẩn của chúng tôi sau khi huấn luyện hoàn tất.

Chúng tôi chỉ tính phí cho công việc huấn luyện thực sự cập nhật mô hình của bạn (điều chúng tôi gọi là "tiến độ tiến lên được ghi nhận").

Những gì chúng tôi tính phí

Chúng tôi tính phí cho thời gian worker huấn luyện của bạn dành để chủ động huấn luyện mô hình, cụ thể là:

  • Tạo mẫu từ mô hình của bạn trong quá trình fine-tuning (được gọi là “rollout”)

  • Đánh giá các đầu ra đó bằng một hoặc nhiều bộ chấm điểm mà bạn đã xác định cho tác vụ (tìm hiểu thêm về bộ chấm điểm)

  • Tính toán và áp dụng cập nhật trọng số dựa trên kết quả chấm (lan truyền ngược).

  • Chạy mọi bước xác thực (đánh giá) mà bạn đã cấu hình.

Hầu hết bộ chấm điểm đều được chạy “miễn phí”, nghĩa là chúng tôi không tính thêm phí cho việc sử dụng chúng ngoài lượng thời gian mà chúng đóng góp vào vòng lặp huấn luyện cốt lõi. Ngoại lệ là các mô hình chấm điểm, vì chúng tôi cũng tính tổng số token mà các bộ chấm điểm đó tiêu thụ trong các hoạt động nêu trên. Các token này xuất hiện như một mục riêng trên hóa đơn của bạn. Token do mô hình chấm điểm tiêu thụ được tính phí theo mức giá suy luận thông thường (bảng giá OpenAI).

Những gì chúng tôi KHÔNG tính phí

Chúng tôi không tính phí cho thời gian dùng để:

  • Xác thực hoặc kiểm tra tập dữ liệu của bạn trước khi bắt đầu huấn luyện.

  • Kiểm tra an toàn trên tập dữ liệu của bạn.

  • Chờ trong hàng đợi để có tài nguyên tính toán.

  • Tải xuống trọng số mô hình hoặc tập dữ liệu.

  • Chuẩn bị (render) tập dữ liệu của bạn sang định dạng huấn luyện của chúng tôi.

  • Đánh giá an toàn sau huấn luyện cho mô hình đã fine-tuning của bạn.

Nếu công việc huấn luyện bị mất do lỗi từ phía chúng tôi (ví dụ: nếu một worker gặp sự cố và phải quay lui về checkpoint trước đó), bạn sẽ không bị tính phí cho thời gian tính toán hoặc token của bộ chấm điểm đã bị mất. Thêm chi tiết về điều này trong phần tiếp theo.

Tiến độ tiến lên được ghi nhận và các sự kiện tính phí

Huấn luyện bao gồm nhiều cập nhật nhỏ cho mô hình của bạn. Chúng tôi theo dõi xem có bao nhiêu cập nhật trong số đó hoàn tất thành công. Phí được tính dựa trên thời gian tính toán và token của bộ chấm điểm gắn với các cập nhật thành công này.

Chúng tôi phát sinh một khoản phí khi một trong các "sự kiện tính phí" sau xảy ra:

  • Huấn luyện hoàn tất thành công.

  • Bạn tạm dừng huấn luyện.

  • Bạn hủy huấn luyện.

  • Huấn luyện thất bại.

Mỗi khoản phí bao gồm phần công việc tăng thêm đã thực hiện kể từ lần tính phí gần nhất. Ví dụ:

  • Nếu bạn tạm dừng một lượt chạy, chúng tôi lưu một checkpoint và tính phí thời gian tính toán cùng token của bộ chấm điểm đã dùng kể từ lần tính phí gần nhất.

  • Khi bạn tiếp tục, quá trình huấn luyện sẽ tiếp diễn từ checkpoint. Khoản phí tiếp theo (khi hoàn tất, tạm dừng lần nữa, hủy hoặc thất bại) sẽ chỉ bao gồm phần công việc bổ sung được thực hiện sau khi tiếp tục.

  • Nếu bạn hủy một lượt chạy, chúng tôi tính phí phần công việc đã thực hiện đến thời điểm hủy.

  • Nếu quá trình huấn luyện thất bại và phần công việc kể từ lần tính phí gần nhất bị mất, bạn sẽ không bị tính phí cho phần bị mất đó.

Cách tiếp cận "tiến độ tiến lên được ghi nhận" này đảm bảo bạn chỉ trả tiền cho công việc được giữ lại trong mô hình của mình hoặc công việc mà bạn chủ động từ bỏ.

Xem tiến độ tác vụ

Các tác vụ RFT có một trường tên là usage_metrics ghi lại tổng mức sử dụng của tác vụ cho đến bước hiện tại. Trường này bao gồm thời gian dành cho huấn luyện và toàn bộ token được dùng trên mọi mô hình chấm điểm trong tác vụ. Bạn có thể kiểm tra trường này qua API (GET /v1/fine_tuning/jobs/{job_id}) hoặc qua bảng điều khiển fine-tuning.

Các yếu tố ảnh hưởng đến thời gian huấn luyện

Vì việc tính phí dựa trên thời gian, các lựa chọn cấu hình của bạn ảnh hưởng trực tiếp đến chi phí. Những yếu tố chính gồm:

  • Độ khó của bài toán: nếu tập dữ liệu của bạn gồm các bài toán khó, mô hình có thể sẽ dành nhiều thời gian suy luận hơn cho từng bài toán, làm tăng thời gian để tạo ra mỗi mẫu.

  • Cường độ tính toán: Siêu tham số compute_multiplier kiểm soát lượng tính toán bạn thực hiện cho mỗi bước huấn luyện. Giá trị cao hơn khuyến khích mô hình suy luận dài hơn trên từng điểm dữ liệu, khiến mỗi bước chạy chậm hơn.

  • Cài đặt xác thực:

    • Tập xác thực lớn hơn làm tăng thời gian dành cho đánh giá.

    • Tăng eval_samples (số đầu ra mô hình được chấm điểm cho mỗi ví dụ xác thực) sẽ làm tăng thời gian xác thực.

    • Chạy xác thực thường xuyên hơn (giảm eval_interval) sẽ làm tăng tỷ lệ thời gian dành cho xác thực.

  • Hiệu suất của bộ chấm điểm:

    • Các mô hình chấm điểm lớn hơn hoặc mạnh hơn mất nhiều thời gian hơn để trả về kết quả chấm so với các mô hình nhỏ hơn. Ví dụ: chấm điểm bằng mô hình suy luận có thể mất lâu gấp 10 lần so với mô hình không suy luận.

    • Các hàm chấm điểm Python phức tạp mất nhiều thời gian chạy hơn các hàm đơn giản.

Các cài đặt này cho phép bạn đánh đổi giữa chi phí, tốc độ và chất lượng mô hình. Ví dụ, xác thực thường xuyên có thể phát hiện vấn đề sớm hơn nhưng làm tăng chi phí. Chấm điểm bằng một mô hình tiên tiến hơn có thể cải thiện đáng kể độ chính xác chấm điểm, nhưng sẽ làm chậm mỗi bước chấm điểm và khiến tác vụ đắt hơn.

Quản lý chi phí

Để kiểm soát mức chi tiêu của bạn:

  • Bắt đầu với các lượt chạy ngắn hơn để hiểu cấu hình của bạn ảnh hưởng đến thời gian như thế nào.

  • Sử dụng số lượng ví dụ xác thực và eval_samples hợp lý. Tránh xác thực thường xuyên hơn mức cần thiết.

  • Chọn mô hình chấm điểm nhỏ nhất vẫn đáp ứng yêu cầu chất lượng của bạn.

  • Giữ cho các bộ chấm điểm Python tùy chỉnh hoạt động hiệu quả.

  • Điều chỉnh compute_multiplier để cân bằng giữa tốc độ hội tụ và chi phí.

  • Theo dõi lượt chạy của bạn trên bảng điều khiển hoặc qua API. Bạn có thể tạm dừng hoặc hủy bất cứ lúc nào.

Ví dụ

Lượt chạy huấn luyện thành công

Thời gian huấn luyệnThời gian tính phíTrạng tháiMô tả
00 : 0000 : 00Người dùng tạo tác vụ RFT qua API
00 : 1000 : 00VALIDATING_FILES10 phút dùng để xác thực tập dữ liệu
00 : 3000 : 00VALIDATING_FILES20 phút chạy kiểm tra an toàn tập dữ liệu
01 : 0000 : 00QUEUED30 phút chờ một worker khả dụng
01 : 3000 : 00RUNNING30 phút thiết lập huấn luyện (tải trọng số, tiền xử lý, v.v.)
05 : 3004 : 00RUNNING4 giờ dùng để huấn luyện
06 : 0004 : 00RUNNING30 phút chạy đánh giá an toàn cho mô hình kết quả
06 : 0004 : 00SUCCEEDEDHuấn luyện hoàn tất

Trong trường hợp này, tổng thời gian thực tế là 6 giờ, nhưng chỉ 4 giờ được tính phí. Chi phí sẽ là 4 giờ × $100/giờ = $400.

Ví dụ về tác vụ thất bại

Trong ví dụ này, lượt chạy huấn luyện trong 2 giờ, ghi một checkpoint, huấn luyện thêm 1 giờ nữa, nhưng sau đó thất bại. Chỉ 2 giờ huấn luyện tính đến checkpoint mới được tính phí.

Thời gian huấn luyệnThời gian tính phíTrạng tháiMô tả
00 : 0000 : 00Người dùng tạo tác vụ RFT qua API
00 : 1000 : 00VALIDATING_FILES10 phút dùng để xác thực tập dữ liệu
00 : 3000 : 00VALIDATING_FILES20 phút chạy kiểm tra an toàn tập dữ liệu
01 : 0000 : 00QUEUED30 phút chờ một worker khả dụng
01 : 3000 : 00RUNNING30 phút thiết lập huấn luyện (tải trọng số, tiền xử lý, v.v.)
03 : 3002 : 00RUNNING2 giờ dùng để huấn luyện
03 : 3002 : 00RUNNINGCheckpoint được tạo ở bước 5
04 : 3002 : 00RUNNINGHuấn luyện thất bại do lỗi nội bộ ở bước 8 (sau 1 giờ nữa)
04 : 3002 : 00RUNNING30 phút đánh giá và xác thực checkpoint
04 : 3002 : 00SUCCEEDEDTác vụ kết thúc (với checkpoint mới nhất)

Mặc dù tổng cộng đã dành 3 giờ để huấn luyện, chỉ có 2 giờ được "ghi nhận" trong một checkpoint có thể sử dụng và được tính phí. Một giờ công việc huấn luyện bị mất do lỗi không phải là trách nhiệm của bạn. Chi phí sẽ là 2 giờ × $100/giờ = $200.

Câu hỏi thường gặp

Khi nào tôi bị tính phí?

Chúng tôi tính phí khi lượt chạy của bạn hoàn tất, bị tạm dừng, bị hủy hoặc thất bại. Mỗi khoản phí bao gồm phần công việc đã thực hiện kể từ lần tính phí trước.

Tôi có phải trả tiền nếu một lượt chạy thất bại không?

Nếu một lượt chạy thất bại do lỗi từ phía chúng tôi và có phần công việc huấn luyện gần đây bị mất, bạn sẽ không bị tính phí cho phần bị mất đó. Nếu bạn hủy một lượt chạy, bạn sẽ bị tính phí cho phần công việc đến thời điểm hủy.

Token của mô hình chấm điểm được tính phí như thế nào?

Chúng tôi tính số token được sử dụng bởi mọi mô hình chấm điểm mà bạn cấu hình. Sau khi huấn luyện hoàn tất, chúng tôi tính phí các token đó theo mức giá tiêu chuẩn trên mỗi token của chúng tôi.

Tôi có thể tạm dừng và tiếp tục một lượt chạy không?

Có. Khi bạn tạm dừng, chúng tôi lưu một checkpoint và tính phí cho phần công việc đã thực hiện đến lúc đó. Khi bạn tiếp tục, bạn sẽ chỉ bị tính phí cho phần công việc bổ sung được thực hiện sau khi tiếp tục.

Nếu bạn có câu hỏi khác về tính phí Reinforcement Fine‑Tuning, hãy liên hệ đội ngũ hỗ trợ của chúng tôi.

Bài viết này có hữu ích không?