Πώς λειτουργεί η χρέωση για το RFT

Η λεπτομερής ρύθμιση με ενισχυτική μάθηση (RFT) σάς επιτρέπει να βελτιστοποιείτε την απόδοση των μοντέλων συλλογιστικής της OpenAI με χρήση ενισχυτικής μάθησης. Σε αντίθεση με τις λύσεις μας για εποπτευόμενη λεπτομερή ρύθμιση ή λεπτομερή ρύθμιση βάσει προτιμήσεων, που χρεώνονται με βάση τον αριθμό των token στο σύνολο δεδομένων εκπαίδευσης, το RFT χρεώνεται με βάση τον χρόνο που η εκτέλεση εκπαίδευσης αφιερώνει στην κύρια εργασία μηχανικής μάθησης.

Αυτός ο οδηγός εξηγεί τι υπολογίζεται ως χρεώσιμος χρόνος εκπαίδευσης, πώς χειριζόμαστε τις παύσεις και τις ακυρώσεις και πώς οι επιλογές διαμόρφωσής σας μπορούν να επηρεάσουν το κόστος.

Τιμολόγηση

Υπολογισμός: $100 ανά ώρα πραγματικού χρόνου που δαπανάται στον κύριο βρόχο εκπαίδευσης για το o4-mini-2025-04-16. Οι χρεώσεις υπολογίζονται αναλογικά ανά δευτερόλεπτο και στρογγυλοποιούνται σε δύο δεκαδικά ψηφία στο τιμολόγιο (π.χ. 2.55 ώρες).
Χρήση αξιολογητή μοντέλου: Αν χρησιμοποιείτε μοντέλο της OpenAI για να «βαθμολογεί» εξόδους κατά την εκπαίδευση, τα token που καταναλώνονται από αυτές τις κλήσεις αξιολόγησης χρεώνονται ξεχωριστά με τις τυπικές χρεώσεις API μας μετά την ολοκλήρωση της εκπαίδευσης.

Χρεώνουμε μόνο για εργασία εκπαίδευσης που πράγματι ενημερώνει το μοντέλο σας (αυτό που ονομάζουμε "captured forward progress").

Τι χρεώνουμε

Χρεώνουμε τον χρόνο που ο worker εκπαίδευσής σας δαπανά ενεργά για την εκπαίδευση του μοντέλου σας, συγκεκριμένα:

Δημιουργία δειγμάτων από το μοντέλο σας κατά τη διαδικασία λεπτομερούς ρύθμισης (γνωστών ως «rollouts»)
Αξιολόγηση αυτών των εξόδων με έναν ή περισσότερους βαθμολογητές που έχετε ορίσει στην εργασία (μάθετε περισσότερα για τους βαθμολογητές)
Υπολογισμός και εφαρμογή ενημερώσεων βαρών με βάση τους βαθμούς (backpropagation).
Εκτέλεση τυχόν βημάτων επικύρωσης (αξιολόγησης) που έχετε διαμορφώσει.

Οι περισσότεροι βαθμολογητές εκτελούνται «δωρεάν», που σημαίνει ότι δεν χρεώνουμε επιπλέον για τη χρήση τους πέρα από τον χρόνο που συνεισφέρουν στον βασικό βρόχο εκπαίδευσης. Η εξαίρεση σε αυτό αφορά τους βαθμολογητές μοντέλου, όπου καταμετρούμε επίσης τα token που καταναλώνουν αυτοί οι βαθμολογητές κατά τις παραπάνω δραστηριότητες. Αυτά τα token εμφανίζονται ως ξεχωριστή γραμμή στο τιμολόγιό σας. Τα token που καταναλώνονται από βαθμολογητές μοντέλου χρεώνονται με τις κανονικές τιμές inference (τιμολόγηση OpenAI).

Τι ΔΕΝ χρεώνουμε

Δεν χρεώνουμε για χρόνο που δαπανάται σε:

Επικύρωση ή έλεγχο του συνόλου δεδομένων σας πριν ξεκινήσει η εκπαίδευση.
Ελέγχους ασφάλειας στο σύνολο δεδομένων σας.
Αναμονή σε ουρά για υπολογιστικούς πόρους.
Λήψη βαρών μοντέλου ή συνόλων δεδομένων.
Προετοιμασία (rendering) του συνόλου δεδομένων σας στη μορφή εκπαίδευσής μας.
Αξιολογήσεις ασφάλειας μετά την εκπαίδευση του fine-tuned μοντέλου σας.

Αν η εργασία εκπαίδευσης χαθεί λόγω σφάλματος από τη δική μας πλευρά (για παράδειγμα, αν ένας worker καταρρεύσει και πρέπει να επιστρέψει σε προηγούμενο checkpoint), δεν χρεώνεστε για τον χαμένο χρόνο υπολογισμού ή τα token αξιολογητή. Περισσότερες λεπτομέρειες γι’ αυτό στην επόμενη ενότητα.

Captured forward progress και συμβάντα χρέωσης

Η εκπαίδευση αποτελείται από πολλές μικρές ενημερώσεις του μοντέλου σας. Παρακολουθούμε πόσες από αυτές τις ενημερώσεις ολοκληρώνονται επιτυχώς. Οι χρεώσεις βασίζονται στον χρόνο υπολογισμού και στα token αξιολογητή που σχετίζονται με αυτές τις επιτυχημένες ενημερώσεις.

Εκδίδουμε χρέωση όταν συμβεί ένα από τα ακόλουθα «συμβάντα χρέωσης»:

Η εκπαίδευση ολοκληρώνεται επιτυχώς.
Θέτετε την εκπαίδευση σε παύση.
Ακυρώνετε την εκπαίδευση.
Η εκπαίδευση αποτυγχάνει.

Κάθε χρέωση καλύπτει την επιπρόσθετη εργασία που έγινε από την τελευταία χρέωση. Για παράδειγμα:

Αν θέσετε μια εκτέλεση σε παύση, αποθηκεύουμε ένα checkpoint και σας χρεώνουμε για τον χρόνο υπολογισμού και τα token αξιολογητή που χρησιμοποιήθηκαν από την τελευταία χρέωση.
Όταν συνεχίσετε, η εκπαίδευση συνεχίζεται από το checkpoint. Η επόμενη χρέωση (κατά την ολοκλήρωση, σε άλλη παύση, ακύρωση ή αποτυχία) θα καλύπτει μόνο την πρόσθετη εργασία που έγινε μετά τη συνέχιση.
Αν ακυρώσετε μια εκτέλεση, σας χρεώνουμε για την εργασία που έγινε έως την ακύρωση.
Αν η εκπαίδευση αποτύχει και η εργασία από την τελευταία χρέωση χαθεί, δεν χρεώνεστε για το χαμένο μέρος.

Αυτή η προσέγγιση «captured forward progress» διασφαλίζει ότι πληρώνετε μόνο για εργασία που διατηρείται στο μοντέλο σας ή που εγκαταλείπετε σκόπιμα.

Προβολή προόδου εργασίας

Οι εργασίες RFT έχουν ένα πεδίο που ονομάζεται usage_metrics, το οποίο τεκμηριώνει τη συνολική χρήση της εργασίας έως το τρέχον βήμα. Αυτό περιλαμβάνει τον χρόνο που δαπανήθηκε για εκπαίδευση και όλα τα token που χρησιμοποιήθηκαν σε όλους τους βαθμολογητές μοντέλου στην εργασία. Αυτό το πεδίο μπορεί να ελεγχθεί μέσω του API (GET /v1/fine_tuning/jobs/{job_id}) ή μέσω του πίνακα εργαλείων λεπτομερούς ρύθμισης.

Παράγοντες που επηρεάζουν τον χρόνο εκπαίδευσης

Επειδή η χρέωση βασίζεται στον χρόνο, οι επιλογές διαμόρφωσής σας επηρεάζουν άμεσα το κόστος. Οι βασικοί παράγοντες περιλαμβάνουν:

Δυσκολία προβλήματος: αν το σύνολο δεδομένων σας αποτελείται από δύσκολα προβλήματα, το μοντέλο πιθανότατα θα αφιερώνει περισσότερο χρόνο σε συλλογιστική για κάθε πρόβλημα, κάτι που αυξάνει τον χρόνο που απαιτείται για την παραγωγή κάθε δείγματος.
Ένταση υπολογισμού: Η υπερπαράμετρος compute_multiplier ελέγχει πόσος υπολογισμός γίνεται ανά βήμα εκπαίδευσης. Υψηλότερες τιμές ενθαρρύνουν το μοντέλο να κάνει πιο αναλυτική συλλογιστική για κάθε σημείο δεδομένων, με αποτέλεσμα κάθε βήμα να εκτελείται πιο αργά.
Ρυθμίσεις επικύρωσης:
- Ένα μεγαλύτερο σύνολο επικύρωσης αυξάνει τον χρόνο που δαπανάται για αξιολόγηση.
- Η αύξηση του eval_samples (του αριθμού των εξόδων του μοντέλου που βαθμολογούνται ανά παράδειγμα επικύρωσης) αυξάνει τον χρόνο επικύρωσης.
- Η συχνότερη εκτέλεση επικύρωσης (χαμηλότερο eval_interval) αυξάνει το ποσοστό του χρόνου που αφιερώνεται στην επικύρωση.
Απόδοση αξιολογητή:
- Τα μεγαλύτερα ή πιο ικανά μοντέλα αξιολόγησης χρειάζονται περισσότερο χρόνο για να επιστρέψουν μια βαθμολογία από ό,τι τα μικρότερα. Για παράδειγμα, η αξιολόγηση με μοντέλο συλλογιστικής μπορεί να διαρκεί 10x περισσότερο από την αξιολόγηση με μοντέλο χωρίς συλλογιστική.
- Οι σύνθετες συναρτήσεις αξιολόγησης σε Python χρειάζονται περισσότερο χρόνο για να εκτελεστούν από τις απλές.

Αυτές οι ρυθμίσεις σάς επιτρέπουν να κάνετε συμβιβασμούς μεταξύ κόστους, ταχύτητας και ποιότητας μοντέλου. Για παράδειγμα, η συχνή επικύρωση μπορεί να εντοπίσει προβλήματα νωρίτερα αλλά αυξάνει το κόστος. Η αξιολόγηση με πιο προηγμένο μοντέλο μπορεί να βελτιώσει δραστικά την ακρίβεια αξιολόγησης, αλλά θα επιβραδύνει κάθε βήμα αξιολόγησης και θα κάνει τις εργασίες ακριβότερες.

Διαχείριση κόστους

Για να ελέγχετε τις δαπάνες σας:

Ξεκινήστε με συντομότερες εκτελέσεις για να κατανοήσετε πώς η διαμόρφωσή σας επηρεάζει τον χρόνο.
Χρησιμοποιήστε έναν εύλογο αριθμό παραδειγμάτων επικύρωσης και eval_samples. Αποφύγετε να εκτελείτε επικύρωση συχνότερα από όσο χρειάζεται.
Επιλέξτε το μικρότερο μοντέλο αξιολόγησης που καλύπτει τις απαιτήσεις ποιότητάς σας.
Διατηρείτε αποδοτικούς τους προσαρμοσμένους αξιολογητές Python.
Προσαρμόστε το compute_multiplier ώστε να εξισορροπείτε την ταχύτητα σύγκλισης και το κόστος.
Παρακολουθείτε την εκτέλεσή σας στον πίνακα ελέγχου ή μέσω του API. Μπορείτε να την θέσετε σε παύση ή να την ακυρώσετε οποιαδήποτε στιγμή.

Παραδείγματα

Επιτυχής εκτέλεση εκπαίδευσης

Χρόνος εκπαίδευσης	Χρεώσιμος χρόνος	Κατάσταση	Περιγραφή
00:00	00:00	–	Ο χρήστης δημιουργεί εργασία RFT μέσω API
00:10	00:00	VALIDATING_FILES	10 λεπτά για την επικύρωση του συνόλου δεδομένων
00:30	00:00	VALIDATING_FILES	20 λεπτά για ελέγχους ασφάλειας συνόλου δεδομένων
01:00	00:00	QUEUED	30 λεπτά αναμονής για διαθέσιμο worker
01:30	00:00	RUNNING	30 λεπτά για ρύθμιση εκπαίδευσης (λήψη βαρών, προεπεξεργασία κ.λπ.)
05:30	04:00	RUNNING	4 ώρες για εκπαίδευση
06:00	04:00	RUNNING	30 λεπτά για αξιολογήσεις ασφάλειας του μοντέλου που προέκυψε
06:00	04:00	SUCCEEDED	Η εκπαίδευση ολοκληρώνεται

Σε αυτήν την περίπτωση, ο συνολικός πραγματικός χρόνος είναι 6 ώρες, αλλά μόνο 4 ώρες είναι χρεώσιμες. Το κόστος θα ήταν 4 ώρες × $100/ώρα = $400.

Παράδειγμα αποτυχημένης εργασίας

Σε αυτό το παράδειγμα, η εκτέλεση εκπαιδεύεται για 2 ώρες, γράφει ένα checkpoint, εκπαιδεύεται για 1 ακόμη ώρα, αλλά στη συνέχεια αποτυγχάνει. Μόνο οι 2 ώρες εκπαίδευσης έως το checkpoint είναι χρεώσιμες.

Χρόνος εκπαίδευσης	Χρεώσιμος χρόνος	Κατάσταση	Περιγραφή
00:00	00:00	–	Ο χρήστης δημιουργεί εργασία RFT μέσω API
00:10	00:00	VALIDATING_FILES	10 λεπτά για την επικύρωση του συνόλου δεδομένων
00:30	00:00	VALIDATING_FILES	20 λεπτά για ελέγχους ασφάλειας συνόλου δεδομένων
01:00	00:00	QUEUED	30 λεπτά αναμονής για διαθέσιμο worker
01:30	00:00	RUNNING	30 λεπτά για ρύθμιση εκπαίδευσης (λήψη βαρών, προεπεξεργασία κ.λπ.)
03:30	02:00	RUNNING	2 ώρες για εκπαίδευση
03:30	02:00	RUNNING	Το checkpoint δημιουργήθηκε στο βήμα 5
04:30	02:00	RUNNING	Η εκπαίδευση αποτυγχάνει λόγω εσωτερικού σφάλματος στο βήμα 8 (μετά από 1 ακόμη ώρα)
04:30	02:00	RUNNING	30 λεπτά για αξιολόγηση και επικύρωση του checkpoint
04:30	02:00	SUCCEEDED	Η εργασία ολοκληρώνεται (με το πιο πρόσφατο checkpoint)

Παρόλο που δαπανήθηκαν συνολικά 3 ώρες για εκπαίδευση, μόνο 2 ώρες «καταγράφονται» σε ένα χρησιμοποιήσιμο checkpoint και χρεώνονται. Η ώρα εργασίας εκπαίδευσης που χάθηκε λόγω της αποτυχίας δεν είναι δική σας ευθύνη. Το κόστος θα ήταν 2 ώρες × $100/ώρα = $200.

Συχνές ερωτήσεις

Πότε χρεώνομαι;

Χρεώνουμε όταν η εκτέλεσή σας ολοκληρωθεί, τεθεί σε παύση, ακυρωθεί ή αποτύχει. Κάθε χρέωση καλύπτει την εργασία που έγινε από την προηγούμενη χρέωση.

Πληρώνω αν μια εκτέλεση αποτύχει;

Αν μια εκτέλεση αποτύχει λόγω δικού μας σφάλματος και χαθεί πρόσφατη εργασία εκπαίδευσης, δεν χρεώνεστε για το χαμένο τμήμα. Αν ακυρώσετε μια εκτέλεση, χρεώνεστε για την εργασία έως την ακύρωση.

Πώς χρεώνονται τα token μοντέλου βαθμολογητή;

Μετράμε τα token που χρησιμοποιούνται από τυχόν βαθμολογητές μοντέλου που διαμορφώνετε. Αφού ολοκληρωθεί η εκπαίδευση, χρεώνουμε αυτά τα token με τις τυπικές μας τιμές ανά token.

Μπορώ να θέσω σε παύση και να συνεχίσω μια εκτέλεση;

Ναι. Όταν κάνετε παύση, αποθηκεύουμε ένα checkpoint και χρεώνουμε την εργασία που έχει γίνει μέχρι τότε. Όταν συνεχίσετε, θα χρεωθείτε μόνο για την πρόσθετη εργασία που γίνεται μετά τη συνέχιση.

Αν έχετε άλλες ερωτήσεις σχετικά με τη χρέωση του Reinforcement Fine‑Tuning, επικοινωνήστε με την ομάδα υποστήριξής μας.

Οδηγός χρέωσης για το API Reinforcement Fine-Tuning

Πώς λειτουργεί η χρέωση για το RFT

Τιμολόγηση

Τι χρεώνουμε

Τι ΔΕΝ χρεώνουμε

Captured forward progress και συμβάντα χρέωσης

Προβολή προόδου εργασίας

Παράγοντες που επηρεάζουν τον χρόνο εκπαίδευσης

Διαχείριση κόστους

Παραδείγματα

Επιτυχής εκτέλεση εκπαίδευσης

Παράδειγμα αποτυχημένης εργασίας

Συχνές ερωτήσεις

Πότε χρεώνομαι;

Πληρώνω αν μια εκτέλεση αποτύχει;

Πώς χρεώνονται τα token μοντέλου βαθμολογητή;

Μπορώ να θέσω σε παύση και να συνεχίσω μια εκτέλεση;

Σας βοήθησε αυτό το άρθρο;