OpenAI
Αυτή η σελίδα μεταφράστηκε αυτόματα. Δείτε το πρωτότυπο άρθρο στα αγγλικά.

Οδηγός χρέωσης για το API Reinforcement Fine-Tuning

Πώς λειτουργεί η χρέωση για το API RFT

Τελευταία ενημέρωση: 10 hours ago

Πώς λειτουργεί η χρέωση για το RFT

Το Reinforcement Fine‑Tuning (RFT) σάς επιτρέπει να βελτιστοποιείτε την απόδοση των μοντέλων συλλογιστικής της OpenAI χρησιμοποιώντας ενισχυτική μάθηση. Σε αντίθεση με τις προσφορές μας για supervised ή preference fine‑tuning, που χρεώνονται βάσει του αριθμού των token στο σύνολο εκπαίδευσης, το RFT χρεώνεται με βάση τον χρόνο που η εκτέλεση εκπαίδευσής σας αφιερώνει στην κύρια εργασία μηχανικής μάθησης.

Αυτός ο οδηγός εξηγεί τι υπολογίζεται ως χρεώσιμος χρόνος εκπαίδευσης, πώς χειριζόμαστε τις παύσεις και τις ακυρώσεις και πώς οι επιλογές διαμόρφωσής σας μπορούν να επηρεάσουν το κόστος.

Τιμολόγηση

  • Υπολογισμός: $100 ανά ώρα πραγματικού χρόνου που δαπανάται στον κύριο βρόχο εκπαίδευσης για το o4-mini-2025-04-16. Οι χρεώσεις υπολογίζονται αναλογικά ανά δευτερόλεπτο και στρογγυλοποιούνται σε δύο δεκαδικά ψηφία στο τιμολόγιο (π.χ. 2.55 ώρες).

  • Χρήση αξιολογητή μοντέλου: Αν χρησιμοποιείτε μοντέλο της OpenAI για να «βαθμολογεί» εξόδους κατά την εκπαίδευση, τα token που καταναλώνονται από αυτές τις κλήσεις αξιολόγησης χρεώνονται ξεχωριστά με τις τυπικές χρεώσεις API μας μετά την ολοκλήρωση της εκπαίδευσης.

Χρεώνουμε μόνο για εργασία εκπαίδευσης που πράγματι ενημερώνει το μοντέλο σας (αυτό που ονομάζουμε "captured forward progress").

Τι χρεώνουμε

Χρεώνουμε για τον χρόνο που ο worker εκπαίδευσής σας αφιερώνει ενεργά στην εκπαίδευση του μοντέλου σας, συγκεκριμένα:

  • Τη δημιουργία δειγμάτων από το μοντέλο σας κατά τη διαδικασία fine-tuning (γνωστή ως «rollouts»)

  • Την αξιολόγηση αυτών των εξόδων με έναν ή περισσότερους αξιολογητές που έχετε ορίσει στην εργασία (μάθετε περισσότερα για τους αξιολογητές)

  • Τον υπολογισμό και την εφαρμογή ενημερώσεων βαρών με βάση τις βαθμολογίες (backpropagation).

  • Την εκτέλεση τυχόν βημάτων επικύρωσης (αξιολόγησης) που έχετε διαμορφώσει.

Οι περισσότεροι αξιολογητές είναι «δωρεάν» στη χρήση, πράγμα που σημαίνει ότι δεν χρεώνουμε επιπλέον για τη χρήση τους πέρα από τον χρόνο που συνεισφέρουν στον κύριο βρόχο εκπαίδευσης. Η εξαίρεση είναι οι αξιολογητές μοντέλων, όπου καταμετρούμε επίσης τα token που καταναλώνουν αυτοί οι αξιολογητές κατά τις παραπάνω δραστηριότητες. Αυτά τα token εμφανίζονται ως ξεχωριστή γραμμή στο τιμολόγιό σας. Τα token που καταναλώνονται από αξιολογητές μοντέλων χρεώνονται με τις κανονικές τιμές inference (τιμολόγηση OpenAI).

Τι ΔΕΝ χρεώνουμε

Δεν χρεώνουμε για χρόνο που δαπανάται σε:

  • Επικύρωση ή έλεγχο του συνόλου δεδομένων σας πριν ξεκινήσει η εκπαίδευση.

  • Ελέγχους ασφάλειας στο σύνολο δεδομένων σας.

  • Αναμονή σε ουρά για υπολογιστικούς πόρους.

  • Λήψη βαρών μοντέλου ή συνόλων δεδομένων.

  • Προετοιμασία (rendering) του συνόλου δεδομένων σας στη μορφή εκπαίδευσής μας.

  • Αξιολογήσεις ασφάλειας μετά την εκπαίδευση του fine-tuned μοντέλου σας.

Αν η εργασία εκπαίδευσης χαθεί λόγω σφάλματος από τη δική μας πλευρά (για παράδειγμα, αν ένας worker καταρρεύσει και πρέπει να επιστρέψει σε προηγούμενο checkpoint), δεν χρεώνεστε για τον χαμένο χρόνο υπολογισμού ή τα token αξιολογητή. Περισσότερες λεπτομέρειες γι’ αυτό στην επόμενη ενότητα.

Captured forward progress και συμβάντα χρέωσης

Η εκπαίδευση αποτελείται από πολλές μικρές ενημερώσεις του μοντέλου σας. Παρακολουθούμε πόσες από αυτές τις ενημερώσεις ολοκληρώνονται επιτυχώς. Οι χρεώσεις βασίζονται στον χρόνο υπολογισμού και στα token αξιολογητή που σχετίζονται με αυτές τις επιτυχημένες ενημερώσεις.

Εκδίδουμε χρέωση όταν συμβεί ένα από τα ακόλουθα «συμβάντα χρέωσης»:

  • Η εκπαίδευση ολοκληρώνεται επιτυχώς.

  • Θέτετε την εκπαίδευση σε παύση.

  • Ακυρώνετε την εκπαίδευση.

  • Η εκπαίδευση αποτυγχάνει.

Κάθε χρέωση καλύπτει την επιπρόσθετη εργασία που έγινε από την τελευταία χρέωση. Για παράδειγμα:

  • Αν θέσετε μια εκτέλεση σε παύση, αποθηκεύουμε ένα checkpoint και σας χρεώνουμε για τον χρόνο υπολογισμού και τα token αξιολογητή που χρησιμοποιήθηκαν από την τελευταία χρέωση.

  • Όταν συνεχίσετε, η εκπαίδευση συνεχίζεται από το checkpoint. Η επόμενη χρέωση (κατά την ολοκλήρωση, σε άλλη παύση, ακύρωση ή αποτυχία) θα καλύπτει μόνο την πρόσθετη εργασία που έγινε μετά τη συνέχιση.

  • Αν ακυρώσετε μια εκτέλεση, σας χρεώνουμε για την εργασία που έγινε έως την ακύρωση.

  • Αν η εκπαίδευση αποτύχει και η εργασία από την τελευταία χρέωση χαθεί, δεν χρεώνεστε για το χαμένο μέρος.

Αυτή η προσέγγιση «captured forward progress» διασφαλίζει ότι πληρώνετε μόνο για εργασία που διατηρείται στο μοντέλο σας ή που εγκαταλείπετε σκόπιμα.

Προβολή προόδου εργασίας

Οι εργασίες RFT έχουν ένα πεδίο που ονομάζεται usage_metrics, το οποίο καταγράφει τη συνολική χρήση της εργασίας έως το τρέχον βήμα. Αυτό περιλαμβάνει τον χρόνο που δαπανήθηκε για εκπαίδευση, καθώς και όλα τα token που χρησιμοποιήθηκαν από όλα τα μοντέλα αξιολόγησης στην εργασία. Αυτό το πεδίο μπορεί να ελεγχθεί μέσω του API (GET /v1/fine_tuning/jobs/{job_id}) ή μέσω του πίνακα ελέγχου fine-tuning.

Παράγοντες που επηρεάζουν τον χρόνο εκπαίδευσης

Επειδή η χρέωση βασίζεται στον χρόνο, οι επιλογές διαμόρφωσής σας επηρεάζουν άμεσα το κόστος. Οι βασικοί παράγοντες περιλαμβάνουν:

  • Δυσκολία προβλήματος: αν το σύνολο δεδομένων σας αποτελείται από δύσκολα προβλήματα, το μοντέλο πιθανότατα θα αφιερώνει περισσότερο χρόνο σε συλλογιστική για κάθε πρόβλημα, κάτι που αυξάνει τον χρόνο που απαιτείται για την παραγωγή κάθε δείγματος.

  • Ένταση υπολογισμού: Η υπερπαράμετρος compute_multiplier ελέγχει πόσος υπολογισμός γίνεται ανά βήμα εκπαίδευσης. Υψηλότερες τιμές ενθαρρύνουν το μοντέλο να κάνει πιο αναλυτική συλλογιστική για κάθε σημείο δεδομένων, με αποτέλεσμα κάθε βήμα να εκτελείται πιο αργά.

  • Ρυθμίσεις επικύρωσης:

    • Ένα μεγαλύτερο σύνολο επικύρωσης αυξάνει τον χρόνο που δαπανάται για αξιολόγηση.

    • Η αύξηση του eval_samples (του αριθμού των εξόδων του μοντέλου που βαθμολογούνται ανά παράδειγμα επικύρωσης) αυξάνει τον χρόνο επικύρωσης.

    • Η συχνότερη εκτέλεση επικύρωσης (χαμηλότερο eval_interval) αυξάνει το ποσοστό του χρόνου που αφιερώνεται στην επικύρωση.

  • Απόδοση αξιολογητή:

    • Τα μεγαλύτερα ή πιο ικανά μοντέλα αξιολόγησης χρειάζονται περισσότερο χρόνο για να επιστρέψουν μια βαθμολογία από ό,τι τα μικρότερα. Για παράδειγμα, η αξιολόγηση με μοντέλο συλλογιστικής μπορεί να διαρκεί 10x περισσότερο από την αξιολόγηση με μοντέλο χωρίς συλλογιστική.

    • Οι σύνθετες συναρτήσεις αξιολόγησης σε Python χρειάζονται περισσότερο χρόνο για να εκτελεστούν από τις απλές.

Αυτές οι ρυθμίσεις σάς επιτρέπουν να κάνετε συμβιβασμούς μεταξύ κόστους, ταχύτητας και ποιότητας μοντέλου. Για παράδειγμα, η συχνή επικύρωση μπορεί να εντοπίσει προβλήματα νωρίτερα αλλά αυξάνει το κόστος. Η αξιολόγηση με πιο προηγμένο μοντέλο μπορεί να βελτιώσει δραστικά την ακρίβεια αξιολόγησης, αλλά θα επιβραδύνει κάθε βήμα αξιολόγησης και θα κάνει τις εργασίες ακριβότερες.

Διαχείριση κόστους

Για να ελέγχετε τις δαπάνες σας:

  • Ξεκινήστε με συντομότερες εκτελέσεις για να κατανοήσετε πώς η διαμόρφωσή σας επηρεάζει τον χρόνο.

  • Χρησιμοποιήστε έναν εύλογο αριθμό παραδειγμάτων επικύρωσης και eval_samples. Αποφύγετε να εκτελείτε επικύρωση συχνότερα από όσο χρειάζεται.

  • Επιλέξτε το μικρότερο μοντέλο αξιολόγησης που καλύπτει τις απαιτήσεις ποιότητάς σας.

  • Διατηρείτε αποδοτικούς τους προσαρμοσμένους αξιολογητές Python.

  • Προσαρμόστε το compute_multiplier ώστε να εξισορροπείτε την ταχύτητα σύγκλισης και το κόστος.

  • Παρακολουθείτε την εκτέλεσή σας στον πίνακα ελέγχου ή μέσω του API. Μπορείτε να την θέσετε σε παύση ή να την ακυρώσετε οποιαδήποτε στιγμή.

Παραδείγματα

Επιτυχής εκτέλεση εκπαίδευσης

Χρόνος εκπαίδευσηςΧρεώσιμος χρόνοςΚατάστασηΠεριγραφή
00 : 0000 : 00Ο χρήστης δημιουργεί εργασία RFT μέσω API
00 : 1000 : 00VALIDATING_FILES10 λεπτά για επικύρωση συνόλου δεδομένων
00 : 3000 : 00VALIDATING_FILES20 λεπτά για ελέγχους ασφάλειας του συνόλου δεδομένων
01 : 0000 : 00QUEUED30 λεπτά αναμονή για διαθέσιμο worker
01 : 3000 : 00RUNNING30 λεπτά για ρύθμιση εκπαίδευσης (λήψη βαρών, προεπεξεργασία κ.λπ.)
05 : 3004 : 00RUNNING4 ώρες εκπαίδευσης
06 : 0004 : 00RUNNING30 λεπτά για αξιολογήσεις ασφάλειας του προκύπτοντος μοντέλου
06 : 0004 : 00SUCCEEDEDΗ εκπαίδευση ολοκληρώνεται

Σε αυτήν την περίπτωση, ο συνολικός πραγματικός χρόνος είναι 6 ώρες, αλλά μόνο οι 4 ώρες είναι χρεώσιμες. Το κόστος θα ήταν 4 ώρες × $100/ώρα = $400.

Παράδειγμα αποτυχημένης εργασίας

Σε αυτό το παράδειγμα, η εκτέλεση εκπαιδεύεται για 2 ώρες, γράφει ένα checkpoint, εκπαιδεύεται για 1 ακόμη ώρα, αλλά στη συνέχεια αποτυγχάνει. Μόνο οι 2 ώρες εκπαίδευσης έως το checkpoint είναι χρεώσιμες.

Χρόνος εκπαίδευσηςΧρεώσιμος χρόνοςΚατάστασηΠεριγραφή
00 : 0000 : 00Ο χρήστης δημιουργεί εργασία RFT μέσω API
00 : 1000 : 00VALIDATING_FILES10 λεπτά για επικύρωση συνόλου δεδομένων
00 : 3000 : 00VALIDATING_FILES20 λεπτά για ελέγχους ασφάλειας του συνόλου δεδομένων
01 : 0000 : 00QUEUED30 λεπτά αναμονή για διαθέσιμο worker
01 : 3000 : 00RUNNING30 λεπτά για ρύθμιση εκπαίδευσης (λήψη βαρών, προεπεξεργασία κ.λπ.)
03 : 3002 : 00RUNNING2 ώρες εκπαίδευσης
03 : 3002 : 00RUNNINGΔημιουργία checkpoint στο βήμα 5
04 : 3002 : 00RUNNINGΗ εκπαίδευση αποτυγχάνει λόγω εσωτερικού σφάλματος στο βήμα 8 (μετά από 1 ακόμη ώρα)
04 : 3002 : 00RUNNING30 λεπτά για αξιολόγηση και επικύρωση του checkpoint
04 : 3002 : 00SUCCEEDEDΗ εργασία ολοκληρώνεται (με το πιο πρόσφατο checkpoint)

Παρόλο που συνολικά δαπανήθηκαν 3 ώρες σε εκπαίδευση, μόνο οι 2 ώρες είναι «καταγεγραμμένες» σε ένα χρησιμοποιήσιμο checkpoint και χρεώνονται. Η μία ώρα εκπαιδευτικής εργασίας που χάθηκε λόγω της αποτυχίας δεν είναι δική σας ευθύνη. Το κόστος θα ήταν 2 ώρες × $100/ώρα = $200.

Συχνές ερωτήσεις

Πότε χρεώνομαι;

Χρεώνουμε όταν η εκτέλεσή σας ολοκληρώνεται, τίθεται σε παύση, ακυρώνεται ή αποτυγχάνει. Κάθε χρέωση καλύπτει την εργασία που έγινε από την προηγούμενη χρέωση.

Πληρώνω αν μια εκτέλεση αποτύχει;

Αν μια εκτέλεση αποτύχει λόγω δικού μας σφάλματος και χαθεί πρόσφατη εργασία εκπαίδευσης, δεν χρεώνεστε για το χαμένο μέρος. Αν ακυρώσετε μια εκτέλεση, χρεώνεστε για την εργασία έως την ακύρωση.

Πώς χρεώνονται τα token των μοντέλων αξιολόγησης;

Καταμετρούμε τα token που χρησιμοποιούνται από οποιαδήποτε μοντέλα αξιολόγησης διαμορφώνετε. Αφού ολοκληρωθεί η εκπαίδευση, χρεώνουμε αυτά τα token με τις τυπικές χρεώσεις μας ανά token.

Μπορώ να θέσω σε παύση και να συνεχίσω μια εκτέλεση;

Ναι. Όταν θέτετε σε παύση, αποθηκεύουμε ένα checkpoint και χρεώνουμε για την εργασία που έχει γίνει έως τότε. Όταν συνεχίζετε, θα χρεώνεστε μόνο για την πρόσθετη εργασία που γίνεται μετά τη συνέχιση.

Αν έχετε άλλες ερωτήσεις σχετικά με τη χρέωση του Reinforcement Fine‑Tuning, επικοινωνήστε με την ομάδα υποστήριξής μας.

Σας βοήθησε αυτό το άρθρο;