RFT के लिए बिलिंग कैसे काम करती है
रीइन्फ़ोर्समेंट फ़ाइन-ट्यूनिंग (RFT) तुम्हें रीइंफ़ोर्समेंट लर्निंग का उपयोग करके OpenAI के रीज़निंग मॉडल्स के प्रदर्शन को अनुकूलित करने की अनुमति देता है। हमारे सुपरवाइज़्ड या प्रेफरेंस फ़ाइन-ट्यूनिंग ऑफ़रिंग्स के विपरीत, जिन्हें ट्रेनिंग डेटासेट में टोकन की संख्या के आधार पर बिल किया जाता है, RFT कोर मशीन लर्निंग कार्य करने में तुम्हारे ट्रेनिंग रन द्वारा खर्च किए गए समय के आधार पर बिल किया जाता है।
यह गाइड बताता है कि बिल योग्य ट्रेनिंग समय क्या होता है, हम विराम और रद्दीकरण को कैसे संभालते हैं, और तुम्हारी कॉन्फ़िगरेशन पसंद कैसे लागत को प्रभावित कर सकती हैं।
प्राइसिंग
कंप्यूट:
o4-mini-2025-04-16के कोर ट्रेनिंग लूप में बिताए गए वॉल-क्लॉक समय के प्रति घंटे 100 डॉलर। चार्ज सेकंड के अनुसार प्रोराटा किए जाते हैं और इनवॉइस पर दो दशमलव स्थानों तक राउंड किए जाते हैं (उदाहरण के लिए, 2.55 घंटे)।मॉडल ग्रेडर का उपयोग: यदि तुम ट्रेनिंग के दौरान आउटपुट को "ग्रेड" करने के लिए OpenAI मॉडल का उपयोग करते हो, तो उन ग्रेडिंग कॉल्स द्वारा खपत किए गए टोकन ट्रेनिंग के पूरा होने के बाद हमारे मानक API दरों पर अलग से बिल किए जाते हैं।
हम केवल उसी ट्रेनिंग कार्य के लिए शुल्क लेते हैं जो वास्तव में तुम्हारे मॉडल को अपडेट करता है (जिसे हम "कैप्चर की गई प्रगति" कहते हैं)।
हम किस चीज़ के लिए बिल करते हैं
हम तुम्हारे मॉडल को सक्रिय रूप से ट्रेनिंग करने में तुम्हारे प्रशिक्षण कार्यकर्ता द्वारा बिताए गए समय के लिए बिल करते हैं, विशेष रूप से:
फ़ाइन-ट्यूनिंग प्रक्रिया के दौरान तुम्हारे मॉडल से नमूने जनरेट करना (जिसे "रोलआउट्स" कहा जाता है)
उन आउटपुट्स का मूल्यांकन करना जिनके लिए आपने जॉब पर एक या अधिक ग्रेडर्स परिभाषित किए हैं (ग्रेडर्स के बारे में और जानें)
ग्रेड्स के आधार पर वेट अपडेट्स की गणना और लागू करना (बैकप्रोपेगेशन)।
तुम्हारे द्वारा कॉन्फ़िगर किए गए किसी भी सत्यापन (मूल्यांकन) चरणों को चलाना।
अधिकांश ग्रेडर्स "मुफ़्त" में चलते हैं, जिसका मतलब है कि हम उनके उपयोग के लिए अतिरिक्त शुल्क नहीं लेते हैं, सिवाय उस समय के जो वे कोर ट्रेनिंग लूप में योगदान करते हैं। इस नियम का अपवाद मॉडल ग्रेडर्स के लिए है, जहाँ हम उपरोक्त गतिविधियों के दौरान उन ग्रेडर्स द्वारा उपभोग किए गए टोकन की भी गणना करते हैं। ये टोकन आपके इनवॉइस पर एक अलग लाइन आइटम के रूप में दिखाई देते हैं। मॉडल ग्रेडर्स द्वारा उपयोग किए गए टोकन सामान्य इनफेरेंस दरों (OpenAI दाम) पर बिल किए जाते हैं.
हम किन चीज़ों के लिए बिल नहीं करते हैं
हम निम्नलिखित समय के लिए शुल्क नहीं लेते हैं:
ट्रेनिंग शुरू होने से पहले तुम्हारे डेटासेट का सत्यापन या निरीक्षण।
तुम्हारे डेटासेट पर सुरक्षा जाँच।
कंप्यूट संसाधनों के लिए कतार में प्रतीक्षा करना।
मॉडल वेट्स या डेटासेट्स डाउनलोड करना।
तुम्हारे डेटासेट को हमारी ट्रेनिंग फॉर्मेट में तैयार (रेंडर) किया जाना।
तुम्हारे फ़ाइन-ट्यून किए गए मॉडल के प्रशिक्षण के बाद सुरक्षा मूल्यांकन।
यदि हमारी ओर से किसी त्रुटि के कारण ट्रेनिंग कार्य खो जाता है (उदाहरण के लिए, यदि कोई वर्कर क्रैश हो जाता है और उसे पिछले चेकपॉइंट पर पीछे जाना पड़ता है), तो खोए हुए कंप्यूट समय या ग्रेडर टोकन के लिए तुमसे शुल्क नहीं लिया जाएगा। इस पर अधिक जानकारी आगे सेक्शन में मिलेगी।
आगे की प्रगति और बिलिंग इवेंट्स का रिकॉर्ड
ट्रेनिंग तुम्हारे मॉडल में कई छोटे अपडेट्स से होती है। हम यह ट्रैक करते हैं कि इनमें से कितने अपडेट सफलतापूर्वक पूरे होते हैं। शुल्क इन सफल अपडेट्स से जुड़े कंप्यूट समय और टोकन पर आधारित होते हैं।
हम एक शुल्क जारी करते हैं जब निम्नलिखित में से कोई एक "बिलिंग इवेंट" होता है:
ट्रेनिंग सफलतापूर्वक पूरा होता है।
तुम ट्रेनिंग रोकते हो।
तुम ट्रेनिंग रद्द कर देते हो।
ट्रेनिंग विफल हो जाती है।
हर शुल्क पिछले शुल्क के बाद से किए गए अतिरिक्त कार्य को कवर करता है। उदाहरण के लिए:
अगर तुम किसी रन को रोकते हो, तो हम एक चेकपॉइंट सेव करें और तुम्हें पिछले चार्ज के बाद से उपयोग किए गए कंप्यूट समय और ग्रेडर टोकन के लिए चार्ज करते हैं।
जब तुम फिर से शुरू करते हो, तो ट्रेनिंग चेकपॉइंट से आगे बढ़ती है। आगे शुल्क (पूरा होने पर, एक और विराम, रद्दीकरण, या विफलता) केवल फिर से शुरू करने के बाद किए गए अतिरिक्त कार्य को कवर करेगा।
अगर तुम एक रन रद्द करते हो, तो हम रद्दीकरण तक किए गए काम के लिए तुमसे शुल्क लेते हैं।
अगर ट्रेनिंग फेल हो जाती है और पिछले चार्ज के बाद का काम खो जाता है, तो खोए हुए हिस्से के लिए तुमसे शुल्क नहीं लिया जाएगा।
यह "कैप्चर किया गया फॉरवर्ड प्रोग्रेस" दृष्टिकोण सुनिश्चित करता है कि तुम केवल उसी काम के लिए भुगतान करो जो तुम्हारे मॉडल में बरकरार रखा गया है या जिसे तुम जानबूझकर छोड़ देते हो।
कार्य प्रगति देखना
RFT कार्यों में usage_metrics नामक एक फ़ील्ड होता है जो वर्तमान चरण तक कार्य के कुल उपयोग को डॉक्यूमेंट करता है। इसमें ट्रेनिंग में बिताया गया समय और कार्य पर सभी मॉडल ग्रेडर्स द्वारा उपयोग किए गए सभी टोकन शामिल हैं। इस फ़ील्ड को API (GET /v1/fine_tuning/jobs/{job_id}) या फ़ाइन-ट्यूनिंग डैशबोर्ड के माध्यम से देखा जा सकता है.
ट्रेनिंग समय को प्रभावित करने वाले कारक
क्योंकि बिलिंग समय-आधारित है, तुम्हारे कॉन्फ़िगरेशन विकल्प सीधे लागत को प्रभावित करते हैं। मुख्य कारक इस प्रकार हैं:
समस्या की कठिनाई: अगर तुम्हारा डेटासेट कठिन समस्याओं से भरा है, तो मॉडल संभवतः प्रत्येक समस्या पर अधिक समय तक विचार करेगा, जिससे प्रत्येक नमूने को तैयार करने में अधिक समय लगेगा।
कंप्यूट इंटेंसिटी:
compute_multiplierहाइपरपैरामीटर यह नियंत्रित करता है कि तुम प्रत्येक ट्रेनिंग चरण में कितनी गणना करते हो। उच्च मान मॉडल को प्रत्येक डेटा पॉइंट पर अधिक विस्तार से रीज़न करने के लिए प्रोत्साहित करते हैं, जिससे प्रत्येक चरण धीमा हो जाता है।वैलिडेशन सेटिंग्स:
बड़ा वैलिडेशन सेट मूल्यांकन में लगने वाले समय को बढ़ा देता है।
eval_samples(प्रत्येक मान्यकरण उदाहरण के लिए ग्रेड किए गए मॉडल आउटपुट की संख्या) बढ़ाने से मान्यकरण समय बढ़ जाता है।वैलिडेशन को अधिक बार चलाना (कम
eval_interval) वैलिडेशन पर खर्च किए गए समय के अनुपात को बढ़ाता है।
ग्रेडर का प्रदर्शन:
बड़े या अधिक सक्षम मॉडल ग्रेडर्स को ग्रेड लौटाने में छोटे मॉडल्स की तुलना में अधिक समय लगता है। उदाहरण के लिए, रीज़निंग मॉडल के साथ ग्रेडिंग करने में गैर-रीज़निंग मॉडल की तुलना में दस गुना अधिक समय लग सकता है।
जटिल Python ग्रेडिंग फ़ंक्शन सरल फ़ंक्शनों की तुलना में चलने में अधिक समय लेते हैं।
ये सेटिंग्स तुम्हें लागत, गति, और मॉडल गुणवत्ता के बीच संतुलन बनाने की सुविधा देती हैं। उदाहरण के लिए, बार-बार सत्यापन से समस्याओं को पहले पकड़ा जा सकता है, लेकिन इससे लागत बढ़ जाती है। अधिक उन्नत मॉडल के साथ ग्रेडिंग करने से ग्रेडिंग की सटीकता में काफी सुधार हो सकता है, लेकिन यह प्रत्येक ग्रेडिंग चरण को धीमा कर देगा और कार्यों की लागत बढ़ा देगा।
लागत प्रबंधन
अपने खर्च को नियंत्रित करने के लिए:
अपने कॉन्फ़िगरेशन का समय पर प्रभाव समझने के लिए छोटे रन से शुरू करो।
उचित संख्या में सत्यापन उदाहरण और
eval_samplesका उपयोग करो। आवश्यकता से अधिक बार सत्यापन करने से बचो।उस सबसे छोटे ग्रेडर मॉडल को चुनो जो तुम्हारी गुणवत्ता आवश्यकताओं को पूरा करता है।
कस्टम Python ग्रेडर्स को प्रभावी बनाए रखो।
compute_multiplierको समायोजित करो ताकि अभिसरण की गति और लागत के बीच संतुलन बना रहे।अपने रन को डैशबोर्ड या API के जरिए मॉनिटर करो। तुम कभी भी रोक सकते हो या रद्द कर सकते हो।
उदाहरण
सफल ट्रेनिंग रन
| ट्रेनिंग का समय | बिलिंग समय | स्थिति | जानकारी |
| 00:00 | 00:00 | – | यूज़र API के माध्यम से RFT जॉब बनाता है |
| 00 : 10 | 00:00 | फ़ाइलों का सत्यापन हो रहा है | डेटासेट को सत्यापित करने में 10 मिनट लगे |
| 00:30 | 00:00 | फ़ाइलों का सत्यापन हो रहा है | 20 मिनट तक डेटासेट सुरक्षा जांच चलाना |
| 01 : 00 | 00:00 | पंक्ति में | उपलब्ध कर्मी के लिए 30 मिनट तक प्रतीक्षा करो |
| 01 : 30 | 00:00 | रनिंग | 30 मिनट में ट्रेनिंग सेट अप करना (वेट्स डाउनलोड करना, प्रीप्रोसेसिंग, आदि) |
| 05 : 30 | 04:00 | रनिंग | 4 घंटे ट्रेनिंग में बिताए |
| 06:00 | 04:00 | रनिंग | परिणामस्वरूप मॉडल के सुरक्षा मूल्यांकन 30 मिनट तक चलाना |
| 06:00 | 04:00 | सफल रहा | ट्रेनिंग समाप्त होता है |
इस मामले में, कुल दीवार-घड़ी समय छह घंटे है, लेकिन केवल चार घंटे बिल योग्य हैं। लागत होगी चार घंटे × $100/घंटा = $400।
असफल कार्य उदाहरण
इस उदाहरण में, रन दो घंटे के लिए ट्रेन करता है, एक चेकपॉइंट लिखता है, एक और घंटे के लिए ट्रेन करता है, लेकिन फिर विफल हो जाता है। केवल चेकपॉइंट तक की दो घंटे की ट्रेनिंग बिल योग्य है।
| ट्रेनिंग का समय | बिलिंग समय | स्थिति | जानकारी |
| 00:00 | 00:00 | – | यूज़र API के माध्यम से RFT जॉब बनाता है |
| 00 : 10 | 00:00 | फ़ाइलों का सत्यापन हो रहा है | डेटासेट को सत्यापित करने में 10 मिनट लगे |
| 00:30 | 00:00 | फ़ाइलों का सत्यापन हो रहा है | 20 मिनट तक डेटासेट सुरक्षा जांच चलाना |
| 01 : 00 | 00:00 | पंक्ति में | उपलब्ध कर्मी के लिए 30 मिनट तक प्रतीक्षा करो |
| 01 : 30 | 00:00 | रनिंग | 30 मिनट में ट्रेनिंग सेट अप करना (वेट्स डाउनलोड करना, प्रीप्रोसेसिंग, आदि) |
| 03:30 | 02:00 | रनिंग | 2 घंटे ट्रेनिंग में बिताए |
| 03:30 | 02:00 | रनिंग | चरण 5 पर चेकपॉइंट बनाया गया |
| 04 : 30 | 02:00 | रनिंग | आंतरिक त्रुटि के कारण ट्रेनिंग चरण 8 पर विफल हो जाती है (एक और घंटे के बाद) |
| 04 : 30 | 02:00 | रनिंग | चेकपॉइंट का 30 मिनट तक मूल्यांकन और सत्यापन करना |
| 04 : 30 | 02:00 | सफल रहा | कार्य (नवीनतम चेकपॉइंट के साथ) समाप्त होता है |
हालांकि कुल तीन घंटे ट्रेनिंग में बिताए गए थे, केवल दो घंटे एक उपयोगी चेकपॉइंट में 'कैप्चर' किए गए हैं और बिल किए जाते हैं। विफलता के कारण खोया हुआ ट्रेनिंग का समय तुम्हारी जिम्मेदारी नहीं है। लागत 2 घंटे × $100/घंटा = $200 होगी।
अक्सर पूछे जाने वाले सवाल
मुझसे कब शुल्क लिया जाता है?
हम तब बिल करते हैं जब तुम्हारा रन पूरा हो जाता है, रुक जाता है, रद्द हो जाता है, या विफल हो जाता है। हर बिल पिछले बिल के बाद से किए गए काम को शामिल करता है।
क्या मुझे भुगतान करना पड़ेगा अगर कोई रन विफल हो जाता है?
यदि कोई रन हमारी गलती के कारण विफल हो जाता है और कोई हालिया ट्रेनिंग कार्य खो जाता है, तो खोए हुए हिस्से के लिए तुमसे शुल्क नहीं लिया जाएगा। अगर तुम एक रन रद्द करते हो, तो रद्दीकरण तक के काम के लिए तुमसे शुल्क लिया जाएगा।
ग्रेडर मॉडल के टोकन कैसे बिल किए जाते हैं?
हम तुम्हारे द्वारा कॉन्फ़िगर किए गए किसी भी मॉडल ग्रेडर के उपयोग किए गए टोकन की गिनती करते हैं। ट्रेनिंग समाप्त होने के बाद, हम उन टोकन्स को हमारी मानक प्रति-टोकन दरों पर बिल करते हैं।
क्या मैं एक रन को रोककर फिर से शुरू कर सकता हूँ?
हाँ. जब तुम रुकते हो, तो हम एक चेकपॉइंट सेव करते हैं और अब तक किए गए काम के लिए शुल्क लेते हैं. जब तुम फिर से शुरू करोगे, तो तुम्हें केवल फिर से शुरू करने के बाद किए गए अतिरिक्त काम के लिए ही शुल्क लिया जाएगा.
अगर आपके पास रीइन्फ़ोर्समेंट फ़ाइन-ट्यूनिंग बिलिंग के बारे में और सवाल हैं, तो हमारी सपोर्ट टीम से संपर्क करो.
