OpenAI

रीइन्फ़ोर्समेंट फ़ाइन-ट्यूनिंग API के लिए बिलिंग गाइड

RFT API के लिए बिलिंग कैसे कार्य करती है

अपडेट किया गया: 15 days ago

RFT के लिए बिलिंग कैसे काम करती है

रीइन्फ़ोर्समेंट फ़ाइन-ट्यूनिंग (RFT) तुम्हें रीइंफ़ोर्समेंट लर्निंग का उपयोग करके OpenAI के रीज़निंग मॉडल्स के प्रदर्शन को अनुकूलित करने की अनुमति देता है। हमारे सुपरवाइज़्ड या प्रेफरेंस फ़ाइन-ट्यूनिंग ऑफ़रिंग्स के विपरीत, जिन्हें ट्रेनिंग डेटासेट में टोकन की संख्या के आधार पर बिल किया जाता है, RFT कोर मशीन लर्निंग कार्य करने में तुम्हारे ट्रेनिंग रन द्वारा खर्च किए गए समय के आधार पर बिल किया जाता है।

यह गाइड बताता है कि बिल योग्य ट्रेनिंग समय क्या होता है, हम विराम और रद्दीकरण को कैसे संभालते हैं, और तुम्हारी कॉन्फ़िगरेशन पसंद कैसे लागत को प्रभावित कर सकती हैं।

प्राइसिंग

  • कंप्यूट: o4-mini-2025-04-16 के कोर ट्रेनिंग लूप में बिताए गए वॉल-क्लॉक समय के प्रति घंटे 100 डॉलर। चार्ज सेकंड के अनुसार प्रोराटा किए जाते हैं और इनवॉइस पर दो दशमलव स्थानों तक राउंड किए जाते हैं (उदाहरण के लिए, 2.55 घंटे)।

  • मॉडल ग्रेडर का उपयोग: यदि तुम ट्रेनिंग के दौरान आउटपुट को "ग्रेड" करने के लिए OpenAI मॉडल का उपयोग करते हो, तो उन ग्रेडिंग कॉल्स द्वारा खपत किए गए टोकन ट्रेनिंग के पूरा होने के बाद हमारे मानक API दरों पर अलग से बिल किए जाते हैं।

हम केवल उसी ट्रेनिंग कार्य के लिए शुल्क लेते हैं जो वास्तव में तुम्हारे मॉडल को अपडेट करता है (जिसे हम "कैप्चर की गई प्रगति" कहते हैं)।

हम किस चीज़ के लिए बिल करते हैं

हम तुम्हारे मॉडल को सक्रिय रूप से ट्रेनिंग करने में तुम्हारे प्रशिक्षण कार्यकर्ता द्वारा बिताए गए समय के लिए बिल करते हैं, विशेष रूप से:

  • फ़ाइन-ट्यूनिंग प्रक्रिया के दौरान तुम्हारे मॉडल से नमूने जनरेट करना (जिसे "रोलआउट्स" कहा जाता है)

  • उन आउटपुट्स का मूल्यांकन करना जिनके लिए आपने जॉब पर एक या अधिक ग्रेडर्स परिभाषित किए हैं (ग्रेडर्स के बारे में और जानें)

  • ग्रेड्स के आधार पर वेट अपडेट्स की गणना और लागू करना (बैकप्रोपेगेशन)।

  • तुम्हारे द्वारा कॉन्फ़िगर किए गए किसी भी सत्यापन (मूल्यांकन) चरणों को चलाना।

अधिकांश ग्रेडर्स "मुफ़्त" में चलते हैं, जिसका मतलब है कि हम उनके उपयोग के लिए अतिरिक्त शुल्क नहीं लेते हैं, सिवाय उस समय के जो वे कोर ट्रेनिंग लूप में योगदान करते हैं। इस नियम का अपवाद मॉडल ग्रेडर्स के लिए है, जहाँ हम उपरोक्त गतिविधियों के दौरान उन ग्रेडर्स द्वारा उपभोग किए गए टोकन की भी गणना करते हैं। ये टोकन आपके इनवॉइस पर एक अलग लाइन आइटम के रूप में दिखाई देते हैं। मॉडल ग्रेडर्स द्वारा उपयोग किए गए टोकन सामान्य इनफेरेंस दरों (OpenAI दाम) पर बिल किए जाते हैं.

हम किन चीज़ों के लिए बिल नहीं करते हैं

हम निम्नलिखित समय के लिए शुल्क नहीं लेते हैं:

  • ट्रेनिंग शुरू होने से पहले तुम्हारे डेटासेट का सत्यापन या निरीक्षण।

  • तुम्हारे डेटासेट पर सुरक्षा जाँच।

  • कंप्यूट संसाधनों के लिए कतार में प्रतीक्षा करना।

  • मॉडल वेट्स या डेटासेट्स डाउनलोड करना।

  • तुम्हारे डेटासेट को हमारी ट्रेनिंग फॉर्मेट में तैयार (रेंडर) किया जाना।

  • तुम्हारे फ़ाइन-ट्यून किए गए मॉडल के प्रशिक्षण के बाद सुरक्षा मूल्यांकन।

यदि हमारी ओर से किसी त्रुटि के कारण ट्रेनिंग कार्य खो जाता है (उदाहरण के लिए, यदि कोई वर्कर क्रैश हो जाता है और उसे पिछले चेकपॉइंट पर पीछे जाना पड़ता है), तो खोए हुए कंप्यूट समय या ग्रेडर टोकन के लिए तुमसे शुल्क नहीं लिया जाएगा। इस पर अधिक जानकारी आगे सेक्शन में मिलेगी।

आगे की प्रगति और बिलिंग इवेंट्स का रिकॉर्ड

ट्रेनिंग तुम्हारे मॉडल में कई छोटे अपडेट्स से होती है। हम यह ट्रैक करते हैं कि इनमें से कितने अपडेट सफलतापूर्वक पूरे होते हैं। शुल्क इन सफल अपडेट्स से जुड़े कंप्यूट समय और टोकन पर आधारित होते हैं।

हम एक शुल्क जारी करते हैं जब निम्नलिखित में से कोई एक "बिलिंग इवेंट" होता है:

  • ट्रेनिंग सफलतापूर्वक पूरा होता है।

  • तुम ट्रेनिंग रोकते हो।

  • तुम ट्रेनिंग रद्द कर देते हो।

  • ट्रेनिंग विफल हो जाती है।

हर शुल्क पिछले शुल्क के बाद से किए गए अतिरिक्त कार्य को कवर करता है। उदाहरण के लिए:

  • अगर तुम किसी रन को रोकते हो, तो हम एक चेकपॉइंट सेव करें और तुम्हें पिछले चार्ज के बाद से उपयोग किए गए कंप्यूट समय और ग्रेडर टोकन के लिए चार्ज करते हैं।

  • जब तुम फिर से शुरू करते हो, तो ट्रेनिंग चेकपॉइंट से आगे बढ़ती है। आगे शुल्क (पूरा होने पर, एक और विराम, रद्दीकरण, या विफलता) केवल फिर से शुरू करने के बाद किए गए अतिरिक्त कार्य को कवर करेगा।

  • अगर तुम एक रन रद्द करते हो, तो हम रद्दीकरण तक किए गए काम के लिए तुमसे शुल्क लेते हैं।

  • अगर ट्रेनिंग फेल हो जाती है और पिछले चार्ज के बाद का काम खो जाता है, तो खोए हुए हिस्से के लिए तुमसे शुल्क नहीं लिया जाएगा।

यह "कैप्चर किया गया फॉरवर्ड प्रोग्रेस" दृष्टिकोण सुनिश्चित करता है कि तुम केवल उसी काम के लिए भुगतान करो जो तुम्हारे मॉडल में बरकरार रखा गया है या जिसे तुम जानबूझकर छोड़ देते हो।

कार्य प्रगति देखना

RFT कार्यों में usage_metrics नामक एक फ़ील्ड होता है जो वर्तमान चरण तक कार्य के कुल उपयोग को डॉक्यूमेंट करता है। इसमें ट्रेनिंग में बिताया गया समय और कार्य पर सभी मॉडल ग्रेडर्स द्वारा उपयोग किए गए सभी टोकन शामिल हैं। इस फ़ील्ड को API (GET /v1/fine_tuning/jobs/{job_id}) या फ़ाइन-ट्यूनिंग डैशबोर्ड के माध्यम से देखा जा सकता है.

ट्रेनिंग समय को प्रभावित करने वाले कारक

क्योंकि बिलिंग समय-आधारित है, तुम्हारे कॉन्फ़िगरेशन विकल्प सीधे लागत को प्रभावित करते हैं। मुख्य कारक इस प्रकार हैं:

  • समस्या की कठिनाई: अगर तुम्हारा डेटासेट कठिन समस्याओं से भरा है, तो मॉडल संभवतः प्रत्येक समस्या पर अधिक समय तक विचार करेगा, जिससे प्रत्येक नमूने को तैयार करने में अधिक समय लगेगा।

  • कंप्यूट इंटेंसिटी: compute_multiplier हाइपरपैरामीटर यह नियंत्रित करता है कि तुम प्रत्येक ट्रेनिंग चरण में कितनी गणना करते हो। उच्च मान मॉडल को प्रत्येक डेटा पॉइंट पर अधिक विस्तार से रीज़न करने के लिए प्रोत्साहित करते हैं, जिससे प्रत्येक चरण धीमा हो जाता है।

  • वैलिडेशन सेटिंग्स:

    • बड़ा वैलिडेशन सेट मूल्यांकन में लगने वाले समय को बढ़ा देता है।

    • eval_samples (प्रत्येक मान्यकरण उदाहरण के लिए ग्रेड किए गए मॉडल आउटपुट की संख्या) बढ़ाने से मान्यकरण समय बढ़ जाता है।

    • वैलिडेशन को अधिक बार चलाना (कम eval_interval) वैलिडेशन पर खर्च किए गए समय के अनुपात को बढ़ाता है।

  • ग्रेडर का प्रदर्शन:

    • बड़े या अधिक सक्षम मॉडल ग्रेडर्स को ग्रेड लौटाने में छोटे मॉडल्स की तुलना में अधिक समय लगता है। उदाहरण के लिए, रीज़निंग मॉडल के साथ ग्रेडिंग करने में गैर-रीज़निंग मॉडल की तुलना में दस गुना अधिक समय लग सकता है।

    • जटिल Python ग्रेडिंग फ़ंक्शन सरल फ़ंक्शनों की तुलना में चलने में अधिक समय लेते हैं।

ये सेटिंग्स तुम्हें लागत, गति, और मॉडल गुणवत्ता के बीच संतुलन बनाने की सुविधा देती हैं। उदाहरण के लिए, बार-बार सत्यापन से समस्याओं को पहले पकड़ा जा सकता है, लेकिन इससे लागत बढ़ जाती है। अधिक उन्नत मॉडल के साथ ग्रेडिंग करने से ग्रेडिंग की सटीकता में काफी सुधार हो सकता है, लेकिन यह प्रत्येक ग्रेडिंग चरण को धीमा कर देगा और कार्यों की लागत बढ़ा देगा।

लागत प्रबंधन

अपने खर्च को नियंत्रित करने के लिए:

  • अपने कॉन्फ़िगरेशन का समय पर प्रभाव समझने के लिए छोटे रन से शुरू करो।

  • उचित संख्या में सत्यापन उदाहरण और eval_samples का उपयोग करो। आवश्यकता से अधिक बार सत्यापन करने से बचो।

  • उस सबसे छोटे ग्रेडर मॉडल को चुनो जो तुम्हारी गुणवत्ता आवश्यकताओं को पूरा करता है।

  • कस्टम Python ग्रेडर्स को प्रभावी बनाए रखो।

  • compute_multiplier को समायोजित करो ताकि अभिसरण की गति और लागत के बीच संतुलन बना रहे।

  • अपने रन को डैशबोर्ड या API के जरिए मॉनिटर करो। तुम कभी भी रोक सकते हो या रद्द कर सकते हो।

उदाहरण

सफल ट्रेनिंग रन

ट्रेनिंग का समयबिलिंग समयस्थितिजानकारी
00:0000:00यूज़र API के माध्यम से RFT जॉब बनाता है
00 : 1000:00फ़ाइलों का सत्यापन हो रहा हैडेटासेट को सत्यापित करने में 10 मिनट लगे
00:3000:00फ़ाइलों का सत्यापन हो रहा है20 मिनट तक डेटासेट सुरक्षा जांच चलाना
01 : 0000:00पंक्ति मेंउपलब्ध कर्मी के लिए 30 मिनट तक प्रतीक्षा करो
01 : 3000:00रनिंग30 मिनट में ट्रेनिंग सेट अप करना (वेट्स डाउनलोड करना, प्रीप्रोसेसिंग, आदि)
05 : 3004:00रनिंग4 घंटे ट्रेनिंग में बिताए
06:0004:00रनिंगपरिणामस्वरूप मॉडल के सुरक्षा मूल्यांकन 30 मिनट तक चलाना
06:0004:00सफल रहाट्रेनिंग समाप्त होता है

इस मामले में, कुल दीवार-घड़ी समय छह घंटे है, लेकिन केवल चार घंटे बिल योग्य हैं। लागत होगी चार घंटे × $100/घंटा = $400

असफल कार्य उदाहरण

इस उदाहरण में, रन दो घंटे के लिए ट्रेन करता है, एक चेकपॉइंट लिखता है, एक और घंटे के लिए ट्रेन करता है, लेकिन फिर विफल हो जाता है। केवल चेकपॉइंट तक की दो घंटे की ट्रेनिंग बिल योग्य है।

ट्रेनिंग का समयबिलिंग समयस्थितिजानकारी
00:0000:00यूज़र API के माध्यम से RFT जॉब बनाता है
00 : 1000:00फ़ाइलों का सत्यापन हो रहा हैडेटासेट को सत्यापित करने में 10 मिनट लगे
00:3000:00फ़ाइलों का सत्यापन हो रहा है20 मिनट तक डेटासेट सुरक्षा जांच चलाना
01 : 0000:00पंक्ति मेंउपलब्ध कर्मी के लिए 30 मिनट तक प्रतीक्षा करो
01 : 3000:00रनिंग30 मिनट में ट्रेनिंग सेट अप करना (वेट्स डाउनलोड करना, प्रीप्रोसेसिंग, आदि)
03:3002:00रनिंग2 घंटे ट्रेनिंग में बिताए
03:3002:00रनिंगचरण 5 पर चेकपॉइंट बनाया गया
04 : 3002:00रनिंगआंतरिक त्रुटि के कारण ट्रेनिंग चरण 8 पर विफल हो जाती है (एक और घंटे के बाद)
04 : 3002:00रनिंगचेकपॉइंट का 30 मिनट तक मूल्यांकन और सत्यापन करना
04 : 3002:00सफल रहाकार्य (नवीनतम चेकपॉइंट के साथ) समाप्त होता है

हालांकि कुल तीन घंटे ट्रेनिंग में बिताए गए थे, केवल दो घंटे एक उपयोगी चेकपॉइंट में 'कैप्चर' किए गए हैं और बिल किए जाते हैं। विफलता के कारण खोया हुआ ट्रेनिंग का समय तुम्हारी जिम्मेदारी नहीं है। लागत 2 घंटे × $100/घंटा = $200 होगी।

अक्‍सर पूछे जाने वाले सवाल

मुझसे कब शुल्क लिया जाता है?

हम तब बिल करते हैं जब तुम्हारा रन पूरा हो जाता है, रुक जाता है, रद्द हो जाता है, या विफल हो जाता है। हर बिल पिछले बिल के बाद से किए गए काम को शामिल करता है।

क्या मुझे भुगतान करना पड़ेगा अगर कोई रन विफल हो जाता है?

यदि कोई रन हमारी गलती के कारण विफल हो जाता है और कोई हालिया ट्रेनिंग कार्य खो जाता है, तो खोए हुए हिस्से के लिए तुमसे शुल्क नहीं लिया जाएगा। अगर तुम एक रन रद्द करते हो, तो रद्दीकरण तक के काम के लिए तुमसे शुल्क लिया जाएगा।

ग्रेडर मॉडल के टोकन कैसे बिल किए जाते हैं?

हम तुम्हारे द्वारा कॉन्फ़िगर किए गए किसी भी मॉडल ग्रेडर के उपयोग किए गए टोकन की गिनती करते हैं। ट्रेनिंग समाप्त होने के बाद, हम उन टोकन्स को हमारी मानक प्रति-टोकन दरों पर बिल करते हैं।

क्या मैं एक रन को रोककर फिर से शुरू कर सकता हूँ?

हाँ. जब तुम रुकते हो, तो हम एक चेकपॉइंट सेव करते हैं और अब तक किए गए काम के लिए शुल्क लेते हैं. जब तुम फिर से शुरू करोगे, तो तुम्हें केवल फिर से शुरू करने के बाद किए गए अतिरिक्त काम के लिए ही शुल्क लिया जाएगा.

अगर आपके पास रीइन्फ़ोर्समेंट फ़ाइन-ट्यूनिंग बिलिंग के बारे में और सवाल हैं, तो हमारी सपोर्ट टीम से संपर्क करो.

क्या यह लेख मददगार था?