RFT API-এর জন্য বিলিং কীভাবে কাজ করে

RFT-এর বিল কীভাবে নির্ধারিত হয়

রিইনফোর্সমেন্ট ফাইন-টিউনিং (RFT) আপনাকে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে OpenAI-এর যুক্তি-ভিত্তিক মডেলগুলোর কর্মক্ষমতা উন্নত করতে দেয়. আমাদের সুপারভাইজড বা প্রেফারেন্স ফাইন-টিউনিং সেবাগুলোর ক্ষেত্রে প্রশিক্ষণ ডেটাসেটে থাকা টোকেনের সংখ্যার ভিত্তিতে বিল নির্ধারিত হয়; কিন্তু RFT-এর ক্ষেত্রে আপনার প্রশিক্ষণ রান মূল মেশিন লার্নিং কাজ করতে যত সময় ব্যয় করে, তার ভিত্তিতে বিল নির্ধারিত হয়.

এই গাইডে ব্যাখ্যা করা হয়েছে কোন কোন বিষয় বিলযোগ্য প্রশিক্ষণ সময়ের মধ্যে পড়ে, আমরা কীভাবে পজ ও বাতিলকরণ সামলাই, এবং আপনার কনফিগারেশন পছন্দগুলো কীভাবে খরচকে প্রভাবিত করতে পারে.

মূল্য নির্ধারণ

কম্পিউট: o4-mini-2025-04-16 এর জন্য কোর ট্রেনিং লুপে ব্যয় হওয়া প্রতি ঘণ্টা ওয়াল-ক্লক সময়ের মূল্য $100। চার্জ সেকেন্ড পর্যন্ত প্রোরেট করা হয় এবং ইনভয়েসে দুই দশমিক স্থানে রাউন্ড করা হয় (যেমন, 2.55 ঘণ্টা).
মডেল গ্রেডার ব্যবহার: প্রশিক্ষণের সময় আউটপুট “গ্রেড” করতে আপনি যদি OpenAI মডেল ব্যবহার করেন, তাহলে ওই গ্রেডিং কলগুলোতে ব্যবহৃত টোকেনের বিল প্রশিক্ষণ শেষ হওয়ার পর আমাদের স্ট্যান্ডার্ড API রেটে আলাদাভাবে করা হয়.

আমরা শুধু সেই প্রশিক্ষণ কাজের জন্যই চার্জ করি যা বাস্তবে আপনার মডেলকে আপডেট করে (যাকে আমরা "captured forward progress" বলি).

যার জন্য আমরা বিল করি

আপনার প্রশিক্ষণ ওয়ার্কার আপনার মডেল সক্রিয়ভাবে প্রশিক্ষণ দিতে যে সময় ব্যয় করে, আমরা তার জন্য বিল করি, বিশেষ করে:

ফাইন-টিউনিং প্রক্রিয়ায় আপনার মডেল থেকে নমুনা তৈরি করা (“রোলআউট” নামে পরিচিত)
জবে আপনার নির্ধারিত এক বা একাধিক গ্রেডার দিয়ে সেই আউটপুটগুলো মূল্যায়ন করা (গ্রেডার সম্পর্কে আরও জানুন)
গ্রেডের ভিত্তিতে ওয়েট আপডেট গণনা ও প্রয়োগ করা (ব্যাকপ্রোপাগেশন).
আপনার কনফিগার করা যেকোনো ভ্যালিডেশন (মূল্যায়ন) ধাপ চালানো.

বেশিরভাগ গ্রেডার চালানো “বিনামূল্যে”, অর্থাৎ মূল প্রশিক্ষণ লুপে তারা যে সময় যোগ করে তার বাইরে তাদের ব্যবহারের জন্য আমরা অতিরিক্ত চার্জ করি না. এর ব্যতিক্রম হলো মডেল গ্রেডার, যেখানে ওপরের কার্যক্রমের সময় ওই গ্রেডারগুলো যে টোকেন ব্যবহার করে সেগুলোও আমরা গণনা করি. এই টোকেনগুলো আপনার ইনভয়েসে আলাদা লাইন আইটেম হিসেবে দেখা যায়. মডেল গ্রেডার দ্বারা ব্যবহৃত টোকেনের বিল স্বাভাবিক ইনফারেন্স রেটে করা হয় (OpenAI মূল্য).

আমরা কোন কিছুর জন্য বিল করি না

নিচের কাজে ব্যয় হওয়া সময়ের জন্য আমরা চার্জ করি না:

প্রশিক্ষণ শুরু হওয়ার আগে আপনার ডেটাসেট ভ্যালিডেট বা পরিদর্শন করা.
আপনার ডেটাসেটের নিরাপত্তা পরীক্ষা.
কম্পিউট রিসোর্সের জন্য কিউতে অপেক্ষা করা.
মডেল ওয়েট বা ডেটাসেট ডাউনলোড করা.
আমাদের ট্রেনিং ফরম্যাটে আপনার ডেটাসেট প্রস্তুত (রেন্ডার) করা.
আপনার ফাইন-টিউন করা মডেলের পোস্ট-ট্রেনিং নিরাপত্তা মূল্যায়ন.

আমাদের দিকের কোনো ত্রুটির কারণে যদি প্রশিক্ষণ কাজ হারিয়ে যায় (উদাহরণস্বরূপ, কোনো ওয়ার্কার ক্র্যাশ করলে এবং তাকে আগের চেকপয়েন্টে রোল ব্যাক করতে হলে), হারানো কম্পিউট সময় বা গ্রেডার টোকেনের জন্য আপনাকে চার্জ করা হবে না। এ বিষয়ে আরও বিস্তারিত পরের অংশে রয়েছে.

Captured forward progress এবং বিলিং ইভেন্ট

প্রশিক্ষণ আপনার মডেলে অনেক ছোট আপডেট নিয়ে গঠিত। আমরা ট্র্যাক করি এর মধ্যে কতগুলো আপডেট সফলভাবে সম্পন্ন হয়। চার্জ নির্ধারিত হয় এই সফল আপডেটগুলোর সঙ্গে সম্পর্কিত কম্পিউট সময় এবং গ্রেডার টোকেনের ভিত্তিতে.

নিচের যেকোনো একটি "billing events" ঘটলে আমরা চার্জ আরোপ করি:

প্রশিক্ষণ সফলভাবে সম্পন্ন হয়.
আপনি প্রশিক্ষণ পজ করেন.
আপনি প্রশিক্ষণ বাতিল করেন.
প্রশিক্ষণ ব্যর্থ হয়.

প্রতিটি চার্জ শেষ চার্জের পর থেকে সম্পন্ন অতিরিক্ত কাজকে কভার করে। উদাহরণস্বরূপ:

আপনি যদি কোনো রান পজ করেন, আমরা একটি চেকপয়েন্ট সংরক্ষণ করি এবং শেষ চার্জের পর থেকে ব্যবহৃত কম্পিউট সময় ও গ্রেডার টোকেনের জন্য আপনাকে চার্জ করি.
আপনি পুনরায় শুরু করলে, প্রশিক্ষণ চেকপয়েন্ট থেকে চলতে থাকে। পরবর্তী চার্জটি (সমাপ্তি, আরেকটি পজ, বাতিলকরণ বা ব্যর্থতায়) পুনরায় শুরু করার পর হওয়া অতিরিক্ত কাজকেই কভার করবে.
আপনি যদি কোনো রান বাতিল করেন, আমরা বাতিল করার আগ পর্যন্ত সম্পন্ন কাজের জন্য চার্জ করি.
প্রশিক্ষণ ব্যর্থ হলে এবং শেষ চার্জের পরের কাজ হারিয়ে গেলে, হারানো অংশের জন্য আপনাকে বিল করা হবে না.

এই "captured forward progress" পদ্ধতি নিশ্চিত করে যে আপনি শুধু সেই কাজের জন্যই অর্থ দেন যা আপনার মডেলে রয়ে যায় অথবা যা আপনি ইচ্ছাকৃতভাবে পরিত্যাগ করেন.

জবের অগ্রগতি দেখা

RFT জবগুলিতে usage_metrics নামে একটি ফিল্ড থাকে, যা বর্তমান ধাপ পর্যন্ত জবের মোট ব্যবহার নথিভুক্ত করে. এর মধ্যে প্রশিক্ষণে ব্যয় করা সময় এবং জবের সব মডেল গ্রেডার জুড়ে ব্যবহৃত সব টোকেন অন্তর্ভুক্ত. এই ফিল্ডটি API (GET /v1/fine_tuning/jobs/{job_id}) অথবা ফাইন-টিউনিং ড্যাশবোর্ডের মাধ্যমে দেখা যায়.

যে বিষয়গুলো প্রশিক্ষণ সময়কে প্রভাবিত করে

বিলিং যেহেতু সময়ভিত্তিক, তাই আপনার কনফিগারেশন পছন্দগুলো সরাসরি খরচকে প্রভাবিত করে। প্রধান বিষয়গুলো হলো:

সমস্যার কঠিনতা: আপনার ডেটাসেটে যদি কঠিন সমস্যা থাকে, তাহলে মডেল সম্ভবত প্রতিটি সমস্যার ওপর বেশি সময় ধরে রিজনিং করবে, ফলে প্রতিটি স্যাম্পল তৈরি করতে বেশি সময় লাগবে.
কম্পিউটের তীব্রতা: compute_multiplier হাইপারপ্যারামিটারটি প্রতিটি ট্রেনিং ধাপে আপনি কতটা কম্পিউট করবেন তা নিয়ন্ত্রণ করে। উচ্চ মান মডেলকে প্রতিটি ডেটাপয়েন্ট নিয়ে আরও বিস্তারিতভাবে রিজনিং করতে উৎসাহিত করে, ফলে প্রতিটি ধাপ ধীরে চলে.
ভ্যালিডেশন সেটিংস:
- বড় ভ্যালিডেশন সেট মূল্যায়নে ব্যয় হওয়া সময় বাড়ায়.
- eval_samples বাড়ালে (প্রতি ভ্যালিডেশন উদাহরণের জন্য গ্রেড করা মডেল আউটপুটের সংখ্যা) ভ্যালিডেশন সময় বাড়ে.
- আরও ঘন ঘন ভ্যালিডেশন চালালে (কম eval_interval) ভ্যালিডেশনে ব্যয় হওয়া সময়ের অনুপাত বাড়ে.
গ্রেডারের কর্মক্ষমতা:
- বড় বা বেশি সক্ষম মডেল গ্রেডারগুলো ছোটগুলোর তুলনায় গ্রেড ফেরত দিতে বেশি সময় নেয়। উদাহরণস্বরূপ, রিজনিং মডেল দিয়ে গ্রেডিং করতে নন-রিজনিং মডেলের তুলনায় 10x বেশি সময় লাগতে পারে.
- জটিল Python গ্রেডিং ফাংশন সাধারণগুলোর তুলনায় চালাতে বেশি সময় নেয়.

এই সেটিংসগুলো আপনাকে খরচ, গতি এবং মডেলের মানের মধ্যে ভারসাম্য করার সুযোগ দেয়। উদাহরণস্বরূপ, ঘন ঘন ভ্যালিডেশন সমস্যাগুলো আগে ধরতে পারে, কিন্তু খরচ বাড়ায়। আরও উন্নত মডেল দিয়ে গ্রেডিং করলে গ্রেডিংয়ের নির্ভুলতা অনেক বেড়ে যেতে পারে, কিন্তু এতে প্রতিটি গ্রেডিং ধাপ ধীর হবে এবং জব আরও ব্যয়বহুল হবে.

খরচ ব্যবস্থাপনা

আপনার ব্যয় নিয়ন্ত্রণ করতে:

ছোট রান দিয়ে শুরু করুন, যাতে বুঝতে পারেন আপনার কনফিগারেশন সময়কে কীভাবে প্রভাবিত করে.
ভ্যালিডেশন উদাহরণ এবং eval_samples যুক্তিসঙ্গত সংখ্যায় ব্যবহার করুন। প্রয়োজনের চেয়ে বেশি ঘন ঘন ভ্যালিডেট করা এড়িয়ে চলুন.
আপনার মানগত চাহিদা পূরণ করে এমন সবচেয়ে ছোট গ্রেডার মডেলটি বেছে নিন.
কাস্টম Python গ্রেডারগুলোকে দক্ষ রাখুন.
কনভার্জেন্সের গতি ও খরচের মধ্যে ভারসাম্য রাখতে compute_multiplier সমন্বয় করুন.
ড্যাশবোর্ডে বা API-এর মাধ্যমে আপনার রান পর্যবেক্ষণ করুন। আপনি যেকোনো সময় পজ বা বাতিল করতে পারেন.

উদাহরণসমূহ

সফল প্রশিক্ষণ রান

প্রশিক্ষণের সময়	বিলযোগ্য সময়	অবস্থা	বিবরণ
00:00	00:00	–	ব্যবহারকারী API দিয়ে RFT জব তৈরি করেন
00:10	00:00	VALIDATING_FILES	ডেটাসেট যাচাই করতে 10 মিনিট ব্যয়
00:30	00:00	VALIDATING_FILES	ডেটাসেট নিরাপত্তা পরীক্ষা চালাতে 20 মিনিট
01:00	00:00	QUEUED	উপলব্ধ ওয়ার্কারের জন্য 30 মিনিট অপেক্ষা
01:30	00:00	RUNNING	প্রশিক্ষণ সেট আপ করতে 30 মিনিট (ওয়েট ডাউনলোড, প্রিপ্রসেসিং ইত্যাদি)
05:30	04:00	RUNNING	প্রশিক্ষণে 4 ঘণ্টা ব্যয়
06:00	04:00	RUNNING	ফলাফল মডেলের নিরাপত্তা মূল্যায়ন চালাতে 30 মিনিট
06:00	04:00	SUCCEEDED	প্রশিক্ষণ শেষ হয়

এই ক্ষেত্রে, মোট ওয়াল-ক্লক সময় 6 ঘণ্টা, কিন্তু বিলযোগ্য মাত্র 4 ঘণ্টা. খরচ হবে 4 ঘণ্টা × $100/ঘণ্টা = $400.

ব্যর্থ জবের উদাহরণ

এই উদাহরণে, রানটি 2 ঘণ্টা প্রশিক্ষণ দেয়, একটি চেকপয়েন্ট লেখে, আরও 1 ঘণ্টা প্রশিক্ষণ দেয়, কিন্তু তারপর ব্যর্থ হয়. চেকপয়েন্ট পর্যন্ত 2 ঘণ্টার প্রশিক্ষণই শুধু বিলযোগ্য.

প্রশিক্ষণের সময়	বিলযোগ্য সময়	অবস্থা	বিবরণ
00:00	00:00	–	ব্যবহারকারী API দিয়ে RFT জব তৈরি করেন
00:10	00:00	VALIDATING_FILES	ডেটাসেট যাচাই করতে 10 মিনিট ব্যয়
00:30	00:00	VALIDATING_FILES	ডেটাসেট নিরাপত্তা পরীক্ষা চালাতে 20 মিনিট
01:00	00:00	QUEUED	উপলব্ধ ওয়ার্কারের জন্য 30 মিনিট অপেক্ষা
01:30	00:00	RUNNING	প্রশিক্ষণ সেট আপ করতে 30 মিনিট (ওয়েট ডাউনলোড, প্রিপ্রসেসিং ইত্যাদি)
03:30	02:00	RUNNING	প্রশিক্ষণে 2 ঘণ্টা ব্যয়
03:30	02:00	RUNNING	ধাপ 5-এ চেকপয়েন্ট তৈরি হয়েছে
04:30	02:00	RUNNING	ধাপ 8-এ অভ্যন্তরীণ ত্রুটির কারণে প্রশিক্ষণ ব্যর্থ হয় (আরও 1 ঘণ্টা পরে)
04:30	02:00	RUNNING	চেকপয়েন্ট মূল্যায়ন ও যাচাই করতে 30 মিনিট
04:30	02:00	SUCCEEDED	জব শেষ হয় (সর্বশেষ চেকপয়েন্টসহ)

মোট 3 ঘণ্টা প্রশিক্ষণে ব্যয় হলেও, শুধু 2 ঘণ্টাই ব্যবহারযোগ্য চেকপয়েন্টে "ধরা" আছে এবং বিল করা হয়. ব্যর্থতার কারণে হারানো এক ঘণ্টার প্রশিক্ষণ কাজের দায় আপনার নয়. খরচ হবে 2 ঘণ্টা × $100/ঘণ্টা = $200.

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

আমাকে কখন চার্জ করা হয়?

আপনার রান সম্পন্ন হলে, পজ করা হলে, বাতিল হলে বা ব্যর্থ হলে আমরা বিল করি. প্রতিটি বিল আগের বিলের পর থেকে করা কাজের জন্য হয়.

রান ব্যর্থ হলে কি আমাকে পেমেন্ট করতে হবে?

আমাদের ত্রুটির কারণে কোনো রান ব্যর্থ হলে এবং সাম্প্রতিক কোনো প্রশিক্ষণ কাজ হারিয়ে গেলে, হারানো অংশের জন্য আপনাকে চার্জ করা হয় না. আপনি কোনো রান বাতিল করলে, বাতিল করা পর্যন্ত করা কাজের জন্য আপনাকে চার্জ করা হয়.

গ্রেডার মডেল টোকেনের বিল কীভাবে করা হয়?

আপনার কনফিগার করা যেকোনো মডেল গ্রেডার যে টোকেন ব্যবহার করে, আমরা সেগুলো গণনা করি. প্রশিক্ষণ শেষ হলে, আমরা আমাদের স্ট্যান্ডার্ড প্রতি-টোকেন রেটে সেই টোকেনগুলোর বিল করি.

আমি কি কোনো রান পজ করে আবার শুরু করতে পারি?

হ্যাঁ. আপনি পজ করলে, আমরা একটি চেকপয়েন্ট সংরক্ষণ করি এবং ওই পর্যন্ত করা কাজের জন্য চার্জ করি. আপনি আবার শুরু করলে, আবার শুরু করার পর করা অতিরিক্ত কাজের জন্যই শুধু আপনাকে চার্জ করা হবে.

Reinforcement Fine‑Tuning বিলিং সম্পর্কে আপনার অন্য প্রশ্ন থাকলে, আমাদের সহায়তা টিমের সাথে যোগাযোগ করুন.

রিইনফোর্সমেন্ট ফাইন টিউনিং API-এর জন্য বিলিং গাইড

RFT-এর বিল কীভাবে নির্ধারিত হয়

মূল্য নির্ধারণ

যার জন্য আমরা বিল করি

আমরা কোন কিছুর জন্য বিল করি না

Captured forward progress এবং বিলিং ইভেন্ট

জবের অগ্রগতি দেখা

যে বিষয়গুলো প্রশিক্ষণ সময়কে প্রভাবিত করে

খরচ ব্যবস্থাপনা

উদাহরণসমূহ

সফল প্রশিক্ষণ রান

ব্যর্থ জবের উদাহরণ

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

আমাকে কখন চার্জ করা হয়?

রান ব্যর্থ হলে কি আমাকে পেমেন্ট করতে হবে?

গ্রেডার মডেল টোকেনের বিল কীভাবে করা হয়?

আমি কি কোনো রান পজ করে আবার শুরু করতে পারি?

এই নিবন্ধটি কি সহায়ক ছিল?