كيفية عمل فوترة واجهة API للضبط الدقيق بالتعزيز

كيفية عمل فوترة الضبط الدقيق بالتعزيز

تمنحك ميزة الضبط الدقيق بالتعلّم المعزّز (RFT) القدرة على رفع كفاءة نماذج الاستدلال من OpenAI عبر تقنيات التعلم بالتعزيز؛ وبخلاف عروض الضبط الأخرى لدينا الخاضعة للإشراف أو الضبط القائم على التفضيلات التي تُحتسب تكلفتها بناءً على حجم الرموز المستخدمة، فإن نظام فوترة الضبط الدقيق بالتعلّم المعزّز يرتكز حصريًّا على المدة الزمنية التي تقضيها عملية التدريب في تنفيذ مهام التعلم الآلي الجوهرية.

يوضح هذا الدليل العناصر التي تُحتسب ضمن وقت التدريب الخاضع للفوترة بصفة مفصلة، وكيفية تعاملنا مع حالات الإيقاف المؤقت والإلغاء، بالإضافة إلى مدى تأثير خيارات التكوين الخاصة بك على التكلفة الإجمالية.

الأسعار

الحوسبة: 100 دولار أمريكي لكل ساعة من الوقت الفعلي المستغرق في الحلقة التدريبية الأساسية لـ o4-mini-2025-04-16. وتُقدّر الرسوم وفقًا للمدة الزمنية بالثواني وتُقرَّب إلى منزلتين عشريتين في الفاتورة (على سبيل المثال، 2.55 ساعة).
استخدام نظام تقييم النماذج: إذا استعملت نموذج OpenAI "لتقييم" النتائج في أثناء عملية التدريب، فإن الرموز (Tokens) المستهلكة في تلك التقييمات تُحتسب بصفة منفصلة وفق أسعار واجهة برمجة التطبيقات القياسية لدينا بمجرد اكتمال التدريب.

لا نفرض رسومًا إلا على أعمال التدريب التي تُحدِّث نموذجك فعليًا (ما نسميه "التقدم المحرز والمسجل").

البنود الخاضعة للفوترة

إننا نفرض رسومًا على الوقت الذي تقضيه وحدة المعالجة في تدريب النموذج الخاص بك بشكل نشط، وتحديدًا ما يلي:

إنشاء عينات من النموذج الخاص بك خلال عملية الضبط الدقيق (المعروفة باسم "نماذج التشغيل")
تقييم تلك النتائج باستخدام نظام تقييم واحد أو أكثر ممن قمت بتحديدهم في المهمة (تعرف على المزيد حول أنظمة التقييم)
حوسبة تحديثات الأوزان وتطبيقها بناءً على التقييمات (الانتشار العكسي).
تنفيذ أي خطوات تحقق (تقييم) قمت بإعدادها.

إن معظم أنظمة التقييم "مجانية" عند التشغيل، مما يعني أننا لا نفرض رسومًا إضافية مقابل استخدامها بخلاف مقدار الوقت الذي تساهم به في حلقة التدريب الأساسية. والاستثناء من ذلك هو أنظمة التقييم القائمة على النماذج، حيث نقوم أيضًا بإحصاء الرموز (Tokens) التي تستهلكها تلك الأدوات أثناء الأنشطة المذكورة أعلاه. وتظهر هذه الرموز كبند منفصل في فاتورتك؛ إذ تتم فوترة الرموز التي تستهلكها أنظمة تقييم النماذج بأسعار الاستدلال العادية (أسعار OpenAI).

البنود غير الخاضعة للفوترة

لا نفرض رسومًا على الوقت المستغرق في ما يلي:

التحقق من صحة مجموعة البيانات الخاصة بك أو فحصها قبل بدء عملية التدريب.
فحوصات السلامة على مجموعة بياناتك.
الانتظار في قائمة للحصول على موارد الحوسبة.
تنزيل أوزان أو مجموعات بيانات النماذج.
تحضير (تهيئة) مجموعة البيانات الخاصة بك لتتناسب مع تنسيق التدريب لدينا.
تقييمات السلامة بعد التدريب لنموذجك الذي خضع للضبط الدقيق.

في حال ضياع مجهودات التدريب نتيجة خلل فني من طرفنا (على سبيل المثال، تعطل وحدة المعالجة واضطرارها للرجوع إلى نقطة استعادة مسبقة)، فإنك لن تُحاسب على زمن الحوسبة الضائع أو الرموز المستهلكة بواسطة أنظمة التقييم. يمكن الحصول على مزيد من التفاصيل حول هذا الأمر في القسم التالي.

التقدم المحرز المسجل وحالات الفوترة

تشتمل عملية التدريب على مجموعة كبيرة من التحديثات الطفيفة لنموذجك، حيث نرصد عدد العمليات التي نُفذت بنجاح. وتُحتسب الرسوم بناءً على زمن المعالجة وعدد الرموز (Tokens) المستهلكة عبر أنظمة التقييم والمقترنة حصريًّا بتلك التحديثات المكتملة.

نفرض رسومًا عند تنفيذ أحد "حالات الفوترة" التالية:

إتمام التدريب بنجاح.
إيقاف التدريب مؤقتًا من طرفك.
إلغاء التدريب من طرفك.
فشل التدريب.

يغطي كل رسم العمل الإضافي المنجز منذ آخر رسم. على سبيل المثال:

في حال إيقاف عملية التشغيل مؤقتًا، سنعمل على تخزين نقطة استعادة مع محاسبتك على زمن المعالجة ورموز أنظمة التقييم المستهلكة اعتبارًا من تاريخ آخر رسم.
عند الاستئناف، يستمر التدريب من نقطة الاستعادة؛ وسيغطي الرسم التالي (عند الاكتمال، أو إجراء إيقاف مؤقت آخر، أو الإلغاء، أو الفشل) فقط العمل الإضافي الذي تم إنجازه بعد استئناف العمل.
إذا ألغيت التشغيل، فسنفرض عليك رسومًا مقابل العمل المنجز حتى الإلغاء.
إذا فشل التدريب وفُقد العمل منذ آخر رسم، فلن تُحاسب على الجزء المفقود.

يضمن نهج "التقدم المحرز المسجل" أنك تدفع مقابل العمل الذي تم الاحتفاظ به في النموذج الخاص بك، أو مقابل العمل الذي قررت التوقف عنه بصفة متعمدة.

عرض التقدم المحرز في الوظائف

تتضمن وظائف الضبط الدقيق بالتعزيز حقلًا يسمى usage_metrics يوثق إجمالي استخدام الوظيفة حتى الخطوة الحالية. ويشمل ذلك الوقت المستغرق في التدريب، وجميع الرموز المستخدمة عبر كافة أنظمة تقييم النماذج أثناء الوظيفة. ويمكن فحص هذا الحقل عبر واجهة API ‏(GET /v1/fine_tuning/jobs/{job_id}) أو عبر لوحة معلومات الضبط الدقيق.

العوامل التي تؤثر على مدة التدريب

بما أن الفوترة تعتمد على عامل الوقت بصفة أساسية، فإن خيارات التكوين تؤثر بصفة مباشرة على التكلفة الإجمالية. تشمل العوامل الأساسية:

صعوبة المسائل: إذا كانت مجموعة البيانات تحتوي على مسائل صعبة، فمن المحتمل أن يقضي النموذج وقتًا أطول في التفكير في كل مسألة، مما يزيد من الوقت اللازم لإنتاج كل عينة.
كثافة الحوسبة: يتحكم معامل compute_multiplier في كمية العمليات الحسابية التي يتم تنفيذها في كل خطوة تدريب. تحديد قيم أعلى يدفع النموذج إلى استخدام التفكير المنطقي المتعمق لكل نقطة بيانات، مما يؤدي إلى بطء في تنفيذ كل خطوة.
إعدادات التحقق:
- يؤدي زيادة حجم مجموعة التحقق إلى زيادة الوقت المستغرق في التقييم.
- زيادة قيمة eval_samples (عدد النتائج التي يقدمها النموذج وتكون خاضعة للتقييم لكل مثال تحقق) تؤدي إلى زيادة وقت التحقق.
- يؤدي إجراء التحقق بشكل متكرر أكثر (خفض قيمة eval_interval) إلى زيادة نسبة الوقت المستغرق في التحقق.
أداء نظام التقييم:
- تستغرق أنظمة تقييم النماذج الأكبر أو الأكثر قدرة وقتًا أطول لتقديم درجة التقييم مقارنة بالنماذج الأصغر. على سبيل المثال، قد يستغرق التقييم باستخدام نموذج يعتمد على الاستدلال وقتًا أطول بمقدار 10 مرات مقارنةً بالتقييم باستخدام نموذج لا يعتمد على الاستدلال.
- تستغرق دوال التقييم المعقدة في Python وقتًا أطول للتشغيل مقارنةً بالدوال البسيطة.

تسمح لك هذه الإعدادات بالموازنة بين التكلفة، والسرعة، وجودة النموذج بصفة دقيقة؛ فعلى سبيل المثال، يساهم التحقق المتكرر في اكتشاف المشكلات بصفة مبكرة، ولكنه يؤدي إلى زيادة التكلفة. كما أن إجراء التقييم باستخدام نموذج أكثر تقدمًا يمكن أن يحسن دقة النتائج بصفة كبيرة، إلا أنه سيبطئ كل خطوة تقييمية ويجعل المهام أكثر تكلفةً.

إدارة التكاليف

للتحكم في نفقاتك:

ابدأ بتجارب أقصر لفهم كيفية تأثير تكوينك على الوقت المستغرق.
استخدم عددًا معقولًا من أمثلة التحقق وeval_samples. تجنب التحقق بشكل متكرر أكثر مما هو ضروري.
اختر أصغر نموذج تقييم يلبي متطلبات الجودة لديك.
حافظ على كفاءة أنظمة التقييم المصممة بلغة (Python).
قم بتعديل compute_multiplier للموازنة بين سرعة التقارب والتكلفة.
تابع مسار التشغيل عبر لوحة التحكم أو بواسطة واجهة API؛ حيث يمكنك إيقاف العملية مؤقتًا أو إلغاؤها في أي وقت.

أمثلة

تشغيل ناجح للتدريب

وقت التدريب	الوقت الخاضع للفوترة	الحالة	الوصف
00:00	00:00	–	ينشئ وظيفة الضبط الدقيق بالتعزيز عبر واجهة API
00:10	00:00	VALIDATING_FILES	10 دقائق للتحقق من صحة مجموعة البيانات
00:30	00:00	VALIDATING_FILES	20 دقيقة لإجراء فحوصات سلامة مجموعة البيانات
01:00	00:00	QUEUED	30 دقيقة انتظار لحين العثور على وحدة معالجة متاحة
01:30	00:00	RUNNING	30 دقيقة لإعداد التدريب (تنزيل الأوزان، والمعالجة المسبقة، إلخ.)
05:30	04:00	RUNNING	4 ساعات للتدريب
06:00	04:00	RUNNING	30 دقيقة لإجراء تقييمات السلامة للنموذج الناتج
06:00	04:00	SUCCEEDED	انتهاء التدريب

في هذه الحالة، يكون إجمالي الوقت الفعلي ٦ ساعات، ولكن فقط ٤ ساعات منها خاضعة للفوترة. التكلفة ستكون 4 ساعات × 100 دولار/ساعة = 400 دولار.

مثال على وظيفة لم تكتمل بنجاح

في هذا المثال، يستمر التدريب لمدة ساعتين، ثم تُحدد نقطة استعادة، ثم يستمر لمدة ساعة إضافية، لكنه يفشل بعد ذلك. لن يكون خاضعًا للفوترة سوى مدة ساعتي التدريب حتى نقطة الاستعادة.

وقت التدريب	الوقت الخاضع للفوترة	الحالة	الوصف
00:00	00:00	–	ينشئ وظيفة الضبط الدقيق بالتعزيز عبر واجهة API
00:10	00:00	VALIDATING_FILES	10 دقائق للتحقق من صحة مجموعة البيانات
00:30	00:00	VALIDATING_FILES	20 دقيقة لإجراء فحوصات سلامة مجموعة البيانات
01:00	00:00	QUEUED	30 دقيقة انتظار لحين العثور على وحدة معالجة متاحة
01:30	00:00	RUNNING	30 دقيقة لإعداد التدريب (تنزيل الأوزان، والمعالجة المسبقة، إلخ.)
03:30	02:00	RUNNING	ساعتان للتدريب
03:30	02:00	RUNNING	تم إنشاء نقطة الاستعادة في الخطوة 5
04:30	02:00	RUNNING	يفشل التدريب بسبب خطأ داخلي في الخطوة 8 (بعد ساعة إضافية)
04:30	02:00	RUNNING	30 دقيقة للتقييم والتحقق من نقطة الاستعادة
04:30	02:00	SUCCEEDED	اكتملت الوظيفة (مع أحدث نقطة استعادة)

على الرغم من استهلاك ثلاث ساعات في عملية التدريب بصفة إجمالية، إلا أن ساعتين فقط تُعدان "مسجلتين" ضمن نقطة تحقق قابلة للاستخدام، ومن ثم تخضعان للفوترة. ويعد فقدان ساعة العمل التدريبي نتيجة الفشل أمرًا خارج نطاق مسؤوليتك. ستكون التكلفة 2 ساعة × 100 دولار/ساعة = 200 دولار.

الأسئلة الشائعة

متى تُخصم مني الرسوم؟

نجري عملية بالفوترة عند اكتمال التشغيل أو إيقافه مؤقتًا أو إلغائه أو فشله. وتغطي كل فاتورة العمل المنجز منذ الفاتورة السابقة.

هل يتعيّن عليّ الدفع إذا فشلت عملية التشغيل؟

إذا فشل التشغيل نتيجة خطأ من جانبنا وفُقد أي عمل تدريبي حديث، فلن تُفرض عليك أي رسوم بخصوص الجزء المفقود. أما في حالة إلغاء التشغيل من طرفك، فسيجري تحصيل الرسوم مقابل العمل المنجز حتى لحظة الإلغاء.

كيف تتم الفوترة مقابل رموز (Tokens) نموذج التقييم؟

نحسب عدد الرموز التي يستخدمها أي من نماذج التقييم التي تقوم بتكوينها. وبعد انتهاء التدريب، نقوم بفوترة تلك الرموز وفقًا لأسعارنا القياسية لكل رمز.

هل يمكنني إيقاف التشغيل مؤقتًا واستئنافه؟

نعم. عند التوقف المؤقت، نحفظ لك نقطة استعادة ونتقاضى رسومًا عن العمل المنجز حتى تلك اللحظة. وعند استئناف العمل، سيتم تحصيل الرسوم فقط عن العمل الإضافي الذي يتم بعد الاستئناف.

إذا كانت لديك أسئلة أخرى حول فوترة الضبط الدقيق بالتعزيز، يرجى التواصل مع فريق الدعم لدينا.

دليل فوترة واجهة API للضبط الدقيق بالتعزيز

كيفية عمل فوترة الضبط الدقيق بالتعزيز

الأسعار

البنود الخاضعة للفوترة

البنود غير الخاضعة للفوترة

التقدم المحرز المسجل وحالات الفوترة

عرض التقدم المحرز في الوظائف

العوامل التي تؤثر على مدة التدريب

إدارة التكاليف

أمثلة

تشغيل ناجح للتدريب

مثال على وظيفة لم تكتمل بنجاح

الأسئلة الشائعة

متى تُخصم مني الرسوم؟

هل يتعيّن عليّ الدفع إذا فشلت عملية التشغيل؟

كيف تتم الفوترة مقابل رموز (Tokens) نموذج التقييم؟

هل يمكنني إيقاف التشغيل مؤقتًا واستئنافه؟

هل كانت هذه المقالة مفيدة؟