الأسئلة الشائعة حول Audio API

أسئلة عامة حول Whisper وتحويل الكلام إلى نص وAudio API

تدعم واجهة برمجة تطبيقات الصوت نقطتي نهاية لتحويل الكلام إلى نص:

transcriptions
translations

للبدء باستخدام واجهة برمجة تطبيقات الصوت، يُرجى قراءة وثائق المطوّرين لتحويل الكلام إلى نص لدينا.

ما تكلفة استخدام واجهة برمجة تطبيقات الصوت؟

راجع صفحة التسعير لدينا للاطّلاع على التفاصيل.

ما اللغات المدعومة؟

اعرض قائمة باللغات المدعومة هنا.

كيف يمكننا التعامل مع الملفات الصوتية الكبيرة؟

بالنسبة إلى عمليات تحميل النسخ في واجهة برمجة تطبيقات الصوت legacy/whisper-1، يبلغ الحد الأقصى لحجم الطلب 25 MiB. قد تستخدم مسارات نسخ gpt-4o الأحدث طرق تحقق مختلفة، مثل حدود المدة أو الرموز، لذا راجع الوثائق الخاصة بالنموذج عند التعامل مع إدخالات صوتية طويلة من المستخدمين.

ما طرق البث المتاحة؟

هناك طريقتان يمكنك بهما بث النسخ بناءً على حالة الاستخدام لديك، وما إذا كنت تحاول نسخ تسجيل صوتي مكتمل بالفعل أو التعامل مع بث صوتي جارٍ واستخدام OpenAI لاكتشاف الدور:

لاحظ أن البث غير مدعوم مع نموذج whisper-1.

ما تنسيقات الملفات المدعومة؟

ترد تنسيقات الملفات المدعومة في وثائق API لدينا.

هل يمكنني إرسال روابط إلى ملفات صوتية إلى واجهة برمجة تطبيقات الصوت؟

لا، يجب عليك إرسال ملف بأحد تنسيقات الصوت المدعومة.

الأسئلة الشائعة حول Audio API

هل كانت هذه المقالة مفيدة؟