คำถามที่พบบ่อยเกี่ยวกับ Audio API

คำถามทั่วไปเกี่ยวกับ Whisper, speech to text และ Audio API

Audio API รองรับ endpoint สำหรับการแปลงเสียงเป็นข้อความ 2 รายการ:

transcriptions
translations

หากต้องการเริ่มต้นใช้งาน Audio API โปรดอ่านเอกสารสำหรับนักพัฒนาเกี่ยวกับการแปลงเสียงเป็นข้อความของเรา

การใช้งาน Audio API มีค่าใช้จ่ายเท่าใด

ดูรายละเอียดได้ที่หน้าราคาของเรา

รองรับภาษาใดบ้าง

ดูรายการภาษาที่รองรับได้ที่นี่

เราจะจัดการไฟล์เสียงขนาดใหญ่ได้อย่างไร

สำหรับการอัปโหลดการถอดเสียงผ่าน legacy/whisper-1 Audio API ขนาดคำขอสูงสุดคือ 25 MiB เส้นทางการถอดเสียง gpt-4o ที่ใหม่กว่าอาจใช้การตรวจสอบที่ต่างออกไป เช่น ข้อจำกัดด้านระยะเวลาหรือ Token ดังนั้นโปรดตรวจสอบเอกสารเฉพาะของโมเดลเมื่อจัดการอินพุตเสียงยาวจากผู้ใช้

มีวิธีการสตรีมแบบใดบ้าง

คุณสามารถสตรีมการถอดเสียงได้ 2 วิธี ขึ้นอยู่กับกรณีการใช้งานของคุณ และขึ้นอยู่กับว่าคุณกำลังพยายามถอดเสียงจากไฟล์เสียงที่บันทึกเสร็จแล้ว หรือจัดการสตรีมเสียงที่กำลังดำเนินอยู่และใช้ OpenAI สำหรับการตรวจจับรอบการพูด:

โปรดทราบว่าโมเดล whisper-1 ไม่รองรับการสตรีม

รองรับรูปแบบไฟล์ใดบ้าง

รูปแบบไฟล์ที่รองรับระบุไว้ในเอกสาร API ของเรา

ฉันสามารถส่งลิงก์ไปยังไฟล์เสียงให้ Audio API ได้หรือไม่

ไม่ได้ คุณต้องส่งไฟล์ในรูปแบบเสียงที่รองรับรูปแบบใดรูปแบบหนึ่ง

คำถามที่พบบ่อยเกี่ยวกับ Audio API

บทความนี้มีประโยชน์หรือไม่