OpenAI
หน้านี้แปลด้วยระบบอัตโนมัติ ดูต้นฉบับภาษาอังกฤษ.

คำถามที่พบบ่อยเกี่ยวกับ Audio API

คำถามทั่วไปเกี่ยวกับ Whisper, speech to text และ Audio API

อัปเดตล่าสุด: yesterday

Audio API รองรับ endpoint สำหรับแปลงเสียงเป็นข้อความ 2 รายการ:

  • transcriptions

  • translations

หากต้องการเริ่มต้นใช้งาน Audio API โปรดอ่านเอกสารสำหรับนักพัฒนาเกี่ยวกับการแปลงเสียงเป็นข้อความของเรา

การใช้งาน Audio API มีค่าใช้จ่ายเท่าไร?

ดูรายละเอียดได้ที่หน้าราคาของเรา

รองรับภาษาใดบ้าง?

ดูรายการภาษาที่รองรับได้ที่นี่

จะจัดการไฟล์เสียงขนาดใหญ่ได้อย่างไร?

สำหรับการอัปโหลดถอดเสียงผ่าน Audio API ของ legacy/whisper-1 ขนาดคำขอสูงสุดคือ 25 MiB ส่วนเส้นทางการถอดเสียง gpt-4o รุ่นใหม่อาจใช้การตรวจสอบคนละแบบ เช่น ขีดจำกัดด้านระยะเวลาหรือ Token ดังนั้นเมื่อจัดการอินพุตเสียงยาวจากผู้ใช้ โปรดตรวจสอบเอกสารเฉพาะของโมเดล

มีวิธีสตรีมแบบใดบ้าง?

คุณสามารถสตรีมการถอดเสียงได้ 2 วิธี ขึ้นอยู่กับกรณีการใช้งาน และขึ้นอยู่กับว่าคุณต้องการถอดเสียงจากไฟล์บันทึกเสียงที่เสร็จแล้ว หรือจัดการสตรีมเสียงที่กำลังดำเนินอยู่และใช้ OpenAI สำหรับการตรวจจับช่วงพูด:

โปรดทราบว่าไม่รองรับการสตรีมกับโมเดล whisper-1

รองรับรูปแบบไฟล์ใดบ้าง?

รูปแบบไฟล์ที่รองรับระบุไว้ในเอกสาร API ของเรา

ฉันส่งลิงก์ไปยังไฟล์เสียงให้ Audio API ได้หรือไม่?

ไม่ได้ คุณต้องส่งไฟล์ในรูปแบบเสียงที่รองรับรูปแบบใดรูปแบบหนึ่ง

บทความนี้มีประโยชน์หรือไม่