Поширені запитання про Audio API

Загальні запитання про Whisper, перетворення мовлення на текст та Audio API

Audio API підтримує дві кінцеві точки перетворення мовлення на текст:

transcriptions
translations

Щоб почати роботу з Audio API, ознайомтеся з нашою документацією для розробників щодо перетворення мовлення на текст.

Скільки коштує використання Audio API?

Докладніше див. на нашій сторінці з цінами.

Які мови підтримуються?

Перегляньте список підтримуваних мов тут.

Як обробляти великі аудіофайли?

Для завантажень транскрипції Audio API legacy/whisper-1 максимальний розмір запиту становить 25 MiB. Новіші маршрути транскрипції gpt-4o можуть використовувати іншу перевірку, наприклад обмеження за тривалістю або кількістю токенів, тому під час обробки довгих аудіовхідних даних від користувачів звіряйтеся з документацією для конкретної моделі.

Які методи потокової передачі доступні?

Є два способи потоково передавати транскрипцію залежно від вашого сценарію використання та від того, чи ви транскрибуєте вже завершений аудіозапис, чи обробляєте поточний аудіопотік і використовуєте OpenAI для виявлення черги мовлення:

Зверніть увагу, що потокова передача не підтримується з моделлю whisper-1.

Які формати файлів підтримуються?

Підтримувані формати файлів наведено у нашій документації API.

Чи можна надсилати посилання на аудіофайли до Audio API?

Ні, потрібно надіслати файл в одному з підтримуваних аудіоформатів.

Поширені запитання про Audio API

Чи була ця стаття корисною?