Часто задаваемые вопросы об Audio API

Общие вопросы о Whisper, преобразовании речи в текст и Audio API

Audio API поддерживает две конечные точки для преобразования речи в текст:

transcriptions
translations

Чтобы начать работу с Audio API, ознакомьтесь с нашей документацией для разработчиков по преобразованию речи в текст.

Сколько стоит использование Audio API?

Подробнее см. на нашей странице с ценами.

Какие языки поддерживаются?

Список поддерживаемых языков можно посмотреть здесь.

Как обрабатывать большие аудиофайлы?

Для загрузок транскрипции через устаревший Audio API/whisper-1 максимальный размер запроса составляет 25 МиБ. Более новые маршруты транскрипции gpt-4o могут использовать другую проверку, например ограничения по длительности или токенам, поэтому при обработке длинных аудиозаписей пользователей обращайтесь к документации по конкретной модели.

Какие методы потоковой передачи доступны?

Существует два способа потоковой передачи транскрипции — в зависимости от вашего сценария использования и от того, хотите ли вы транскрибировать уже завершенную аудиозапись или обрабатывать текущий аудиопоток и использовать OpenAI для обнаружения смены реплик:

Обратите внимание, что потоковая передача не поддерживается для модели whisper-1.

Какие форматы файлов поддерживаются?

Поддерживаемые форматы файлов указаны в нашей документации API.

Можно ли отправлять ссылки на аудиофайлы в Audio API?

Нет, необходимо отправить файл в одном из поддерживаемых аудиоформатов.

Часто задаваемые вопросы об Audio API

Была ли эта статья полезной?