La API de Audio admite dos puntos de acceso de voz a texto:
transcriptionstranslations
Para comenzar con la API de Audio, lee nuestra documentación para desarrolladores sobre voz a texto.
¿Cuánto cuesta usar la API de Audio?
Consulta nuestra página de precios para obtener más detalles.
¿Qué idiomas son compatibles?
Consulta una lista de idiomas compatibles aquí.
¿Cómo podemos manejar archivos de audio grandes?
Para las cargas de transcripción de la API de Audio legacy/whisper-1, el tamaño máximo de solicitud es de 25 MiB. Las rutas de transcripción gpt-4o más recientes pueden usar una validación diferente, como límites de duración o de tokens, así que consulta la documentación específica del modelo al manejar entradas de audio largas de los usuarios.
¿Qué métodos de streaming están disponibles?
Hay dos formas de transmitir tu transcripción, según tu caso de uso y si intentas transcribir una grabación de audio ya completada o manejar un flujo de audio en curso y usar OpenAI para la detección de turnos:
Transmisión en streaming de la transcripción de una grabación de audio completada
Transmisión en streaming de la transcripción de una grabación de audio en curso
Ten en cuenta que el streaming no es compatible con el modelo whisper-1.
¿Qué formatos de archivo son compatibles?
Los formatos de archivo compatibles se incluyen en nuestra documentación de la API.
¿Puedo enviar enlaces a archivos de audio a la API de Audio?
No, debes enviar un archivo en uno de los formatos de audio compatibles.
