La API de audio admite dos puntos de acceso de voz a texto:
transcriptionstranslations
Para empezar con la API de audio, lee nuestra documentación para desarrolladores sobre voz a texto.
¿Cuánto cuesta usar la API de audio?
Consulta nuestra página de precios para obtener más información.
¿Qué idiomas se admiten?
Consulta una lista de idiomas admitidos aquí.
¿Cómo podemos gestionar archivos de audio grandes?
Para las cargas de transcripción heredadas de la API de audio/whisper-1, el tamaño máximo de solicitud es de 25 MiB. Las rutas de transcripción más recientes de gpt-4o pueden usar una validación distinta, como límites de duración o de tokens, así que consulta la documentación específica del modelo al gestionar entradas de audio largas de usuarios.
¿Qué métodos de transmisión en tiempo real están disponibles?
Hay dos formas de transmitir tu transcripción, según tu caso de uso y si intentas transcribir una grabación de audio ya finalizada o gestionar una transmisión de audio en curso y usar OpenAI para la detección de turnos:
Transmitir la transcripción de una grabación de audio finalizada
Transmitir la transcripción de una grabación de audio en curso
Ten en cuenta que la transmisión en tiempo real no es compatible con el modelo whisper-1.
¿Qué formatos de archivo se admiten?
Los formatos de archivo admitidos se incluyen en nuestra documentación de la API.
¿Puedo enviar enlaces a archivos de audio a la API de audio?
No, debes enviar un archivo en uno de los formatos de audio admitidos.
