OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Preguntas frecuentes sobre la API de audio

Preguntas generales sobre Whisper, conversión de voz a texto y la API de audio

Última actualización: 7 days ago

La API de audio admite dos puntos de acceso de voz a texto:

  • transcriptions

  • translations

Para comenzar a usar la API de audio, consulta nuestra documentación para desarrolladores sobre voz a texto.

¿Cuánto cuesta usar la API de audio?

Consulta nuestra página de precios para obtener más información.

¿Qué idiomas son compatibles?

Consulta aquí la lista de idiomas compatibles.

¿Cómo podemos manejar archivos de audio grandes?

Para las cargas de transcripción en la API de audio con legacy/whisper-1, el tamaño máximo de la solicitud es de 25 MiB. Las rutas de transcripción más nuevas de gpt-4o pueden usar una validación distinta, como límites de duración o de tokens, así que consulta la documentación específica del modelo cuando manejes entradas de audio largas de los usuarios.

¿Qué métodos de streaming están disponibles?

Hay dos maneras de transmitir tu transcripción según tu caso de uso y según si intentas transcribir una grabación de audio ya terminada o manejar un flujo de audio en curso y usar OpenAI para la detección de turnos:

Ten en cuenta que el streaming no es compatible con el modelo whisper-1.

¿Qué formatos de archivo son compatibles?

Los formatos de archivo compatibles se incluyen en nuestra documentación de la API.

¿Puedo enviar enlaces a archivos de audio a la API de audio?

No, debes enviar un archivo en uno de los formatos de audio compatibles.

¿Este artículo te fue útil?