A API de Áudio suporta dois endpoints de conversão de voz em texto:
transcriptionstranslations
Para começar a usar a API de Áudio, leia a nossa documentação para programadores sobre voz para texto.
Quanto custa utilizar a API de Áudio?
Consulte a nossa página de preços para mais detalhes.
Que idiomas são suportados?
Veja aqui a lista de idiomas suportados.
Como podemos lidar com ficheiros de áudio grandes?
Para carregamentos de transcrição na API de Áudio legacy/whisper-1, o tamanho máximo do pedido é de 25 MiB. As rotas de transcrição mais recentes do gpt-4o podem usar validação diferente, como limites de duração ou de tokens, por isso consulte a documentação específica do modelo ao lidar com entradas de áudio longas dos utilizadores.
Que métodos de streaming estão disponíveis?
Existem duas formas de transmitir a sua transcrição, dependendo do seu caso de uso e de estar a tentar transcrever uma gravação de áudio já concluída ou a processar um fluxo contínuo de áudio e a usar a OpenAI para deteção de turnos:
Tenha em conta que o streaming não é suportado pelo modelo whisper-1.
Que formatos de ficheiro são suportados?
Os formatos de ficheiro suportados estão incluídos na nossa documentação da API.
Posso enviar ligações para ficheiros de áudio para a API de Áudio?
Não, tem de enviar um ficheiro num dos formatos de áudio suportados.
