A API de Áudio suporta dois endpoints de fala para texto:
transcriptionstranslations
Para começar a usar a API de Áudio, leia a nossa documentação para programadores sobre fala para texto.
Quanto custa utilizar a API de Áudio?
Consulte a nossa página de preços para obter detalhes.
Que idiomas são suportados?
Veja uma lista de idiomas suportados aqui.
Como podemos processar ficheiros de áudio grandes?
Para carregamentos de transcrição da API de Áudio legacy/whisper-1, o tamanho máximo do pedido é 25 MiB. As rotas de transcrição gpt-4o mais recentes podem usar validação diferente, como limites de duração ou de tokens, por isso consulte a documentação específica do modelo ao processar entradas de áudio longas dos utilizadores.
Que métodos de streaming estão disponíveis?
Existem duas formas de transmitir a sua transcrição, dependendo do seu caso de utilização e de estar a tentar transcrever uma gravação de áudio já concluída ou a processar um fluxo de áudio em curso e a usar a OpenAI para deteção de turnos:
Tenha em atenção que o streaming não é suportado com o modelo whisper-1.
Que formatos de ficheiro são suportados?
Os formatos de ficheiro suportados estão incluídos na nossa documentação da API.
Posso enviar links para ficheiros de áudio para a API de Áudio?
Não, tem de enviar um ficheiro num dos formatos de áudio suportados.
