OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

Perguntas frequentes sobre a API de Áudio

Perguntas gerais sobre o Whisper, conversão de voz em texto e a API de Áudio

Atualizado: 8 hours ago

A API de Áudio suporta dois endpoints de conversão de voz em texto:

  • transcriptions

  • translations

Para começar a usar a API de Áudio, leia a nossa documentação para programadores sobre voz para texto.

Quanto custa utilizar a API de Áudio?

Consulte a nossa página de preços para mais detalhes.

Que idiomas são suportados?

Veja aqui a lista de idiomas suportados.

Como podemos lidar com ficheiros de áudio grandes?

Para carregamentos de transcrição na API de Áudio legacy/whisper-1, o tamanho máximo do pedido é de 25 MiB. As rotas de transcrição mais recentes do gpt-4o podem usar validação diferente, como limites de duração ou de tokens, por isso consulte a documentação específica do modelo ao lidar com entradas de áudio longas dos utilizadores.

Que métodos de streaming estão disponíveis?

Existem duas formas de transmitir a sua transcrição, dependendo do seu caso de uso e de estar a tentar transcrever uma gravação de áudio já concluída ou a processar um fluxo contínuo de áudio e a usar a OpenAI para deteção de turnos:

Tenha em conta que o streaming não é suportado pelo modelo whisper-1.

Que formatos de ficheiro são suportados?

Os formatos de ficheiro suportados estão incluídos na nossa documentação da API.

Posso enviar ligações para ficheiros de áudio para a API de Áudio?

Não, tem de enviar um ficheiro num dos formatos de áudio suportados.

Este artigo foi útil?