OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

Perguntas frequentes sobre a API de Áudio

Perguntas gerais sobre o Whisper, conversão de voz em texto e a API de Áudio

Atualizado: 9 days ago

A API de Áudio suporta dois endpoints de fala para texto:

  • transcriptions

  • translations

Para começar a usar a API de Áudio, leia a nossa documentação para programadores sobre fala para texto.


Quanto custa utilizar a API de Áudio?

Consulte a nossa página de preços para obter detalhes.


Que idiomas são suportados?

Veja uma lista de idiomas suportados aqui.


Como podemos processar ficheiros de áudio grandes?

Para carregamentos de transcrição da API de Áudio legacy/whisper-1, o tamanho máximo do pedido é 25 MiB. As rotas de transcrição gpt-4o mais recentes podem usar validação diferente, como limites de duração ou de tokens, por isso consulte a documentação específica do modelo ao processar entradas de áudio longas dos utilizadores.


Que métodos de streaming estão disponíveis?

Existem duas formas de transmitir a sua transcrição, dependendo do seu caso de utilização e de estar a tentar transcrever uma gravação de áudio já concluída ou a processar um fluxo de áudio em curso e a usar a OpenAI para deteção de turnos:

Tenha em atenção que o streaming não é suportado com o modelo whisper-1.

Que formatos de ficheiro são suportados?

Os formatos de ficheiro suportados estão incluídos na nossa documentação da API.


Posso enviar links para ficheiros de áudio para a API de Áudio?

Não, tem de enviar um ficheiro num dos formatos de áudio suportados.

Este artigo foi útil?