OpenAI
Esta página foi traduzida automaticamente. Veja o artigo original em inglês.

FAQ da API de Áudio

Perguntas gerais sobre o Whisper, conversão de fala em texto e a API de Áudio

Atualizado: 3 days ago

A API de Áudio oferece suporte a dois endpoints de fala para texto:

  • transcriptions

  • translations

Para começar a usar a API de Áudio, leia nossa documentação para desenvolvedores sobre fala para texto.

Quanto custa usar a API de Áudio?

Consulte nossa página de preços para mais detalhes.

Quais idiomas são compatíveis?

Veja aqui uma lista de idiomas compatíveis.

Como lidar com arquivos de áudio grandes?

Para uploads de transcrição na API de Áudio com legacy/whisper-1, o tamanho máximo da solicitação é de 25 MiB. Rotas de transcrição mais recentes do gpt-4o podem usar validação diferente, como limites de duração ou de tokens, portanto consulte a documentação específica do modelo ao lidar com entradas de áudio longas de usuários.

Quais métodos de streaming estão disponíveis?

Há duas formas de transmitir sua transcrição, dependendo do seu caso de uso e de você estar tentando transcrever uma gravação de áudio já concluída ou lidar com um fluxo contínuo de áudio e usar a OpenAI para detecção de turnos:

Observe que streaming não é compatível com o modelo whisper-1.

Quais formatos de arquivo são compatíveis?

Os formatos de arquivo compatíveis estão incluídos em nossa documentação da API.

Posso enviar links para arquivos de áudio à API de Áudio?

Não, você precisa enviar um arquivo em um dos formatos de áudio compatíveis.

Este artigo foi útil?