FAQ da API de Áudio

A API de Áudio oferece suporte a dois endpoints de fala para texto:

transcriptions
translations

Para começar a usar a API de Áudio, leia nossa documentação para desenvolvedores sobre fala para texto.

Quanto custa usar a API de Áudio?

Consulte nossa página de preços para ver os detalhes.

Quais idiomas são compatíveis?

Veja uma lista de idiomas compatíveis aqui.

Como podemos lidar com arquivos de áudio grandes?

Para uploads de transcrição da API de Áudio legacy/whisper-1, o tamanho máximo da solicitação é de 25 MiB. Rotas de transcrição gpt-4o mais recentes podem usar validações diferentes, como limites de duração ou de tokens, portanto confira a documentação específica do modelo ao lidar com entradas de áudio longas de usuários.

Quais métodos de streaming estão disponíveis?

Há duas maneiras de transmitir sua transcrição por streaming, dependendo do seu caso de uso e de você estar tentando transcrever uma gravação de áudio já concluída ou lidar com um fluxo contínuo de áudio e usar a OpenAI para detecção de turno:

Observe que o streaming não é compatível com o modelo whisper-1.

Quais formatos de arquivo são compatíveis?

Os formatos de arquivo compatíveis estão incluídos em nossa documentação da API.

Posso enviar links para arquivos de áudio à API de Áudio?

Não, você deve enviar um arquivo em um dos formatos de áudio compatíveis.

Este artigo foi útil?