OpenAI
Cette page a été traduite automatiquement. Afficher l’article original en anglais.

FAQ sur l’API audio

Questions générales sur Whisper, la conversion parole-texte et l’API audio

Mise à jour : 10 days ago

L’API Audio prend en charge deux endpoints de reconnaissance vocale :

  • transcriptions

  • translations

Pour commencer à utiliser l’API Audio, veuillez consulter notre documentation pour les développeurs sur la reconnaissance vocale.

Combien coûte l’utilisation de l’API Audio?

Consultez notre page de tarification pour en savoir plus.

Quelles langues sont prises en charge?

Consultez la liste des langues prises en charge ici.

Comment traiter les fichiers audio volumineux?

Pour les téléversements de transcription de l’API Audio legacy/whisper-1, la taille maximale d’une requête est de 25 MiB. Les routes de transcription plus récentes de gpt-4o peuvent utiliser une validation différente, comme des limites de durée ou de tokens; consultez donc la documentation propre au modèle lorsque vous traitez de longues entrées audio provenant d’utilisateurs.

Quelles méthodes de diffusion en continu sont offertes?

Il existe deux façons de diffuser votre transcription en continu selon votre cas d’utilisation et selon que vous cherchez à transcrire un enregistrement audio déjà terminé ou à gérer un flux audio en cours et à utiliser OpenAI pour la détection des tours de parole :

Notez que la diffusion en continu n’est pas prise en charge avec le modèle whisper-1.

Quels formats de fichier sont pris en charge?

Les formats de fichier pris en charge sont indiqués dans notre documentation d’API.

Puis-je envoyer des liens vers des fichiers audio à l’API Audio?

Non, vous devez envoyer un fichier dans l’un des formats audio pris en charge.

Cet article vous a-t-il été utile?