FAQ sur l’API audio

L’API Audio prend en charge deux endpoints de transcription audio en texte :

transcriptions
translations

Pour commencer à utiliser l’API Audio, veuillez lire notre documentation pour les développeurs sur la transcription audio en texte.

Combien coûte l’utilisation de l’API Audio?

Consultez notre page de tarification pour plus de détails.

Quelles langues sont prises en charge?

Consultez une liste des langues prises en charge ici.

Comment pouvons-nous gérer les fichiers audio volumineux?

Pour les téléversements de transcriptions avec l’ancienne API Audio legacy/whisper-1, la taille maximale de la requête est de 25 Mio. Les routes de transcription gpt-4o plus récentes peuvent utiliser une validation différente, comme des limites de durée ou de tokens; consultez donc la documentation propre au modèle lorsque vous traitez de longues entrées audio provenant des utilisateurs.

Quelles méthodes de diffusion en continu sont disponibles?

Il existe deux façons de diffuser votre transcription en continu, selon votre cas d’utilisation et selon que vous tentez de transcrire un enregistrement audio déjà terminé ou de gérer un flux audio en cours et d’utiliser OpenAI pour la détection des tours de parole :

Notez que la diffusion en continu n’est pas prise en charge avec le modèle whisper-1.

Quels formats de fichiers sont pris en charge?

Les formats de fichiers pris en charge sont indiqués dans notre documentation sur l’API.

Puis-je envoyer des liens vers des fichiers audio à l’API Audio?

Non, vous devez envoyer un fichier dans l’un des formats audio pris en charge.

Cet article vous a-t-il été utile?