OpenAI
Questa pagina è stata tradotta automaticamente. Visualizza l'articolo originale in inglese.

FAQ dell’API Audio

Domande generali su Whisper, speech-to-text e API Audio

Aggiornato: 16 days ago

L'Audio API supporta due endpoint di conversione da parlato a testo:

  • transcriptions

  • translations

Per iniziare a usare l'Audio API, leggi la nostra documentazione per sviluppatori sulla conversione da parlato a testo.


Quanto costa usare l'Audio API?

Per i dettagli, consulta la nostra pagina dei prezzi.


Quali lingue sono supportate?

Visualizza qui l'elenco delle lingue supportate.


Come possiamo gestire file audio di grandi dimensioni?

Per i caricamenti di trascrizioni dell'Audio API legacy/whisper-1, la dimensione massima della richiesta è 25 MiB. Le route di trascrizione gpt-4o più recenti possono usare convalide diverse, come limiti di durata o di token; consulta quindi la documentazione specifica del modello quando gestisci input audio lunghi degli utenti.


Quali metodi di streaming sono disponibili?

Esistono due modi per trasmettere in streaming la trascrizione, a seconda del caso d'uso e del fatto che tu stia cercando di trascrivere una registrazione audio già completata o di gestire un flusso audio in corso e usare OpenAI per il rilevamento dei turni:

Tieni presente che lo streaming non è supportato con il modello whisper-1.

Quali formati di file sono supportati?

I formati di file supportati sono inclusi nella nostra documentazione dell'API.


Posso inviare link a file audio all'Audio API?

No, devi inviare un file in uno dei formati audio supportati.

Questo articolo è stato utile?