L'Audio API supporta due endpoint di conversione da parlato a testo:
transcriptionstranslations
Per iniziare a usare l'Audio API, leggi la nostra documentazione per sviluppatori sulla conversione da parlato a testo.
Quanto costa usare l'Audio API?
Per i dettagli, consulta la nostra pagina dei prezzi.
Quali lingue sono supportate?
Visualizza qui l'elenco delle lingue supportate.
Come possiamo gestire file audio di grandi dimensioni?
Per i caricamenti di trascrizioni dell'Audio API legacy/whisper-1, la dimensione massima della richiesta è 25 MiB. Le route di trascrizione gpt-4o più recenti possono usare convalide diverse, come limiti di durata o di token; consulta quindi la documentazione specifica del modello quando gestisci input audio lunghi degli utenti.
Quali metodi di streaming sono disponibili?
Esistono due modi per trasmettere in streaming la trascrizione, a seconda del caso d'uso e del fatto che tu stia cercando di trascrivere una registrazione audio già completata o di gestire un flusso audio in corso e usare OpenAI per il rilevamento dei turni:
Streaming della trascrizione di una registrazione audio completata
Streaming della trascrizione di una registrazione audio in corso
Tieni presente che lo streaming non è supportato con il modello whisper-1.
Quali formati di file sono supportati?
I formati di file supportati sono inclusi nella nostra documentazione dell'API.
Posso inviare link a file audio all'Audio API?
No, devi inviare un file in uno dei formati audio supportati.
