OpenAI
Această pagină a fost tradusă automat. Vezi articolul original în limba engleză.

Întrebări frecvente despre API-ul Audio

Întrebări generale despre Whisper, conversia vorbirii în text și API-ul Audio

Actualizat: 6 days ago

API-ul Audio acceptă două puncte finale de conversie a vorbirii în text:

  • transcriptions

  • translations

Pentru a începe să folosiți API-ul Audio, citiți documentația pentru dezvoltatori privind conversia vorbirii în text.

Cât costă utilizarea API-ului Audio?

Pentru detalii, consultați pagina noastră de prețuri.

Ce limbi sunt acceptate?

Consultați aici lista limbilor acceptate.

Cum putem gestiona fișiere audio mari?

Pentru încărcările de transcriere în Audio API legacy/whisper-1, dimensiunea maximă a cererii este de 25 MiB. Rutele mai noi de transcriere gpt-4o pot folosi validări diferite, cum ar fi durata sau limitele de tokeni, așa că verificați documentația specifică modelului atunci când gestionați intrări audio lungi de la utilizatori.

Ce metode de streaming sunt disponibile?

Există două moduri de a transmite transcrierea în flux, în funcție de cazul dvs. de utilizare și de faptul dacă încercați să transcrieți o înregistrare audio deja finalizată sau să gestionați un flux audio în curs și să folosiți OpenAI pentru detectarea turelor de vorbire:

Rețineți că streamingul nu este acceptat cu modelul whisper-1.

Ce formate de fișiere sunt acceptate?

Formatele de fișiere acceptate sunt incluse în documentația noastră API.

Pot trimite linkuri către fișiere audio la API-ul Audio?

Nu, trebuie să trimiteți un fișier într-unul dintre formatele audio acceptate.

A fost util acest articol?