Întrebări frecvente despre API-ul Audio

Întrebări generale despre Whisper, conversia vorbirii în text și API-ul Audio

API-ul Audio acceptă două puncte finale de conversie a vorbirii în text:

transcriptions
translations

Pentru a începe să folosiți API-ul Audio, citiți documentația noastră pentru dezvoltatori despre conversia vorbirii în text.

Cât costă utilizarea API-ului Audio?

Consultați pagina noastră de prețuri pentru detalii.

Ce limbi sunt acceptate?

Vedeți aici o listă de limbi acceptate.

Cum putem gestiona fișierele audio mari?

Pentru încărcările de transcriere în API-ul Audio legacy/whisper-1, dimensiunea maximă a cererii este de 25 MiB. Rutele de transcriere gpt-4o mai noi pot folosi validări diferite, cum ar fi limite de durată sau de tokeni, așa că verificați documentația specifică modelului când gestionați intrări audio lungi de la utilizatori.

Ce metode de streaming sunt disponibile?

Există două moduri în care puteți transmite în flux transcrierea, în funcție de cazul de utilizare și de faptul că încercați să transcrieți o înregistrare audio deja finalizată sau să gestionați un flux audio în desfășurare și să utilizați OpenAI pentru detectarea turei de vorbire:

Rețineți că streamingul nu este acceptat cu modelul whisper-1.

Ce formate de fișiere sunt acceptate?

Formatele de fișiere acceptate sunt incluse în documentația noastră API.

Pot trimite linkuri către fișiere audio către API-ul Audio?

Nu, trebuie să trimiteți un fișier într-unul dintre formatele audio acceptate.

Întrebări frecvente despre API-ul Audio

A fost util acest articol?