Audio API – GYIK | OpenAI Help Center

Általános kérdések a Whisperről, beszédből szöveg funkcióról és az Audio API-ról

Az Audio API két beszédből szöveggé alakító végpontot támogat:

transcriptions
translations

Az Audio API használatának megkezdéséhez olvasd el a beszédből szöveggé alakítás fejlesztői dokumentációját.

Mennyibe kerül az Audio API használata?

A részletekért lásd az árképzési oldalunkat.

Mely nyelvek támogatottak?

A támogatott nyelvek listája itt tekinthető meg.

Hogyan kezelhetők a nagy hangfájlok?

A legacy/whisper-1 Audio API átírási feltöltéseknél a kérések maximális mérete 25 MiB. Az újabb gpt-4o átírási útvonalak eltérő ellenőrzést használhatnak, például időtartam- vagy tokenkorlátokat, ezért a felhasználóktól származó hosszú hangbemenetek kezelésekor nézd meg az adott modell dokumentációját.

Milyen streamelési módszerek érhetők el?

Kétféleképpen streamelheted az átírást, a használati esettől és attól függően, hogy egy már elkészült hangfelvételt szeretnél átírni, vagy egy folyamatban lévő hangstreamet kezelnél, és az OpenAI-t használnád a fordulók észlelésére:

Vedd figyelembe, hogy a streamelés nem támogatott a whisper-1 modellel.

Milyen fájlformátumok támogatottak?

A támogatott fájlformátumok szerepelnek az API-dokumentációnkban.

Küldhetek hangfájlokra mutató linkeket az Audio API-nak?

Nem, a fájlt a támogatott hangformátumok egyikében kell elküldened.

Audio API – GYIK

Hasznos volt ez a cikk?