OpenAI
Ez az oldal gépi fordítással készült. Tekintsd meg az eredeti angol nyelvű cikket.

Audio API – GYIK

Általános kérdések a Whisperről, beszédből szöveg funkcióról és az Audio API-ról

Frissítve: 8 days ago

Az Audio API két beszédből szöveggé alakító végpontot támogat:

  • transcriptions

  • translations

Az Audio API használatának megkezdéséhez olvasd el a beszédből szöveggé alakítás fejlesztői dokumentációját.


Mennyibe kerül az Audio API használata?

A részletekért lásd az árképzési oldalunkat.


Mely nyelvek támogatottak?

A támogatott nyelvek listája itt tekinthető meg.


Hogyan kezelhetők a nagy hangfájlok?

A legacy/whisper-1 Audio API átírási feltöltéseknél a kérések maximális mérete 25 MiB. Az újabb gpt-4o átírási útvonalak eltérő ellenőrzést használhatnak, például időtartam- vagy tokenkorlátokat, ezért a felhasználóktól származó hosszú hangbemenetek kezelésekor nézd meg az adott modell dokumentációját.


Milyen streamelési módszerek érhetők el?

Kétféleképpen streamelheted az átírást, a használati esettől és attól függően, hogy egy már elkészült hangfelvételt szeretnél átírni, vagy egy folyamatban lévő hangstreamet kezelnél, és az OpenAI-t használnád a fordulók észlelésére:

Vedd figyelembe, hogy a streamelés nem támogatott a whisper-1 modellel.

Milyen fájlformátumok támogatottak?

A támogatott fájlformátumok szerepelnek az API-dokumentációnkban.


Küldhetek hangfájlokra mutató linkeket az Audio API-nak?

Nem, a fájlt a támogatott hangformátumok egyikében kell elküldened.

Hasznos volt ez a cikk?