OpenAI
Ez az oldal gépi fordítással készült. Tekintsd meg az eredeti angol nyelvű cikket.

Audio API – GYIK

Általános kérdések a Whisperről, beszédből szöveg funkcióról és az Audio API-ról

Frissítve: 8 hours ago

Az Audio API két beszédből szöveggé végpontot támogat:

  • transcriptions

  • translations

Az Audio API használatának megkezdéséhez olvassa el a beszédből szöveggé fejlesztői dokumentációt.

Mennyibe kerül az Audio API használata?

A részletekért tekintse meg az árképzési oldalunkat.

Milyen nyelvek támogatottak?

A támogatott nyelvek listáját itt találja.

Hogyan kezelhetők a nagy méretű hangfájlok?

A legacy/whisper-1 Audio API átírási feltöltéseknél a kérés maximális mérete 25 MiB. Az újabb gpt-4o átírási útvonalak eltérő ellenőrzést használhatnak, például időtartam- vagy tokenkorlátokat, ezért hosszú, felhasználóktól származó hangbemenetek kezelésekor ellenőrizze a modellspecifikus dokumentációt.

Milyen streamelési módszerek érhetők el?

A használati esettől függően, valamint attól, hogy egy már elkészült hangfelvételt szeretne átírni, vagy egy folyamatban lévő hangfolyamot kezelne, és az OpenAI-t beszédszakasz-észlelésre használná, kétféleképpen streamelheti az átírást:

Vegye figyelembe, hogy a streamelés nem támogatott a whisper-1 modellnél.

Milyen fájlformátumok támogatottak?

A támogatott fájlformátumok az API-dokumentációnkban szerepelnek.

Küldhetek az Audio API-nak hangfájlokra mutató hivatkozásokat?

Nem, a támogatott hangformátumok egyikében kell fájlt küldenie.

Hasznos volt ez a cikk?