Audio API:n UKK

Yleisiä kysymyksiä Whisperistä, puheesta tekstiksi -toiminnosta ja Audio API:sta

Audio API tukee kahta puheesta tekstiksi -endpointia:

transcriptions
translations

Aloita Audio API:n käyttö lukemalla puheesta tekstiksi -kehittäjädokumentaatiomme.

Kuinka paljon Audio API:n käyttö maksaa?

Katso lisätietoja hinnoittelusivultamme.

Mitä kieliä tuetaan?

Katso tuettujen kielten luettelo täältä.

Miten voimme käsitellä suuria äänitiedostoja?

Audio API:n legacy/whisper-1-transkriptiolatauksissa pyynnön enimmäiskoko on 25 MiB. Uudemmat gpt-4o-transkriptioreitit voivat käyttää erilaista validointia, kuten keston tai tokenien rajoja, joten tarkista mallikohtainen dokumentaatio, kun käsittelet käyttäjien pitkiä äänisyötteitä.

Mitä suoratoistomenetelmiä on saatavilla?

Voit suoratoistaa transkription kahdella tavalla käyttötapauksesi mukaan ja sen mukaan, yritätkö transkriboida jo valmiin äänitallenteen vai käsitellä käynnissä olevaa äänivirtaa ja käyttää OpenAI:ta puheenvuoron tunnistukseen:

Huomaa, että suoratoistoa ei tueta whisper-1-mallilla.

Mitä tiedostomuotoja tuetaan?

Tuetut tiedostomuodot on lueteltu API-dokumentaatiossamme.

Voinko lähettää Audio API:lle linkkejä äänitiedostoihin?

Et, sinun on lähetettävä tiedosto jossakin tuetussa äänimuodossa.

Oliko tästä artikkelista apua?