OpenAI
Tämä sivu on konekäännetty. Katso alkuperäinen englanninkielinen artikkeli.

Audio API:n UKK

Yleisiä kysymyksiä Whisperistä, puheesta tekstiksi -toiminnosta ja Audio API:sta

Päivitetty: 9 days ago

Audio API tukee kahta puheesta tekstiksi -endpointia:

  • transcriptions

  • translations

Pääset alkuun Audio API:n kanssa lukemalla puheesta tekstiksi -kehittäjädokumentaatiomme.

Paljonko Audio API:n käyttö maksaa?

Katso lisätiedot hinnoittelusivultamme.

Mitä kieliä tuetaan?

Katso luettelo tuetuista kielistä täältä.

Miten voimme käsitellä suuria äänitiedostoja?

Vanhoissa legacy/whisper-1 Audio API -litterointilatauksissa pyynnön enimmäiskoko on 25 MiB. Uudemmissa gpt-4o-litterointireiteissä voi olla erilainen validointi, kuten kesto- tai token-rajoituksia, joten tarkista mallikohtainen dokumentaatio, kun käsittelet käyttäjien pitkiä äänisyötteitä.

Mitä suoratoistomenetelmiä on saatavilla?

Voit suoratoistaa litterointiasi kahdella tavalla käyttötapauksestasi riippuen ja sen mukaan, yritätkö litteroida jo valmiin äänitallenteen vai käsitellä jatkuvaa äänivirtaa ja käyttää OpenAI:tä vuorojen tunnistukseen:

Huomaa, että suoratoistoa ei tueta whisper-1-mallissa.

Mitä tiedostomuotoja tuetaan?

Tuetut tiedostomuodot löytyvät API-dokumentaatiostamme.

Voinko lähettää Audio API:lle linkkejä äänitiedostoihin?

Et, vaan sinun on lähetettävä tiedosto jossakin tuetuista äänimuodoista.

Oliko tästä artikkelista apua?