OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

FAQ zur Audio-API

Allgemeine Fragen zu Whisper, Speech-to-Text und der Audio-API

Aktualisiert: 11 days ago

Die Audio-API unterstützt zwei Sprache-zu-Text-Endpunkte:

  • transcriptions

  • translations

Um mit der Audio-API loszulegen, lesen Sie bitte unsere Sprache-zu-Text-Dokumentation für Entwickler:innen.


Wie viel kostet die Nutzung der Audio-API?

Details finden Sie auf unserer Preisseite.


Welche Sprachen werden unterstützt?

Eine Liste der unterstützten Sprachen finden Sie hier.


Wie können wir große Audiodateien verarbeiten?

Für Transkriptions-Uploads der alten legacy/whisper-1 Audio-API beträgt die maximale Anfragegröße 25 MiB. Neuere gpt-4o-Transkriptionsrouten können andere Validierungen verwenden, etwa Dauer- oder Token-Limits. Prüfen Sie daher die modellspezifische Dokumentation, wenn Sie lange Audioeingaben von Nutzenden verarbeiten.


Welche Streaming-Methoden sind verfügbar?

Es gibt zwei Möglichkeiten, Ihre Transkription zu streamen – je nach Anwendungsfall und abhängig davon, ob Sie eine bereits abgeschlossene Audioaufnahme transkribieren oder einen laufenden Audiostream verarbeiten und OpenAI zur Sprecherwechselerkennung verwenden möchten:

Beachten Sie, dass Streaming mit dem Modell whisper-1 nicht unterstützt wird.

Welche Dateiformate werden unterstützt?

Die unterstützten Dateiformate finden Sie in unserer API-Dokumentation.


Kann ich Links zu Audiodateien an die Audio-API senden?

Nein, Sie müssen eine Datei in einem der unterstützten Audioformate senden.

War dieser Artikel hilfreich?