FAQ zur Audio-API

Die Audio-API unterstützt zwei Sprache-zu-Text-Endpunkte:

transcriptions
translations

Um mit der Audio-API loszulegen, lesen Sie bitte unsere Sprache-zu-Text-Dokumentation für Entwickler:innen.

Wie viel kostet die Nutzung der Audio-API?

Details finden Sie auf unserer Preisseite.

Welche Sprachen werden unterstützt?

Eine Liste der unterstützten Sprachen finden Sie hier.

Wie können wir große Audiodateien verarbeiten?

Für Transkriptions-Uploads der alten legacy/whisper-1 Audio-API beträgt die maximale Anfragegröße 25 MiB. Neuere gpt-4o-Transkriptionsrouten können andere Validierungen verwenden, etwa Dauer- oder Token-Limits. Prüfen Sie daher die modellspezifische Dokumentation, wenn Sie lange Audioeingaben von Nutzenden verarbeiten.

Welche Streaming-Methoden sind verfügbar?

Es gibt zwei Möglichkeiten, Ihre Transkription zu streamen – je nach Anwendungsfall und abhängig davon, ob Sie eine bereits abgeschlossene Audioaufnahme transkribieren oder einen laufenden Audiostream verarbeiten und OpenAI zur Sprecherwechselerkennung verwenden möchten:

Beachten Sie, dass Streaming mit dem Modell whisper-1 nicht unterstützt wird.

Welche Dateiformate werden unterstützt?

Die unterstützten Dateiformate finden Sie in unserer API-Dokumentation.

Kann ich Links zu Audiodateien an die Audio-API senden?

Nein, Sie müssen eine Datei in einem der unterstützten Audioformate senden.

War dieser Artikel hilfreich?