Die Audio-API unterstützt zwei Sprache-zu-Text-Endpunkte:
transcriptionstranslations
Um mit der Audio-API loszulegen, lesen Sie bitte unsere Sprache-zu-Text-Dokumentation für Entwickler:innen.
Wie viel kostet die Nutzung der Audio-API?
Details finden Sie auf unserer Preisseite.
Welche Sprachen werden unterstützt?
Eine Liste der unterstützten Sprachen finden Sie hier.
Wie können wir große Audiodateien verarbeiten?
Für Transkriptions-Uploads der alten legacy/whisper-1 Audio-API beträgt die maximale Anfragegröße 25 MiB. Neuere gpt-4o-Transkriptionsrouten können andere Validierungen verwenden, etwa Dauer- oder Token-Limits. Prüfen Sie daher die modellspezifische Dokumentation, wenn Sie lange Audioeingaben von Nutzenden verarbeiten.
Welche Streaming-Methoden sind verfügbar?
Es gibt zwei Möglichkeiten, Ihre Transkription zu streamen – je nach Anwendungsfall und abhängig davon, ob Sie eine bereits abgeschlossene Audioaufnahme transkribieren oder einen laufenden Audiostream verarbeiten und OpenAI zur Sprecherwechselerkennung verwenden möchten:
Beachten Sie, dass Streaming mit dem Modell whisper-1 nicht unterstützt wird.
Welche Dateiformate werden unterstützt?
Die unterstützten Dateiformate finden Sie in unserer API-Dokumentation.
Kann ich Links zu Audiodateien an die Audio-API senden?
Nein, Sie müssen eine Datei in einem der unterstützten Audioformate senden.
