OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

FAQ zur Audio-API

Allgemeine Fragen zu Whisper, Speech-to-Text und der Audio-API

Aktualisiert: 3 days ago

Die Audio-API unterstützt zwei Speech-to-Text-Endpunkte:

  • transcriptions

  • translations

Lesen Sie zunächst unsere Entwicklungsdokumentation zu Speech-to-Text, um mit der Audio-API zu beginnen.

Wie viel kostet die Nutzung der Audio-API?

Einzelheiten finden Sie auf unserer Preisseite.

Welche Sprachen werden unterstützt?

Eine Liste der unterstützten Sprachen finden Sie hier.

Wie können wir große Audiodateien verarbeiten?

Bei Uploads für Transkriptionen über die legacy/whisper-1-Audio-API beträgt die maximale Anfragegröße 25 MiB. Neuere Transkriptionsrouten für gpt-4o verwenden möglicherweise andere Validierungen, etwa Dauer- oder Tokenlimits. Prüfen Sie daher bei langen Audioeingaben von Nutzer:innen die modellspezifische Dokumentation.

Welche Streaming-Methoden sind verfügbar?

Je nach Anwendungsfall und je nachdem, ob Sie eine bereits abgeschlossene Audioaufnahme transkribieren oder einen laufenden Audiostream verarbeiten und OpenAI für die Sprecherwechselerkennung nutzen möchten, gibt es zwei Möglichkeiten, Ihre Transkription zu streamen:

Beachten Sie, dass Streaming mit dem Modell whisper-1 nicht unterstützt wird.

Welche Dateiformate werden unterstützt?

Die unterstützten Dateiformate finden Sie in unserer API-Dokumentation.

Kann ich Links zu Audiodateien an die Audio-API senden?

Nein, Sie müssen eine Datei in einem der unterstützten Audioformate senden.

War dieser Artikel hilfreich?