Audio API obsługuje dwa punkty końcowe zamiany mowy na tekst:
transcriptionstranslations
Aby rozpocząć pracę z Audio API, zapoznaj się z naszą dokumentacją dla deweloperów dotyczącą zamiany mowy na tekst.
Ile kosztuje korzystanie z Audio API?
Szczegóły znajdziesz na naszej stronie z cenami.
Jakie języki są obsługiwane?
Zobacz listę obsługiwanych języków tutaj.
Jak możemy obsługiwać duże pliki audio?
W przypadku przesyłania transkrypcji do starszego Audio API legacy/whisper-1 maksymalny rozmiar żądania wynosi 25 MiB. Nowsze ścieżki transkrypcji gpt-4o mogą używać innej walidacji, takiej jak limity czasu trwania lub tokenów, dlatego przy obsłudze długich wejść audio od użytkowników sprawdzaj dokumentację konkretnego modelu.
Jakie metody strumieniowania są dostępne?
Istnieją dwa sposoby strumieniowania transkrypcji, zależnie od przypadku użycia i od tego, czy chcesz transkrybować już ukończone nagranie audio, czy obsługiwać trwający strumień audio i używać OpenAI do wykrywania tur wypowiedzi:
Pamiętaj, że strumieniowanie nie jest obsługiwane przez model whisper-1.
Jakie formaty plików są obsługiwane?
Obsługiwane formaty plików są wymienione w naszej dokumentacji API.
Czy mogę wysyłać do Audio API linki do plików audio?
Nie, musisz wysłać plik w jednym z obsługiwanych formatów audio.
