Συνήθεις ερωτήσεις για το Audio API

Γενικές ερωτήσεις για το Whisper, μετατροπή ομιλίας σε κείμενο, Audio API

Το Audio API υποστηρίζει δύο τελικά σημεία ομιλίας σε κείμενο:

transcriptions
translations

Για να ξεκινήσετε με το Audio API, διαβάστε την τεκμηρίωση προγραμματιστών για ομιλία σε κείμενο.

Πόσο κοστίζει η χρήση του Audio API;

Δείτε τη σελίδα τιμολόγησης για λεπτομέρειες.

Ποιες γλώσσες υποστηρίζονται;

Δείτε μια λίστα με τις υποστηριζόμενες γλώσσες εδώ.

Πώς μπορούμε να χειριστούμε μεγάλα αρχεία ήχου;

Για μεταφορτώσεις μεταγραφής στο παλαιό legacy/whisper-1 Audio API, το μέγιστο μέγεθος αιτήματος είναι 25 MiB. Οι νεότερες διαδρομές μεταγραφής gpt-4o ενδέχεται να χρησιμοποιούν διαφορετική επικύρωση, όπως όρια διάρκειας ή token, γι’ αυτό ελέγχετε την τεκμηρίωση για το συγκεκριμένο μοντέλο όταν χειρίζεστε μεγάλες εισόδους ήχου από χρήστες.

Ποιες μέθοδοι ροής είναι διαθέσιμες;

Υπάρχουν δύο τρόποι για να μεταδώσετε σε ροή τη μεταγραφή σας, ανάλογα με την περίπτωση χρήσης σας και με το αν προσπαθείτε να μεταγράψετε μια ήδη ολοκληρωμένη ηχογράφηση ή να χειριστείτε μια συνεχιζόμενη ροή ήχου και να χρησιμοποιήσετε το OpenAI για ανίχνευση σειράς ομιλίας:

Σημειώστε ότι η ροή δεν υποστηρίζεται με το μοντέλο whisper-1.

Ποιες μορφές αρχείων υποστηρίζονται;

Οι υποστηριζόμενες μορφές αρχείων περιλαμβάνονται στα έγγραφα του API μας.

Μπορώ να στείλω συνδέσμους προς αρχεία ήχου στο Audio API;

Όχι, πρέπει να στείλετε ένα αρχείο σε μία από τις υποστηριζόμενες μορφές ήχου.

Συνήθεις ερωτήσεις για το Audio API

Σας βοήθησε αυτό το άρθρο;