Το Audio API υποστηρίζει δύο τελικά σημεία μετατροπής ομιλίας σε κείμενο:
transcriptionstranslations
Για να ξεκινήσετε με το Audio API, διαβάστε την τεκμηρίωση για προγραμματιστές σχετικά με τη μετατροπή ομιλίας σε κείμενο.
Πόσο κοστίζει η χρήση του Audio API;
Δείτε τη σελίδα τιμολόγησης για λεπτομέρειες.
Ποιες γλώσσες υποστηρίζονται;
Δείτε μια λίστα με τις υποστηριζόμενες γλώσσες εδώ.
Πώς μπορούμε να χειριστούμε μεγάλα αρχεία ήχου;
Για μεταφορτώσεις απομαγνητοφώνησης στο legacy/whisper-1 Audio API, το μέγιστο μέγεθος αιτήματος είναι 25 MiB. Οι νεότερες διαδρομές απομαγνητοφώνησης gpt-4o μπορεί να χρησιμοποιούν διαφορετική επικύρωση, όπως όρια διάρκειας ή token, οπότε ελέγξτε την τεκμηρίωση του συγκεκριμένου μοντέλου όταν χειρίζεστε μεγάλες εισόδους ήχου από χρήστες.
Ποιες μέθοδοι ροής είναι διαθέσιμες;
Υπάρχουν δύο τρόποι με τους οποίους μπορείτε να κάνετε ροή της απομαγνητοφώνησής σας, ανάλογα με την περίπτωση χρήσης σας και με το αν προσπαθείτε να απομαγνητοφωνήσετε μια ήδη ολοκληρωμένη ηχογράφηση ή να χειριστείτε μια συνεχιζόμενη ροή ήχου και να χρησιμοποιήσετε το OpenAI για ανίχνευση στροφής ομιλίας:
Σημειώστε ότι η ροή δεν υποστηρίζεται με το μοντέλο whisper-1.
Ποιες μορφές αρχείων υποστηρίζονται;
Οι υποστηριζόμενες μορφές αρχείων περιλαμβάνονται στην τεκμηρίωση του API μας.
Μπορώ να στείλω συνδέσμους προς αρχεία ήχου στο Audio API;
Όχι, πρέπει να στείλετε ένα αρχείο σε μία από τις υποστηριζόμενες μορφές ήχου.
