OpenAI
Αυτή η σελίδα μεταφράστηκε αυτόματα. Δείτε το πρωτότυπο άρθρο στα αγγλικά.

Συνήθεις ερωτήσεις για το Audio API

Γενικές ερωτήσεις για το Whisper, μετατροπή ομιλίας σε κείμενο, Audio API

Τελευταία ενημέρωση: 3 days ago

Το Audio API υποστηρίζει δύο τελικά σημεία μετατροπής ομιλίας σε κείμενο:

  • transcriptions

  • translations

Για να ξεκινήσετε με το Audio API, διαβάστε την τεκμηρίωση για προγραμματιστές σχετικά με τη μετατροπή ομιλίας σε κείμενο.

Πόσο κοστίζει η χρήση του Audio API;

Δείτε τη σελίδα τιμολόγησης για λεπτομέρειες.

Ποιες γλώσσες υποστηρίζονται;

Δείτε μια λίστα με τις υποστηριζόμενες γλώσσες εδώ.

Πώς μπορούμε να χειριστούμε μεγάλα αρχεία ήχου;

Για μεταφορτώσεις απομαγνητοφώνησης στο legacy/whisper-1 Audio API, το μέγιστο μέγεθος αιτήματος είναι 25 MiB. Οι νεότερες διαδρομές απομαγνητοφώνησης gpt-4o μπορεί να χρησιμοποιούν διαφορετική επικύρωση, όπως όρια διάρκειας ή token, οπότε ελέγξτε την τεκμηρίωση του συγκεκριμένου μοντέλου όταν χειρίζεστε μεγάλες εισόδους ήχου από χρήστες.

Ποιες μέθοδοι ροής είναι διαθέσιμες;

Υπάρχουν δύο τρόποι με τους οποίους μπορείτε να κάνετε ροή της απομαγνητοφώνησής σας, ανάλογα με την περίπτωση χρήσης σας και με το αν προσπαθείτε να απομαγνητοφωνήσετε μια ήδη ολοκληρωμένη ηχογράφηση ή να χειριστείτε μια συνεχιζόμενη ροή ήχου και να χρησιμοποιήσετε το OpenAI για ανίχνευση στροφής ομιλίας:

Σημειώστε ότι η ροή δεν υποστηρίζεται με το μοντέλο whisper-1.

Ποιες μορφές αρχείων υποστηρίζονται;

Οι υποστηριζόμενες μορφές αρχείων περιλαμβάνονται στην τεκμηρίωση του API μας.

Μπορώ να στείλω συνδέσμους προς αρχεία ήχου στο Audio API;

Όχι, πρέπει να στείλετε ένα αρχείο σε μία από τις υποστηριζόμενες μορφές ήχου.

Σας βοήθησε αυτό το άρθρο;