Câu hỏi thường gặp về Audio API

Các câu hỏi chung về Whisper, chuyển giọng nói thành văn bản, Audio API

Audio API hỗ trợ hai điểm cuối chuyển giọng nói thành văn bản:

transcriptions
translations

Để bắt đầu với Audio API, vui lòng đọc tài liệu dành cho nhà phát triển về chuyển giọng nói thành văn bản của chúng tôi.

Chi phí sử dụng Audio API là bao nhiêu?

Xem trang giá của chúng tôi để biết chi tiết.

Những ngôn ngữ nào được hỗ trợ?

Xem danh sách các ngôn ngữ được hỗ trợ tại đây.

Chúng tôi có thể xử lý các tệp âm thanh lớn như thế nào?

Đối với các bản tải lên phiên âm qua Audio API legacy/whisper-1, kích thước yêu cầu tối đa là 25 MiB. Các tuyến phiên âm gpt-4o mới hơn có thể dùng cách xác thực khác, chẳng hạn như giới hạn thời lượng hoặc token, vì vậy hãy kiểm tra tài liệu dành riêng cho mô hình khi xử lý đầu vào âm thanh dài từ người dùng.

Có những phương thức phát trực tuyến nào?

Có hai cách để bạn phát trực tuyến bản phiên âm, tùy thuộc vào trường hợp sử dụng và việc bạn đang cố phiên âm một bản ghi âm đã hoàn tất hay xử lý một luồng âm thanh đang diễn ra và dùng OpenAI để phát hiện lượt nói:

Lưu ý rằng tính năng phát trực tuyến không được hỗ trợ với mô hình whisper-1.

Những định dạng tệp nào được hỗ trợ?

Các định dạng tệp được hỗ trợ được nêu trong tài liệu API của chúng tôi.

Tôi có thể gửi liên kết đến tệp âm thanh cho Audio API không?

Không, bạn phải gửi một tệp ở một trong các định dạng âm thanh được hỗ trợ.

Câu hỏi thường gặp về Audio API

Bài viết này có hữu ích không?