Audio API に関する FAQ

Audio API は、音声テキスト変換用に 2 つのエンドポイントをサポートしています:

transcriptions
translations

Audio API を使い始めるには、音声テキスト変換の開発者向けドキュメントをお読みください。

Audio API の利用料金はいくらですか？

詳細は料金ページをご覧ください。

どの言語がサポートされていますか？

サポートされている言語の一覧はこちらで確認できます。

大きな音声ファイルはどのように扱えますか？

従来の legacy/whisper-1 Audio API 文字起こしアップロードでは、最大リクエストサイズは 25 MiB です。新しい gpt-4o 文字起こしルートでは、所要時間やトークン制限など、異なる検証が使われる場合があります。そのため、ユーザーからの長い音声入力を扱う際は、モデル固有のドキュメントを確認してください。

どのストリーミング方法を利用できますか？

ユースケース、およびすでに完了した音声録音を文字起こしするのか、進行中の音声ストリームを処理して OpenAI によるターン検出を使用するのかに応じて、文字起こしをストリーミングする方法は 2 つあります:

whisper-1 モデルではストリーミングはサポートされていないことに注意してください。

どのファイル形式がサポートされていますか？

サポートされているファイル形式は、API ドキュメントに記載されています。

音声ファイルへのリンクを Audio API に送信できますか？

いいえ、サポートされているいずれかの音声形式のファイルを送信する必要があります。

この記事は役に立ちましたか？