Audio API は、音声テキスト変換用の 2 つのエンドポイントに対応しています。
transcriptionstranslations
Audio API の利用を始めるには、音声テキスト変換の開発者向けドキュメントをご覧ください。
Audio API の利用料金はいくらですか?
詳細は料金ページをご覧ください。
どの言語に対応していますか?
対応言語の一覧はこちらをご覧ください。
大きな音声ファイルはどのように扱えますか?
従来の legacy/whisper-1 Audio API の文字起こしアップロードでは、リクエストの最大サイズは 25 MiB です。新しい gpt-4o の文字起こしルートでは、長さやトークン数の上限など、異なる検証が適用される場合があるため、ユーザーからの長い音声入力を扱う際は、モデル固有のドキュメントを確認してください。
利用できるストリーミング方法は何ですか?
文字起こしのストリーミング方法は 2 つあります。ユースケースや、すでに完了した音声録音を文字起こししたいのか、進行中の音声ストリームを処理して OpenAI をターン検出に使いたいのかに応じて選択できます。
whisper-1 モデルではストリーミングはサポートされていない点に注意してください。
対応しているファイル形式は何ですか?
対応しているファイル形式は、API ドキュメントに記載されています。
音声ファイルへのリンクを Audio API に送信できますか?
いいえ。対応している音声形式のいずれかでファイルを送信する必要があります。
