OpenAI
このページは機械翻訳されています。元の英語の記事を表示

ChatGPT Enterprise でのファイルアップロードの最適化

ChatGPT Enterprise の機能が、種類、数、サイズに基づいてファイルを処理する方法を理解します。ファイル要件に基づいて出力を改善します。

更新日: 16 days ago

ChatGPT Enterprise は、プロンプトに含まれる PDF ファイルに埋め込まれたビジュアル(画像、グラフ、図など)の読み取りと理解に対応しました。ユーザーは PDF をアップロードでき、ChatGPT はそのファイル内のテキストあらゆる視覚要素を解釈できます。

詳細については、PDF での Visual Retrieval に関する FAQをご覧ください

ChatGPT Enterprise では、いくつかの方法でファイルをアップロードできます。

このガイドでは、ChatGPT Enterprise の機能がファイルの種類、数、サイズに基づいてファイルを処理する方法を説明し、ファイル要件に基づいて出力を改善するための戦略について解説します。

概要

ChatGPT Enterprise は、ファイルタイプごとに大きく異なる方法で処理します。PDF、プレゼンテーション、Word ファイルなどのテキストドキュメントからテキストを抽出し、スプレッドシートの構造化データを Python コードで分析し、画像ファイルを GPT-Vision で説明します。どのファイルタイプがどのワークフローを起動するかを理解することが、期待どおりの結果を得る鍵です。

テキストベースのドキュメントでは、ChatGPT Enterprise は可能な限り多くの関連テキストをプロンプトのすぐ横に含め、検索システムを使用して追加情報にアクセスします。これは、具体的な質問に答える場合に有効です。ただし、このアプローチは、非常に大きなドキュメントの要約や複数の大きなファイルの比較など、複雑なタスクでは苦戦することがあります。結果を改善するための戦略について、続けてお読みください。

タイプに基づくファイル処理

ChatGPT Enterprise は主に 3 つの方法でファイルを処理します。テキスト抽出、コード分析、画像解釈です。ファイルタイプ によって、ChatGPT Enterprise が従うワークフローが決まります。

テキストベースの検索Code Interpreter画像処理Visual Retrieval
ファイルタイプの例pptx、docx、txt、md、json、xml、pdf*
*

GPT ナレッジ
または

プロジェクトファイル
としてアップロードされた PDF
csv、xls、xlsx*
*注: Code Interpreter は任意のファイルタイプを操作できますが、ChatGPT Enterprise はスプレッドシートについては通常 CI をデフォルトにします
jpg、pngpdf*
* ユーザープロンプトに含まれる PDF
動作ファイルからテキストを抽出します。一部のテキストはコンテキストウィンドウに直接貼り付け(「詰め込み」)られ、一部は検索用に保存されますCode Interpreter はファイルを Python に渡して処理します画像はマルチモーダルモデルによってネイティブに解釈されますが、

既知の制限
があります。
テキスト検索と画像処理のハイブリッドです。テキストはデジタル抽出され、視覚コンテンツはマルチモーダルモデルによってネイティブに解釈されます。

テキストのみのファイル、画像ファイル、または明確に構造化されたデータファイル(例: 取引の Excel 表)では、これらの区分が最適な動作を表します。

あまり明確でないグレーゾーンもあります。例:

  • PDF 以外のファイルに埋め込まれた画像は処理されません。それらを含めるには、アップロード前にファイルを PDF に変換してください。

  • ChatGPT Enterprise は、ドキュメントに大量のテキストが含まれている場合でも、スプレッドシートの操作には常に Code Interpreter を使用します。たとえば、10 行のテキストを含む CSV ファイルを ChatGPT Enterprise に翻訳するよう依頼すると、モデルが直接翻訳を生成する場合よりも精度の低い Python ライブラリを使用して、そのファイルの翻訳を試みます。これを緩和するには、スプレッドシートをテキストベースの形式(たとえば PDF)にエクスポートしてみてください。

  • 同様に、JSON ファイルに含まれる構造化された取引テーブルをアップロードした場合、ChatGPT Enterprise はこのファイルをプレーンテキストとして解釈します。JSON ファイルに含まれるデータを分析したい場合は、プロンプトで Code Interpreter を使用するようモデルに指示してください。

サイズに基づくファイル処理

ChatGPT Enterprise は、最大 128k トークン(テキスト約 200 ページ)のコンテキストウィンドウを持つモデルを使用します。ただし、すべてのトークンがアップロードされたファイルのテキストを取り込むために使われるわけではありません。「詰め込まれる」トークン数は、用途によって異なります。

ChatGPT Enterprise は一定量のテキストを「詰め込み」、残りのテキストをプライベート検索インデックス(大量のテキストを効率的に保存・取得するために設計されたデータベースの一種である「ベクターストア」)に送信します。質問すると、ChatGPT Enterprise は含まれているテキストに加え、プライベート検索インデックスから取得した関連チャンクを取り込みます。

単一のドキュメントをアップロードした場合、ChatGPT Enterprise は上限に達するまで先頭からテキストを含めます。複数のドキュメントをアップロードした場合、ChatGPT Enterprise は各ドキュメントの一部または全部を含めます。ドキュメント内のすべてのテキストもプライベート検索インデックスに送信されます。

テキストドキュメントのコンテキスト詰め込み

この機能は現在活発に開発中です。そのため、以下の詳細は予告なく変更される場合があります。

ChatGPT Enterprise は、アップロードされたドキュメントからコンテキストウィンドウ内で最大 110k トークンを処理できます。合計が 110k トークン未満の 1 つ以上のドキュメントをアップロードした場合、全内容が含まれます。

110k トークンを超える単一のドキュメントでは、先頭から最初の 110k トークンのみが含まれます。残りはプライベート検索インデックスにのみ送信されます。

複数のドキュメントがアップロードされ、その合計が 110k トークンを超える場合、ChatGPT Enterprise はドキュメントの表現を均衡させるために 2 段階のプロセスを使用します。

  1. 最大 55k トークンを抽出し、アップロードされたドキュメント間で均等に分割します。

  1. 最初のステップで完全に表現されていないドキュメントについては、各ドキュメントに残っているトークン数に基づいて、残りの 55k トークンを比例配分します。

  1. 残ったトークンはすべて、プライベート検索インデックスにのみ送信されます。

テキストドキュメント内のトークン数は、ドキュメントのテキストを OpenAI Tokenizer にコピーすることで見積もれます。

マルチメディア PDF のコンテキスト詰め込み

ユーザーがテキストと画像の両方を含む PDF をアップロードすると、Visual Retrieval により、ChatGPT はデジタル抽出されたテキストとともに、これらの画像をネイティブに処理できます。以下の手順は、マルチメディア PDF に対する標準のコンテキスト処理手順を補完します。

  • 画像の抽出と埋め込み: 画像は、関連するデジタルテキストとともに抽出され、埋め込まれます。

  • インテリジェントなスケーリング: 画像は、情報品質と利用可能なコンテキストウィンドウの効率的な使用のバランスを保つように自動的にスケーリングされます。

アップロードされた PDF が 110k トークンの上限を超える場合、画像とテキストの両方がプライベート検索インデックスに埋め込まれます。テキスト埋め込みは関連画像を参照するため、ChatGPT はユーザーのクエリに基づいて適切なテキストと画像のペアを取得できます。取得された画像は、ChatGPT のネイティブなマルチモーダル機能を使用して処理されます。

マルチメディア PDF のトークン要件を正確に見積もることは困難です。テストによると、テキストと画像が混在する約 350 ページで、110k トークンのコンテキストウィンドウを完全に使用します。

モデルタイプに基づく検索戦略

GPT シリーズモデルと o シリーズモデルはどちらもファイルアップロードに対応し、同一のコンテキスト詰め込みと検索埋め込みロジックを利用します。すべてのモデルは、キーワード方式とセマンティック方式を組み合わせて、プライベート検索インデックスに対してハイブリッド検索を実行します。ハイブリッド検索では、モデルがユーザーのプロンプトに基づいて検索フレーズを生成し、プライベート検索インデックスがそれに応じて関連するテキストと画像を取得します。

ただし、これらのモデルは、コンテキストウィンドウを超える大きなドキュメントを検索する方法が異なります。

GPT シリーズモデル

  • プロンプトごとに 1 回の検索: GPT シリーズモデルは、ユーザーのプロンプトごとに 1 回検索を行います。

  • 効果的なユースケース: 大量のドキュメント内に埋め込まれた単純な質問への回答に最適です。

クエリ例:

  • 「早期退職に関する人事ポリシーは何ですか?」

  • process_order 関数は何をしますか?」

o シリーズモデル

  • プロンプトごとに複数回検索: ユーザーのプロンプトごとに複数回(通常 2~3 回)の検索を実行でき、それぞれに固有の検索フレーズを使用します。検索は順次実行され、モデルは以前の検索で取得した情報に基づいてアプローチを更新できます。

  • 効果的なユースケース: 大量のドキュメント全体を対象に、複数の的を絞った検索が必要な複雑な質問により適しています。

クエリ例:

  • 「早期退職、育児休暇、海外転勤に関する人事ポリシーは何ですか?」

  • process_order 関数が何をするのかを説明し、この関数によって呼び出されるすべてのメソッドを列挙し、呼び出される各メソッドを簡潔に説明してください。」

o シリーズモデルには強みがありますが、クエリで 3 回を超える検索が必要な場合は苦戦することがあります。

ファイル検索結果を改善するためのヒント

  • 複数回の検索が必要な複雑な質問には、o シリーズモデルの使用を試してください。

  • 回答は、アップロードするドキュメントの種類、数、サイズによって異なる場合があることに注意してください。

  • 一般に、数を絞った焦点の明確なドキュメントを読み込むほど、精度が高くなります。

  • 複数の質問を含むトピックを単一の質問にする:

    • すべての州の人事ポリシーを知る必要がある場合は、1 つずつ質問してください。

    • 多数のドキュメントを要約する必要がある場合は、1 回に 1 つのドキュメントを依頼してください。そのドキュメントが数百ページに及ぶ場合は、より小さな構成要素に分割することを検討してください。

      • ドキュメント全体ではなく複数の要約を与えた場合、ChatGPT Enterprise に「要約の要約」を作成するよう依頼できます。

    • RFP の CSV(各行が別の質問)を持っている場合は、CSV を読み込んで単一の回答を求めるのではなく、それらの質問を 1 つずつ尋ねてください。

  • モデルの回答を監査する方法を見つけてください。GPT 指示の例は以下です:

# コンテキスト 

あなたはドキュメント理解の専門家です。ユーザーはドキュメントを添付し、質問します。ユーザーは、あなたの回答を、その回答を取得したテキスト内の正確な箇所に結び付けられる必要があります。

# 指示

1. 添付ドキュメントに基づき、以下に示す正確な形式でユーザーの質問に回答してください

# 形式

- 質問: { repeat user's question }
- 回答: { provide an answer to user's question }
出典:
- - セクション番号: { provide section number where you pulled in the answer }
- - セクションタイトル: { provide section title where you pulled in the answer }
- - 正確なテキスト: { provide the exact text where you pulled the answer from }

# ルール

- 明確かつ簡潔に回答する
- ドキュメントで提供されている情報のみを提示する
- ドキュメント内に回答が見つからない場合は、単に「情報が見つかりませんでした。」と返信する

この記事は役に立ちましたか?