OpenAI
此頁面由機器翻譯。查看原文英文文章

優化 ChatGPT Enterprise 中的檔案上傳

了解 ChatGPT Enterprise 功能如何按檔案類型、數量及大小處理檔案,並根據檔案要求改善輸出結果。

更新日期:yesterday

ChatGPT Enterprise 現已支援讀取及理解提示詞中所包含、嵌入於 PDF 檔內的視覺內容(圖片、圖表、示意圖等)。使用者可上傳 PDF,而 ChatGPT 可解讀該檔案中的文字任何視覺元素。

詳情請參閱PDF 視覺擷取常見問題

ChatGPT Enterprise 讓你可透過以下幾種方式上傳檔案:

本指南說明 ChatGPT Enterprise 功能如何按檔案類型、數量及大小處理檔案,並探討如何根據檔案要求改善輸出結果的策略。

摘要

ChatGPT Enterprise 對不同檔案類型的處理方式差異很大:會從 PDF、簡報及 Word 檔等文字文件中擷取文字;使用 Python 程式碼分析試算表中的結構化資料;並透過 GPT-Vision 描述圖片檔。了解哪種檔案類型會觸發哪種工作流程,是取得預期結果的關鍵。

對於文字型文件,ChatGPT Enterprise 會盡可能將相關文字連同提示詞直接納入,並使用搜尋系統存取額外資訊。這對回答特定問題效果良好。不過,這種方法在總結超大型文件或比較多個大型檔案等複雜任務上可能表現欠佳。請繼續閱讀,以了解改善結果的策略。

按類型處理檔案

ChatGPT Enterprise 主要以三種方式處理檔案:文字擷取、程式碼分析及圖像解讀。檔案類型 會決定 ChatGPT Enterprise 採用哪種工作流程。

文字型擷取程式碼解譯器圖像處理視覺擷取
檔案類型範例pptx、docx、txt、md、json、xml、pdf*
* 以GPT Knowledge
專案檔案
上傳的 PDF
csv、xls、xlsx*
*注意:程式碼解譯器可處理任何檔案類型,但 ChatGPT Enterprise 最常會對試算表預設使用 CI
jpg、pngpdf*
* 使用者提示詞中包含的 PDF
行為從檔案中擷取文字——部分文字會直接貼入內容視窗(「stuffed」);部分文字則會儲存供搜尋之用程式碼解譯器會將檔案交由 Python 處理圖片會由多模態模型原生解讀,但受已知限制約束。結合文字擷取與圖像處理的混合方式。文字會以數碼方式擷取,而視覺內容則由多模態模型原生解讀。

對於純文字檔、圖片檔,或結構清晰的資料檔(例如 Excel 交易表),這些分類代表最佳可行行為。

亦有一些較不明顯的灰色地帶,例如:

  • 嵌入於 PDF 以外檔案中的圖片不會被處理。若要包含這些圖片,請先將檔案轉成 PDF 再上傳。

  • ChatGPT Enterprise 與試算表互動時一律會使用程式碼解譯器,即使文件包含大量文字亦然。例如,如果你要求 ChatGPT Enterprise 翻譯一個含 10 行文字的 CSV 檔,它會嘗試使用 Python 程式庫翻譯該檔案,準確度會低於讓模型直接生成翻譯。為減輕此問題,可嘗試將試算表匯出為文字型格式(例如 PDF)。

  • 同樣地,如果你上傳一個包含結構化交易表的 JSON 檔,ChatGPT Enterprise 會將其視為純文字。若你想分析 JSON 檔中的資料,請在提示詞中指示模型使用程式碼解譯器。

按大小處理檔案

ChatGPT Enterprise 使用的模型最大內容視窗為 128k tokens(約等於 200 頁文字)。不過,並非所有 tokens 都會用於納入已上傳檔案的文字。可被「stuffed」的 token 數量會因使用類型而異。

ChatGPT Enterprise 會先「stuff」一部分文字,其餘文字則會送往私人搜尋索引(即「vector store」,一種專為高效儲存及擷取大量文字而設計的資料庫)。當你提出問題時,ChatGPT Enterprise 會帶入已納入的文字,以及從私人搜尋索引擷取到的相關片段。

若你上傳單一文件,ChatGPT Enterprise 會從開頭開始納入文字,直到達到上限。若你上傳多份文件,ChatGPT Enterprise 會納入每份文件的部分或全部內容。所有文件的文字亦會送往私人搜尋索引。

文字文件的內容 stuffing

此功能仍在積極開發中。因此,下列細節可能會在不作另行通知的情況下更改。

ChatGPT Enterprise 可在內容視窗中處理最多 110k tokens 的已上傳文件內容。若你上傳一份或多份文件,而其合計少於 110k tokens,則會納入全部內容。

對於超過 110k tokens 的單一文件,只會納入由開頭起計的首 110k tokens。其餘內容只會送往私人搜尋索引。

如果上傳多份文件,而其合計超過 110k tokens,ChatGPT Enterprise 會採用兩步程序,以平衡各文件的代表性:

  1. 先擷取最多 55k tokens,並在已上傳文件之間平均分配。

    • 例如,若上傳 10 份文件,便會從每份文件開頭擷取 5.5k tokens。

  2. 對於在第一步中未被完整代表的文件,會按各文件剩餘 token 數量按比例分配餘下的 55k tokens。

    • 例如,若文件 A 尚餘 10k tokens,而文件 B 尚餘 90k tokens,則會額外從文件 A 擷取 5.5k tokens((10k / 100k) * 55k),並額外從文件 B 擷取 49.5k tokens((90k / 100k) * 55k)。

  3. 任何餘下 tokens 都只會送往私人搜尋索引。

你可以把文件文字複製到 OpenAI Tokenizer,以估算文字文件中的 token 數量。

多媒體 PDF 的內容 stuffing

當使用者上傳同時包含文字及圖片的 PDF 時,視覺擷取可讓 ChatGPT 在數碼擷取的文字旁邊,以原生方式處理這些圖片。以下步驟會補充我們對多媒體 PDF 的標準內容處理程序:

  • 圖片擷取與嵌入:圖片會連同其相關數碼文字一併擷取及嵌入。

  • 智能縮放:圖片會自動縮放,以平衡資訊品質與可用內容視窗的有效使用。

當上傳的 PDF 超過 110k token 上限時,圖片與文字都會嵌入私人搜尋索引。文字嵌入會參照相關圖片,讓 ChatGPT 可按使用者查詢擷取適當的文字與圖片配對。其後,擷取出的圖片會利用 ChatGPT 的原生多模態能力處理。

要準確估算多媒體 PDF 的 token 需求相當困難。測試顯示,約 350 頁混合文字與圖片的內容便會用盡 110k token 的內容視窗。

按模型類型而定的搜尋策略

GPT 系列及 o 系列模型均支援檔案上傳,並採用相同的內容 stuffing 與搜尋嵌入邏輯。所有模型都會對私人搜尋索引執行混合搜尋,結合關鍵字及語意方法。在混合搜尋中,模型會根據使用者提示詞生成搜尋語句,私人搜尋索引則相應擷取相關文字及圖片。

不過,這些模型在搜尋超出內容視窗的大型文件時,方式有所不同:

GPT 系列模型

  • 每個提示詞只搜尋一次:GPT 系列模型每個使用者提示詞只會執行一次搜尋。

  • 適用情境:非常適合回答隱藏於大量文件中的直接問題。

查詢範例:

  • 「提早退休的人力資源政策是甚麼?」

  • process_order 函式的作用是甚麼?」

o 系列模型

  • 每個提示詞可搜尋多次:每個使用者提示詞可執行多次搜尋(通常為 2 至 3 次),且每次都使用不同搜尋語句。搜尋會按順序執行,而模型可根據先前搜尋擷取到的資訊更新方法。

  • 適用情境:更適合需要多次針對性搜尋、並跨越大量文件的複雜問題。

查詢範例:

  • 「有關提早退休、育兒假及海外調任的人力資源政策是甚麼?」

  • 「解釋 process_order 函式的作用,列出此函式呼叫的所有方法,並簡述每個被呼叫方法。」

儘管 o 系列模型有其優勢,但當查詢需要超過三次搜尋時,仍可能遇到困難。

改善檔案搜尋結果的貼士

  • 對於需要多次搜尋的複雜問題,請嘗試使用 o 系列模型。

  • 請記住,回應可能會因你上傳文件的類型、數量及大小而有所不同。

  • 一般而言,載入較少且更聚焦的文件,會帶來更高準確度。

  • 把多問題主題拆成單一問題:

    • 如果你需要了解每個州的人力資源政策,請逐一提問。

    • 如果你需要總結很多文件,請每次只要求總結一份文件。若該文件有數百頁之多,可考慮將其拆分成較小部分。

      • 如果你提供多份摘要而非整份文件,你可以要求 ChatGPT Enterprise 撰寫「摘要的摘要」。

    • 如果你有一個 RFP 的 CSV 檔(每一行是一條不同問題),請逐條提問,而不是只載入 CSV 並要求單一回應。

  • 請想辦法審核模型的回應。以下是 GPT 指示範例:

# 背景 

你是理解文件的專家。使用者將會附上一份文件並提出問題。他們需要能夠把你的答案對應到你從文本中擷取答案的確切部分。

# 指示

1. 根據使用者所附文件回答其問題,並嚴格使用下方提供的格式

# 格式

- 問題:{ 重述使用者的問題 }
- 答案:{ 提供對使用者問題的答案 }
來源:
- - 章節編號:{ 提供你擷取答案的章節編號 }
- - 章節標題:{ 提供你擷取答案的章節標題 }
- - 原文:{ 提供你擷取答案的確切原文 }

# 規則

- 答案要清晰簡潔
- 只提供文件中已有的資訊
- 如果你無法在文件中找到答案,只需回覆「找不到相關資訊。」

這篇文章對你有幫助嗎?