ChatGPT Enterprise 現已支援讀取和理解提示詞中所含 PDF 檔案內嵌的視覺內容(圖片、圖表、圖解等)。使用者可以上載 PDF,而 ChatGPT 可解讀該檔案中的文字以及任何視覺元素。
詳情請參閱 PDF 視覺檢索常見問題。
ChatGPT Enterprise 允許你透過多種方式上載檔案:
直接從你的電腦上載
作為 GPT 知識
作為專案檔案
從 GPT Action 上載
本指南說明 ChatGPT Enterprise 功能如何根據檔案的類型、數量和大小處理檔案,並討論如何根據檔案需求改善輸出的策略。
摘要
ChatGPT Enterprise 對不同檔案類型的處理方式非常不同:從 PDF、簡報和 Word 檔案等文字文件擷取文字,使用 Python 程式碼分析試算表中的結構化資料,並透過 GPT-Vision 描述圖片檔案。了解哪種檔案類型會觸發哪個工作流程,是取得預期結果的關鍵。
對於文字型文件,ChatGPT Enterprise 會盡量將相關文字直接與提示詞一併納入,並使用搜尋系統存取額外資訊。這很適合用來回答具體問題。不過,這種方法在處理複雜任務時可能會有困難,例如總結非常大型的文件或比較多個大型檔案。請繼續閱讀,了解改善結果的策略。
根據類型處理檔案
ChatGPT Enterprise 主要透過三種方式處理檔案:文字擷取、程式碼分析和圖片解讀。檔案類型決定 ChatGPT Enterprise 會採用哪個工作流程。
| 文字型擷取 | 程式碼解譯器 | 圖片處理 | 視覺檢索 | |
|---|---|---|---|---|
| 檔案類型範例 | pptx、docx、txt、md、json、xml、pdf* * 以 GPT 知識 或 專案檔案 形式上載的 PDF | csv、xls、xlsx* *注意:程式碼解譯器可處理任何檔案類型,但 ChatGPT Enterprise 最常預設對試算表使用 CI | jpg、png | pdf* * 使用者提示詞中包含的 PDF |
| 行為 | 從檔案擷取文字——部分文字會直接貼上(「填入」)到上下文視窗;部分文字會儲存以供搜尋 | 程式碼解譯器會將檔案交由 Python 處理 | 圖片會由多模態模型原生解讀,但受 已知限制 約束。 | 文字擷取與圖片處理的混合方式。文字會以數碼方式擷取,而視覺內容會由多模態模型原生解讀。 |
對於純文字檔案、圖片檔案或結構清晰的資料檔案(例如 Excel 交易表),這些分類代表最佳可能行為。
亦有一些較不明顯的灰色地帶,例如:
PDF 以外檔案中內嵌的圖片不會被處理。如要納入這些圖片,請在上載前將檔案轉換為 PDF。
ChatGPT Enterprise 一律會使用程式碼解譯器與試算表互動,即使文件包含大量文字亦然。例如,如果你要求 ChatGPT Enterprise 翻譯包含 10 行文字的 CSV 檔案,它會嘗試使用 Python 程式庫翻譯該檔案,其準確度低於讓模型直接產生翻譯。為緩解這一點,可嘗試將試算表匯出為文字型格式(例如 PDF)。
同樣地,如果你上載的是 JSON 檔案中包含的結構化交易表,ChatGPT Enterprise 會將此檔案解讀為純文字。如果你想分析 JSON 檔案中包含的資料,請在提示詞中指示模型使用程式碼解譯器。
根據大小處理檔案
ChatGPT Enterprise 使用的模型,其最大上下文視窗為 128k tokens(約 200 頁文字)。不過,並非所有 tokens 都會用於納入已上載檔案中的文字。「填入」的 tokens 數量會因使用類型而異。
ChatGPT Enterprise 會「填入」一定數量的文字,其餘文字則會傳送到私人搜尋索引(即「向量儲存庫」,是一種專為高效儲存和擷取大量文字而設的資料庫)。當你提出問題時,ChatGPT Enterprise 會引入已納入的文字,以及從私人搜尋索引擷取的相關片段。
如果你上載單一文件,ChatGPT Enterprise 會從開頭開始納入文字,直至達到其限制。如果你上載多份文件,ChatGPT Enterprise 會納入每份文件的部分或全部內容。文件中的所有文字也會傳送到私人搜尋索引。
文字文件的上下文填充
此功能仍在積極開發中。因此,下列細節可能會在不作另行通知的情況下更改。
ChatGPT Enterprise 可在上下文視窗中處理已上載文件最多 110k tokens。如果你上載一份或多份文件,而合計少於 110k tokens,系統會納入完整內容。
對於超過 110k tokens 的單一文件,系統只會從開頭開始納入最前的 110k tokens。其餘內容只會傳送到私人搜尋索引。
如果上載多份文件且合計超過 110k tokens,ChatGPT Enterprise 會使用兩步流程來平衡各文件的呈現:
擷取最多 55k tokens,並在已上載文件之間平均分配。
對於第一步未完整呈現的文件,根據各文件剩餘的 tokens 按比例分配餘下 55k tokens。
任何剩餘 tokens 只會傳送到私人搜尋索引。
你可以將文字文件的文字複製到 OpenAI Tokenizer,以估算文字文件中的 tokens 數量。
多媒體 PDF 的上下文填充
當使用者上載同時包含文字和圖片的 PDF 時,視覺檢索讓 ChatGPT 能夠將這些圖片與數碼擷取的文字一併原生處理。以下步驟補充我們針對多媒體 PDF 的標準上下文處理程序:
圖片擷取和嵌入:圖片會連同相關數碼文字一併擷取及嵌入。
智能縮放:圖片會自動縮放,以在資訊質素與可用上下文視窗的高效使用之間取得平衡。
當上載的 PDF 超過 110k token 限制時,圖片和文字都會嵌入私人搜尋索引。文字嵌入會參照相關圖片,讓 ChatGPT 根據使用者查詢擷取合適的文字圖片配對。擷取到的圖片隨後會使用 ChatGPT 的原生多模態功能處理。
準確估算多媒體 PDF 的 token 需求並不容易。測試顯示,約 350 頁混合文字和圖片會完全用盡 110k token 的上下文視窗。
根據模型類型制定搜尋策略
GPT 系列和 o 系列模型均支援檔案上載,並使用相同的上下文填充和搜尋嵌入邏輯。所有模型都會對私人搜尋索引執行混合搜尋,結合關鍵字和語義方法。在混合搜尋中,模型會根據使用者的提示詞產生搜尋字句,私人搜尋索引則相應擷取相關文字和圖片。
不過,這些模型在搜尋超出上下文視窗的大型文件時,做法有所不同:
GPT 系列模型
每個提示詞一次搜尋:GPT 系列模型會針對每個使用者提示詞執行一次搜尋。
有效使用案例:適合回答大量文件中的直接問題。
查詢範例:
「提前退休的人力資源政策是甚麼?」
「
process_order函數有甚麼作用?」
o 系列模型
每個提示詞可進行多次搜尋:可針對每個使用者提示詞執行多次搜尋(通常為 2 至 3 次),每次使用獨特的搜尋字句。搜尋會依次執行,而模型可根據先前搜尋擷取到的資訊更新其方法。
有效使用案例:較適合需要在大量文件中進行多次針對性搜尋的複雜問題。
查詢範例:
「提前退休、育兒假和海外調職的人力資源政策是甚麼?」
「說明
process_order函數的作用,列出此函數調用的所有方法,並簡述每個被調用的方法。」
儘管 o 系列模型各有優勢,但當查詢需要三次以上搜尋時,可能會遇到困難。
改善檔案搜尋結果的提示
對於需要多次搜尋的複雜問題,可嘗試使用 o 系列模型。
請記住,回應可能會因你上載文件的類型、數量和大小而有所不同。
一般而言,載入較少且重點明確的文件會帶來較高準確度。
將包含多個問題的主題轉化為單一問題:
如果你需要了解每個州的人力資源政策,請逐一提問。
如果你需要總結多份文件,請每次要求總結一份文件。如果該文件有數百頁,可考慮將其拆分成較小部分。
如果你提供的是多份摘要而非整份文件,你可以要求 ChatGPT Enterprise 撰寫「摘要的摘要」。
如果你有一個 RFP 的 CSV(每行都是不同問題),請逐一提出這些問題,而不是只載入 CSV 並要求單一回應。
尋找方法審核模型的回應。以下是 GPT 指示範例:
# 背景
你是理解文件的專家。使用者將會附上一份文件並提出問題。他們需要能夠把你的答案對應到你從文本中擷取答案的確切部分。
# 指示
1. 根據使用者所附文件回答其問題,並嚴格使用下方提供的格式
# 格式
- 問題:{ 重述使用者的問題 }
- 答案:{ 提供對使用者問題的答案 }
來源:
- - 章節編號:{ 提供你擷取答案的章節編號 }
- - 章節標題:{ 提供你擷取答案的章節標題 }
- - 原文:{ 提供你擷取答案的確切原文 }
# 規則
- 答案要清晰簡潔
- 只提供文件中已有的資訊
- 如果你無法在文件中找到答案,只需回覆「找不到相關資訊。」