ChatGPT Enterprise 現在支援讀取並理解提示詞中所含 PDF 檔案內嵌的視覺內容(圖片、圖表、示意圖等)。使用者可以上傳 PDF,而 ChatGPT 能解讀該檔案中的文字以及任何視覺元素。
詳細資訊請參閱PDF 視覺擷取常見問答。
ChatGPT Enterprise 允許你透過數種方式上傳檔案:
本指南說明 ChatGPT Enterprise 功能如何依檔案類型、數量和大小處理檔案,並討論依檔案需求改善輸出的策略。
摘要
ChatGPT Enterprise 對不同檔案類型的處理方式差異很大:從 PDF、簡報和 Word 檔等文字文件擷取文字;使用 Python 程式碼分析試算表中的結構化資料;並透過 GPT-Vision 描述圖片檔案。了解哪種檔案類型會觸發哪個工作流程,是取得預期結果的關鍵。
對於文字型文件,ChatGPT Enterprise 會盡可能將相關文字直接納入提示詞旁邊,並使用搜尋系統存取其他資訊。這很適合用來回答特定問題。不過,這種做法在摘要非常大型的文件或比較多個大型檔案等複雜任務上可能會遇到困難。請繼續閱讀,以了解改善結果的策略。
依類型處理檔案
ChatGPT Enterprise 主要以三種方式處理檔案:文字擷取、程式碼分析和圖片解讀。檔案類型會決定 ChatGPT Enterprise 採用哪個工作流程。
| 文字型擷取 | 程式碼解譯器 | 圖片處理 | 視覺擷取 | |
|---|---|---|---|---|
| 檔案類型範例 | pptx、docx、txt、md、json、xml、pdf* * 作為 GPT 知識 或 專案檔案 上傳的 PDF | csv、xls、xlsx* *注意:程式碼解譯器可處理任何檔案類型,但 ChatGPT Enterprise 最常預設以 CI 處理試算表 | jpg、png | pdf* * 使用者提示詞中包含的 PDF |
| 行為 | 從檔案擷取文字:部分文字會直接貼上(「填入」)到上下文視窗;部分文字會儲存供搜尋使用 | 程式碼解譯器會將檔案傳給 Python 進行處理 | 圖片會由多模態模型原生解讀,但受 已知限制 約束。 | 文字擷取與圖片處理的混合。系統會以數位方式擷取文字,並由多模態模型原生解讀視覺內容。 |
對於純文字檔、圖片檔或明確結構化的資料檔(例如 Excel 交易表),這些分類代表最佳可能行為。
有些灰色地帶較不明顯,例如:
PDF 以外檔案中內嵌的圖片不會被處理。若要納入這些圖片,請在上傳前將檔案轉換為 PDF。
ChatGPT Enterprise 會一律使用程式碼解譯器與試算表互動,即使文件包含大量文字也是如此。例如,如果你要求 ChatGPT Enterprise 翻譯一個含有 10 列文字的 CSV 檔案,它會嘗試使用 Python 程式庫翻譯該檔案,這比讓模型直接產生翻譯較不準確。為了緩解此問題,請嘗試將試算表匯出為文字型格式(例如 PDF)。
同樣地,如果你上傳 JSON 檔案中包含的結構化交易表,ChatGPT Enterprise 會將此檔案解讀為純文字。如果你想分析 JSON 檔案中包含的資料,請在提示詞中指示模型使用程式碼解譯器。
依大小處理檔案
ChatGPT Enterprise 使用的模型具備最大 128k Token 的上下文視窗(約 200 頁文字)。不過,並非所有 Token 都會用於納入已上傳檔案中的文字。「填入」的 Token 數量會依使用類型而異。
ChatGPT Enterprise 會「填入」一定量的文字,其餘文字會傳送至私人搜尋索引(一種「向量儲存區」,也就是專為有效儲存和擷取大量文字而設計的資料庫)。當你提出問題時,ChatGPT Enterprise 會帶入已納入的文字,以及從私人搜尋索引擷取的相關片段。
如果你上傳單一文件,ChatGPT Enterprise 會從開頭開始納入文字,直到達到其限制。如果你上傳多個文件,ChatGPT Enterprise 會納入每份文件的部分或全部內容。文件中的所有文字也會傳送至私人搜尋索引。
文字文件的上下文填充
此功能正在積極開發中。因此,以下詳細資訊可能隨時變更,恕不另行通知。
ChatGPT Enterprise 最多可在上下文視窗中處理來自已上傳文件的 110k 個 Token。如果你上傳的一份或多份文件合計少於 110k 個 Token,系統會納入完整內容。
若單一文件超過 110k 個 Token,則只會從開頭開始納入前 110k 個 Token。其餘內容只會傳送至私人搜尋索引。
如果上傳多份文件且合計超過 110k 個 Token,ChatGPT Enterprise 會使用兩步驟流程來平衡各文件的呈現:
擷取最多 55k 個 Token,並在已上傳文件之間平均分配。
對於第一步未完整呈現的文件,依各文件剩餘 Token 數按比例分配其餘 55k 個 Token。
任何剩餘 Token 都只會傳送至私人搜尋索引。
你可以將文件文字複製到 OpenAI Tokenizer,估算文字文件中的 Token 數量。
多媒體 PDF 的上下文填充
當使用者上傳同時包含文字和圖片的 PDF 時,視覺擷取可讓 ChatGPT 在處理數位擷取文字的同時,原生處理這些圖片。下列步驟是我們針對多媒體 PDF 標準上下文處理程序的補充:
圖片擷取與嵌入:圖片會與其相關數位文字一併擷取並嵌入。
智慧縮放:圖片會自動縮放,以在資訊品質與可用上下文視窗的高效使用之間維持平衡。
當已上傳的 PDF 超過 110k 個 Token 限制時,圖片和文字都會嵌入私人搜尋索引。文字嵌入會參照相關圖片,讓 ChatGPT 能根據使用者查詢擷取適當的文字與圖片配對。接著,擷取到的圖片會使用 ChatGPT 的原生多模態能力進行處理。
準確估算多媒體 PDF 的 Token 需求並不容易。測試顯示,約 350 頁混合文字與圖片的內容會完全用滿 110k 個 Token 的上下文視窗。
依模型類型而定的搜尋策略
GPT 系列和 o 系列模型皆支援檔案上傳,並使用相同的上下文填充和搜尋嵌入邏輯。所有模型都會針對私人搜尋索引執行混合搜尋,結合關鍵字和語意方法。在混合搜尋中,模型會根據使用者的提示詞產生搜尋詞句,而私人搜尋索引會據此擷取相關文字和圖片。
不過,這些模型在搜尋超出上下文視窗的大型文件時,做法有所不同:
GPT 系列模型
每個提示詞進行一次搜尋:GPT 系列模型會針對每個使用者提示詞執行一次搜尋。
有效使用案例:非常適合回答大量文件中包含的直接問題。
查詢範例:
「關於提前退休的人資政策是什麼?」
「
process_order函式的作用是什麼?」
o 系列模型
每個提示詞可進行多次搜尋:可針對每個使用者提示詞執行多次搜尋(通常 2–3 次),每次使用不同的搜尋詞句。搜尋會依序執行,且模型可根據先前搜尋擷取到的資訊更新其做法。
有效使用案例:更適合需要在大量文件中進行多次目標式搜尋的複雜問題。
查詢範例:
「關於提前退休、育嬰假和海外調任的人資政策是什麼?」
「說明
process_order函式的作用,列出此函式呼叫的所有方法,並簡要描述每個被呼叫的方法。」
儘管 o 系列模型有其優勢,但當查詢需要三次以上搜尋時,仍可能難以處理。
改善檔案搜尋結果的提示
對於需要多次搜尋的複雜問題,請嘗試使用 o 系列模型。
請記住,回覆可能會依你上傳文件的類型、數量和大小而有所不同。
一般來說,載入較少且重點明確的文件會帶來更高的準確度。
將多問題主題轉換為單一問題:
如果你需要了解每個州的人資政策,請逐一提問。
如果你需要摘要多份文件,請一次要求摘要一份文件。如果該文件有數百頁,請考慮將其拆分成較小的部分。
如果你提供多份摘要而非整份文件,可以要求 ChatGPT Enterprise 撰寫「摘要的摘要」。
如果你有一個 RFP 的 CSV(每一行都是不同問題),請逐一提問,而不是只載入 CSV 並要求單一回覆。
找出稽核模型回覆的方法。GPT 指示範例如下:
# 背景
你是理解文件的專家。使用者將會附上一份文件並提出問題。他們需要能夠將你的答案連回你取得答案時所依據的確切文字位置。
# 指示
1. 根據使用者附上的文件回答問題,並使用下方提供的確切格式
# 格式
- 問題:{ repeat user's question }
- 答案:{ provide an answer to user's question }
來源:
- - 章節編號:{ provide section number where you pulled in the answer }
- - 章節標題:{ provide section title where you pulled in the answer }
- - 確切文字:{ provide the exact text where you pulled the answer from }
# 規則
- 回答應清楚且簡潔
- 只提供文件中提供的資訊
- 如果你無法在文件中找到答案,請直接回覆「找不到資訊。」