OpenAI
此頁面由機器翻譯。查看原文英文文章

優化 ChatGPT Enterprise 中的檔案上傳

了解 ChatGPT Enterprise 功能如何按檔案類型、數量及大小處理檔案,並根據檔案要求改善輸出結果。

更新日期:21 days ago

ChatGPT Enterprise 現已支援讀取和理解提示詞中所含 PDF 檔案內嵌的視覺內容(圖片、圖表、圖解等)。使用者可以上載 PDF,而 ChatGPT 可解讀該檔案中的文字以及任何視覺元素。

詳情請參閱 PDF 視覺檢索常見問題

ChatGPT Enterprise 允許你透過多種方式上載檔案:

本指南說明 ChatGPT Enterprise 功能如何根據檔案的類型、數量和大小處理檔案,並討論如何根據檔案需求改善輸出的策略。

摘要

ChatGPT Enterprise 對不同檔案類型的處理方式非常不同:從 PDF、簡報和 Word 檔案等文字文件擷取文字,使用 Python 程式碼分析試算表中的結構化資料,並透過 GPT-Vision 描述圖片檔案。了解哪種檔案類型會觸發哪個工作流程,是取得預期結果的關鍵。

對於文字型文件,ChatGPT Enterprise 會盡量將相關文字直接與提示詞一併納入,並使用搜尋系統存取額外資訊。這很適合用來回答具體問題。不過,這種方法在處理複雜任務時可能會有困難,例如總結非常大型的文件或比較多個大型檔案。請繼續閱讀,了解改善結果的策略。

根據類型處理檔案

ChatGPT Enterprise 主要透過三種方式處理檔案:文字擷取、程式碼分析和圖片解讀。檔案類型決定 ChatGPT Enterprise 會採用哪個工作流程。

文字型擷取程式碼解譯器圖片處理視覺檢索
檔案類型範例pptx、docx、txt、md、json、xml、pdf*
* 以

GPT 知識


專案檔案
形式上載的 PDF
csv、xls、xlsx*
*注意:程式碼解譯器可處理任何檔案類型,但 ChatGPT Enterprise 最常預設對試算表使用 CI
jpg、pngpdf*
* 使用者提示詞中包含的 PDF
行為從檔案擷取文字——部分文字會直接貼上(「填入」)到上下文視窗;部分文字會儲存以供搜尋程式碼解譯器會將檔案交由 Python 處理圖片會由多模態模型原生解讀,但受

已知限制
約束。
文字擷取與圖片處理的混合方式。文字會以數碼方式擷取,而視覺內容會由多模態模型原生解讀。

對於純文字檔案、圖片檔案或結構清晰的資料檔案(例如 Excel 交易表),這些分類代表最佳可能行為。

亦有一些較不明顯的灰色地帶,例如:

  • PDF 以外檔案中內嵌的圖片不會被處理。如要納入這些圖片,請在上載前將檔案轉換為 PDF。

  • ChatGPT Enterprise 一律會使用程式碼解譯器與試算表互動,即使文件包含大量文字亦然。例如,如果你要求 ChatGPT Enterprise 翻譯包含 10 行文字的 CSV 檔案,它會嘗試使用 Python 程式庫翻譯該檔案,其準確度低於讓模型直接產生翻譯。為緩解這一點,可嘗試將試算表匯出為文字型格式(例如 PDF)。

  • 同樣地,如果你上載的是 JSON 檔案中包含的結構化交易表,ChatGPT Enterprise 會將此檔案解讀為純文字。如果你想分析 JSON 檔案中包含的資料,請在提示詞中指示模型使用程式碼解譯器。

根據大小處理檔案

ChatGPT Enterprise 使用的模型,其最大上下文視窗為 128k tokens(約 200 頁文字)。不過,並非所有 tokens 都會用於納入已上載檔案中的文字。「填入」的 tokens 數量會因使用類型而異。

ChatGPT Enterprise 會「填入」一定數量的文字,其餘文字則會傳送到私人搜尋索引(即「向量儲存庫」,是一種專為高效儲存和擷取大量文字而設的資料庫)。當你提出問題時,ChatGPT Enterprise 會引入已納入的文字,以及從私人搜尋索引擷取的相關片段。

如果你上載單一文件,ChatGPT Enterprise 會從開頭開始納入文字,直至達到其限制。如果你上載多份文件,ChatGPT Enterprise 會納入每份文件的部分或全部內容。文件中的所有文字也會傳送到私人搜尋索引。

文字文件的上下文填充

此功能仍在積極開發中。因此,下列細節可能會在不作另行通知的情況下更改。

ChatGPT Enterprise 可在上下文視窗中處理已上載文件最多 110k tokens。如果你上載一份或多份文件,而合計少於 110k tokens,系統會納入完整內容。

對於超過 110k tokens 的單一文件,系統只會從開頭開始納入最前的 110k tokens。其餘內容只會傳送到私人搜尋索引。

如果上載多份文件且合計超過 110k tokens,ChatGPT Enterprise 會使用兩步流程來平衡各文件的呈現:

  1. 擷取最多 55k tokens,並在已上載文件之間平均分配。

  1. 對於第一步未完整呈現的文件,根據各文件剩餘的 tokens 按比例分配餘下 55k tokens。

  1. 任何剩餘 tokens 只會傳送到私人搜尋索引。

你可以將文字文件的文字複製到 OpenAI Tokenizer,以估算文字文件中的 tokens 數量。

多媒體 PDF 的上下文填充

當使用者上載同時包含文字和圖片的 PDF 時,視覺檢索讓 ChatGPT 能夠將這些圖片與數碼擷取的文字一併原生處理。以下步驟補充我們針對多媒體 PDF 的標準上下文處理程序:

  • 圖片擷取和嵌入:圖片會連同相關數碼文字一併擷取及嵌入。

  • 智能縮放:圖片會自動縮放,以在資訊質素與可用上下文視窗的高效使用之間取得平衡。

當上載的 PDF 超過 110k token 限制時,圖片和文字都會嵌入私人搜尋索引。文字嵌入會參照相關圖片,讓 ChatGPT 根據使用者查詢擷取合適的文字圖片配對。擷取到的圖片隨後會使用 ChatGPT 的原生多模態功能處理。

準確估算多媒體 PDF 的 token 需求並不容易。測試顯示,約 350 頁混合文字和圖片會完全用盡 110k token 的上下文視窗。

根據模型類型制定搜尋策略

GPT 系列和 o 系列模型均支援檔案上載,並使用相同的上下文填充和搜尋嵌入邏輯。所有模型都會對私人搜尋索引執行混合搜尋,結合關鍵字和語義方法。在混合搜尋中,模型會根據使用者的提示詞產生搜尋字句,私人搜尋索引則相應擷取相關文字和圖片。

不過,這些模型在搜尋超出上下文視窗的大型文件時,做法有所不同:

GPT 系列模型

  • 每個提示詞一次搜尋:GPT 系列模型會針對每個使用者提示詞執行一次搜尋。

  • 有效使用案例:適合回答大量文件中的直接問題。

查詢範例:

  • 「提前退休的人力資源政策是甚麼?」

  • process_order 函數有甚麼作用?」

o 系列模型

  • 每個提示詞可進行多次搜尋:可針對每個使用者提示詞執行多次搜尋(通常為 2 至 3 次),每次使用獨特的搜尋字句。搜尋會依次執行,而模型可根據先前搜尋擷取到的資訊更新其方法。

  • 有效使用案例:較適合需要在大量文件中進行多次針對性搜尋的複雜問題。

查詢範例:

  • 「提前退休、育兒假和海外調職的人力資源政策是甚麼?」

  • 「說明 process_order 函數的作用,列出此函數調用的所有方法,並簡述每個被調用的方法。」

儘管 o 系列模型各有優勢,但當查詢需要三次以上搜尋時,可能會遇到困難。

改善檔案搜尋結果的提示

  • 對於需要多次搜尋的複雜問題,可嘗試使用 o 系列模型。

  • 請記住,回應可能會因你上載文件的類型、數量和大小而有所不同。

  • 一般而言,載入較少且重點明確的文件會帶來較高準確度。

  • 將包含多個問題的主題轉化為單一問題:

    • 如果你需要了解每個州的人力資源政策,請逐一提問。

    • 如果你需要總結多份文件,請每次要求總結一份文件。如果該文件有數百頁,可考慮將其拆分成較小部分。

      • 如果你提供的是多份摘要而非整份文件,你可以要求 ChatGPT Enterprise 撰寫「摘要的摘要」。

    • 如果你有一個 RFP 的 CSV(每行都是不同問題),請逐一提出這些問題,而不是只載入 CSV 並要求單一回應。

  • 尋找方法審核模型的回應。以下是 GPT 指示範例:

# 背景 

你是理解文件的專家。使用者將會附上一份文件並提出問題。他們需要能夠把你的答案對應到你從文本中擷取答案的確切部分。

# 指示

1. 根據使用者所附文件回答其問題,並嚴格使用下方提供的格式

# 格式

- 問題:{ 重述使用者的問題 }
- 答案:{ 提供對使用者問題的答案 }
來源:
- - 章節編號:{ 提供你擷取答案的章節編號 }
- - 章節標題:{ 提供你擷取答案的章節標題 }
- - 原文:{ 提供你擷取答案的確切原文 }

# 規則

- 答案要清晰簡潔
- 只提供文件中已有的資訊
- 如果你無法在文件中找到答案,只需回覆「找不到相關資訊。」

這篇文章對你有幫助嗎?