Tìm hiểu cách các tính năng của ChatGPT Enterprise xử lý tệp theo loại, số lượng và kích thước. Cải thiện đầu ra dựa trên yêu cầu của tệp.

ChatGPT Enterprise hiện hỗ trợ đọc và hiểu nội dung trực quan (hình ảnh, biểu đồ, sơ đồ, v.v.) được nhúng trong các tệp PDF có trong câu lệnh. Người dùng có thể tải lên một PDF, và ChatGPT có thể diễn giải văn bản cũng như mọi yếu tố trực quan trong tệp đó.

Để biết chi tiết, hãy xem Câu hỏi thường gặp về Visual Retrieval với PDF.

ChatGPT Enterprise cho phép bạn tải tệp lên theo nhiều cách:

Trực tiếp từ máy tính của bạn
Từ Google Drive / SharePoint / OneDrive
Dưới dạng GPT Knowledge
Dưới dạng Tệp dự án
Từ một GPT Action

Hướng dẫn này giải thích cách các tính năng của ChatGPT Enterprise xử lý tệp dựa trên loại, số lượng và kích thước của chúng, đồng thời thảo luận các chiến lược để cải thiện đầu ra dựa trên yêu cầu về tệp.

Tóm tắt

ChatGPT Enterprise xử lý các loại tệp khác nhau theo những cách rất khác nhau: trích xuất văn bản từ tài liệu văn bản như PDF, bản trình bày và tệp Word; phân tích dữ liệu có cấu trúc từ bảng tính bằng mã Python; và mô tả tệp hình ảnh thông qua GPT-Vision. Hiểu loại tệp nào kích hoạt quy trình nào là chìa khóa để nhận được kết quả mong đợi.

Đối với tài liệu dựa trên văn bản, ChatGPT Enterprise đưa càng nhiều văn bản liên quan càng tốt trực tiếp vào cùng câu lệnh và sử dụng hệ thống tìm kiếm để truy cập thông tin bổ sung. Cách này hoạt động tốt để trả lời các câu hỏi cụ thể. Tuy nhiên, cách tiếp cận này có thể gặp khó khăn với các tác vụ phức tạp như tóm tắt tài liệu rất lớn hoặc so sánh nhiều tệp lớn. Hãy đọc tiếp để hiểu các chiến lược cải thiện kết quả của bạn.

Xử lý tệp dựa trên loại

ChatGPT Enterprise xử lý tệp theo ba cách chính: trích xuất văn bản, phân tích mã và diễn giải hình ảnh. Loại tệp xác định quy trình mà ChatGPT Enterprise sẽ thực hiện.

	Truy xuất dựa trên văn bản	Trình Thông dịch Mã	Xử lý hình ảnh	Visual Retrieval
Ví dụ về loại tệp	pptx, docx, txt, md, json, xml, pdf* * PDF được tải lên dưới dạng GPT Knowledge hoặc Tệp dự án	csv, xls, xlsx* *Lưu ý: Trình Thông dịch Mã có thể hoạt động trên bất kỳ loại tệp nào, nhưng ChatGPT Enterprise thường mặc định dùng CI cho bảng tính	jpg, png	pdf* * PDF có trong câu lệnh của người dùng
Hành vi	Trích xuất văn bản từ tệp – một phần văn bản được dán (“nhồi”) trực tiếp vào cửa sổ ngữ cảnh; một phần văn bản được lưu trữ để tìm kiếm	Trình Thông dịch Mã chuyển tệp cho Python để xử lý	Hình ảnh được các mô hình đa phương thức diễn giải nguyên bản, tùy thuộc vào các giới hạn đã biết .	Sự kết hợp giữa truy xuất văn bản và xử lý hình ảnh. Văn bản được trích xuất kỹ thuật số, và nội dung trực quan được các mô hình đa phương thức diễn giải nguyên bản.

Đối với tệp chỉ có văn bản, tệp hình ảnh hoặc tệp dữ liệu có cấu trúc rõ ràng (ví dụ: bảng giao dịch Excel), các phân loại này thể hiện hành vi tốt nhất có thể.

Có một số vùng xám ít rõ ràng hơn, ví dụ:

Hình ảnh được nhúng trong các tệp không phải PDF sẽ không được xử lý. Để đưa chúng vào, hãy chuyển đổi tệp sang PDF trước khi tải lên.
ChatGPT Enterprise sẽ luôn dùng Trình Thông dịch Mã để tương tác với bảng tính, ngay cả khi tài liệu chứa một lượng lớn văn bản. Ví dụ: nếu bạn yêu cầu ChatGPT Enterprise dịch một tệp CSV có 10 hàng văn bản, nó sẽ cố gắng dịch tệp bằng một thư viện Python, kém chính xác hơn so với việc để mô hình tạo bản dịch trực tiếp. Để giảm thiểu điều này, hãy thử xuất bảng tính sang định dạng dựa trên văn bản (ví dụ: PDF).
Tương tự, nếu bạn tải lên một bảng giao dịch có cấu trúc được chứa trong tệp JSON, ChatGPT Enterprise sẽ diễn giải tệp này như văn bản thuần túy. Nếu bạn muốn phân tích dữ liệu có trong tệp JSON, hãy hướng dẫn mô hình dùng Trình Thông dịch Mã trong câu lệnh của bạn.

Xử lý tệp dựa trên kích thước

ChatGPT Enterprise sử dụng các mô hình có cửa sổ ngữ cảnh tối đa 128k token (khoảng 200 trang văn bản). Tuy nhiên, không phải tất cả token đều được dùng để đưa văn bản từ các tệp đã tải lên vào. Số lượng token được “nhồi” thay đổi tùy theo loại sử dụng.

ChatGPT Enterprise “nhồi” một lượng văn bản nhất định, và phần văn bản còn lại được gửi đến một chỉ mục tìm kiếm riêng tư (một “kho vector”, là loại cơ sở dữ liệu được thiết kế để lưu trữ và truy xuất hiệu quả lượng lớn văn bản). Khi bạn đặt câu hỏi, ChatGPT Enterprise đưa vào phần văn bản đã bao gồm cùng với các đoạn liên quan được truy xuất từ một chỉ mục tìm kiếm riêng tư.

Nếu bạn tải lên một tài liệu duy nhất, ChatGPT Enterprise sẽ bao gồm văn bản bắt đầu từ đầu tài liệu cho đến khi đạt giới hạn. Nếu bạn tải lên nhiều tài liệu, ChatGPT Enterprise sẽ bao gồm một phần hoặc toàn bộ nội dung của từng tài liệu. Toàn bộ văn bản từ các tài liệu cũng được gửi đến một chỉ mục tìm kiếm riêng tư.

Nhồi ngữ cảnh cho tài liệu văn bản

Tính năng này đang được phát triển tích cực. Vì vậy, các chi tiết sau đây có thể thay đổi mà không cần báo trước.

ChatGPT Enterprise có thể xử lý tối đa 110k token từ các tài liệu đã tải lên trong cửa sổ ngữ cảnh. Nếu bạn tải lên một hoặc nhiều tài liệu có tổng cộng dưới 110k token, toàn bộ nội dung sẽ được đưa vào.

Đối với một tài liệu duy nhất vượt quá 110k token, chỉ 110k token đầu tiên sẽ được đưa vào, bắt đầu từ đầu tài liệu. Phần còn lại sẽ chỉ được gửi đến chỉ mục tìm kiếm riêng tư.

Nếu nhiều tài liệu được tải lên và tổng cộng của chúng vượt quá 110k token, ChatGPT Enterprise dùng quy trình hai bước để cân bằng mức độ đại diện của tài liệu:

Trích xuất tối đa 55k token, được chia đều giữa các tài liệu đã tải lên.

Đối với các tài liệu chưa được thể hiện đầy đủ ở bước đầu, phân bổ 55k token còn lại theo tỷ lệ dựa trên số token còn lại trong mỗi tài liệu.

Mọi token còn lại chỉ được gửi đến chỉ mục tìm kiếm riêng tư.

Bạn có thể ước tính số token trong một tài liệu văn bản bằng cách sao chép văn bản của tài liệu vào OpenAI Tokenizer.

Nhồi ngữ cảnh cho PDF đa phương tiện

Khi người dùng tải lên PDF chứa cả văn bản và hình ảnh, Visual Retrieval cho phép ChatGPT xử lý các hình ảnh này một cách nguyên bản cùng với văn bản được trích xuất kỹ thuật số. Các bước sau bổ sung cho quy trình xử lý ngữ cảnh tiêu chuẩn của chúng tôi đối với PDF đa phương tiện:

Trích xuất và nhúng hình ảnh: Hình ảnh được trích xuất và nhúng cùng với văn bản kỹ thuật số liên quan.
Điều chỉnh tỷ lệ thông minh: Hình ảnh được tự động điều chỉnh tỷ lệ để duy trì sự cân bằng giữa chất lượng thông tin và việc sử dụng hiệu quả cửa sổ ngữ cảnh hiện có.

Khi PDF đã tải lên vượt quá giới hạn 110k token, cả hình ảnh và văn bản đều được nhúng vào chỉ mục tìm kiếm riêng tư. Các nhúng văn bản tham chiếu đến hình ảnh liên quan, cho phép ChatGPT truy xuất các cặp văn bản-hình ảnh phù hợp dựa trên truy vấn của người dùng. Hình ảnh được truy xuất sau đó được xử lý bằng các khả năng đa phương thức nguyên bản của ChatGPT.

Việc ước tính chính xác nhu cầu token cho PDF đa phương tiện là một thách thức. Thử nghiệm cho thấy khoảng 350 trang gồm văn bản và hình ảnh hỗn hợp sẽ sử dụng hết cửa sổ ngữ cảnh 110k token.

Chiến lược tìm kiếm dựa trên loại mô hình

Cả mô hình dòng GPT và dòng o đều hỗ trợ tải tệp lên và sử dụng cùng một logic nhồi ngữ cảnh và nhúng tìm kiếm. Tất cả mô hình đều thực hiện tìm kiếm kết hợp trên một chỉ mục tìm kiếm riêng tư, kết hợp phương pháp từ khóa và ngữ nghĩa. Trong tìm kiếm kết hợp, mô hình tạo một cụm từ tìm kiếm dựa trên câu lệnh của người dùng, và chỉ mục tìm kiếm riêng tư sẽ truy xuất văn bản và hình ảnh liên quan tương ứng.

Tuy nhiên, các mô hình này khác nhau ở cách chúng tìm kiếm trong các tài liệu lớn vượt quá cửa sổ ngữ cảnh:

Mô hình dòng GPT

Một lượt tìm kiếm cho mỗi câu lệnh: Các mô hình dòng GPT thực hiện một lượt tìm kiếm cho mỗi câu lệnh của người dùng.
Trường hợp sử dụng hiệu quả: Lý tưởng để trả lời các câu hỏi đơn giản nằm trong khối tài liệu lớn.

Ví dụ truy vấn:

“Chính sách nhân sự về nghỉ hưu sớm là gì?”
“Hàm process_order làm gì?”

Mô hình dòng o

Nhiều lượt tìm kiếm cho mỗi câu lệnh: Có thể thực hiện nhiều lượt tìm kiếm (thường là 2-3) cho mỗi câu lệnh của người dùng, mỗi lượt có một cụm từ tìm kiếm riêng. Các lượt tìm kiếm được thực hiện tuần tự, và mô hình có thể cập nhật cách tiếp cận dựa trên thông tin truy xuất được trong các lượt tìm kiếm trước đó.
Trường hợp sử dụng hiệu quả: Phù hợp hơn với các câu hỏi phức tạp cần nhiều lượt tìm kiếm có mục tiêu trên khối tài liệu lớn.

Ví dụ truy vấn:

“Các chính sách nhân sự về nghỉ hưu sớm, nghỉ phép cho cha mẹ và chuyển công tác ra nước ngoài là gì?”
“Giải thích hàm process_order làm gì, liệt kê tất cả các phương thức được hàm này gọi và mô tả ngắn gọn từng phương thức được gọi.”

Dù có những điểm mạnh, các mô hình dòng o có thể gặp khó khăn khi một truy vấn cần hơn ba lượt tìm kiếm.

Mẹo cải thiện kết quả tìm kiếm tệp

Hãy thử dùng mô hình dòng o cho các câu hỏi phức tạp cần nhiều lượt tìm kiếm.
Hãy nhớ rằng phản hồi có thể khác nhau tùy thuộc vào loại, số lượng và kích thước của tài liệu bạn tải lên.
Nhìn chung, tải ít tài liệu hơn và có trọng tâm hơn sẽ giúp đạt độ chính xác cao hơn.
Chuyển các chủ đề có nhiều câu hỏi thành các câu hỏi đơn lẻ:
- Nếu bạn cần biết chính sách nhân sự của từng tiểu bang, hãy hỏi từng nơi một.
- Nếu bạn cần tóm tắt nhiều tài liệu, hãy yêu cầu từng tài liệu một. Nếu tài liệu đó dài hàng trăm trang, hãy cân nhắc chia nhỏ thành các phần nhỏ hơn.
  - Bạn có thể yêu cầu ChatGPT Enterprise viết một “bản tóm tắt của các bản tóm tắt” nếu bạn cung cấp cho nó nhiều bản tóm tắt thay vì toàn bộ tài liệu.
- Nếu bạn có CSV của một RFP (mỗi dòng là một câu hỏi khác nhau), hãy hỏi từng câu một thay vì chỉ tải CSV lên và yêu cầu một phản hồi duy nhất.
Tìm cách kiểm tra phản hồi của mô hình. Ví dụ về hướng dẫn cho GPT ở bên dưới:

# Ngữ cảnh 

Bạn là chuyên gia trong việc hiểu tài liệu. Người dùng sẽ đính kèm một tài liệu và đặt câu hỏi. Họ cần có thể liên kết câu trả lời của bạn trở lại chính xác phần văn bản mà bạn đã lấy câu trả lời.

# Hướng dẫn

1. Trả lời câu hỏi của người dùng dựa trên tài liệu đính kèm của họ theo đúng định dạng được cung cấp dưới đây

# Định dạng 

- Câu hỏi: { lặp lại câu hỏi của người dùng }
- Trả lời: { cung cấp câu trả lời cho câu hỏi của người dùng }
Nguồn: 
- - Số mục: { cung cấp số mục nơi bạn lấy câu trả lời }
- - Tiêu đề mục: { cung cấp tiêu đề mục nơi bạn lấy câu trả lời }
- - Văn bản chính xác: { cung cấp chính xác đoạn văn bản nơi bạn lấy câu trả lời }

# Quy tắc

- Đưa ra câu trả lời rõ ràng và ngắn gọn
- Chỉ cung cấp thông tin có trong tài liệu
- Nếu bạn không thể tìm thấy câu trả lời trong tài liệu, chỉ cần trả lời “Không tìm thấy thông tin.”

Tối ưu hóa tải tệp lên trong ChatGPT Enterprise

Tóm tắt

Xử lý tệp dựa trên loại

Xử lý tệp dựa trên kích thước

Nhồi ngữ cảnh cho tài liệu văn bản

Nhồi ngữ cảnh cho PDF đa phương tiện

Chiến lược tìm kiếm dựa trên loại mô hình

Mô hình dòng GPT

Mô hình dòng o

Mẹo cải thiện kết quả tìm kiếm tệp

Bài viết này có hữu ích không?