OpenAI
Trang này được dịch bằng máy học. Xem bài viết gốc bằng tiếng Anh.

Tối ưu hóa tải tệp lên trong ChatGPT Enterprise

Tìm hiểu cách các tính năng của ChatGPT Enterprise xử lý tệp theo loại, số lượng và kích thước. Cải thiện đầu ra dựa trên yêu cầu của tệp.

Đã cập nhật: 3 days ago

ChatGPT Enterprise hiện hỗ trợ đọc và hiểu nội dung trực quan (hình ảnh, biểu đồ, sơ đồ, v.v.) được nhúng trong tệp PDF có trong câu lệnh. Người dùng có thể tải lên một tệp PDF và ChatGPT có thể diễn giải văn bản mọi yếu tố trực quan trong tệp đó.

Để biết chi tiết, xem Câu hỏi thường gặp về Truy xuất trực quan với PDF.

ChatGPT Enterprise cho phép bạn tải tệp lên theo nhiều cách:

Hướng dẫn này giải thích cách các tính năng của ChatGPT Enterprise xử lý tệp dựa trên loại, số lượng và kích thước của tệp, đồng thời thảo luận các chiến lược để cải thiện đầu ra dựa trên yêu cầu của tệp.

Tóm tắt

ChatGPT Enterprise xử lý các loại tệp khác nhau theo những cách rất khác nhau: trích xuất văn bản từ các tài liệu văn bản như PDF, bài thuyết trình và tệp Word, phân tích dữ liệu có cấu trúc từ bảng tính bằng mã Python, và mô tả tệp hình ảnh thông qua GPT-Vision. Hiểu loại tệp nào kích hoạt quy trình nào là chìa khóa để nhận được kết quả như mong đợi.

Đối với tài liệu dựa trên văn bản, ChatGPT Enterprise đưa vào càng nhiều văn bản liên quan càng tốt trực tiếp cùng với câu lệnh và sử dụng hệ thống tìm kiếm để truy cập thông tin bổ sung. Cách này hoạt động tốt khi trả lời các câu hỏi cụ thể. Tuy nhiên, cách tiếp cận này có thể gặp khó khăn với các tác vụ phức tạp như tóm tắt tài liệu rất lớn hoặc so sánh nhiều tệp lớn. Hãy đọc tiếp để hiểu các chiến lược cải thiện kết quả của bạn.

Xử lý tệp theo loại

ChatGPT Enterprise xử lý tệp theo ba cách chính: trích xuất văn bản, phân tích mã và diễn giải hình ảnh. Loại tệp xác định quy trình mà ChatGPT Enterprise sẽ theo.

Truy xuất dựa trên văn bảnTrình Thông dịch MãXử lý hình ảnhTruy xuất trực quan
Ví dụ về loại tệppptx, docx, txt, md, json, xml, pdf*
* PDF được tải lên dưới dạng

Kiến thức GPT
hoặc

Tệp Dự án
csv, xls, xlsx*
*Lưu ý: Trình Thông dịch Mã có thể hoạt động trên mọi loại tệp, nhưng ChatGPT Enterprise thường mặc định dùng CI cho bảng tính
jpg, pngpdf*
* PDF được đưa vào câu lệnh của người dùng
Hành viTrích xuất văn bản từ tệp – một phần văn bản được dán (“nhồi”) trực tiếp vào cửa sổ ngữ cảnh; một phần văn bản được lưu để tìm kiếmTrình Thông dịch Mã chuyển tệp sang Python để xử lýHình ảnh được diễn giải trực tiếp bởi các mô hình đa phương thức, tùy theo

các giới hạn đã biết
.
Kết hợp giữa truy xuất văn bản và xử lý hình ảnh. Văn bản được trích xuất số hóa, còn nội dung trực quan được diễn giải trực tiếp bởi các mô hình đa phương thức.

Đối với tệp chỉ chứa văn bản, tệp hình ảnh hoặc tệp dữ liệu có cấu trúc rõ ràng (ví dụ: bảng giao dịch Excel), các phân chia này thể hiện hành vi tốt nhất có thể.

Có một số vùng xám ít rõ ràng hơn, ví dụ:

  • Hình ảnh được nhúng trong các tệp không phải PDF sẽ không được xử lý. Để đưa chúng vào, hãy chuyển đổi tệp sang PDF trước khi tải lên.

  • ChatGPT Enterprise sẽ luôn sử dụng Trình Thông dịch Mã để tương tác với bảng tính, ngay cả khi tài liệu chứa lượng lớn văn bản. Ví dụ: nếu bạn yêu cầu ChatGPT Enterprise dịch một tệp CSV có 10 hàng văn bản, hệ thống sẽ cố dịch tệp bằng một thư viện Python, cách này kém chính xác hơn so với việc để mô hình tạo bản dịch trực tiếp. Để giảm vấn đề này, hãy thử xuất bảng tính sang định dạng dựa trên văn bản (ví dụ: PDF).

  • Tương tự, nếu bạn tải lên một bảng giao dịch có cấu trúc được mô tả trong tệp JSON, ChatGPT Enterprise sẽ diễn giải tệp này là văn bản thuần túy. Nếu bạn muốn phân tích dữ liệu chứa trong tệp JSON, hãy hướng dẫn mô hình sử dụng Trình Thông dịch Mã trong câu lệnh của bạn.

Xử lý tệp theo kích thước

ChatGPT Enterprise sử dụng các mô hình có cửa sổ ngữ cảnh tối đa 128k token (xấp xỉ 200 trang văn bản). Tuy nhiên, không phải tất cả token đều được dùng để đưa văn bản từ các tệp đã tải lên vào. Số lượng token được “nhồi” khác nhau tùy theo loại sử dụng.

ChatGPT Enterprise “nhồi” một lượng văn bản nhất định, và phần văn bản còn lại được gửi đến một chỉ mục tìm kiếm riêng tư (một “vector store”, là một loại cơ sở dữ liệu được thiết kế để lưu trữ và truy xuất hiệu quả lượng lớn văn bản). Khi bạn đặt câu hỏi, ChatGPT Enterprise sẽ đưa vào phần văn bản đã bao gồm cùng với các đoạn liên quan được truy xuất từ chỉ mục tìm kiếm riêng tư.

Nếu bạn tải lên một tài liệu duy nhất, ChatGPT Enterprise sẽ đưa vào văn bản bắt đầu từ đầu tài liệu cho đến khi đạt giới hạn. Nếu bạn tải lên nhiều tài liệu, ChatGPT Enterprise sẽ đưa vào một phần hoặc toàn bộ mỗi tài liệu. Toàn bộ văn bản từ các tài liệu cũng được gửi tới một chỉ mục tìm kiếm riêng tư.

Nhồi ngữ cảnh cho tài liệu văn bản

Tính năng này đang được phát triển tích cực. Vì vậy, các chi tiết sau đây có thể thay đổi mà không cần báo trước.

ChatGPT Enterprise có thể xử lý tối đa 110k token từ các tài liệu được tải lên trong cửa sổ ngữ cảnh. Nếu bạn tải lên một hoặc nhiều tài liệu có tổng cộng dưới 110k token, toàn bộ nội dung sẽ được đưa vào.

Đối với một tài liệu duy nhất vượt quá 110k token, chỉ 110k token đầu tiên sẽ được đưa vào, bắt đầu từ đầu tài liệu. Phần còn lại sẽ chỉ được gửi đến chỉ mục tìm kiếm riêng tư.

Nếu nhiều tài liệu được tải lên và tổng số token của chúng vượt quá 110k, ChatGPT Enterprise sử dụng quy trình hai bước để cân bằng mức độ đại diện của tài liệu:

  1. Trích xuất tối đa 55k token, được chia đều cho các tài liệu đã tải lên.

    • Ví dụ: nếu 10 tài liệu được tải lên, 5.5k token sẽ được trích xuất từ phần đầu của mỗi tài liệu.

  2. Đối với các tài liệu chưa được thể hiện đầy đủ ở bước đầu tiên, phân bổ 55k token còn lại theo tỷ lệ tương ứng với số token còn lại trong mỗi tài liệu.

    • Ví dụ: nếu Tài liệu A còn 10k token và Tài liệu B còn 90k token, sẽ trích xuất thêm 5.5k token từ Tài liệu A ( (10k / 100k) * 55k ), và thêm 49.5k token từ Tài liệu B ( (90k / 100k) * 55k ).

  3. Mọi token còn lại sẽ chỉ được gửi đến chỉ mục tìm kiếm riêng tư.

Bạn có thể ước tính số token trong một tài liệu văn bản bằng cách sao chép văn bản của tài liệu đó vào OpenAI Tokenizer.

Nhồi ngữ cảnh cho PDF đa phương tiện

Khi người dùng tải lên các tệp PDF chứa cả văn bản và hình ảnh, Truy xuất trực quan cho phép ChatGPT xử lý trực tiếp các hình ảnh này cùng với văn bản được trích xuất số hóa. Các bước sau bổ sung cho quy trình xử lý ngữ cảnh tiêu chuẩn của chúng tôi đối với PDF đa phương tiện:

  • Trích xuất và nhúng hình ảnh: Hình ảnh được trích xuất và nhúng cùng với văn bản số hóa liên quan của chúng.

  • Tự động điều chỉnh tỷ lệ: Hình ảnh được tự động điều chỉnh tỷ lệ để duy trì cân bằng giữa chất lượng thông tin và việc sử dụng hiệu quả cửa sổ ngữ cảnh sẵn có.

Khi các tệp PDF được tải lên vượt quá giới hạn 110k token, cả hình ảnh và văn bản đều được nhúng vào chỉ mục tìm kiếm riêng tư. Các embedding văn bản tham chiếu đến hình ảnh liên quan, cho phép ChatGPT truy xuất các cặp văn bản-hình ảnh phù hợp dựa trên truy vấn của người dùng. Các hình ảnh được truy xuất sau đó được xử lý bằng các khả năng đa phương thức gốc của ChatGPT.

Việc ước tính chính xác yêu cầu token cho PDF đa phương tiện là một thách thức. Thử nghiệm cho thấy khoảng 350 trang gồm cả văn bản và hình ảnh sẽ sử dụng hết cửa sổ ngữ cảnh 110k token.

Chiến lược tìm kiếm theo loại mô hình

Cả mô hình dòng GPT và dòng o đều hỗ trợ tải tệp lên và sử dụng logic nhồi ngữ cảnh cũng như nhúng tìm kiếm giống hệt nhau. Tất cả các mô hình đều thực hiện tìm kiếm kết hợp trên một chỉ mục tìm kiếm riêng tư, kết hợp phương pháp từ khóa và ngữ nghĩa. Trong tìm kiếm kết hợp, mô hình tạo một cụm từ tìm kiếm dựa trên câu lệnh của người dùng, và chỉ mục tìm kiếm riêng tư sẽ truy xuất văn bản và hình ảnh có liên quan tương ứng.

Tuy nhiên, các mô hình này khác nhau ở cách chúng tìm kiếm trong các tài liệu lớn vượt quá cửa sổ ngữ cảnh:

Mô hình dòng GPT

  • Một lần tìm kiếm cho mỗi câu lệnh: Mô hình dòng GPT thực hiện một lần tìm kiếm cho mỗi câu lệnh của người dùng.

  • Trường hợp sử dụng hiệu quả: Lý tưởng để trả lời các câu hỏi trực tiếp nằm trong tài liệu dài.

Ví dụ truy vấn:

  • “Chính sách nhân sự về nghỉ hưu sớm là gì?”

  • “Hàm process_order làm gì?”

Mô hình dòng o

  • Nhiều lần tìm kiếm cho mỗi câu lệnh: Có thể thực hiện nhiều lần tìm kiếm (thường là 2–3) cho mỗi câu lệnh của người dùng, mỗi lần với một cụm từ tìm kiếm riêng. Các lần tìm kiếm được thực hiện tuần tự, và mô hình có thể cập nhật cách tiếp cận dựa trên thông tin truy xuất được trong các lần tìm kiếm trước.

  • Trường hợp sử dụng hiệu quả: Phù hợp hơn với các câu hỏi phức tạp cần nhiều lần tìm kiếm có mục tiêu trên tài liệu dài.

Ví dụ truy vấn:

  • “Các chính sách nhân sự về nghỉ hưu sớm, nghỉ phép chăm con và thuyên chuyển ra nước ngoài là gì?”

  • “Giải thích hàm process_order làm gì, liệt kê tất cả các phương thức được hàm này gọi và mô tả ngắn gọn từng phương thức được gọi.”

Mặc dù có những điểm mạnh, các mô hình dòng o có thể gặp khó khăn khi một truy vấn đòi hỏi nhiều hơn ba lần tìm kiếm.

Mẹo cải thiện kết quả tìm kiếm tệp

  • Hãy thử dùng mô hình dòng o cho các câu hỏi phức tạp cần nhiều lần tìm kiếm.

  • Hãy nhớ rằng phản hồi có thể khác nhau tùy theo loại, số lượng và kích thước của tài liệu bạn tải lên.

  • Nói chung, tải ít tài liệu hơn nhưng tập trung hơn sẽ dẫn đến độ chính xác cao hơn.

  • Biến các chủ đề có nhiều câu hỏi thành các câu hỏi đơn:

    • Nếu bạn cần biết chính sách nhân sự của từng bang, hãy hỏi từng bang một.

    • Nếu bạn cần tóm tắt nhiều tài liệu, hãy yêu cầu từng tài liệu một. Nếu tài liệu đó dài hàng trăm trang, hãy cân nhắc chia nhỏ thành các phần nhỏ hơn.

      • Bạn có thể yêu cầu ChatGPT Enterprise viết “bản tóm tắt của các bản tóm tắt” nếu bạn cung cấp nhiều bản tóm tắt thay vì toàn bộ tài liệu.

    • Nếu bạn có một tệp CSV của RFP (mỗi dòng là một câu hỏi khác nhau), hãy hỏi từng câu một thay vì chỉ tải tệp CSV lên và yêu cầu một phản hồi duy nhất.

  • Tìm cách kiểm tra phản hồi của mô hình. Các hướng dẫn GPT mẫu ở bên dưới:

# Ngữ cảnh 

Bạn là chuyên gia trong việc hiểu tài liệu. Người dùng sẽ đính kèm một tài liệu và đặt câu hỏi. Họ cần có thể liên kết câu trả lời của bạn trở lại chính xác phần văn bản mà bạn đã lấy câu trả lời.

# Hướng dẫn

1. Trả lời câu hỏi của người dùng dựa trên tài liệu đính kèm của họ theo đúng định dạng được cung cấp dưới đây

# Định dạng

- Câu hỏi: { lặp lại câu hỏi của người dùng }
- Trả lời: { cung cấp câu trả lời cho câu hỏi của người dùng }
Nguồn:
- - Số mục: { cung cấp số mục nơi bạn lấy câu trả lời }
- - Tiêu đề mục: { cung cấp tiêu đề mục nơi bạn lấy câu trả lời }
- - Văn bản chính xác: { cung cấp chính xác đoạn văn bản nơi bạn lấy câu trả lời }

# Quy tắc

- Đưa ra câu trả lời rõ ràng và ngắn gọn
- Chỉ cung cấp thông tin có trong tài liệu
- Nếu bạn không thể tìm thấy câu trả lời trong tài liệu, chỉ cần trả lời “Không tìm thấy thông tin.”

Bài viết này có hữu ích không?