ขณะนี้ ChatGPT Enterprise รองรับการอ่านและทำความเข้าใจภาพ (รูปภาพ กราฟ แผนภาพ ฯลฯ) ที่ฝังอยู่ในไฟล์ PDF ที่รวมไว้ในคำสั่ง ผู้ใช้สามารถอัปโหลด PDF และ ChatGPT สามารถตีความข้อความ และ องค์ประกอบภาพใดๆ ภายในไฟล์นั้นได้
ดูรายละเอียดได้ที่ คำถามที่พบบ่อยเกี่ยวกับ Visual Retrieval with PDFs.
ChatGPT Enterprise อนุญาตให้คุณอัปโหลดไฟล์ได้หลายวิธี:
โดยตรงจากคอมพิวเตอร์ของคุณ
ในรูปแบบ GPT Knowledge
ในรูปแบบ Project File
จาก GPT Action
คู่มือนี้อธิบายว่าฟีเจอร์ของ ChatGPT Enterprise จัดการไฟล์ตามประเภท จำนวน และขนาดอย่างไร และกล่าวถึงกลยุทธ์ในการปรับปรุงผลลัพธ์ตามข้อกำหนดของไฟล์
สรุป
ChatGPT Enterprise จัดการไฟล์แต่ละประเภทแตกต่างกันมาก: แยกข้อความจากเอกสารข้อความ เช่น PDF งานนำเสนอ และไฟล์ Word วิเคราะห์ข้อมูลที่มีโครงสร้างจากสเปรดชีตโดยใช้โค้ด Python และอธิบายไฟล์รูปภาพผ่าน GPT-Vision การเข้าใจว่าไฟล์ประเภทใดจะทริกเกอร์เวิร์กโฟลว์ใด เป็นกุญแจสำคัญในการได้ผลลัพธ์ตามที่คาดหวัง
สำหรับเอกสารที่เป็นข้อความ ChatGPT Enterprise จะใส่ข้อความที่เกี่ยวข้องให้มากที่สุดโดยตรงไว้ข้างคำสั่ง และใช้ระบบค้นหาเพื่อเข้าถึงข้อมูลเพิ่มเติม วิธีนี้ใช้ได้ดีสำหรับการตอบคำถามเฉพาะเจาะจง อย่างไรก็ตาม แนวทางนี้อาจมีปัญหากับงานที่ซับซ้อน เช่น การสรุปเอกสารขนาดใหญ่มาก หรือการเปรียบเทียบไฟล์ขนาดใหญ่หลายไฟล์ อ่านต่อเพื่อทำความเข้าใจกลยุทธ์ในการปรับปรุงผลลัพธ์ของคุณ
การจัดการไฟล์ตามประเภท
ChatGPT Enterprise ประมวลผลไฟล์หลักๆ ได้สามวิธี: การแยกข้อความ การวิเคราะห์โค้ด และการตีความรูปภาพ ประเภทไฟล์ เป็นตัวกำหนดเวิร์กโฟลว์ที่ ChatGPT Enterprise จะใช้
| การดึงข้อมูลจากข้อความ | เครื่องมือรันโค้ด | การประมวลผลรูปภาพ | Visual Retrieval | |
|---|---|---|---|---|
| ตัวอย่างประเภทไฟล์ | pptx, docx, txt, md, json, xml, pdf* * PDF ที่อัปโหลดเป็น GPT Knowledge หรือ Project Files | csv, xls, xlsx* *หมายเหตุ: เครื่องมือรันโค้ดสามารถทำงานกับไฟล์ประเภทใดก็ได้ แต่ ChatGPT Enterprise มักตั้งค่าเริ่มต้นเป็น CI สำหรับสเปรดชีต | jpg, png | pdf* * PDF ที่รวมอยู่ในคำสั่งของผู้ใช้ |
| ลักษณะการทำงาน | แยกข้อความจากไฟล์ – ข้อความบางส่วนจะถูกวาง (“ใส่”) ลงในหน้าต่างบริบทโดยตรง และข้อความบางส่วนจะถูกจัดเก็บไว้สำหรับการค้นหา | เครื่องมือรันโค้ดส่งไฟล์ไปยัง Python เพื่อประมวลผล | รูปภาพจะถูกตีความโดยตรงโดยโมเดลมัลติโมดัล ภายใต้ ข้อจำกัดที่ทราบ | การผสมผสานระหว่างการดึงข้อมูลจากข้อความและการประมวลผลรูปภาพ ข้อความจะถูกแยกออกมาแบบดิจิทัล และเนื้อหาภาพจะถูกตีความโดยตรงโดยโมเดลมัลติโมดัล |
สำหรับไฟล์ที่มีเฉพาะข้อความ ไฟล์รูปภาพ หรือไฟล์ข้อมูลที่มีโครงสร้างชัดเจน (เช่น ตารางธุรกรรมใน Excel) การแบ่งประเภทเหล่านี้แสดงถึงลักษณะการทำงานที่ดีที่สุดเท่าที่เป็นไปได้
มีบางกรณีที่ไม่ชัดเจนมากนัก เช่น:
รูปภาพที่ฝังอยู่ในไฟล์อื่นที่ไม่ใช่ PDF จะไม่ถูกประมวลผล หากต้องการรวมรูปภาพเหล่านั้น ให้แปลงไฟล์เป็น PDF ก่อนอัปโหลด
ChatGPT Enterprise จะใช้เครื่องมือรันโค้ดเสมอในการโต้ตอบกับสเปรดชีต แม้ว่าเอกสารจะมีข้อความจำนวนมากก็ตาม ตัวอย่างเช่น หากคุณขอให้ ChatGPT Enterprise แปลไฟล์ CSV ที่มีข้อความ 10 แถว ระบบจะพยายามแปลไฟล์โดยใช้ไลบรารี Python ซึ่งแม่นยำน้อยกว่าการให้โมเดลสร้างคำแปลโดยตรง เพื่อลดปัญหานี้ ให้ลองส่งออกสเปรดชีตเป็นรูปแบบที่อิงข้อความ (เช่น PDF)
ในทำนองเดียวกัน หากคุณอัปโหลดตารางธุรกรรมที่มีโครงสร้างซึ่งอธิบายไว้ในไฟล์ JSON ChatGPT Enterprise จะตีความไฟล์นี้เป็นข้อความธรรมดา หากคุณต้องการวิเคราะห์ข้อมูลที่อยู่ในไฟล์ JSON ให้สั่งให้โมเดลใช้เครื่องมือรันโค้ดในคำสั่งของคุณ
การจัดการไฟล์ตามขนาด
ChatGPT Enterprise ใช้โมเดลที่มีหน้าต่างบริบทสูงสุด 128k Token (ประมาณข้อความ 200 หน้า) อย่างไรก็ตาม ไม่ได้ใช้ Token ทั้งหมดเพื่อนำข้อความจากไฟล์ที่อัปโหลดเข้ามา จำนวน Token ที่ “ใส่เข้าไป” จะแตกต่างกันตามประเภทการใช้งาน
ChatGPT Enterprise จะ “ใส่” ข้อความจำนวนหนึ่ง และข้อความที่เหลือจะถูกส่งไปยังดัชนีการค้นหาส่วนตัว (“vector store” ซึ่งเป็นฐานข้อมูลประเภทหนึ่งที่ออกแบบมาเพื่อจัดเก็บและดึงข้อความปริมาณมากอย่างมีประสิทธิภาพ) เมื่อคุณถามคำถาม ChatGPT Enterprise จะนำข้อความที่รวมไว้เข้ามาพร้อมกับส่วนที่เกี่ยวข้องซึ่งดึงมาจากดัชนีการค้นหาส่วนตัว
หากคุณอัปโหลดเอกสารเพียงฉบับเดียว ChatGPT Enterprise จะรวมข้อความตั้งแต่ต้นจนกว่าจะถึงขีดจำกัด หากคุณอัปโหลดเอกสารหลายฉบับ ChatGPT Enterprise จะรวมบางส่วนหรือทั้งหมดของแต่ละเอกสาร ข้อความทั้งหมดจากเอกสารจะถูกส่งไปยังดัชนีการค้นหาส่วนตัวด้วย
การใส่บริบทสำหรับเอกสารข้อความ
ฟีเจอร์นี้อยู่ระหว่างการพัฒนาอย่างต่อเนื่อง ดังนั้นรายละเอียดต่อไปนี้อาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
ChatGPT Enterprise สามารถประมวลผลจากเอกสารที่อัปโหลดได้สูงสุด 110k Token ในหน้าต่างบริบท หากคุณอัปโหลดเอกสารหนึ่งฉบับขึ้นไปที่มีจำนวนรวมกันน้อยกว่า 110k Token ระบบจะรวมเนื้อหาทั้งหมดไว้
สำหรับเอกสารฉบับเดียวที่เกิน 110k Token ระบบจะรวมเฉพาะ 110k Token แรก โดยเริ่มจากต้นเอกสาร ส่วนที่เหลือจะถูกส่งไปยังดัชนีการค้นหาส่วนตัวเท่านั้น
หากอัปโหลดเอกสารหลายฉบับและมีจำนวนรวมกันเกิน 110k Token ChatGPT Enterprise จะใช้กระบวนการสองขั้นตอนเพื่อปรับสมดุลการแสดงเนื้อหาของเอกสาร:
ดึงข้อมูลได้สูงสุด 55k Token โดยแบ่งให้เอกสารที่อัปโหลด เท่าๆ กัน
สำหรับเอกสารที่ยังแสดงเนื้อหาไม่ครบในขั้นตอนแรก ให้จัดสรร 55k Token ที่เหลือ ตามสัดส่วน ตามจำนวน Token ที่เหลือในแต่ละเอกสาร
Token ที่เหลือทั้งหมดจะถูกส่งไปยังดัชนีการค้นหาส่วนตัวเท่านั้น
คุณสามารถประมาณจำนวน Token ในเอกสารข้อความได้โดยคัดลอกข้อความในเอกสารไปยัง OpenAI Tokenizer
การใส่บริบทสำหรับ PDF มัลติมีเดีย
เมื่อผู้ใช้อัปโหลด PDF ที่มีทั้งข้อความและรูปภาพ Visual Retrieval จะช่วยให้ ChatGPT ประมวลผลรูปภาพเหล่านี้ได้โดยตรงควบคู่ไปกับข้อความที่ดึงออกมาแบบดิจิทัล ขั้นตอนต่อไปนี้เสริมกระบวนการจัดการบริบทมาตรฐานของเราสำหรับ PDF มัลติมีเดีย:
การแยกและการฝังรูปภาพ: รูปภาพจะถูกแยกและฝังพร้อมกับข้อความดิจิทัลที่เกี่ยวข้อง
การปรับขนาดอัจฉริยะ: รูปภาพจะถูกปรับขนาดโดยอัตโนมัติเพื่อรักษาสมดุลระหว่างคุณภาพของข้อมูลกับการใช้หน้าต่างบริบทที่มีอยู่อย่างมีประสิทธิภาพ
เมื่อ PDF ที่อัปโหลดเกินขีดจำกัด 110k Token ทั้งรูปภาพและข้อความจะถูกฝังไว้ในดัชนีการค้นหาส่วนตัว การฝังข้อความจะอ้างอิงรูปภาพที่เกี่ยวข้อง ทำให้ ChatGPT ดึงคู่ข้อความ-รูปภาพที่เหมาะสมตามคำถามของผู้ใช้ได้ จากนั้นรูปภาพที่ดึงมาได้จะถูกประมวลผลด้วยความสามารถมัลติโมดัลโดยตรงของ ChatGPT
การประมาณความต้องการ Token สำหรับ PDF มัลติมีเดียอย่างแม่นยำทำได้ยาก การทดสอบชี้ว่า ข้อความและรูปภาพแบบผสมประมาณ 350 หน้า จะใช้หน้าต่างบริบท 110k Token ได้เต็มที่
กลยุทธ์การค้นหาตามประเภทโมเดล
ทั้งโมเดลซีรีส์ GPT และซีรีส์ o รองรับการอัปโหลดไฟล์ และใช้ตรรกะการใส่บริบทและการฝังสำหรับค้นหาแบบเดียวกัน โมเดลทั้งหมดดำเนินการค้นหาแบบไฮบริดกับดัชนีการค้นหาส่วนตัว โดยผสานวิธีแบบคีย์เวิร์ดและเชิงความหมาย ในการค้นหาแบบไฮบริด โมเดลจะสร้างวลีค้นหาตามคำสั่งของผู้ใช้ และดัชนีการค้นหาส่วนตัวจะดึงข้อความและรูปภาพที่เกี่ยวข้องตามนั้น
อย่างไรก็ตาม โมเดลเหล่านี้แตกต่างกันในวิธีค้นหาภายในเอกสารขนาดใหญ่ที่เกินหน้าต่างบริบท:
โมเดลซีรีส์ GPT
ค้นหาครั้งเดียวต่อคำสั่ง: โมเดลซีรีส์ GPT ทำการค้นหาหนึ่งครั้งต่อคำสั่งของผู้ใช้หนึ่งรายการ
กรณีการใช้งานที่ได้ผล: เหมาะสำหรับตอบคำถามตรงไปตรงมาที่ฝังอยู่ในเอกสารจำนวนมาก
ตัวอย่างคำถาม:
“นโยบาย HR สำหรับการเกษียณก่อนกำหนดคืออะไร”
“ฟังก์ชัน
process_orderทำอะไร”
โมเดลซีรีส์ o
ค้นหาได้หลายครั้งต่อคำสั่ง: สามารถค้นหาได้หลายครั้ง (โดยทั่วไป 2-3 ครั้ง) ต่อคำสั่งของผู้ใช้หนึ่งรายการ โดยแต่ละครั้งใช้วลีค้นหาที่ไม่ซ้ำกัน การค้นหาจะดำเนินการตามลำดับ และโมเดลสามารถปรับแนวทางตามข้อมูลที่ดึงมาได้จากการค้นหาก่อนหน้า
กรณีการใช้งานที่ได้ผล: เหมาะกว่าสำหรับคำถามที่ซับซ้อนซึ่งต้องค้นหาแบบเจาะจงหลายครั้งจากเอกสารจำนวนมาก
ตัวอย่างคำถาม:
“นโยบาย HR สำหรับการเกษียณก่อนกำหนด การลาเพื่อเลี้ยงดูบุตร และการโอนย้ายไปต่างประเทศมีอะไรบ้าง”
“อธิบายว่าฟังก์ชัน
process_orderทำอะไร ระบุเมธอดทั้งหมดที่ฟังก์ชันนี้เรียกใช้ และอธิบายแต่ละเมธอดที่ถูกเรียกโดยสังเขป”
แม้จะมีจุดแข็งเหล่านี้ โมเดลซีรีส์ o อาจทำงานได้ไม่ดีนักเมื่อคำถามต้องค้นหามากกว่าสามครั้ง
เคล็ดลับในการปรับปรุงผลลัพธ์การค้นหาไฟล์
ลองใช้โมเดลซีรีส์ o สำหรับคำถามที่ซับซ้อนซึ่งต้องค้นหาหลายครั้ง
โปรดจำไว้ว่าคำตอบอาจแตกต่างกันไปตามประเภท จำนวน และขนาดของเอกสารที่คุณอัปโหลด
โดยทั่วไป การโหลดเอกสารที่น้อยลงและตรงประเด็นมากขึ้นจะช่วยให้ได้ความแม่นยำสูงขึ้น
เปลี่ยนหัวข้อที่มีหลายคำถามให้เป็นคำถามเดี่ยว:
หากคุณต้องการทราบนโยบาย HR ของทุกรัฐ ให้ถามทีละรัฐ
หากคุณต้องการสรุปเอกสารหลายฉบับ ให้ขอทีละฉบับ หากเอกสารนั้นมีหลายร้อยหน้า ควรพิจารณาแบ่งออกเป็นส่วนย่อยๆ
คุณอาจขอให้ ChatGPT Enterprise เขียน “สรุปของสรุป” หากคุณป้อนสรุปหลายรายการแทนที่จะป้อนเอกสารทั้งฉบับ
หากคุณมี CSV ของ RFP (แต่ละบรรทัดเป็นคำถามต่างกัน) ให้ถามคำถามเหล่านั้นทีละข้อ แทนที่จะโหลด CSV แล้วขอคำตอบเดียว
หาวิธีตรวจสอบคำตอบของโมเดล ตัวอย่างคำสั่งสำหรับ GPT อยู่ด้านล่าง:
# บริบท
คุณเป็นผู้เชี่ยวชาญในการทำความเข้าใจเอกสาร ผู้ใช้จะแนบเอกสารและถามคำถาม พวกเขาต้องสามารถเชื่อมโยงคำตอบของคุณกลับไปยังส่วนที่แน่นอนของข้อความที่คุณใช้ตอบได้
# คำแนะนำ
1. ตอบคำถามของผู้ใช้โดยอ้างอิงจากเอกสารที่แนบมา โดยใช้รูปแบบด้านล่างอย่างเคร่งครัด
# รูปแบบ
- Question: { ทำซ้ำคำถามของผู้ใช้ }
- Answer: { ให้คำตอบสำหรับคำถามของผู้ใช้ }
Source:
- - Section Number: { ระบุหมายเลขหัวข้อที่คุณดึงคำตอบมา }
- - Section Title: { ระบุชื่อหัวข้อที่คุณดึงคำตอบมา }
- - Exact Text: { ระบุข้อความตรงตามต้นฉบับที่คุณใช้ดึงคำตอบ }
# กฎ
- ให้คำตอบที่ชัดเจนและกระชับ
- ให้เฉพาะข้อมูลที่มีอยู่ในเอกสารเท่านั้น
- หากคุณไม่พบคำตอบในเอกสาร ให้ตอบเพียงว่า “No information found.”