OpenAI
หน้านี้แปลด้วยระบบอัตโนมัติ ดูต้นฉบับภาษาอังกฤษ.

การเพิ่มประสิทธิภาพการอัปโหลดไฟล์ใน ChatGPT Enterprise

ทำความเข้าใจว่าฟีเจอร์ของ ChatGPT Enterprise จัดการไฟล์ตามประเภท จำนวน และขนาดอย่างไร พร้อมปรับปรุงผลลัพธ์ตามข้อกำหนดของไฟล์

อัปเดตล่าสุด: 21 minutes ago

ChatGPT Enterprise รองรับการอ่านและทำความเข้าใจองค์ประกอบภาพ (รูปภาพ กราฟ แผนภาพ ฯลฯ) ที่ฝังอยู่ในไฟล์ PDF ซึ่งรวมอยู่ในคำสั่งแล้ว ผู้ใช้สามารถอัปโหลด PDF และ ChatGPT สามารถตีความได้ทั้งข้อความ และ องค์ประกอบภาพภายในไฟล์นั้น

ดูรายละเอียดได้ที่ คำถามที่พบบ่อยเกี่ยวกับ Visual Retrieval with PDFs.

ChatGPT Enterprise ช่วยให้คุณอัปโหลดไฟล์ได้หลายวิธี:

คู่มือนี้อธิบายว่าฟีเจอร์ของ ChatGPT Enterprise จัดการไฟล์ตามประเภท จำนวน และขนาดอย่างไร และกล่าวถึงกลยุทธ์ในการปรับปรุงผลลัพธ์ตามข้อกำหนดของไฟล์

สรุป

ChatGPT Enterprise จัดการไฟล์แต่ละประเภทแตกต่างกันมาก: ดึงข้อความจากเอกสารข้อความ เช่น PDF งานนำเสนอ และไฟล์ Word, วิเคราะห์ข้อมูลที่มีโครงสร้างจากสเปรดชีตโดยใช้โค้ด Python และอธิบายไฟล์รูปภาพผ่าน GPT-Vision การเข้าใจว่าไฟล์ประเภทใดจะเรียกใช้เวิร์กโฟลว์แบบใดเป็นกุญแจสำคัญในการได้ผลลัพธ์ตามที่คาดหวัง

สำหรับเอกสารที่เป็นข้อความ ChatGPT Enterprise จะใส่ข้อความที่เกี่ยวข้องให้ได้มากที่สุดไว้โดยตรงควบคู่กับคำสั่ง และใช้ระบบค้นหาเพื่อเข้าถึงข้อมูลเพิ่มเติม วิธีนี้เหมาะกับการตอบคำถามเฉพาะเจาะจง อย่างไรก็ตาม แนวทางนี้อาจมีปัญหากับงานที่ซับซ้อน เช่น การสรุปเอกสารขนาดใหญ่มาก หรือการเปรียบเทียบไฟล์ขนาดใหญ่หลายไฟล์ อ่านต่อเพื่อทำความเข้าใจกลยุทธ์ในการปรับปรุงผลลัพธ์ของคุณ

การจัดการไฟล์ตามประเภท

ChatGPT Enterprise ประมวลผลไฟล์หลัก ๆ ได้ 3 วิธี: การดึงข้อความ การวิเคราะห์โค้ด และการตีความภาพ ประเภทไฟล์ เป็นตัวกำหนดว่า ChatGPT Enterprise จะใช้เวิร์กโฟลว์ใด

การดึงข้อมูลจากข้อความเครื่องมือรันโค้ดการประมวลผลภาพการดึงข้อมูลเชิงภาพ
ตัวอย่างประเภทไฟล์pptx, docx, txt, md, json, xml, pdf*
* PDF ที่อัปโหลดเป็น

GPT Knowledge
หรือ

Project Files
csv, xls, xlsx*
*หมายเหตุ: เครื่องมือรันโค้ดทำงานกับไฟล์ได้ทุกประเภท แต่ ChatGPT Enterprise มักตั้งค่าเริ่มต้นเป็น CI สำหรับสเปรดชีต
jpg, pngpdf*
* PDF ที่รวมอยู่ในคำสั่งของผู้ใช้
พฤติกรรมดึงข้อความจากไฟล์ — ข้อความบางส่วนจะถูกวาง (“ยัด”) ลงในหน้าต่างบริบทโดยตรง และบางส่วนจะถูกเก็บไว้เพื่อการค้นหาเครื่องมือรันโค้ดจะส่งไฟล์ไปให้ Python ประมวลผลรูปภาพจะถูกตีความโดยตรงโดยโมเดลมัลติโมดัล ภายใต้

ข้อจำกัดที่ทราบ
.
เป็นการผสานระหว่างการดึงข้อความและการประมวลผลภาพ ข้อความถูกดึงออกแบบดิจิทัล และเนื้อหาเชิงภาพถูกตีความโดยตรงโดยโมเดลมัลติโมดัล

สำหรับไฟล์ที่มีแต่ข้อความ ไฟล์รูปภาพ หรือไฟล์ข้อมูลที่มีโครงสร้างชัดเจน (เช่น ตารางธุรกรรมใน Excel) การแบ่งลักษณะนี้คือพฤติกรรมที่ดีที่สุดเท่าที่เป็นไปได้

มีบางกรณีที่ไม่ชัดเจนนัก เช่น:

  • รูปภาพที่ฝังอยู่ในไฟล์อื่นที่ไม่ใช่ PDF จะไม่ถูกประมวลผล หากต้องการรวมรูปภาพเหล่านั้น ให้แปลงไฟล์เป็น PDF ก่อนอัปโหลด

  • ChatGPT Enterprise จะใช้เครื่องมือรันโค้ดเพื่อโต้ตอบกับสเปรดชีตเสมอ แม้เอกสารจะมีข้อความจำนวนมากก็ตาม ตัวอย่างเช่น หากคุณขอให้ ChatGPT Enterprise แปลไฟล์ CSV ที่มีข้อความ 10 แถว ระบบจะพยายามแปลไฟล์โดยใช้ไลบรารี Python ซึ่งมีความแม่นยำน้อยกว่าการให้โมเดลสร้างคำแปลโดยตรง เพื่อลดปัญหานี้ ให้ลองส่งออกสเปรดชีตเป็นรูปแบบที่เป็นข้อความ (เช่น PDF)

  • ในทำนองเดียวกัน หากคุณอัปโหลดตารางธุรกรรมที่มีโครงสร้างซึ่งอยู่ในไฟล์ JSON, ChatGPT Enterprise จะตีความไฟล์นี้เป็นข้อความธรรมดา หากคุณต้องการวิเคราะห์ข้อมูลในไฟล์ JSON ให้สั่งให้โมเดลใช้เครื่องมือรันโค้ดในคำสั่งของคุณ

การจัดการไฟล์ตามขนาด

ChatGPT Enterprise ใช้โมเดลที่มีหน้าต่างบริบทสูงสุด 128k Token (ประมาณข้อความ 200 หน้า) อย่างไรก็ตาม ไม่ได้ใช้ทุก Token เพื่อใส่ข้อความจากไฟล์ที่อัปโหลด จำนวน Token ที่ “ยัด” เข้าไปจะแตกต่างกันตามประเภทการใช้งาน

ChatGPT Enterprise จะ “ยัด” ข้อความเข้าไปจำนวนหนึ่ง และส่งข้อความที่เหลือไปยังดัชนีค้นหาส่วนตัว (หรือ “vector store” ซึ่งเป็นฐานข้อมูลชนิดหนึ่งที่ออกแบบมาเพื่อจัดเก็บและเรียกค้นข้อความจำนวนมากอย่างมีประสิทธิภาพ) เมื่อคุณถามคำถาม ChatGPT Enterprise จะดึงทั้งข้อความที่รวมไว้และส่วนข้อความที่เกี่ยวข้องซึ่งเรียกคืนจากดัชนีค้นหาส่วนตัว

หากคุณอัปโหลดเอกสารเพียงฉบับเดียว ChatGPT Enterprise จะรวมข้อความตั้งแต่ต้นเอกสารจนถึงขีดจำกัด หากคุณอัปโหลดหลายเอกสาร ChatGPT Enterprise จะรวมข้อความบางส่วนหรือทั้งหมดของแต่ละเอกสาร ข้อความทั้งหมดจากเอกสารจะถูกส่งไปยังดัชนีค้นหาส่วนตัวด้วย

การยัดบริบทสำหรับเอกสารข้อความ

ฟีเจอร์นี้อยู่ระหว่างการพัฒนาอย่างต่อเนื่อง ดังนั้นรายละเอียดต่อไปนี้อาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

ChatGPT Enterprise สามารถประมวลผลได้สูงสุด 110k Token จากเอกสารที่อัปโหลดภายในหน้าต่างบริบท หากคุณอัปโหลดเอกสารหนึ่งฉบับหรือหลายฉบับที่มีรวมกันน้อยกว่า 110k Token ระบบจะรวมเนื้อหาทั้งหมดไว้

สำหรับเอกสารเดี่ยวที่เกิน 110k Token จะรวมเฉพาะ 110k Token แรก โดยเริ่มจากต้นเอกสาร ส่วนที่เหลือจะถูกส่งไปยังดัชนีค้นหาส่วนตัวเท่านั้น

หากอัปโหลดหลายเอกสารและยอดรวมเกิน 110k Token, ChatGPT Enterprise จะใช้กระบวนการ 2 ขั้นตอนเพื่อสร้างสมดุลในการแสดงเนื้อหาของเอกสาร:

  1. ดึงข้อมูลได้สูงสุด 55k Token โดยแบ่ง เท่า ๆ กัน ระหว่างเอกสารที่อัปโหลด

    • ตัวอย่างเช่น หากอัปโหลดเอกสาร 10 ฉบับ จะดึง 5.5k Token จากต้นของแต่ละฉบับ

  2. สำหรับเอกสารที่ยังแสดงได้ไม่ครบในขั้นตอนแรก ให้จัดสรร 55k Token ที่เหลือ ตามสัดส่วน ของ Token ที่เหลืออยู่ในแต่ละเอกสาร

    • ตัวอย่างเช่น หากเอกสาร A เหลือ 10k Token และเอกสาร B เหลือ 90k Token จะดึงเพิ่มอีก 5.5k Token จากเอกสาร A ( (10k / 100k) * 55k ) และดึงเพิ่มอีก 49.5k Token จากเอกสาร B ( (90k / 100k) * 55k )

  3. Token ที่เหลือทั้งหมดจะถูกส่งไปยังดัชนีค้นหาส่วนตัวเท่านั้น

คุณสามารถประมาณจำนวน Token ในเอกสารข้อความได้โดยคัดลอกข้อความของเอกสารไปใส่ใน OpenAI Tokenizer

การยัดบริบทสำหรับ PDF มัลติมีเดีย

เมื่อผู้ใช้อัปโหลด PDF ที่มีทั้งข้อความและรูปภาพ Visual Retrieval จะช่วยให้ ChatGPT ประมวลผลรูปภาพเหล่านี้ได้โดยตรงควบคู่กับข้อความที่ดึงออกแบบดิจิทัล ขั้นตอนต่อไปนี้เป็นส่วนเสริมจากขั้นตอนการจัดการบริบทมาตรฐานของเราสำหรับ PDF มัลติมีเดีย:

  • การดึงและฝังรูปภาพ: รูปภาพจะถูกดึงออกและฝังพร้อมกับข้อความดิจิทัลที่เกี่ยวข้อง

  • การปรับขนาดอย่างชาญฉลาด: รูปภาพจะถูกปรับขนาดโดยอัตโนมัติเพื่อรักษาสมดุลระหว่างคุณภาพของข้อมูลและการใช้หน้าต่างบริบทที่มีอยู่อย่างมีประสิทธิภาพ

เมื่อ PDF ที่อัปโหลดเกินขีดจำกัด 110k Token ทั้งรูปภาพและข้อความจะถูกฝังในดัชนีค้นหาส่วนตัว การฝังข้อความจะอ้างอิงถึงรูปภาพที่เกี่ยวข้อง ทำให้ ChatGPT สามารถเรียกคืนคู่ข้อความ-รูปภาพที่เหมาะสมตามคำถามของผู้ใช้ จากนั้นรูปภาพที่เรียกคืนมาจะถูกประมวลผลด้วยความสามารถมัลติโมดัลแบบเนทีฟของ ChatGPT

การประเมินความต้องการ Token สำหรับ PDF มัลติมีเดียอย่างแม่นยำนั้นทำได้ยาก การทดสอบชี้ให้เห็นว่าประมาณ 350 หน้าของเนื้อหาผสมระหว่างข้อความและรูปภาพจะใช้หน้าต่างบริบท 110k Token ได้เต็มพอดี

กลยุทธ์การค้นหาตามประเภทโมเดล

ทั้งโมเดลตระกูล GPT และ o-series รองรับการอัปโหลดไฟล์และใช้ตรรกะการยัดบริบทและการฝังเพื่อการค้นหาแบบเดียวกัน โมเดลทั้งหมดจะทำการค้นหาแบบไฮบริดกับดัชนีค้นหาส่วนตัว โดยผสานวิธีแบบคีย์เวิร์ดและแบบเชิงความหมาย ในการค้นหาแบบไฮบริด โมเดลจะสร้างวลีค้นหาตามคำสั่งของผู้ใช้ และดัชนีค้นหาส่วนตัวจะเรียกคืนข้อความและรูปภาพที่เกี่ยวข้องตามนั้น

อย่างไรก็ตาม โมเดลเหล่านี้แตกต่างกันในวิธีค้นหาผ่านเอกสารขนาดใหญ่ที่เกินหน้าต่างบริบท:

โมเดลตระกูล GPT

  • ค้นหาหนึ่งครั้งต่อคำสั่ง: โมเดลตระกูล GPT จะค้นหาหนึ่งครั้งต่อหนึ่งคำสั่งของผู้ใช้

  • กรณีใช้งานที่เหมาะสม: เหมาะสำหรับการตอบคำถามตรงไปตรงมาที่อยู่ในเอกสารจำนวนมาก

ตัวอย่างคำถาม:

  • “นโยบาย HR สำหรับการเกษียณก่อนกำหนดคืออะไร?”

  • “ฟังก์ชัน process_order ทำอะไร?”

โมเดล o-series

  • ค้นหาหลายครั้งต่อคำสั่ง: สามารถค้นหาหลายครั้ง (โดยทั่วไป 2-3 ครั้ง) ต่อหนึ่งคำสั่งของผู้ใช้ โดยแต่ละครั้งใช้วลีค้นหาที่ไม่ซ้ำกัน การค้นหาจะทำตามลำดับ และโมเดลสามารถปรับแนวทางตามข้อมูลที่ได้จากการค้นหาก่อนหน้า

  • กรณีใช้งานที่เหมาะสม: เหมาะกว่าสำหรับคำถามซับซ้อนที่ต้องอาศัยการค้นหาแบบเจาะจงหลายครั้งในเอกสารจำนวนมาก

ตัวอย่างคำถาม:

  • “นโยบาย HR สำหรับการเกษียณก่อนกำหนด การลาคลอด/ลาเลี้ยงดูบุตร และการย้ายไปต่างประเทศมีอะไรบ้าง?”

  • “อธิบายว่าฟังก์ชัน process_order ทำอะไร ระบุเมธอดทั้งหมดที่ฟังก์ชันนี้เรียกใช้ และอธิบายแต่ละเมธอดโดยย่อ”

แม้จะมีจุดแข็ง โมเดล o-series อาจมีปัญหาเมื่อคำถามต้องใช้การค้นหามากกว่าสามครั้ง

เคล็ดลับในการปรับปรุงผลการค้นหาไฟล์

  • ลองใช้โมเดล o-series สำหรับคำถามซับซ้อนที่ต้องค้นหาหลายครั้ง

  • โปรดจำไว้ว่าคำตอบอาจแตกต่างกันไปตามประเภท จำนวน และขนาดของเอกสารที่คุณอัปโหลด

  • โดยทั่วไป การโหลดเอกสารที่มีจำนวนน้อยกว่าและมีความเฉพาะเจาะจงจะให้ความแม่นยำสูงกว่า

  • เปลี่ยนหัวข้อที่มีหลายคำถามให้เป็นคำถามเดี่ยว:

    • หากคุณต้องการทราบนโยบาย HR ของทุกรัฐ ให้ถามทีละรัฐ

    • หากคุณต้องการสรุปเอกสารหลายฉบับ ให้ขอทีละฉบับ หากเอกสารนั้นยาวหลายร้อยหน้า ให้พิจารณาแบ่งเป็นส่วนย่อยที่เล็กลง

      • คุณสามารถขอให้ ChatGPT Enterprise เขียน “บทสรุปของบทสรุป” ได้ หากคุณป้อนบทสรุปหลายชิ้นแทนเอกสารทั้งหมด

    • หากคุณมี CSV ของ RFP (แต่ละบรรทัดคือคำถามคนละข้อ) ให้ถามคำถามเหล่านั้นทีละข้อแทนการโหลด CSV แล้วขอคำตอบเดียว

  • หาวิธีตรวจสอบคำตอบของโมเดล ตัวอย่างคำสั่ง GPT อยู่ด้านล่าง:

# บริบท 

คุณเป็นผู้เชี่ยวชาญในการทำความเข้าใจเอกสาร ผู้ใช้จะแนบเอกสารและถามคำถาม พวกเขาต้องสามารถเชื่อมโยงคำตอบของคุณกลับไปยังส่วนที่แน่นอนของข้อความที่คุณใช้ตอบได้

# คำแนะนำ

1. ตอบคำถามของผู้ใช้โดยอ้างอิงจากเอกสารที่แนบมา โดยใช้รูปแบบด้านล่างอย่างเคร่งครัด

# รูปแบบ

- Question: { ทำซ้ำคำถามของผู้ใช้ }
- Answer: { ให้คำตอบสำหรับคำถามของผู้ใช้ }
Source:
- - Section Number: { ระบุหมายเลขหัวข้อที่คุณดึงคำตอบมา }
- - Section Title: { ระบุชื่อหัวข้อที่คุณดึงคำตอบมา }
- - Exact Text: { ระบุข้อความตรงตามต้นฉบับที่คุณใช้ดึงคำตอบ }

# กฎ

- ให้คำตอบที่ชัดเจนและกระชับ
- ให้เฉพาะข้อมูลที่มีอยู่ในเอกสารเท่านั้น
- หากคุณไม่พบคำตอบในเอกสาร ให้ตอบเพียงว่า “No information found.”

บทความนี้มีประโยชน์หรือไม่