Κατανοήστε πώς οι λειτουργίες του ChatGPT Enterprise χειρίζονται αρχεία ανάλογα με τον τύπο, τον αριθμό και το μέγεθός τους. Βελτιώστε τα αποτελέσματα βάσει των απαιτήσεων των αρχείων.

Το ChatGPT Enterprise υποστηρίζει πλέον την ανάγνωση και κατανόηση οπτικών στοιχείων (εικόνες, γραφήματα, διαγράμματα κ.λπ.) που είναι ενσωματωμένα σε αρχεία PDF που περιλαμβάνονται σε προτροπές. Οι χρήστες μπορούν να μεταφορτώσουν ένα PDF και το ChatGPT μπορεί να ερμηνεύσει το κείμενο και τυχόν οπτικά στοιχεία μέσα σε αυτό το αρχείο.

Για λεπτομέρειες, δείτε τις Συχνές ερωτήσεις για την Οπτική ανάκτηση με PDF.

Το ChatGPT Enterprise σάς επιτρέπει να μεταφορτώνετε αρχεία με διάφορους τρόπους:

Απευθείας από τον υπολογιστή σας
Από Google Drive / SharePoint / OneDrive
Ως Γνώση GPT
Ως Αρχείο έργου
Από μια Ενέργεια GPT

Αυτός ο οδηγός εξηγεί πώς οι δυνατότητες του ChatGPT Enterprise χειρίζονται αρχεία με βάση τον τύπο, τον αριθμό και το μέγεθός τους, και συζητά στρατηγικές για τη βελτίωση των αποτελεσμάτων με βάση τις απαιτήσεις των αρχείων.

Σύνοψη

Το ChatGPT Enterprise χειρίζεται τους διαφορετικούς τύπους αρχείων πολύ διαφορετικά: εξάγει κείμενο από έγγραφα κειμένου όπως PDF, παρουσιάσεις και αρχεία Word, αναλύει δομημένα δεδομένα από υπολογιστικά φύλλα χρησιμοποιώντας κώδικα Python και περιγράφει αρχεία εικόνων μέσω του GPT-Vision. Η κατανόηση του ποιος τύπος αρχείου ενεργοποιεί ποια ροή εργασίας είναι βασική για να λάβετε το αναμενόμενο αποτέλεσμα.

Για έγγραφα που βασίζονται σε κείμενο, το ChatGPT Enterprise περιλαμβάνει όσο το δυνατόν περισσότερο σχετικό κείμενο απευθείας μαζί με την προτροπή και χρησιμοποιεί ένα σύστημα αναζήτησης για πρόσβαση σε πρόσθετες πληροφορίες. Αυτό λειτουργεί καλά για την απάντηση σε συγκεκριμένες ερωτήσεις. Ωστόσο, αυτή η προσέγγιση μπορεί να δυσκολευτεί με σύνθετες εργασίες, όπως η σύνοψη πολύ μεγάλων εγγράφων ή η σύγκριση πολλών μεγάλων αρχείων. Συνεχίστε την ανάγνωση για να κατανοήσετε στρατηγικές βελτίωσης των αποτελεσμάτων σας.

Χειρισμός αρχείων με βάση τον τύπο

Το ChatGPT Enterprise επεξεργάζεται αρχεία με τρεις κύριους τρόπους: εξαγωγή κειμένου, ανάλυση κώδικα και ερμηνεία εικόνων. Ο τύπος αρχείου καθορίζει ποια ροή εργασίας ακολουθεί το ChatGPT Enterprise.

	Ανάκτηση βάσει κειμένου	Code Interpreter	Επεξεργασία εικόνων	Οπτική ανάκτηση
Παραδείγματα τύπων αρχείων	pptx, docx, txt, md, json, xml, pdf* * PDF που μεταφορτώνονται ως Γνώση GPT ή Αρχεία έργου	csv, xls, xlsx* *Σημείωση: Το Code Interpreter μπορεί να λειτουργήσει σε οποιονδήποτε τύπο αρχείου, αλλά το ChatGPT Enterprise συνήθως προεπιλέγει το CI για υπολογιστικά φύλλα	jpg, png	pdf* * PDF που περιλαμβάνονται σε προτροπές χρήστη
Συμπεριφορά	Εξάγει το κείμενο από το αρχείο – μέρος του κειμένου επικολλάται («εισάγεται») απευθείας στο θεματικό πλαίσιο· μέρος του κειμένου αποθηκεύεται για αναζήτηση	Το Code Interpreter περνά το αρχείο στην Python για επεξεργασία	Οι εικόνες ερμηνεύονται εγγενώς από πολυτροπικά μοντέλα, με την επιφύλαξη γνωστών περιορισμών .	Ένας υβριδικός συνδυασμός ανάκτησης κειμένου και επεξεργασίας εικόνων. Το κείμενο εξάγεται ψηφιακά και το οπτικό περιεχόμενο ερμηνεύεται εγγενώς από πολυτροπικά μοντέλα.

Για αρχεία μόνο κειμένου, αρχεία εικόνας ή σαφώς δομημένα αρχεία δεδομένων (π.χ. έναν πίνακα συναλλαγών Excel), αυτοί οι διαχωρισμοί αντιπροσωπεύουν την καλύτερη δυνατή συμπεριφορά.

Υπάρχουν ορισμένες γκρίζες ζώνες που είναι λιγότερο προφανείς, για παράδειγμα:

Οι εικόνες που είναι ενσωματωμένες σε αρχεία εκτός από PDF δεν υποβάλλονται σε επεξεργασία. Για να τις συμπεριλάβετε, μετατρέψτε το αρχείο σε PDF πριν από τη μεταφόρτωση.
Το ChatGPT Enterprise θα χρησιμοποιεί πάντα το Code Interpreter για αλληλεπίδραση με υπολογιστικά φύλλα, ακόμη και αν το έγγραφο περιέχει μεγάλη ποσότητα κειμένου. Για παράδειγμα, αν ζητήσετε από το ChatGPT Enterprise να μεταφράσει ένα αρχείο CSV με 10 γραμμές κειμένου, θα προσπαθήσει να μεταφράσει το αρχείο χρησιμοποιώντας μια βιβλιοθήκη Python, κάτι που είναι λιγότερο ακριβές από το να επιτρέψετε στο μοντέλο να δημιουργήσει μια μετάφραση απευθείας. Για να το μετριάσετε αυτό, δοκιμάστε να εξαγάγετε το υπολογιστικό φύλλο σε μορφή που βασίζεται σε κείμενο (PDF, για παράδειγμα).
Παρομοίως, αν μεταφορτώσετε έναν δομημένο πίνακα συναλλαγών που περιέχεται σε αρχείο JSON, το ChatGPT Enterprise θα ερμηνεύσει αυτό το αρχείο ως απλό κείμενο. Αν θέλετε να αναλύσετε τα δεδομένα που περιέχονται σε ένα αρχείο JSON, δώστε οδηγία στο μοντέλο να χρησιμοποιήσει το Code Interpreter στην προτροπή σας.

Χειρισμός αρχείων με βάση το μέγεθος

Το ChatGPT Enterprise χρησιμοποιεί μοντέλα με μέγιστο θεματικό πλαίσιο 128k token (περίπου 200 σελίδες κειμένου). Ωστόσο, δεν χρησιμοποιούνται όλα τα token για την ενσωμάτωση του κειμένου από τα μεταφορτωμένα αρχεία. Ο αριθμός των token που «εισάγονται» διαφέρει ανάλογα με τον τύπο χρήσης.

Το ChatGPT Enterprise «εισάγει» μια ποσότητα κειμένου και το υπόλοιπο κείμενο αποστέλλεται σε ένα ιδιωτικό ευρετήριο αναζήτησης (ένα «vector store», δηλαδή ένας τύπος βάσης δεδομένων σχεδιασμένος για την αποτελεσματική αποθήκευση και ανάκτηση μεγάλων ποσοτήτων κειμένου). Όταν κάνετε μια ερώτηση, το ChatGPT Enterprise εισάγει το συμπεριλαμβανόμενο κείμενο μαζί με σχετικά τμήματα που ανακτώνται από ένα ιδιωτικό ευρετήριο αναζήτησης.

Αν μεταφορτώσετε ένα μόνο έγγραφο, το ChatGPT Enterprise περιλαμβάνει κείμενο ξεκινώντας από την αρχή έως ότου φτάσει το όριό του. Αν μεταφορτώσετε πολλά έγγραφα, το ChatGPT Enterprise περιλαμβάνει μέρος ή το σύνολο κάθε εγγράφου. Όλο το κείμενο από τα έγγραφα αποστέλλεται επίσης σε ένα ιδιωτικό ευρετήριο αναζήτησης.

Εισαγωγή στο θεματικό πλαίσιο για έγγραφα κειμένου

Αυτή η δυνατότητα βρίσκεται υπό ενεργή ανάπτυξη. Ως εκ τούτου, οι παρακάτω λεπτομέρειες ενδέχεται να αλλάξουν χωρίς προειδοποίηση.

Το ChatGPT Enterprise μπορεί να επεξεργαστεί έως 110k token από μεταφορτωμένα έγγραφα στο θεματικό πλαίσιο. Αν μεταφορτώσετε ένα ή περισσότερα έγγραφα με συνδυασμένο σύνολο μικρότερο από 110k token, θα συμπεριληφθεί ολόκληρο το περιεχόμενο.

Για ένα μεμονωμένο έγγραφο που υπερβαίνει τα 110k token, θα συμπεριληφθούν μόνο τα πρώτα 110k token, ξεκινώντας από την αρχή. Το υπόλοιπο θα αποσταλεί μόνο στο ιδιωτικό ευρετήριο αναζήτησης.

Αν μεταφορτωθούν πολλά έγγραφα και το συνδυασμένο σύνολό τους υπερβαίνει τα 110k token, το ChatGPT Enterprise χρησιμοποιεί μια διαδικασία δύο βημάτων για να εξισορροπήσει την αναπαράσταση των εγγράφων:

Εξάγει έως 55k token, κατανεμημένα ομοιόμορφα μεταξύ των μεταφορτωμένων εγγράφων.

Για έγγραφα που δεν εκπροσωπούνται πλήρως στο πρώτο βήμα, κατανέμει τα υπόλοιπα 55k token αναλογικά, με βάση τα token που απομένουν σε κάθε έγγραφο.

Τυχόν υπόλοιπα token αποστέλλονται μόνο στο ιδιωτικό ευρετήριο αναζήτησης.

Μπορείτε να εκτιμήσετε τον αριθμό των token σε ένα έγγραφο κειμένου αντιγράφοντας το κείμενο του εγγράφου στο OpenAI Tokenizer.

Εισαγωγή στο θεματικό πλαίσιο για πολυμεσικά PDF

Όταν οι χρήστες μεταφορτώνουν PDF που περιέχουν τόσο κείμενο όσο και εικόνες, η Οπτική ανάκτηση επιτρέπει στο ChatGPT να επεξεργάζεται αυτές τις εικόνες εγγενώς μαζί με το ψηφιακά εξαγόμενο κείμενο. Τα παρακάτω βήματα συμπληρώνουν τις τυπικές διαδικασίες μας για τον χειρισμό του θεματικού πλαισίου σε πολυμεσικά PDF:

Εξαγωγή και ενσωμάτωση εικόνων: Οι εικόνες εξάγονται και ενσωματώνονται μαζί με το σχετικό ψηφιακό κείμενό τους.
Έξυπνη κλιμάκωση: Οι εικόνες κλιμακώνονται αυτόματα ώστε να διατηρείται ισορροπία μεταξύ ποιότητας πληροφοριών και αποδοτικής χρήσης του διαθέσιμου θεματικού πλαισίου.

Όταν τα μεταφορτωμένα PDF υπερβαίνουν το όριο των 110k token, τόσο οι εικόνες όσο και το κείμενο ενσωματώνονται στο ιδιωτικό ευρετήριο αναζήτησης. Οι ενσωματώσεις κειμένου παραπέμπουν σε σχετικές εικόνες, επιτρέποντας στο ChatGPT να ανακτά τα κατάλληλα ζεύγη κειμένου-εικόνας με βάση τα ερωτήματα των χρηστών. Στη συνέχεια, οι ανακτημένες εικόνες υποβάλλονται σε επεξεργασία με τις εγγενείς πολυτροπικές δυνατότητες του ChatGPT.

Η ακριβής εκτίμηση των απαιτήσεων token για πολυμεσικά PDF είναι δύσκολη. Οι δοκιμές υποδεικνύουν ότι περίπου 350 σελίδες μεικτού κειμένου και εικόνων θα αξιοποιήσουν πλήρως το θεματικό πλαίσιο των 110k token.

Στρατηγικές αναζήτησης με βάση τον τύπο μοντέλου

Τόσο τα μοντέλα σειράς GPT όσο και τα μοντέλα σειράς o υποστηρίζουν μεταφορτώσεις αρχείων και χρησιμοποιούν πανομοιότυπη λογική εισαγωγής στο θεματικό πλαίσιο και ενσωμάτωσης αναζήτησης. Όλα τα μοντέλα εκτελούν υβριδικές αναζητήσεις σε ένα ιδιωτικό ευρετήριο αναζήτησης, συνδυάζοντας μεθόδους λέξεων-κλειδιών και σημασιολογικές μεθόδους. Σε μια υβριδική αναζήτηση, το μοντέλο δημιουργεί μια φράση αναζήτησης με βάση την προτροπή του χρήστη και το ιδιωτικό ευρετήριο αναζήτησης ανακτά σχετικά κείμενα και εικόνες αναλόγως.

Ωστόσο, αυτά τα μοντέλα διαφέρουν ως προς τον τρόπο που πραγματοποιούν αναζήτηση σε μεγάλα έγγραφα που υπερβαίνουν το θεματικό πλαίσιο:

Μοντέλα σειράς GPT

Μία αναζήτηση ανά προτροπή: Τα μοντέλα σειράς GPT εκτελούν μία αναζήτηση ανά προτροπή χρήστη.
Αποτελεσματικές περιπτώσεις χρήσης: Ιδανικά για απαντήσεις σε απλές ερωτήσεις που είναι ενσωματωμένες σε εκτενή τεκμηρίωση.

Παραδείγματα ερωτημάτων:

«Ποια είναι η πολιτική HR για την πρόωρη συνταξιοδότηση;»
«Τι κάνει η συνάρτηση process_order;»

Μοντέλα σειράς o

Πολλαπλές αναζητήσεις ανά προτροπή: Μπορούν να εκτελούν πολλαπλές αναζητήσεις (συνήθως 2-3) ανά προτροπή χρήστη, καθεμία με μοναδική φράση αναζήτησης. Οι αναζητήσεις εκτελούνται διαδοχικά και το μοντέλο μπορεί να ενημερώνει την προσέγγισή του με βάση τις πληροφορίες που ανακτήθηκαν σε προηγούμενες αναζητήσεις.
Αποτελεσματικές περιπτώσεις χρήσης: Πιο κατάλληλα για σύνθετες ερωτήσεις που απαιτούν πολλαπλές στοχευμένες αναζητήσεις σε εκτενή τεκμηρίωση.

Παραδείγματα ερωτημάτων:

«Ποιες είναι οι πολιτικές HR για πρόωρη συνταξιοδότηση, γονική άδεια και μετάθεση στο εξωτερικό;»
«Εξηγήστε τι κάνει η συνάρτηση process_order, απαριθμήστε όλες τις μεθόδους που καλεί αυτή η συνάρτηση και περιγράψτε σύντομα κάθε καλούμενη μέθοδο.»

Παρά τα δυνατά τους σημεία, τα μοντέλα σειράς o ενδέχεται να δυσκολευτούν όταν ένα ερώτημα απαιτεί περισσότερες από τρεις αναζητήσεις.

Συμβουλές για τη βελτίωση των αποτελεσμάτων αναζήτησης αρχείων

Δοκιμάστε να χρησιμοποιήσετε ένα μοντέλο σειράς o για σύνθετες ερωτήσεις που απαιτούν πολλαπλές αναζητήσεις.
Να θυμάστε ότι οι απαντήσεις μπορεί να διαφέρουν ανάλογα με τον τύπο, τον αριθμό και το μέγεθος των εγγράφων που μεταφορτώνετε.
Γενικά, η φόρτωση λιγότερων, εστιασμένων εγγράφων θα οδηγήσει σε μεγαλύτερη ακρίβεια.
Μετατρέψτε τα θέματα με πολλές ερωτήσεις σε μεμονωμένες ερωτήσεις:
- Αν χρειάζεται να γνωρίζετε τις πολιτικές HR κάθε πολιτείας, ρωτήστε για καθεμία ξεχωριστά.
- Αν χρειάζεται να συνοψίσετε πολλά έγγραφα, ζητήστε ένα έγγραφο κάθε φορά. Αν αυτό το έγγραφο έχει πολλές εκατοντάδες σελίδες, εξετάστε το ενδεχόμενο να το χωρίσετε σε μικρότερα μέρη.
  - Θα μπορούσατε να ζητήσετε από το ChatGPT Enterprise να γράψει μια «σύνοψη συνόψεων», αν του δώσατε πολλές συνόψεις αντί για ολόκληρα έγγραφα.
- Αν έχετε ένα CSV ενός RFP (κάθε γραμμή είναι διαφορετική ερώτηση), κάντε αυτές τις ερωτήσεις μία προς μία αντί απλώς να φορτώσετε το CSV και να ζητήσετε μία απάντηση.
Βρείτε τρόπους να ελέγχετε τις απαντήσεις του μοντέλου. Παραδείγματα οδηγιών GPT παρατίθενται παρακάτω:

# Περιβάλλον 

Είστε ειδικός στην κατανόηση εγγράφων. Ο χρήστης θα επισυνάψει ένα έγγραφο και θα κάνει μια ερώτηση. Πρέπει να μπορεί να συνδέσει την απάντησή σας με το ακριβές σημείο του κειμένου από το οποίο αντλήσατε την απάντησή σας.

# Οδηγίες

1. Απαντήστε στην ερώτηση του χρήστη βάσει του επισυναπτόμενου εγγράφου του χρησιμοποιώντας ακριβώς τη μορφή που παρέχεται παρακάτω

# Μορφή 

- Ερώτηση: { επαναλάβετε την ερώτηση του χρήστη }
- Απάντηση: { δώστε απάντηση στην ερώτηση του χρήστη }
Πηγή: 
- - Αριθμός ενότητας: { δώστε τον αριθμό ενότητας από όπου αντλήσατε την απάντηση }
- - Τίτλος ενότητας: { δώστε τον τίτλο ενότητας από όπου αντλήσατε την απάντηση }
- - Ακριβές κείμενο: { δώστε το ακριβές κείμενο από όπου αντλήσατε την απάντηση }

# Κανόνες

- Δώστε απαντήσεις που είναι σαφείς και σύντομες
- Παρέχετε μόνο πληροφορίες που δίνονται στο έγγραφο
- Αν δεν μπορείτε να βρείτε την απάντηση στο έγγραφο, απλώς απαντήστε «Δεν βρέθηκαν πληροφορίες.»

Βελτιστοποίηση μεταφόρτωσης αρχείων στο ChatGPT Enterprise

Σύνοψη

Χειρισμός αρχείων με βάση τον τύπο

Χειρισμός αρχείων με βάση το μέγεθος

Εισαγωγή στο θεματικό πλαίσιο για έγγραφα κειμένου

Εισαγωγή στο θεματικό πλαίσιο για πολυμεσικά PDF

Στρατηγικές αναζήτησης με βάση τον τύπο μοντέλου

Μοντέλα σειράς GPT

Μοντέλα σειράς o

Συμβουλές για τη βελτίωση των αποτελεσμάτων αναζήτησης αρχείων

Σας βοήθησε αυτό το άρθρο;