Το ChatGPT Enterprise υποστηρίζει πλέον την ανάγνωση και κατανόηση οπτικών στοιχείων (εικόνες, γραφήματα, διαγράμματα κ.λπ.) που είναι ενσωματωμένα σε αρχεία PDF που περιλαμβάνονται σε προτροπές. Οι χρήστες μπορούν να μεταφορτώσουν ένα PDF και το ChatGPT μπορεί να ερμηνεύσει το κείμενο και τυχόν οπτικά στοιχεία μέσα σε αυτό το αρχείο.
Για λεπτομέρειες, δείτε τις Συνήθεις ερωτήσεις για την Οπτική ανάκτηση με PDF.
Το ChatGPT Enterprise σάς επιτρέπει να μεταφορτώνετε αρχεία με διάφορους τρόπους:
Απευθείας από τον υπολογιστή σας
Ως Γνώση GPT
Ως Αρχείο έργου
Από μια Ενέργεια GPT
Αυτός ο οδηγός εξηγεί πώς οι λειτουργίες του ChatGPT Enterprise χειρίζονται τα αρχεία με βάση τον τύπο, τον αριθμό και το μέγεθός τους, και παρουσιάζει στρατηγικές για τη βελτίωση των αποτελεσμάτων ανάλογα με τις απαιτήσεις των αρχείων.
Σύνοψη
Το ChatGPT Enterprise αντιμετωπίζει πολύ διαφορετικά τους διάφορους τύπους αρχείων: εξάγει κείμενο από έγγραφα κειμένου όπως PDF, Παρουσιάσεις και αρχεία Word, αναλύει δομημένα δεδομένα από υπολογιστικά φύλλα με χρήση κώδικα Python και περιγράφει αρχεία εικόνας μέσω GPT-Vision. Η κατανόηση του ποιος τύπος αρχείου ενεργοποιεί ποια ροή εργασίας είναι καθοριστική για να έχετε το αναμενόμενο αποτέλεσμα.
Για έγγραφα που βασίζονται σε κείμενο, το ChatGPT Enterprise περιλαμβάνει όσο το δυνατόν περισσότερο σχετικό κείμενο απευθείας μαζί με την προτροπή και χρησιμοποιεί ένα σύστημα αναζήτησης για πρόσβαση σε πρόσθετες πληροφορίες. Αυτό λειτουργεί καλά για την απάντηση συγκεκριμένων ερωτήσεων. Ωστόσο, αυτή η προσέγγιση μπορεί να δυσκολευτεί σε σύνθετες εργασίες, όπως η σύνοψη πολύ μεγάλων εγγράφων ή η σύγκριση πολλών μεγάλων αρχείων. Συνεχίστε να διαβάζετε για να κατανοήσετε στρατηγικές βελτίωσης των αποτελεσμάτων σας.
Χειρισμός αρχείων βάσει τύπου
Το ChatGPT Enterprise επεξεργάζεται αρχεία με τρεις βασικούς τρόπους: εξαγωγή κειμένου, ανάλυση κώδικα και ερμηνεία εικόνας. Ο τύπος αρχείου καθορίζει ποια ροή εργασίας ακολουθεί το ChatGPT Enterprise.
| Ανάκτηση βάσει κειμένου | Code Interpreter | Επεξεργασία εικόνας | Οπτική ανάκτηση | |
|---|---|---|---|---|
| Παραδείγματα τύπων αρχείων | pptx, docx, txt, md, json, xml, pdf* * PDF που μεταφορτώνονται ως Γνώση GPT ή Αρχεία έργου | csv, xls, xlsx* *Σημείωση: Το Code Interpreter μπορεί να λειτουργήσει σε οποιονδήποτε τύπο αρχείου, αλλά το ChatGPT Enterprise συνήθως προεπιλέγει το CI για υπολογιστικά φύλλα | jpg, png | pdf* * PDF που περιλαμβάνονται σε προτροπές χρηστών |
| Συμπεριφορά | Εξάγει το κείμενο από το αρχείο – μέρος του κειμένου επικολλάται («stuffed») απευθείας στο παράθυρο περιβάλλοντος· μέρος του κειμένου αποθηκεύεται για αναζήτηση | Το Code Interpreter περνά το αρχείο στην Python για επεξεργασία | Οι εικόνες ερμηνεύονται εγγενώς από πολυτροπικά μοντέλα, με την επιφύλαξη των γνωστών περιορισμών . | Ένα υβρίδιο ανάκτησης κειμένου και επεξεργασίας εικόνας. Το κείμενο εξάγεται ψηφιακά και το οπτικό περιεχόμενο ερμηνεύεται εγγενώς από πολυτροπικά μοντέλα. |
Για αρχεία μόνο κειμένου, αρχεία εικόνας ή αρχεία με σαφώς δομημένα δεδομένα (π.χ. ένας πίνακας συναλλαγών στο Excel), αυτές οι διακρίσεις αντιπροσωπεύουν την καλύτερη δυνατή συμπεριφορά.
Υπάρχουν ορισμένες γκρίζες ζώνες που είναι λιγότερο προφανείς, για παράδειγμα:
Οι εικόνες που είναι ενσωματωμένες σε αρχεία εκτός PDF δεν υποβάλλονται σε επεξεργασία. Για να τις συμπεριλάβετε, μετατρέψτε το αρχείο σε PDF πριν από τη μεταφόρτωση.
Το ChatGPT Enterprise θα χρησιμοποιεί πάντα το Code Interpreter για αλληλεπίδραση με υπολογιστικά φύλλα, ακόμη και αν το έγγραφο περιέχει μεγάλη ποσότητα κειμένου. Για παράδειγμα, αν ζητήσετε από το ChatGPT Enterprise να μεταφράσει ένα αρχείο CSV με 10 γραμμές κειμένου, θα προσπαθήσει να μεταφράσει το αρχείο χρησιμοποιώντας μια βιβλιοθήκη Python, κάτι που είναι λιγότερο ακριβές από το να επιτραπεί στο μοντέλο να δημιουργήσει απευθείας μια μετάφραση. Για να το μετριάσετε αυτό, δοκιμάστε να εξαγάγετε το υπολογιστικό φύλλο σε μορφή που βασίζεται σε κείμενο (για παράδειγμα, PDF).
Ομοίως, αν μεταφορτώσετε έναν δομημένο πίνακα συναλλαγών που περιγράφεται και περιέχεται σε αρχείο JSON, το ChatGPT Enterprise θα ερμηνεύσει αυτό το αρχείο ως απλό κείμενο. Αν θέλετε να αναλύσετε τα δεδομένα που περιέχονται σε αρχείο JSON, δώστε εντολή στο μοντέλο να χρησιμοποιήσει το Code Interpreter στην προτροπή σας.
Χειρισμός αρχείων βάσει μεγέθους
Το ChatGPT Enterprise χρησιμοποιεί μοντέλα με μέγιστο παράθυρο περιβάλλοντος 128k token (περίπου 200 σελίδες κειμένου). Ωστόσο, δεν χρησιμοποιούνται όλα τα token για την ενσωμάτωση του κειμένου από τα μεταφορτωμένα αρχεία. Ο αριθμός των «stuffed» token διαφέρει ανάλογα με τον τύπο χρήσης.
Το ChatGPT Enterprise «stuffs» μια ποσότητα κειμένου και το υπόλοιπο κείμενο αποστέλλεται σε ένα ιδιωτικό ευρετήριο αναζήτησης (ένα «vector store», δηλαδή έναν τύπο βάσης δεδομένων που έχει σχεδιαστεί για την αποδοτική αποθήκευση και ανάκτηση μεγάλων ποσοτήτων κειμένου). Όταν κάνετε μια ερώτηση, το ChatGPT Enterprise φέρνει το συμπεριλαμβανόμενο κείμενο μαζί με σχετικά τμήματα που ανακτώνται από ένα ιδιωτικό ευρετήριο αναζήτησης.
Αν μεταφορτώσετε ένα μόνο έγγραφο, το ChatGPT Enterprise περιλαμβάνει κείμενο ξεκινώντας από την αρχή μέχρι να φτάσει το όριό του. Αν μεταφορτώσετε πολλά έγγραφα, το ChatGPT Enterprise περιλαμβάνει μέρος ή το σύνολο κάθε εγγράφου. Όλο το κείμενο από τα έγγραφα αποστέλλεται επίσης σε ένα ιδιωτικό ευρετήριο αναζήτησης.
Γέμισμα περιβάλλοντος για έγγραφα κειμένου
Αυτή η δυνατότητα βρίσκεται υπό ενεργή ανάπτυξη. Ως εκ τούτου, οι παρακάτω λεπτομέρειες ενδέχεται να αλλάξουν χωρίς προειδοποίηση.
Το ChatGPT Enterprise μπορεί να επεξεργαστεί έως και 110k token από μεταφορτωμένα έγγραφα στο παράθυρο περιβάλλοντος. Αν μεταφορτώσετε ένα ή περισσότερα έγγραφα με συνολικό άθροισμα μικρότερο από 110k token, θα συμπεριληφθεί ολόκληρο το περιεχόμενο.
Για ένα μόνο έγγραφο που υπερβαίνει τα 110k token, θα συμπεριληφθούν μόνο τα πρώτα 110k token, ξεκινώντας από την αρχή. Το υπόλοιπο θα αποσταλεί μόνο στο ιδιωτικό ευρετήριο αναζήτησης.
Αν μεταφορτωθούν πολλά έγγραφα και το συνολικό τους άθροισμα υπερβαίνει τα 110k token, το ChatGPT Enterprise χρησιμοποιεί μια διαδικασία δύο βημάτων για να εξισορροπήσει την εκπροσώπηση των εγγράφων:
Εξαγάγετε έως 55k token, κατανεμημένα ισόποσα μεταξύ των μεταφορτωμένων εγγράφων.
Για παράδειγμα, αν μεταφορτωθούν 10 έγγραφα, εξάγονται 5.5k token από την αρχή του καθενός.
Για τα έγγραφα που δεν εκπροσωπούνται πλήρως στο πρώτο βήμα, κατανείμετε τα υπόλοιπα 55k token αναλογικά με βάση τα token που απομένουν σε κάθε έγγραφο.
Για παράδειγμα, αν το Έγγραφο A έχει 10k token που απομένουν και το Έγγραφο B έχει 90k token που απομένουν, εξάγονται επιπλέον 5.5k token από το Έγγραφο A ( (10k / 100k) * 55k ) και επιπλέον 49.5k token από το Έγγραφο B ( (90k / 100k) * 55k ).
Τυχόν εναπομείναντα token αποστέλλονται μόνο στο ιδιωτικό ευρετήριο αναζήτησης.
Μπορείτε να εκτιμήσετε τον αριθμό των token σε ένα έγγραφο κειμένου αντιγράφοντας το κείμενο του εγγράφου στο OpenAI Tokenizer.
Γέμισμα περιβάλλοντος για PDF πολυμέσων
Όταν οι χρήστες μεταφορτώνουν PDF που περιέχουν τόσο κείμενο όσο και εικόνες, η Οπτική ανάκτηση επιτρέπει στο ChatGPT να επεξεργάζεται αυτές τις εικόνες εγγενώς μαζί με ψηφιακά εξαγόμενο κείμενο. Τα ακόλουθα βήματα συμπληρώνουν τις τυπικές διαδικασίες χειρισμού περιβάλλοντος για PDF πολυμέσων:
Εξαγωγή και ενσωμάτωση εικόνων: Οι εικόνες εξάγονται και ενσωματώνονται μαζί με το σχετικό ψηφιακό τους κείμενο.
Έξυπνη κλιμάκωση: Οι εικόνες κλιμακώνονται αυτόματα ώστε να διατηρείται ισορροπία μεταξύ ποιότητας πληροφορίας και αποδοτικής χρήσης του διαθέσιμου παραθύρου περιβάλλοντος.
Όταν τα μεταφορτωμένα PDF υπερβαίνουν το όριο των 110k token, τόσο οι εικόνες όσο και το κείμενο ενσωματώνονται στο ιδιωτικό ευρετήριο αναζήτησης. Οι ενσωματώσεις κειμένου παραπέμπουν σε σχετικές εικόνες, επιτρέποντας στο ChatGPT να ανακτά τα κατάλληλα ζεύγη κειμένου-εικόνας βάσει ερωτημάτων χρηστών. Οι ανακτημένες εικόνες στη συνέχεια επεξεργάζονται με τις εγγενείς πολυτροπικές δυνατότητες του ChatGPT.
Η ακριβής εκτίμηση των απαιτήσεων σε token για PDF πολυμέσων είναι δύσκολη. Οι δοκιμές δείχνουν ότι περίπου 350 σελίδες μικτού κειμένου και εικόνων θα αξιοποιήσουν πλήρως το παράθυρο περιβάλλοντος των 110k token.
Στρατηγικές αναζήτησης βάσει τύπου μοντέλου
Τόσο τα μοντέλα σειράς GPT όσο και τα μοντέλα σειράς o υποστηρίζουν μεταφορτώσεις αρχείων και χρησιμοποιούν πανομοιότυπη λογική γεμίσματος περιβάλλοντος και ενσωματώσεων αναζήτησης. Όλα τα μοντέλα εκτελούν υβριδικές αναζητήσεις σε ένα ιδιωτικό ευρετήριο αναζήτησης, συνδυάζοντας μεθόδους λέξεων-κλειδιών και σημασιολογίας. Σε μια υβριδική αναζήτηση, το μοντέλο δημιουργεί μια φράση αναζήτησης βάσει της προτροπής του χρήστη και το ιδιωτικό ευρετήριο αναζήτησης ανακτά ανάλογα σχετικό κείμενο και εικόνες.
Ωστόσο, αυτά τα μοντέλα διαφέρουν ως προς τον τρόπο με τον οποίο αναζητούν μέσα σε μεγάλα έγγραφα που υπερβαίνουν το παράθυρο περιβάλλοντος:
Μοντέλα σειράς GPT
Μία αναζήτηση ανά προτροπή: Τα μοντέλα σειράς GPT εκτελούν μία αναζήτηση ανά προτροπή χρήστη.
Αποτελεσματικές περιπτώσεις χρήσης: Ιδανικά για την απάντηση απλών ερωτήσεων που είναι ενσωματωμένες σε εκτενή τεκμηρίωση.
Παραδείγματα ερωτημάτων:
«Ποια είναι η πολιτική HR για την πρόωρη συνταξιοδότηση;»
«Τι κάνει η συνάρτηση
process_order;»
Μοντέλα σειράς o
Πολλαπλές αναζητήσεις ανά προτροπή: Μπορούν να εκτελέσουν πολλαπλές αναζητήσεις (συνήθως 2-3) ανά προτροπή χρήστη, καθεμία με μια μοναδική φράση αναζήτησης. Οι αναζητήσεις εκτελούνται διαδοχικά και το μοντέλο μπορεί να ενημερώσει την προσέγγισή του με βάση τις πληροφορίες που ανακτήθηκαν σε προηγούμενες αναζητήσεις.
Αποτελεσματικές περιπτώσεις χρήσης: Καταλληλότερα για σύνθετες ερωτήσεις που απαιτούν πολλαπλές στοχευμένες αναζητήσεις σε εκτενή τεκμηρίωση.
Παραδείγματα ερωτημάτων:
«Ποιες είναι οι πολιτικές HR για πρόωρη συνταξιοδότηση, γονική άδεια και μεταφορά στο εξωτερικό;»
«Εξήγησε τι κάνει η συνάρτηση
process_order, απαρίθμησε όλες τις μεθόδους που καλούνται από αυτή τη συνάρτηση και περιέγραψε συνοπτικά κάθε μέθοδο που καλείται.»
Παρά τα πλεονεκτήματά τους, τα μοντέλα σειράς o μπορεί να δυσκολευτούν όταν ένα ερώτημα απαιτεί περισσότερες από τρεις αναζητήσεις.
Συμβουλές για βελτίωση των αποτελεσμάτων αναζήτησης αρχείων
Δοκιμάστε να χρησιμοποιήσετε μοντέλο σειράς o για σύνθετες ερωτήσεις που απαιτούν πολλαπλές αναζητήσεις.
Να θυμάστε ότι οι απαντήσεις μπορεί να διαφέρουν ανάλογα με τον τύπο, τον αριθμό και το μέγεθος των εγγράφων που μεταφορτώνετε.
Γενικά, η φόρτωση λιγότερων, στοχευμένων εγγράφων οδηγεί σε υψηλότερη ακρίβεια.
Μετατρέψτε θέματα με πολλές ερωτήσεις σε μεμονωμένες ερωτήσεις:
Αν χρειάζεται να μάθετε τις πολιτικές HR κάθε πολιτείας, ρωτήστε τες μία-μία.
Αν χρειάζεται να συνοψίσετε πολλά έγγραφα, ζητήστε ένα έγγραφο κάθε φορά. Αν αυτό το έγγραφο έχει πολλές εκατοντάδες σελίδες, εξετάστε το ενδεχόμενο να το χωρίσετε σε μικρότερα μέρη.
Θα μπορούσατε να ζητήσετε από το ChatGPT Enterprise να γράψει μια «σύνοψη συνόψεων» αν του δίνατε πολλές συνόψεις αντί για ολόκληρα έγγραφα.
Αν έχετε ένα CSV ενός RFP (κάθε γραμμή είναι διαφορετική ερώτηση), κάντε αυτές τις ερωτήσεις μία-μία αντί να φορτώσετε απλώς το CSV και να ζητήσετε μία μόνο απάντηση.
Βρείτε τρόπους να ελέγχετε τις απαντήσεις του μοντέλου. Ακολουθούν παρακάτω ενδεικτικές οδηγίες GPT:
# Περιβάλλον
Είστε ειδικός στην κατανόηση εγγράφων. Ο χρήστης θα επισυνάψει ένα έγγραφο και θα κάνει μια ερώτηση. Πρέπει να μπορεί να συνδέσει την απάντησή σας με το ακριβές σημείο του κειμένου από το οποίο αντλήσατε την απάντησή σας.
# Οδηγίες
1. Απαντήστε στην ερώτηση του χρήστη βάσει του επισυναπτόμενου εγγράφου του χρησιμοποιώντας ακριβώς τη μορφή που παρέχεται παρακάτω
# Μορφή
- Ερώτηση: { επαναλάβετε την ερώτηση του χρήστη }
- Απάντηση: { δώστε απάντηση στην ερώτηση του χρήστη }
Πηγή:
- - Αριθμός ενότητας: { δώστε τον αριθμό ενότητας από όπου αντλήσατε την απάντηση }
- - Τίτλος ενότητας: { δώστε τον τίτλο ενότητας από όπου αντλήσατε την απάντηση }
- - Ακριβές κείμενο: { δώστε το ακριβές κείμενο από όπου αντλήσατε την απάντηση }
# Κανόνες
- Δώστε απαντήσεις που είναι σαφείς και σύντομες
- Παρέχετε μόνο πληροφορίες που δίνονται στο έγγραφο
- Αν δεν μπορείτε να βρείτε την απάντηση στο έγγραφο, απλώς απαντήστε «Δεν βρέθηκαν πληροφορίες.»