ChatGPT Enterprise ora supporta la lettura e la comprensione di elementi visivi (immagini, grafici, diagrammi, ecc.) incorporati nei file PDF inclusi nei prompt. Gli utenti possono caricare un PDF e ChatGPT può interpretare il testo e qualsiasi elemento visivo presente in quel file.
Per i dettagli, vedi FAQ sul Recupero visivo con PDF.
ChatGPT Enterprise ti consente di caricare file in diversi modi:
Direttamente dal tuo computer
Come GPT Knowledge
Come File di progetto
Da un’azione GPT
Questa guida spiega come le funzionalità di ChatGPT Enterprise gestiscono i file in base al tipo, al numero e alle dimensioni, e illustra strategie per migliorare gli output in base ai requisiti dei file.
Riepilogo
ChatGPT Enterprise gestisce tipi di file diversi in modo molto diverso: estrae il testo da documenti testuali come PDF, presentazioni e file Word, analizza dati strutturati da fogli di calcolo usando codice Python e descrive file immagine tramite GPT-Vision. Capire quale tipo di file attiva quale flusso di lavoro è fondamentale per ottenere il risultato atteso.
Per i documenti basati su testo, ChatGPT Enterprise include quanto più testo pertinente possibile direttamente insieme al prompt e usa un sistema di ricerca per accedere a informazioni aggiuntive. Questo funziona bene per rispondere a domande specifiche. Tuttavia, questo approccio può avere difficoltà con attività complesse come riassumere documenti molto grandi o confrontare più file di grandi dimensioni. Continua a leggere per capire le strategie per migliorare i risultati.
Gestione dei file in base al tipo
ChatGPT Enterprise elabora i file in tre modi principali: estrazione del testo, analisi con codice e interpretazione delle immagini. Il tipo di file determina quale flusso di lavoro segue ChatGPT Enterprise.
| Recupero basato su testo | Code Interpreter | Elaborazione immagini | Recupero visivo | |
|---|---|---|---|---|
| Esempi di tipo di file | pptx, docx, txt, md, json, xml, pdf* * PDF caricati come GPT Knowledge o File di progetto | csv, xls, xlsx* *Nota: Code Interpreter può operare su qualsiasi tipo di file, ma ChatGPT Enterprise di solito passa a CI per i fogli di calcolo | jpg, png | pdf* * PDF inclusi nei prompt dell’utente |
| Comportamento | Estrae il testo dal file: parte del testo viene incollata (“stuffed”) direttamente nella finestra di contesto; parte viene archiviata per la ricerca | Code Interpreter passa il file a Python per l’elaborazione | Le immagini vengono interpretate nativamente dai modelli multimodali, nel rispetto delle limitazioni note . | Un ibrido tra recupero testuale ed elaborazione immagini. Il testo viene estratto digitalmente e i contenuti visivi vengono interpretati nativamente dai modelli multimodali. |
Per file solo testo, file immagine o file con dati chiaramente strutturati (ad es. una tabella Excel di transazioni), queste distinzioni rappresentano il comportamento migliore possibile.
Ci sono alcune aree grigie meno ovvie, ad esempio:
Le immagini incorporate in file diversi dai PDF non vengono elaborate. Per includerle, converti il file in PDF prima di caricarlo.
ChatGPT Enterprise userà sempre Code Interpreter per interagire con i fogli di calcolo, anche se il documento contiene molto testo. Per esempio, se chiedi a ChatGPT Enterprise di tradurre un file CSV con 10 righe di testo, proverà a tradurre il file usando una libreria Python, che è meno accurata rispetto a lasciare che il modello generi direttamente una traduzione. Per mitigare, prova a esportare il foglio di calcolo in un formato basato su testo (ad esempio PDF).
Allo stesso modo, se carichi una tabella transazionale strutturata contenuta in un file JSON, ChatGPT Enterprise interpreterà questo file come testo semplice. Se vuoi analizzare i dati contenuti in un file JSON, istruisci il modello a usare Code Interpreter nel prompt.
Gestione dei file in base alle dimensioni
ChatGPT Enterprise usa modelli con una finestra di contesto massima di 128k token (circa 200 pagine di testo). Tuttavia, non tutti i token vengono usati per incorporare il testo dai file caricati. Il numero di token “stuffed” varia in base al tipo di utilizzo.
ChatGPT Enterprise “inserisce” una certa quantità di testo e il testo rimanente viene inviato a un indice di ricerca privato (un “vector store”, un tipo di database progettato per archiviare e recuperare in modo efficiente grandi quantità di testo). Quando fai una domanda, ChatGPT Enterprise include il testo inserito insieme a porzioni pertinenti recuperate da un indice di ricerca privato.
Se carichi un singolo documento, ChatGPT Enterprise include il testo a partire dall’inizio finché non raggiunge il suo limite. Se carichi più documenti, ChatGPT Enterprise include parte o tutto di ciascun documento. Tutto il testo dei documenti viene anche inviato a un indice di ricerca privato.
Inserimento nel contesto per documenti di testo
Questa funzionalità è in fase di sviluppo attivo. Di conseguenza, i seguenti dettagli possono cambiare senza preavviso.
ChatGPT Enterprise può elaborare fino a 110k token dai documenti caricati nella finestra di contesto. Se carichi uno o più documenti con un totale combinato inferiore a 110k token, verrà incluso l’intero contenuto.
Per un singolo documento che supera i 110k token, verranno inclusi solo i primi 110k token, a partire dall’inizio. Il resto verrà inviato solo all’indice di ricerca privato.
Se vengono caricati più documenti e il loro totale combinato supera i 110k token, ChatGPT Enterprise usa un processo in due fasi per bilanciare la rappresentazione dei documenti:
Estrae fino a 55k token, divisi equamente tra i documenti caricati.
Ad esempio, se vengono caricati 10 documenti, vengono estratti 5,5k token dall’inizio di ciascuno.
Per i documenti non completamente rappresentati nel primo passaggio, assegna i 55k token rimanenti proporzionalmente in base ai token rimasti in ciascun documento.
Ad esempio, se il Documento A ha 10k token rimanenti e il Documento B ha 90k token rimanenti, vengono estratti ulteriori 5,5k token dal Documento A ( (10k / 100k) * 55k ) e ulteriori 49,5k token dal Documento B ( (90k / 100k) * 55k ).
Eventuali token rimanenti vengono inviati solo all’indice di ricerca privato.
Puoi stimare il numero di token in un documento di testo copiando il testo del documento nell’OpenAI Tokenizer.
Inserimento nel contesto per PDF multimediali
Quando gli utenti caricano PDF che contengono sia testo sia immagini, il Recupero visivo consente a ChatGPT di elaborare queste immagini in modo nativo insieme al testo estratto digitalmente. I seguenti passaggi integrano le nostre procedure standard di gestione del contesto per i PDF multimediali:
Estrazione e incorporamento delle immagini: le immagini vengono estratte e incorporate insieme al relativo testo digitale.
Ridimensionamento intelligente: le immagini vengono ridimensionate automaticamente per mantenere un equilibrio tra qualità delle informazioni ed uso efficiente della finestra di contesto disponibile.
Quando i PDF caricati superano il limite di 110k token, sia le immagini sia il testo vengono incorporati nell’indice di ricerca privato. Gli embedding di testo fanno riferimento alle immagini pertinenti, consentendo a ChatGPT di recuperare le coppie testo-immagine appropriate in base alle query dell’utente. Le immagini recuperate vengono poi elaborate usando le capacità multimodali native di ChatGPT.
Stimare con precisione i token necessari per i PDF multimediali è difficile. I test suggeriscono che circa 350 pagine di testo e immagini misti utilizzeranno completamente la finestra di contesto da 110k token.
Strategie di ricerca in base al tipo di modello
Sia i modelli della serie GPT sia quelli della serie o supportano il caricamento di file e utilizzano la stessa logica di inserimento nel contesto e di embedding per la ricerca. Tutti i modelli eseguono ricerche ibride su un indice di ricerca privato, combinando metodi per parole chiave e semantici. In una ricerca ibrida, il modello genera una frase di ricerca in base al prompt dell’utente e l’indice di ricerca privato recupera di conseguenza testo e immagini pertinenti.
Tuttavia, questi modelli differiscono nel modo in cui cercano all’interno di documenti grandi che superano la finestra di contesto:
Modelli della serie GPT
Una ricerca per prompt: i modelli della serie GPT eseguono una ricerca per ogni prompt dell’utente.
Casi d’uso efficaci: ideali per rispondere a domande dirette presenti in documentazione estesa.
Esempi di query:
"Qual è la policy HR per il pensionamento anticipato?"
"Che cosa fa la funzione
process_order?"
Modelli della serie o
Ricerche multiple per prompt: possono eseguire più ricerche (di solito 2-3) per ogni prompt dell’utente, ciascuna con una frase di ricerca unica. Le ricerche vengono eseguite in sequenza e il modello può aggiornare il proprio approccio in base alle informazioni recuperate nelle ricerche precedenti.
Casi d’uso efficaci: più adatti a domande complesse che richiedono più ricerche mirate in documentazione estesa.
Esempi di query:
"Quali sono le policy HR per pensionamento anticipato, congedo parentale e trasferimento all’estero?"
"Spiega che cosa fa la funzione
process_order, elenca tutti i metodi invocati da questa funzione e descrivi brevemente ciascun metodo invocato."
Nonostante i loro punti di forza, i modelli della serie o possono avere difficoltà quando una query richiede più di tre ricerche.
Suggerimenti per migliorare i risultati di ricerca nei file
Prova a usare un modello della serie o per domande complesse che richiedono più ricerche.
Ricorda che le risposte possono variare a seconda del tipo, del numero e delle dimensioni dei documenti che carichi.
In generale, caricare meno documenti e più mirati porta a una maggiore accuratezza.
Trasforma argomenti con più domande in domande singole:
Se ti servono le policy HR di ogni stato, chiedile una per una.
Se devi riassumere molti documenti, chiedi un documento alla volta. Se quel documento è di molte centinaia di pagine, valuta di suddividerlo in componenti più piccoli.
Potresti chiedere a ChatGPT Enterprise di scrivere un “riassunto di riassunti” se gli fornisci più riassunti invece dei documenti interi.
Se hai un CSV di una RFP (ogni riga è una domanda diversa), fai quelle domande una per una invece di caricare semplicemente il CSV e richiedere un’unica risposta.
Trova modi per verificare le risposte del modello. Di seguito trovi istruzioni di esempio per GPT:
# Contesto
Sei un esperto nell’interpretazione dei documenti. L’utente allegherà un documento e farà una domanda. Deve poter collegare la tua risposta esattamente al punto del testo da cui hai ricavato la risposta.
# Istruzioni
1. Rispondi alla domanda dell’utente in base al documento allegato, usando esattamente il formato fornito di seguito
# Formato
- Domanda: { ripeti la domanda dell’utente }
- Risposta: { fornisci una risposta alla domanda dell’utente }
Fonte:
- - Numero sezione: { indica il numero della sezione da cui hai preso la risposta }
- - Titolo sezione: { indica il titolo della sezione da cui hai preso la risposta }
- - Testo esatto: { fornisci il testo esatto da cui hai ricavato la risposta }
# Regole
- Fornisci risposte chiare e concise
- Fornisci solo le informazioni presenti nel documento
- Se non riesci a trovare la risposta nel documento, rispondi semplicemente "Nessuna informazione trovata."