Scopri come le funzionalità di ChatGPT Enterprise gestiscono i file in base a tipo, numero e dimensioni. Migliora gli output in base ai requisiti dei file.

ChatGPT Enterprise ora supporta la lettura e la comprensione di elementi visivi (immagini, grafici, diagrammi, ecc.) incorporati nei file PDF inclusi nei prompt. Gli utenti possono caricare un PDF e ChatGPT può interpretare il testo e qualsiasi elemento visivo all'interno del file.

Per i dettagli, consulta le FAQ su Visual Retrieval con i PDF.

ChatGPT Enterprise ti consente di caricare file in diversi modi:

Direttamente dal tuo computer
Da Google Drive / SharePoint / OneDrive
Come GPT Knowledge
Come File di progetto
Da una GPT Action

Questa guida spiega come le funzionalità di ChatGPT Enterprise gestiscono i file in base a tipo, numero e dimensioni e illustra strategie per migliorare gli output in base ai requisiti dei file.

Riepilogo

ChatGPT Enterprise tratta i diversi tipi di file in modi molto diversi: estraendo testo da documenti come PDF, presentazioni e file Word, analizzando dati strutturati dai fogli di calcolo tramite codice Python e descrivendo file immagine tramite GPT-Vision. Capire quale tipo di file attiva quale flusso di lavoro è fondamentale per ottenere il risultato previsto.

Per i documenti basati su testo, ChatGPT Enterprise include quanto più testo pertinente possibile direttamente insieme al prompt e usa un sistema di ricerca per accedere a informazioni aggiuntive. Questo funziona bene per rispondere a domande specifiche. Tuttavia, questo approccio può avere difficoltà con attività complesse come riassumere documenti molto grandi o confrontare più file di grandi dimensioni. Continua a leggere per capire le strategie per migliorare i tuoi risultati.

Gestione dei file in base al tipo

ChatGPT Enterprise elabora i file in tre modi principali: estrazione del testo, analisi del codice e interpretazione delle immagini. Il tipo di file determina quale flusso di lavoro segue ChatGPT Enterprise.

	Recupero basato su testo	Code Interpreter	Elaborazione delle immagini	Visual Retrieval
Esempi di tipi di file	pptx, docx, txt, md, json, xml, pdf* * PDF caricati come GPT Knowledge o File di progetto	csv, xls, xlsx* *Nota: Code Interpreter può operare su qualsiasi tipo di file, ma ChatGPT Enterprise usa più comunemente CI per impostazione predefinita per i fogli di calcolo	jpg, png	pdf* * PDF inclusi nei prompt degli utenti
Comportamento	Estrae il testo dal file: parte del testo viene incollata (“inserita”) direttamente nella finestra di contesto; parte del testo viene archiviata per la ricerca	Code Interpreter passa il file a Python per l'elaborazione	Le immagini vengono interpretate in modo nativo da modelli multimodali, nel rispetto delle limitazioni note .	Un ibrido di recupero del testo ed elaborazione delle immagini. Il testo viene estratto digitalmente e il contenuto visivo viene interpretato in modo nativo da modelli multimodali.

Per file di solo testo, file immagine o file di dati chiaramente strutturati (ad esempio una tabella Excel di transazioni), queste suddivisioni rappresentano il miglior comportamento possibile.

Ci sono alcune zone grigie meno ovvie, ad esempio:

Le immagini incorporate in file diversi dai PDF non vengono elaborate. Per includerle, converti il file in PDF prima del caricamento.
ChatGPT Enterprise userà sempre Code Interpreter per interagire con i fogli di calcolo, anche se il documento contiene una grande quantità di testo. Ad esempio, se chiedi a ChatGPT Enterprise di tradurre un file CSV con 10 righe di testo, tenterà di tradurre il file usando una libreria Python, il che è meno accurato rispetto a consentire al modello di generare direttamente una traduzione. Per mitigare questo problema, prova a esportare il foglio di calcolo in un formato basato su testo (ad esempio PDF).
Analogamente, se carichi una tabella transazionale strutturata contenuta in un file JSON, ChatGPT Enterprise interpreterà questo file come testo normale. Se vuoi analizzare i dati contenuti in un file JSON, indica al modello di usare Code Interpreter nel tuo prompt.

Gestione dei file in base alle dimensioni

ChatGPT Enterprise usa modelli con una finestra di contesto massima di 128k token (circa 200 pagine di testo). Tuttavia, non tutti i token vengono usati per incorporare il testo dei file caricati. Il numero di token “inseriti” varia in base al tipo di utilizzo.

ChatGPT Enterprise “inserisce” una certa quantità di testo e il testo rimanente viene inviato a un indice di ricerca privato (un “vector store”, ovvero un tipo di database progettato per archiviare e recuperare in modo efficiente grandi quantità di testo). Quando poni una domanda, ChatGPT Enterprise include il testo inserito insieme ai blocchi pertinenti recuperati da un indice di ricerca privato.

Se carichi un singolo documento, ChatGPT Enterprise include il testo a partire dall'inizio fino al raggiungimento del limite. Se carichi più documenti, ChatGPT Enterprise include una parte o la totalità di ciascun documento. Tutto il testo dei documenti viene inviato anche a un indice di ricerca privato.

Inserimento del contesto per documenti di testo

Questa funzionalità è in fase di sviluppo attivo. Pertanto, i dettagli seguenti sono soggetti a modifiche senza preavviso.

ChatGPT Enterprise può elaborare fino a 110k token dai documenti caricati nella finestra di contesto. Se carichi uno o più documenti con un totale combinato inferiore a 110k token, verrà incluso l'intero contenuto.

Per un singolo documento che supera 110k token, verranno inclusi solo i primi 110k token, a partire dall'inizio. Il resto verrà inviato solo all'indice di ricerca privato.

Se vengono caricati più documenti e il loro totale combinato supera 110k token, ChatGPT Enterprise usa un processo in due passaggi per bilanciare la rappresentazione dei documenti:

Estrai fino a 55k token, suddivisi equamente tra i documenti caricati.

Per i documenti non rappresentati completamente nel primo passaggio, assegna i restanti 55k token proporzionalmente in base ai token rimasti in ciascun documento.

Eventuali token rimanenti vengono inviati solo all'indice di ricerca privato.

Puoi stimare il numero di token in un documento di testo copiando il testo del documento in OpenAI Tokenizer.

Inserimento del contesto per PDF multimediali

Quando gli utenti caricano PDF contenenti sia testo sia immagini, Visual Retrieval consente a ChatGPT di elaborare queste immagini in modo nativo insieme al testo estratto digitalmente. I passaggi seguenti integrano le nostre procedure standard di gestione del contesto per i PDF multimediali:

Estrazione ed embedding delle immagini: le immagini vengono estratte e sottoposte a embedding insieme al testo digitale associato.
Ridimensionamento intelligente: le immagini vengono ridimensionate automaticamente per mantenere un equilibrio tra qualità delle informazioni e uso efficiente della finestra di contesto disponibile.

Quando i PDF caricati superano il limite di 110k token, sia le immagini sia il testo vengono sottoposti a embedding nell'indice di ricerca privato. Gli embedding del testo fanno riferimento alle immagini pertinenti, consentendo a ChatGPT di recuperare le coppie testo-immagine appropriate in base alle query degli utenti. Le immagini recuperate vengono quindi elaborate usando le capacità multimodali native di ChatGPT.

Stimare con precisione i requisiti di token per i PDF multimediali è difficile. I test suggeriscono che circa 350 pagine con testo e immagini misti utilizzeranno completamente la finestra di contesto da 110k token.

Strategie di ricerca in base al tipo di modello

Sia i modelli della serie GPT sia quelli della serie o supportano i caricamenti di file e utilizzano la stessa logica di inserimento del contesto e di embedding di ricerca. Tutti i modelli eseguono ricerche ibride su un indice di ricerca privato, combinando metodi basati su parole chiave e semantici. In una ricerca ibrida, il modello genera una frase di ricerca in base al prompt dell'utente e l'indice di ricerca privato recupera di conseguenza testo e immagini pertinenti.

Tuttavia, questi modelli differiscono nel modo in cui cercano all'interno di documenti di grandi dimensioni che superano la finestra di contesto:

Modelli della serie GPT

Una sola ricerca per prompt: i modelli della serie GPT eseguono una ricerca per ogni prompt dell'utente.
Casi d'uso efficaci: ideali per rispondere a domande dirette inserite in una documentazione estesa.

Query di esempio:

"Qual è la policy HR per il pensionamento anticipato?"
"Che cosa fa la funzione process_order?"

Modelli della serie o

Più ricerche per prompt: possono eseguire più ricerche (in genere 2-3) per ogni prompt dell'utente, ciascuna con una frase di ricerca univoca. Le ricerche vengono eseguite in sequenza e il modello può aggiornare il proprio approccio in base alle informazioni recuperate nelle ricerche precedenti.
Casi d'uso efficaci: più adatti per domande complesse che richiedono più ricerche mirate in una documentazione estesa.

Query di esempio:

"Quali sono le policy HR per pensionamento anticipato, congedo parentale e trasferimento all'estero?"
"Spiega cosa fa la funzione process_order, elenca tutti i metodi richiamati da questa funzione e descrivi brevemente ciascun metodo richiamato."

Nonostante i loro punti di forza, i modelli della serie o possono avere difficoltà quando una query richiede più di tre ricerche.

Suggerimenti per migliorare i risultati della ricerca nei file

Prova a usare un modello della serie o per domande complesse che richiedono più ricerche.
Ricorda che le risposte possono variare a seconda del tipo, del numero e delle dimensioni dei documenti che carichi.
In generale, caricare meno documenti e più mirati porterà a una maggiore accuratezza.
Trasforma gli argomenti con più domande in domande singole:
- Se devi conoscere le policy HR di ogni stato, chiedile una alla volta.
- Se devi riassumere molti documenti, chiedi un documento alla volta. Se quel documento è lungo molte centinaia di pagine, valuta di suddividerlo in componenti più piccoli.
  - Potresti chiedere a ChatGPT Enterprise di scrivere un “riassunto dei riassunti” se gli fornisci più riassunti anziché interi documenti.
- Se hai un CSV di una RFP (ogni riga è una domanda diversa), poni quelle domande una alla volta invece di caricare semplicemente il CSV e richiedere un'unica risposta.
Trova modi per verificare le risposte del modello. Di seguito sono riportate istruzioni GPT di esempio:

# Contesto 

Sei un esperto nella comprensione dei documenti. L'utente allegherà un documento e farà una domanda. Deve poter collegare la tua risposta alla parte esatta del testo da cui hai ricavato la risposta.

# Istruzioni

1. Rispondi alla domanda dell'utente in base al documento allegato usando il formato esatto fornito di seguito

# Formato 

- Domanda: { repeat user's question }
- Risposta: { provide an answer to user's question }
Fonte: 
- - Numero sezione: { provide section number where you pulled in the answer }
- - Titolo sezione: { provide section title where you pulled in the answer }
- - Testo esatto: { provide the exact text where you pulled the answer from }

# Regole

- Fornisci risposte chiare e concise
- Fornisci solo informazioni presenti nel documento
- Se non riesci a trovare la risposta nel documento, rispondi semplicemente "Nessuna informazione trovata."

Ottimizzazione dei caricamenti di file in ChatGPT Enterprise