ChatGPT Enterprise acceptă acum citirea și înțelegerea elementelor vizuale (imagini, grafice, diagrame etc.) încorporate în fișiere PDF incluse în solicitări. Utilizatorii pot încărca un PDF, iar ChatGPT poate interpreta textul și orice elemente vizuale din acel fișier.
Pentru detalii, consultați Întrebări frecvente despre Regăsirea vizuală cu PDF-uri.
ChatGPT Enterprise vă permite să încărcați fișiere în mai multe moduri:
Direct de pe computerul dvs.
Dintr-o Acțiune GPT
Acest ghid explică modul în care funcțiile ChatGPT Enterprise gestionează fișierele în funcție de tipul, numărul și dimensiunea lor și discută strategii pentru îmbunătățirea rezultatelor în funcție de cerințele fișierelor.
Rezumat
ChatGPT Enterprise tratează foarte diferit tipurile de fișiere: extrage text din documente text precum PDF-uri, prezentări și fișiere Word, analizează date structurate din foi de calcul folosind cod Python și descrie fișiere imagine prin GPT-Vision. Înțelegerea tipului de fișier care declanșează fiecare flux de lucru este esențială pentru a obține rezultatul așteptat.
Pentru documentele bazate pe text, ChatGPT Enterprise include cât mai mult text relevant posibil direct alături de solicitare și folosește un sistem de căutare pentru a accesa informații suplimentare. Acest lucru funcționează bine pentru a răspunde la întrebări specifice. Totuși, această abordare poate întâmpina dificultăți în sarcini complexe, precum rezumarea unor documente foarte mari sau compararea mai multor fișiere mari. Citiți în continuare pentru a înțelege strategiile de îmbunătățire a rezultatelor.
Gestionarea fișierelor în funcție de tip
ChatGPT Enterprise procesează fișierele în trei moduri principale: extragere de text, analiză de cod și interpretare de imagini. Tipul fișierului determină fluxul de lucru pe care îl urmează ChatGPT Enterprise.
| Regăsire pe bază de text | Interpretor de coduri | Procesarea imaginilor | Regăsire vizuală | |
|---|---|---|---|---|
| Exemple de tipuri de fișiere | pptx, docx, txt, md, json, xml, pdf* * PDF-urile încărcate ca Cunoștințe GPT sau Fișiere de proiect | csv, xls, xlsx* *Notă: Interpretor de coduri poate funcționa cu orice tip de fișier, dar ChatGPT Enterprise folosește cel mai des implicit CI pentru foi de calcul | jpg, png | pdf* * PDF-uri incluse în solicitările utilizatorilor |
| Comportament | Extrage textul din fișier – o parte din text este lipită („îndesată”) direct în fereastra de context; o parte din text este stocată pentru căutare | Interpretor de coduri transmite fișierul către Python pentru procesare | Imaginile sunt interpretate nativ de modelele multi-modale, în limitele cunoscute . | O combinație de regăsire de text și procesare de imagini. Textul este extras digital, iar conținutul vizual este interpretat nativ de modelele multi-modale. |
Pentru fișiere numai text, fișiere imagine sau fișiere de date clar structurate (de exemplu, un tabel Excel cu tranzacții), aceste delimitări reprezintă cel mai bun comportament posibil.
Există unele zone gri mai puțin evidente, de exemplu:
Imaginile încorporate în alte fișiere decât PDF-urile nu sunt procesate. Pentru a le include, convertiți fișierul în PDF înainte de încărcare.
ChatGPT Enterprise va folosi întotdeauna Interpretor de coduri pentru a interacționa cu foile de calcul, chiar dacă documentul conține o cantitate mare de text. De exemplu, dacă cereți ChatGPT Enterprise să traducă un fișier CSV cu 10 rânduri de text, acesta va încerca să traducă fișierul folosind o bibliotecă Python, ceea ce este mai puțin precis decât dacă modelul ar genera direct traducerea. Pentru a reduce acest efect, încercați să exportați foaia de calcul într-un format bazat pe text (de exemplu, PDF).
În mod similar, dacă încărcați un tabel tranzacțional structurat descris într-un fișier JSON, ChatGPT Enterprise va interpreta acest fișier ca text simplu. Dacă doriți să analizați datele dintr-un fișier JSON, instruiți modelul să folosească Interpretor de coduri în solicitare.
Gestionarea fișierelor în funcție de dimensiune
ChatGPT Enterprise folosește modele cu o fereastră de context maximă de 128k tokens (aproximativ 200 de pagini de text). Totuși, nu toate tokenurile sunt folosite pentru a încorpora textul din fișierele încărcate. Numărul de tokenuri „îndesate” variază în funcție de tipul de utilizare.
ChatGPT Enterprise „îndeasă” o anumită cantitate de text, iar textul rămas este trimis către un index de căutare privat (un „vector store”, adică un tip de bază de date conceput pentru a stoca și recupera eficient cantități mari de text). Când puneți o întrebare, ChatGPT Enterprise aduce textul inclus împreună cu fragmente relevante recuperate dintr-un index de căutare privat.
Dacă încărcați un singur document, ChatGPT Enterprise include text începând de la început până când atinge limita. Dacă încărcați mai multe documente, ChatGPT Enterprise include o parte sau tot din fiecare document. Tot textul din documente este trimis și către un index de căutare privat.
Îndesarea contextului pentru documente text
Această funcție este în curs de dezvoltare activă. Ca atare, următoarele detalii se pot modifica fără notificare prealabilă.
ChatGPT Enterprise poate procesa până la 110k tokens din documentele încărcate în fereastra de context. Dacă încărcați unul sau mai multe documente cu un total combinat de mai puțin de 110k tokens, va fi inclus întregul conținut.
Pentru un singur document care depășește 110k tokens, vor fi incluși doar primii 110k tokens, începând de la început. Restul va fi trimis doar către indexul de căutare privat.
Dacă sunt încărcate mai multe documente și totalul lor combinat depășește 110k tokens, ChatGPT Enterprise folosește un proces în doi pași pentru a echilibra reprezentarea documentelor:
Extrage până la 55k tokens, împărțiți uniform între documentele încărcate.
De exemplu, dacă sunt încărcate 10 documente, se extrag 5,5k tokens de la începutul fiecăruia.
Pentru documentele care nu sunt reprezentate complet în primul pas, alocă restul de 55k tokens proporțional în funcție de tokenurile rămase în fiecare document.
De exemplu, dacă Documentul A are 10k tokens rămase și Documentul B are 90k tokens rămase, se extrag încă 5,5k tokens din Documentul A ( (10k / 100k) * 55k ) și încă 49,5k tokens din Documentul B ( (90k / 100k) * 55k ).
Toate tokenurile rămase sunt trimise doar către indexul de căutare privat.
Puteți estima numărul de tokenuri dintr-un document text copiind textul documentului în Tokenizerul OpenAI.
Îndesarea contextului pentru PDF-uri multimedia
Când utilizatorii încarcă PDF-uri care conțin atât text, cât și imagini, Regăsirea vizuală permite ChatGPT să proceseze aceste imagini în mod nativ alături de textul extras digital. Următorii pași completează procedurile noastre standard de gestionare a contextului pentru PDF-uri multimedia:
Extragerea și încorporarea imaginilor: Imaginile sunt extrase și încorporate împreună cu textul digital asociat.
Scalare inteligentă: Imaginile sunt scalate automat pentru a menține un echilibru între calitatea informației și utilizarea eficientă a ferestrei de context disponibile.
Când PDF-urile încărcate depășesc limita de 110k tokenuri, atât imaginile, cât și textul sunt încorporate în indexul de căutare privat. Încorporările de text fac referire la imagini relevante, permițând ChatGPT să recupereze perechile text-imagine adecvate în funcție de interogările utilizatorului. Imaginile recuperate sunt apoi procesate folosind capacitățile multimodale native ale ChatGPT.
Estimarea exactă a necesarului de tokenuri pentru PDF-uri multimedia este dificilă. Testele sugerează că aproximativ 350 de pagini de text și imagini mixte vor utiliza complet fereastra de context de 110k tokenuri.
Strategii de căutare în funcție de tipul modelului
Atât modelele din seria GPT, cât și cele din seria o acceptă încărcarea de fișiere și folosesc aceeași logică pentru îndesarea contextului și încorporările pentru căutare. Toate modelele execută căutări hibride într-un index de căutare privat, combinând metodele bazate pe cuvinte-cheie și cele semantice. Într-o căutare hibridă, modelul generează o expresie de căutare pe baza solicitării utilizatorului, iar indexul de căutare privat recuperează textul și imaginile relevante în consecință.
Totuși, aceste modele diferă în modul în care caută în documente mari care depășesc fereastra de context:
Modele din seria GPT
O singură căutare per solicitare: Modelele din seria GPT efectuează o singură căutare pentru fiecare solicitare a utilizatorului.
Cazuri de utilizare eficiente: Ideale pentru a răspunde la întrebări simple incluse în documentație extinsă.
Exemple de interogări:
„Care este politica HR privind pensionarea anticipată?”
„Ce face funcția
process_order?”
Modele din seria o
Căutări multiple per solicitare: Pot executa mai multe căutări (de obicei 2-3) pentru fiecare solicitare a utilizatorului, fiecare cu o expresie de căutare unică. Căutările sunt executate secvențial, iar modelul își poate actualiza abordarea pe baza informațiilor recuperate în căutările anterioare.
Cazuri de utilizare eficiente: Mai potrivite pentru întrebări complexe care necesită mai multe căutări direcționate în documentație extinsă.
Exemple de interogări:
„Care sunt politicile HR privind pensionarea anticipată, concediul parental și transferul în străinătate?”
„Explicați ce face funcția
process_order, enumerați toate metodele apelate de această funcție și descrieți pe scurt fiecare metodă apelată.”
În ciuda punctelor lor forte, modelele din seria o pot întâmpina dificultăți atunci când o interogare necesită mai mult de trei căutări.
Sfaturi pentru îmbunătățirea rezultatelor căutării în fișiere
Încercați să folosiți un model din seria o pentru întrebări complexe care necesită mai multe căutări.
Rețineți că răspunsurile pot varia în funcție de tipul, numărul și dimensiunea documentelor pe care le încărcați.
În general, încărcarea unui număr mai mic de documente, dar mai concentrate, va duce la o acuratețe mai mare.
Transformați subiectele cu mai multe întrebări în întrebări individuale:
Dacă trebuie să cunoașteți politicile HR ale fiecărui stat, întrebați-le una câte una.
Dacă trebuie să rezumați multe documente, cereți câte un document pe rând. Dacă documentul respectiv are multe sute de pagini, luați în considerare împărțirea lui în componente mai mici.
Ați putea cere ChatGPT Enterprise să scrie un „rezumat al rezumatelor” dacă îi furnizați mai multe rezumate în loc de documente întregi.
Dacă aveți un CSV al unei cereri de ofertă (fiecare rând este o întrebare diferită), adresați întrebările una câte una în loc să încărcați pur și simplu CSV-ul și să solicitați un singur răspuns.
Găsiți modalități de a audita răspunsurile modelului. Mai jos sunt exemple de instrucțiuni GPT:
# Context
Sunteți expert în înțelegerea documentelor. Utilizatorul va atașa un document și va adresa o întrebare. Trebuie să poată corela răspunsul dvs. cu partea exactă din text de unde ați extras răspunsul.
# Instrucțiuni
1. Răspundeți la întrebarea utilizatorului pe baza documentului atașat folosind exact formatul de mai jos
# Format
- Întrebare: { repetați întrebarea utilizatorului }
- Răspuns: { oferiți un răspuns la întrebarea utilizatorului }
Sursă:
- - Număr secțiune: { indicați numărul secțiunii din care ați extras răspunsul }
- - Titlu secțiune: { indicați titlul secțiunii din care ați extras răspunsul }
- - Text exact: { furnizați textul exact din care ați extras răspunsul }
# Reguli
- Oferiți răspunsuri clare și concise
- Furnizați numai informațiile prezente în document
- Dacă nu găsiți răspunsul în document, răspundeți pur și simplu „Nu au fost găsite informații.”