Înțelegeți cum gestionează funcțiile ChatGPT Enterprise fișierele în funcție de tip, număr și dimensiune. Îmbunătățiți rezultatele în funcție de cerințele fișierelor.

ChatGPT Enterprise acceptă acum citirea și înțelegerea elementelor vizuale (imagini, grafice, diagrame etc.) încorporate în fișiere PDF incluse în solicitări. Utilizatorii pot încărca un PDF, iar ChatGPT poate interpreta textul și orice elemente vizuale din acel fișier.

Pentru detalii, consultă Întrebări frecvente despre recuperarea vizuală cu PDF-uri.

ChatGPT Enterprise îți permite să încarci fișiere în mai multe moduri:

Direct de pe computerul tău
Din Google Drive / SharePoint / OneDrive
Ca Cunoștințe GPT
Ca fișier de proiect
Dintr-o acțiune GPT

Acest ghid explică modul în care funcțiile ChatGPT Enterprise gestionează fișierele în funcție de tipul, numărul și dimensiunea lor și discută strategii pentru îmbunătățirea rezultatelor pe baza cerințelor fișierelor.

Rezumat

ChatGPT Enterprise tratează tipurile de fișiere foarte diferit: extrage text din documente text precum PDF-uri, prezentări și fișiere Word, analizează date structurate din foi de calcul folosind cod Python și descrie fișiere imagine prin GPT-Vision. Înțelegerea tipului de fișier care declanșează fiecare flux de lucru este esențială pentru a obține rezultatul așteptat.

Pentru documentele bazate pe text, ChatGPT Enterprise include cât mai mult text relevant posibil direct alături de solicitare și folosește un sistem de căutare pentru a accesa informații suplimentare. Acest lucru funcționează bine pentru a răspunde la întrebări specifice. Totuși, această abordare poate întâmpina dificultăți cu sarcini complexe, cum ar fi rezumarea documentelor foarte mari sau compararea mai multor fișiere mari. Citește mai departe pentru a înțelege strategiile de îmbunătățire a rezultatelor.

Gestionarea fișierelor în funcție de tip

ChatGPT Enterprise procesează fișierele în trei moduri principale: extragerea textului, analiza codului și interpretarea imaginilor. Tipul de fișier determină fluxul de lucru pe care îl urmează ChatGPT Enterprise.

	Recuperare bazată pe text	Interpretor de coduri	Procesarea imaginilor	Recuperare vizuală
Exemple de tipuri de fișiere	pptx, docx, txt, md, json, xml, pdf* * PDF-uri încărcate ca Cunoștințe GPT sau fișiere de proiect	csv, xls, xlsx* *Notă: Interpretorul de coduri poate opera pe orice tip de fișier, dar ChatGPT Enterprise revine cel mai frecvent la CI pentru foi de calcul	jpg, png	pdf* * PDF-uri incluse în solicitările utilizatorilor
Comportament	Extrage textul din fișier – o parte din text este lipită („introdusă”) direct în fereastra contextuală; o parte din text este stocată pentru căutare	Interpretorul de coduri transmite fișierul către Python pentru procesare	Imaginile sunt interpretate nativ de modele multi-modale, sub rezerva limitărilor cunoscute .	Un hibrid între recuperarea textului și procesarea imaginilor. Textul este extras digital, iar conținutul vizual este interpretat nativ de modele multi-modale.

Pentru fișiere numai text, fișiere imagine sau fișiere de date clar structurate (de exemplu, un tabel Excel cu tranzacții), aceste diviziuni reprezintă cel mai bun comportament posibil.

Există câteva zone gri care sunt mai puțin evidente, de exemplu:

Imaginile încorporate în alte fișiere decât PDF-urile nu sunt procesate. Pentru a le include, convertește fișierul într-un PDF înainte de încărcare.
ChatGPT Enterprise va folosi întotdeauna Interpretorul de coduri pentru a interacționa cu foile de calcul, chiar dacă documentul conține o cantitate mare de text. De exemplu, dacă îi ceri ChatGPT Enterprise să traducă un fișier CSV cu 10 rânduri de text, va încerca să traducă fișierul folosind o bibliotecă Python, ceea ce este mai puțin precis decât să îi permiți modelului să genereze direct o traducere. Pentru a atenua acest lucru, încearcă să exporți foaia de calcul într-un format bazat pe text (PDF, de exemplu).
În mod similar, dacă încarci un tabel tranzacțional structurat descris într-un fișier JSON, ChatGPT Enterprise va interpreta acest fișier ca text simplu. Dacă dorești să analizezi datele conținute într-un fișier JSON, instruiește modelul să folosească Interpretorul de coduri în solicitarea ta.

Gestionarea fișierelor în funcție de dimensiune

ChatGPT Enterprise utilizează modele cu o fereastră contextuală maximă de 128k tokenuri (aproximativ 200 de pagini de text). Cu toate acestea, nu toate tokenurile sunt folosite pentru a încorpora textul din fișierele încărcate. Numărul de tokenuri „introduse” variază în funcție de tipul de utilizare.

ChatGPT Enterprise „introduce” o anumită cantitate de text, iar textul rămas este trimis către un index de căutare privat (un „vector store”, adică un tip de bază de date concepută pentru a stoca și recupera eficient cantități mari de text). Când pui o întrebare, ChatGPT Enterprise aduce textul inclus împreună cu fragmente relevante recuperate dintr-un index de căutare privat.

Dacă încarci un singur document, ChatGPT Enterprise include textul începând de la început până când își atinge limita. Dacă încarci mai multe documente, ChatGPT Enterprise include parțial sau integral fiecare document. Tot textul din documente este trimis și către un index de căutare privat.

Introducerea contextului pentru documente text

Această funcție este în curs de dezvoltare activă. Ca atare, următoarele detalii se pot modifica fără notificare prealabilă.

ChatGPT Enterprise poate procesa până la 110k tokenuri din documentele încărcate în fereastra contextuală. Dacă încarci unul sau mai multe documente cu un total combinat mai mic de 110k tokenuri, va fi inclus întregul conținut.

Pentru un singur document care depășește 110k tokenuri, vor fi incluse doar primele 110k tokenuri, începând de la început. Restul va fi trimis doar către indexul de căutare privat.

Dacă sunt încărcate mai multe documente și totalul lor combinat depășește 110k tokenuri, ChatGPT Enterprise folosește un proces în doi pași pentru a echilibra reprezentarea documentelor:

Extrage până la 55k tokenuri, împărțite în mod egal între documentele încărcate.

Pentru documentele care nu sunt reprezentate integral în primul pas, alocă cele 55k tokenuri rămase proporțional, în funcție de tokenurile rămase în fiecare document.

Orice tokenuri rămase sunt trimise doar către indexul de căutare privat.

Poți estima numărul de tokenuri dintr-un document text copiind textul documentului în OpenAI Tokenizer.

Introducerea contextului pentru PDF-uri multimedia

Când utilizatorii încarcă PDF-uri care conțin atât text, cât și imagini, Recuperarea vizuală îi permite ChatGPT să proceseze aceste imagini nativ, alături de textul extras digital. Pașii următori completează procedurile noastre standard de gestionare a contextului pentru PDF-uri multimedia:

Extragerea și embeddingul imaginilor: imaginile sunt extrase și încorporate împreună cu textul digital asociat.
Scalare inteligentă: imaginile sunt scalate automat pentru a menține un echilibru între calitatea informațiilor și utilizarea eficientă a ferestrei contextuale disponibile.

Când PDF-urile încărcate depășesc limita de 110k tokenuri, atât imaginile, cât și textul sunt încorporate în indexul de căutare privat. Embeddingurile textului fac referire la imagini relevante, permițând ChatGPT să recupereze perechile text-imagine adecvate pe baza interogărilor utilizatorilor. Imaginile recuperate sunt apoi procesate folosind capacitățile multimodale native ale ChatGPT.

Estimarea exactă a cerințelor de tokenuri pentru PDF-urile multimedia este dificilă. Testele sugerează că aproximativ 350 de pagini cu text și imagini mixte vor utiliza complet fereastra contextuală de 110k tokenuri.

Strategii de căutare bazate pe tipul modelului

Atât modelele din seria GPT, cât și cele din seria o acceptă încărcări de fișiere și utilizează aceeași logică de introducere a contextului și de embedding pentru căutare. Toate modelele execută căutări hibride într-un index de căutare privat, combinând metode bazate pe cuvinte-cheie și metode semantice. Într-o căutare hibridă, modelul generează o expresie de căutare pe baza solicitării utilizatorului, iar indexul de căutare privat recuperează textul și imaginile relevante corespunzător.

Cu toate acestea, aceste modele diferă prin modul în care caută în documente mari care depășesc fereastra contextuală:

Modele din seria GPT

O singură căutare per solicitare: modelele din seria GPT efectuează o singură căutare per solicitare a utilizatorului.
Cazuri de utilizare eficiente: ideale pentru a răspunde la întrebări simple încorporate în documentație extinsă.

Exemple de interogări:

„Care este politica de HR pentru pensionarea anticipată?”
„Ce face funcția process_order?”

Modele din seria o

Căutări multiple per solicitare: poate executa mai multe căutări (de obicei 2-3) per solicitare a utilizatorului, fiecare cu o expresie de căutare unică. Căutările sunt executate secvențial, iar modelul își poate actualiza abordarea pe baza informațiilor recuperate în căutările anterioare.
Cazuri de utilizare eficiente: mai potrivite pentru întrebări complexe care necesită mai multe căutări direcționate în documentație extinsă.

Exemple de interogări:

„Care sunt politicile de HR pentru pensionare anticipată, concediu parental și transfer în străinătate?”
„Explică ce face funcția process_order, enumeră toate metodele invocate de această funcție și descrie pe scurt fiecare metodă invocată.”

În ciuda punctelor forte, modelele din seria o pot întâmpina dificultăți atunci când o interogare necesită mai mult de trei căutări.

Sfaturi pentru îmbunătățirea rezultatelor căutării în fișiere

Încearcă să folosești un model din seria o pentru întrebări complexe care necesită mai multe căutări.
Reține că răspunsurile pot varia în funcție de tipul, numărul și dimensiunea documentelor pe care le încarci.
În general, încărcarea unui număr mai mic de documente focalizate va duce la o acuratețe mai mare.
Transformă subiectele cu mai multe întrebări în întrebări individuale:
- Dacă trebuie să afli politicile de HR ale fiecărui stat, întreabă despre ele pe rând.
- Dacă trebuie să rezumi multe documente, cere câte un document pe rând. Dacă documentul respectiv are multe sute de pagini, ia în considerare împărțirea lui în componente mai mici.
  - Ai putea cere ChatGPT Enterprise să scrie un „rezumat al rezumatelor” dacă îi furnizezi mai multe rezumate în loc de documente întregi.
- Dacă ai un CSV al unui RFP (fiecare linie este o întrebare diferită), pune acele întrebări pe rând, în loc să încarci doar CSV-ul și să soliciți un singur răspuns.
Găsește modalități de a audita răspunsurile modelului. Exemple de instrucțiuni GPT sunt mai jos:

# Context 

Sunteți expert în înțelegerea documentelor. Utilizatorul va atașa un document și va adresa o întrebare. Trebuie să poată corela răspunsul dvs. cu partea exactă din text de unde ați extras răspunsul.

# Instrucțiuni

1. Răspundeți la întrebarea utilizatorului pe baza documentului atașat folosind exact formatul de mai jos

# Format 

- Întrebare: { repetați întrebarea utilizatorului }
- Răspuns: { oferiți un răspuns la întrebarea utilizatorului }
Sursă: 
- - Număr secțiune: { indicați numărul secțiunii din care ați extras răspunsul }
- - Titlu secțiune: { indicați titlul secțiunii din care ați extras răspunsul }
- - Text exact: { furnizați textul exact din care ați extras răspunsul }

# Reguli

- Oferiți răspunsuri clare și concise
- Furnizați numai informațiile prezente în document
- Dacă nu găsiți răspunsul în document, răspundeți pur și simplu „Nu au fost găsite informații.”

Optimizarea încărcării fișierelor în ChatGPT Enterprise

Rezumat

Gestionarea fișierelor în funcție de tip

Gestionarea fișierelor în funcție de dimensiune

Introducerea contextului pentru documente text

Introducerea contextului pentru PDF-uri multimedia

Strategii de căutare bazate pe tipul modelului

Modele din seria GPT

Modele din seria o

Sfaturi pentru îmbunătățirea rezultatelor căutării în fișiere

A fost util acest articol?