Begrijp hoe functies in ChatGPT Enterprise bestanden verwerken op basis van type, aantal en grootte. Verbeter output op basis van bestandsvereisten.

ChatGPT Enterprise ondersteunt nu het lezen en begrijpen van visuele elementen (afbeeldingen, grafieken, diagrammen, enz.) die zijn ingesloten in PDF-bestanden die in prompts zijn opgenomen. Gebruikers kunnen een PDF uploaden, en ChatGPT kan de tekst en eventuele visuele elementen in dat bestand interpreteren.

Zie voor details Veelgestelde vragen over Visual Retrieval met PDF’s.

ChatGPT Enterprise laat je op verschillende manieren bestanden uploaden:

Rechtstreeks vanaf je computer
Vanuit Google Drive / SharePoint / OneDrive
Als GPT Knowledge
Als een projectbestand
Vanuit een GPT Action

Deze gids legt uit hoe functies van ChatGPT Enterprise bestanden verwerken op basis van type, aantal en grootte, en bespreekt strategieën om uitvoer te verbeteren op basis van bestandsvereisten.

Samenvatting

ChatGPT Enterprise behandelt verschillende bestandstypen heel verschillend: tekst extraheren uit tekstdocumenten zoals pdf’s, presentaties en Word-bestanden, gestructureerde gegevens uit spreadsheets analyseren met Python-code, en afbeeldingsbestanden beschrijven via GPT-Vision. Begrijpen welk bestandstype welke workflow activeert, is essentieel om het verwachte resultaat te krijgen.

Voor tekstgebaseerde documenten neemt ChatGPT Enterprise zoveel mogelijk relevante tekst direct naast de prompt op en gebruikt het een zoeksysteem om toegang te krijgen tot aanvullende informatie. Dit werkt goed voor het beantwoorden van specifieke vragen. Deze aanpak kan echter moeite hebben met complexe taken, zoals het samenvatten van zeer grote documenten of het vergelijken van meerdere grote bestanden. Lees verder om strategieën te begrijpen waarmee je je resultaten kunt verbeteren.

Bestanden verwerken op basis van type

ChatGPT Enterprise verwerkt bestanden op drie hoofdmanieren: tekstextractie, codeanalyse en afbeeldingsinterpretatie. Het bestandstype bepaalt welke workflow ChatGPT Enterprise volgt.

	Tekstgebaseerd ophalen	Code-interpreter	Afbeeldingsverwerking	Visual Retrieval
Voorbeelden van bestandstypen	pptx, docx, txt, md, json, xml, pdf* * Pdf’s geüpload als GPT Knowledge of projectbestanden	csv, xls, xlsx* *Opmerking: de Code-interpreter kan op elk bestandstype werken, maar ChatGPT Enterprise gebruikt voor spreadsheets meestal standaard CI	jpg, png	pdf* * Pdf’s opgenomen in gebruikersprompts
Gedrag	Extraheert de tekst uit het bestand – een deel van de tekst wordt rechtstreeks in het contextvenster geplakt (“ingevoegd”); een deel van de tekst wordt opgeslagen voor zoekopdrachten	De Code-interpreter geeft het bestand door aan Python voor verwerking	Afbeeldingen worden native geïnterpreteerd door multimodale modellen, met inachtneming van bekende beperkingen .	Een hybride van tekst ophalen en afbeeldingsverwerking. Tekst wordt digitaal geëxtraheerd en visuele inhoud wordt native geïnterpreteerd door multimodale modellen.

Voor bestanden met alleen tekst, afbeeldingsbestanden of duidelijk gestructureerde gegevensbestanden (bijv. een Excel-tabel met transacties) vormen deze categorieën het best mogelijke gedrag.

Er zijn enkele grijze gebieden die minder voor de hand liggen, bijvoorbeeld:

Afbeeldingen die zijn ingesloten in andere bestanden dan pdf’s worden niet verwerkt. Als je ze wilt opnemen, converteer het bestand dan naar een pdf voordat je het uploadt.
ChatGPT Enterprise gebruikt altijd de Code-interpreter om met spreadsheets te werken, zelfs als het document veel tekst bevat. Als je ChatGPT Enterprise bijvoorbeeld vraagt een CSV-bestand met 10 rijen tekst te vertalen, zal het proberen het bestand te vertalen met een Python-bibliotheek, wat minder nauwkeurig is dan het model rechtstreeks een vertaling te laten genereren. Om dit te beperken, kun je proberen de spreadsheet te exporteren naar een tekstgebaseerde indeling (bijvoorbeeld PDF).
Evenzo: als je een gestructureerde transactietabel uploadt die in een JSON-bestand staat, interpreteert ChatGPT Enterprise dit bestand als platte tekst. Als je de gegevens in een JSON-bestand wilt analyseren, geef het model dan in je prompt de instructie om de Code-interpreter te gebruiken.

Bestanden verwerken op basis van grootte

ChatGPT Enterprise gebruikt modellen met een maximaal contextvenster van 128k tokens (ongeveer 200 pagina’s tekst). Niet alle tokens worden echter gebruikt om de tekst uit geüploade bestanden op te nemen. Het aantal “ingevoegde” tokens verschilt per gebruikstype.

ChatGPT Enterprise “voegt” een bepaalde hoeveelheid tekst in, en de resterende tekst wordt naar een privézoekindex gestuurd (een “vector store”, een type database dat is ontworpen om grote hoeveelheden tekst efficiënt op te slaan en op te halen). Wanneer je een vraag stelt, haalt ChatGPT Enterprise de opgenomen tekst erbij, samen met relevante fragmenten die uit een privézoekindex zijn opgehaald.

Als je één document uploadt, neemt ChatGPT Enterprise tekst vanaf het begin op totdat de limiet is bereikt. Als je meerdere documenten uploadt, neemt ChatGPT Enterprise een deel of alles van elk document op. Alle tekst uit de documenten wordt ook naar een privézoekindex gestuurd.

Contextvulling voor tekstdocumenten

Deze functie is actief in ontwikkeling. Daarom kunnen de volgende details zonder voorafgaande kennisgeving worden gewijzigd.

ChatGPT Enterprise kan tot 110k tokens uit geüploade documenten in het contextvenster verwerken. Als je één of meer documenten uploadt met samen minder dan 110k tokens, wordt de volledige inhoud opgenomen.

Voor één document met meer dan 110k tokens worden alleen de eerste 110k tokens opgenomen, vanaf het begin. De rest wordt alleen naar de privézoekindex gestuurd.

Als meerdere documenten worden geüpload en hun gezamenlijke totaal meer dan 110k tokens is, gebruikt ChatGPT Enterprise een proces in twee stappen om de documentrepresentatie in balans te brengen:

Extraheer maximaal 55k tokens, gelijkmatig verdeeld over de geüploade documenten.

Voor documenten die in de eerste stap niet volledig zijn vertegenwoordigd, worden de resterende 55k tokens proportioneel toegewezen op basis van de tokens die in elk document overblijven.

Alle resterende tokens worden alleen naar de privézoekindex gestuurd.

Je kunt het aantal tokens in een tekstdocument schatten door de tekst van het document naar de OpenAI Tokenizer te kopiëren.

Contextvulling voor multimedia-pdf’s

Wanneer gebruikers pdf’s uploaden die zowel tekst als afbeeldingen bevatten, stelt Visual Retrieval ChatGPT in staat deze afbeeldingen native te verwerken naast digitaal geëxtraheerde tekst. De volgende stappen vullen onze standaardprocedures voor contextverwerking voor multimedia-pdf’s aan:

Afbeeldingsextractie en embedding: Afbeeldingen worden geëxtraheerd en ingebed samen met de bijbehorende digitale tekst.
Intelligente schaalvergroting: Afbeeldingen worden automatisch geschaald om een balans te behouden tussen informatiekwaliteit en efficiënt gebruik van het beschikbare contextvenster.

Wanneer geüploade pdf’s de limiet van 110k tokens overschrijden, worden zowel afbeeldingen als tekst ingebed in de privézoekindex. Tekst-embeddings verwijzen naar relevante afbeeldingen, waardoor ChatGPT de juiste tekst-afbeeldingsparen kan ophalen op basis van gebruikersquery’s. Opgehaalde afbeeldingen worden vervolgens verwerkt met de native multimodale mogelijkheden van ChatGPT.

Het nauwkeurig inschatten van tokenvereisten voor multimedia-pdf’s is lastig. Tests suggereren dat ongeveer 350 pagina’s met gemengde tekst en afbeeldingen het contextvenster van 110k tokens volledig zullen benutten.

Zoekstrategieën op basis van modeltype

Zowel GPT-serie modellen als o-serie modellen ondersteunen bestandsuploads en gebruiken identieke logica voor contextvulling en zoek-embeddings. Alle modellen voeren hybride zoekopdrachten uit op een privézoekindex, waarbij trefwoord- en semantische methoden worden gecombineerd. Bij een hybride zoekopdracht genereert het model een zoekterm op basis van de prompt van de gebruiker, waarna de privézoekindex relevante tekst en afbeeldingen ophaalt.

Deze modellen verschillen echter in hoe ze zoeken in grote documenten die het contextvenster overschrijden:

GPT-serie modellen

Eén zoekopdracht per prompt: GPT-serie modellen voeren één zoekopdracht per gebruikersprompt uit.
Effectieve toepassingen: Ideaal voor het beantwoorden van duidelijke vragen die in uitgebreide documentatie zijn opgenomen.

Voorbeeldquery’s:

“Wat is het HR-beleid voor vervroegd pensioen?”
“Wat doet de functie process_order?”

o-serie modellen

Meerdere zoekopdrachten per prompt: Kan meerdere zoekopdrachten (meestal 2-3) per gebruikersprompt uitvoeren, elk met een unieke zoekterm. Zoekopdrachten worden sequentieel uitgevoerd en het model kan zijn aanpak aanpassen op basis van informatie die in eerdere zoekopdrachten is opgehaald.
Effectieve toepassingen: Geschikter voor complexe vragen waarvoor meerdere gerichte zoekopdrachten in uitgebreide documentatie nodig zijn.

Voorbeeldquery’s:

“Wat is het HR-beleid voor vervroegd pensioen, ouderschapsverlof en overplaatsing naar het buitenland?”
“Leg uit wat de functie process_order doet, vermeld alle methoden die door deze functie worden aangeroepen en beschrijf kort elke aangeroepen methode.”

Ondanks hun sterke punten kunnen o-serie modellen moeite hebben wanneer een query meer dan drie zoekopdrachten vereist.

Tips om zoekresultaten voor bestanden te verbeteren

Probeer een o-serie model te gebruiken voor complexe vragen waarvoor meerdere zoekopdrachten nodig zijn.
Onthoud dat antwoorden kunnen variëren afhankelijk van het type, het aantal en de grootte van de documenten die je uploadt.
Over het algemeen leidt het laden van minder, gerichte documenten tot hogere nauwkeurigheid.
Zet onderwerpen met meerdere vragen om in losse vragen:
- Als je het HR-beleid van elke staat moet kennen, stel de vragen dan één voor één.
- Als je veel documenten moet samenvatten, vraag dan om één document tegelijk. Als dat document vele honderden pagina’s telt, overweeg dan het in kleinere onderdelen op te splitsen.
  - Je zou ChatGPT Enterprise kunnen vragen een “samenvatting van samenvattingen” te schrijven als je het meerdere samenvattingen geeft in plaats van volledige documenten.
- Als je een CSV van een RFP hebt (elke regel is een andere vraag), stel die vragen dan één voor één in plaats van alleen de CSV te laden en om één antwoord te vragen.
Zoek manieren om de antwoorden van het model te controleren. Voorbeeldinstructies voor GPT staan hieronder:

# Context 

Je bent een expert in het begrijpen van documenten. De gebruiker gaat een document toevoegen en een vraag stellen. Ze moeten jouw antwoord kunnen herleiden tot het exacte deel van de tekst waaruit je je antwoord hebt gehaald.

# Instructies

1. Beantwoord de vraag van de gebruiker op basis van het bijgevoegde document en gebruik exact de onderstaande indeling

# Indeling 

- Vraag: { herhaal de vraag van de gebruiker }
- Antwoord: { geef een antwoord op de vraag van de gebruiker }
Bron: 
- - Sectienummer: { geef het sectienummer waaruit je het antwoord hebt gehaald }
- - Sectietitel: { geef de sectietitel waaruit je het antwoord hebt gehaald }
- - Exacte tekst: { geef de exacte tekst waaruit je het antwoord hebt gehaald }

# Regels

- Geef antwoorden die duidelijk en beknopt zijn
- Geef alleen informatie die in het document staat
- Als je het antwoord niet in het document kunt vinden, antwoord dan simpelweg “Geen informatie gevonden.”

Bestanden uploaden optimaliseren in ChatGPT Enterprise