ChatGPT Enterprise ondersteunt nu het lezen en begrijpen van visuals (afbeeldingen, grafieken, diagrammen enz.) die zijn ingesloten in pdf-bestanden die in prompts zijn opgenomen. Gebruikers kunnen een pdf uploaden en ChatGPT kan de tekst en alle visuele elementen in dat bestand interpreteren.
Zie voor meer informatie de FAQ over Visual Retrieval met pdf's.
Met ChatGPT Enterprise kun je op verschillende manieren bestanden uploaden:
Rechtstreeks vanaf je computer
Als GPT Knowledge
Als een Projectbestand
Vanuit een GPT Action
Deze handleiding legt uit hoe functies in ChatGPT Enterprise bestanden verwerken op basis van hun type, aantal en grootte, en bespreekt strategieën om output te verbeteren op basis van bestandsvereisten.
Samenvatting
ChatGPT Enterprise behandelt verschillende bestandstypen heel verschillend: tekst extraheren uit tekstdocumenten zoals pdf's, presentaties en Word-bestanden, gestructureerde gegevens uit spreadsheets analyseren met Python-code, en afbeeldingsbestanden beschrijven via GPT-Vision. Begrijpen welk bestandstype welke workflow activeert, is essentieel om het verwachte resultaat te krijgen.
Voor tekstdocumenten neemt ChatGPT Enterprise zo veel mogelijk relevante tekst direct op naast de prompt en gebruikt het een zoeksysteem om aanvullende informatie te benaderen. Dit werkt goed voor het beantwoorden van specifieke vragen. Deze aanpak kan echter moeite hebben met complexe taken, zoals het samenvatten van zeer grote documenten of het vergelijken van meerdere grote bestanden. Lees verder voor strategieën om je resultaten te verbeteren.
Bestanden verwerken op basis van type
ChatGPT Enterprise verwerkt bestanden op drie hoofdmanieren: teksextractie, code-analyse en beeldinterpretatie. Het bestandstype bepaalt welke workflow ChatGPT Enterprise volgt.
| Op tekst gebaseerde retrieval | Code-interpreter | Beeldverwerking | Visuele retrieval | |
|---|---|---|---|---|
| Voorbeelden van bestandstypen | pptx, docx, txt, md, json, xml, pdf* * Pdf's geüpload als GPT Knowledge of Projectbestanden | csv, xls, xlsx* *Opmerking: Code-interpreter kan met elk bestandstype werken, maar ChatGPT Enterprise kiest meestal standaard CI voor spreadsheets | jpg, png | pdf* * Pdf's opgenomen in prompts |
| Gedrag | Extraheert de tekst uit het bestand – een deel van de tekst wordt direct in het contextvenster geplakt (“stuffed”); een deel van de tekst wordt opgeslagen voor zoekopdrachten | Code-interpreter geeft het bestand door aan Python voor verwerking | Afbeeldingen worden native geïnterpreteerd door multimodale modellen, onder voorbehoud van bekende beperkingen . | Een hybride van tekstuele retrieval en beeldverwerking. Tekst wordt digitaal geëxtraheerd en visuele inhoud wordt native geïnterpreteerd door multimodale modellen. |
Voor alleen-tekstbestanden, afbeeldingsbestanden of duidelijk gestructureerde gegevensbestanden (bijv. een Excel-tabel met transacties) vormen deze indelingen het best mogelijke gedrag.
Er zijn ook enkele grijze gebieden die minder voor de hand liggen, bijvoorbeeld:
Afbeeldingen die zijn ingesloten in andere bestanden dan pdf's worden niet verwerkt. Om ze toch mee te nemen, zet je het bestand vóór het uploaden om naar een pdf.
ChatGPT Enterprise gebruikt altijd Code-interpreter om met spreadsheets te werken, zelfs als het document een grote hoeveelheid tekst bevat. Als je ChatGPT Enterprise bijvoorbeeld vraagt om een csv-bestand met 10 tekstregels te vertalen, zal het proberen het bestand te vertalen met een Python-bibliotheek, wat minder nauwkeurig is dan het model rechtstreeks een vertaling laten genereren. Om dit te beperken, kun je proberen de spreadsheet te exporteren naar een tekstgebaseerd formaat (bijvoorbeeld pdf).
Als je op vergelijkbare wijze een gestructureerde transactietabel uploadt die in een json-bestand staat, zal ChatGPT Enterprise dit bestand als platte tekst interpreteren. Als je de gegevens in een json-bestand wilt analyseren, instrueer het model dan in je prompt om Code-interpreter te gebruiken.
Bestanden verwerken op basis van grootte
ChatGPT Enterprise gebruikt modellen met een maximaal contextvenster van 128k tokens (ongeveer 200 pagina's tekst). Niet alle tokens worden echter gebruikt om tekst uit geüploade bestanden op te nemen. Het aantal “stuffed” tokens verschilt per gebruikstype.
ChatGPT Enterprise "stufft" een bepaalde hoeveelheid tekst, en de resterende tekst wordt naar een privé-zoekindex gestuurd (een "vector store", een type database dat is ontworpen om grote hoeveelheden tekst efficiënt op te slaan en op te halen). Wanneer je een vraag stelt, haalt ChatGPT Enterprise de opgenomen tekst op samen met relevante fragmenten die uit een privé-zoekindex zijn opgehaald.
Als je één document uploadt, neemt ChatGPT Enterprise tekst op vanaf het begin totdat de limiet is bereikt. Als je meerdere documenten uploadt, neemt ChatGPT Enterprise een deel of alle inhoud van elk document op. Alle tekst uit de documenten wordt ook naar een privé-zoekindex gestuurd.
Context stuffing voor tekstdocumenten
Deze functie is actief in ontwikkeling. Daarom kunnen de volgende details zonder voorafgaande kennisgeving worden gewijzigd.
ChatGPT Enterprise kan tot 110k tokens uit geüploade documenten verwerken in het contextvenster. Als je één of meer documenten uploadt met samen minder dan 110k tokens, wordt de volledige inhoud opgenomen.
Bij één document dat meer dan 110k tokens bevat, worden alleen de eerste 110k tokens opgenomen, vanaf het begin. De rest wordt alleen naar de privé-zoekindex gestuurd.
Als meerdere documenten worden geüpload en hun gecombineerde totaal meer dan 110k tokens bedraagt, gebruikt ChatGPT Enterprise een proces in twee stappen om de representatie van documenten in balans te brengen:
Extraheer tot 55k tokens, gelijkmatig verdeeld over de geüploade documenten.
Als er bijvoorbeeld 10 documenten worden geüpload, worden 5,5k tokens uit het begin van elk document geëxtraheerd.
Voor documenten die in de eerste stap niet volledig zijn vertegenwoordigd, wijs je de resterende 55k tokens naar verhouding toe op basis van de tokens die in elk document over zijn.
Als document A bijvoorbeeld nog 10k tokens over heeft en document B nog 90k tokens, worden nog eens 5,5k tokens uit document A geëxtraheerd ( (10k / 100k) * 55k ), en nog eens 49,5k tokens uit document B ( (90k / 100k) * 55k ).
Alle resterende tokens worden alleen naar de privé-zoekindex gestuurd.
Je kunt het aantal tokens in een tekstdocument schatten door de tekst van het document te kopiëren naar de OpenAI Tokenizer.
Context stuffing voor multimedia-pdf's
Wanneer gebruikers pdf's uploaden die zowel tekst als afbeeldingen bevatten, maakt Visual Retrieval het mogelijk voor ChatGPT om deze afbeeldingen native te verwerken naast digitaal geëxtraheerde tekst. De volgende stappen vormen een aanvulling op onze standaardprocedures voor contextverwerking bij multimedia-pdf's:
Afbeeldingsextractie en embedding: Afbeeldingen worden geëxtraheerd en samen met de bijbehorende digitale tekst opgenomen.
Intelligente schaalvergroting: Afbeeldingen worden automatisch geschaald om een balans te behouden tussen informatiekwaliteit en efficiënt gebruik van het beschikbare contextvenster.
Wanneer geüploade pdf's de limiet van 110k tokens overschrijden, worden zowel afbeeldingen als tekst opgenomen in de privé-zoekindex. Tekstembeddings verwijzen naar relevante afbeeldingen, zodat ChatGPT op basis van gebruikersvragen de juiste tekst-afbeeldingparen kan ophalen. Opgehaalde afbeeldingen worden vervolgens verwerkt met de native multimodale mogelijkheden van ChatGPT.
Het nauwkeurig schatten van tokenvereisten voor multimedia-pdf's is lastig. Tests suggereren dat ongeveer 350 pagina's met gemengde tekst en afbeeldingen het contextvenster van 110k tokens volledig benutten.
Zoekstrategieën op basis van modeltype
Zowel GPT-series- als o-series-modellen ondersteunen bestandsuploads en gebruiken identieke logica voor context stuffing en search embedding. Alle modellen voeren hybride zoekopdrachten uit op een privé-zoekindex, waarbij trefwoord- en semantische methoden worden gecombineerd. Bij een hybride zoekopdracht genereert het model een zoekterm op basis van de prompt van de gebruiker, en de privé-zoekindex haalt vervolgens relevante tekst en afbeeldingen op.
Deze modellen verschillen echter in de manier waarop ze grote documenten doorzoeken die het contextvenster overschrijden:
GPT-series-modellen
Eén zoekopdracht per prompt: GPT-series-modellen voeren één zoekopdracht uit per prompt van de gebruiker.
Effectieve use cases: Ideaal voor het beantwoorden van eenvoudige vragen die in uitgebreide documentatie zijn ingebed.
Voorbeeldqueries:
“Wat is het HR-beleid voor vervroegd pensioen?”
“Wat doet de functie
process_order?”
o-series-modellen
Meerdere zoekopdrachten per prompt: Kunnen meerdere zoekopdrachten uitvoeren (meestal 2-3) per prompt van de gebruiker, elk met een unieke zoekterm. Zoekopdrachten worden sequentieel uitgevoerd, en het model kan zijn aanpak bijwerken op basis van informatie die in eerdere zoekopdrachten is opgehaald.
Effectieve use cases: Geschikter voor complexe vragen waarvoor meerdere gerichte zoekopdrachten in uitgebreide documentatie nodig zijn.
Voorbeeldqueries:
“Wat zijn de HR-beleidsregels voor vervroegd pensioen, ouderschapsverlof en overplaatsing naar het buitenland?”
“Leg uit wat de functie
process_orderdoet, geef een lijst van alle methoden die door deze functie worden aangeroepen en beschrijf elke aangeroepen methode kort.”
Ondanks hun sterke punten kunnen o-series-modellen moeite hebben wanneer een query meer dan drie zoekopdrachten vereist.
Tips om resultaten van bestandszoekopdrachten te verbeteren
Probeer een o-series-model te gebruiken voor complexe vragen waarvoor meerdere zoekopdrachten nodig zijn.
Houd er rekening mee dat antwoorden kunnen variëren afhankelijk van het type, aantal en de grootte van de documenten die je uploadt.
Over het algemeen leidt het laden van minder, gerichte documenten tot een hogere nauwkeurigheid.
Maak van onderwerpen met meerdere vragen losse vragen:
Als je het HR-beleid van elke staat wilt kennen, vraag er dan één voor één naar.
Als je veel documenten moet samenvatten, vraag dan om één document tegelijk. Als dat document vele honderden pagina's telt, overweeg dan het op te splitsen in kleinere onderdelen.
Je kunt ChatGPT Enterprise vragen om een “samenvatting van samenvattingen” te schrijven als je het meerdere samenvattingen geeft in plaats van volledige documenten.
Als je een csv van een RFP hebt (elke regel is een andere vraag), stel die vragen dan één voor één in plaats van alleen de csv te laden en één antwoord te vragen.
Vind manieren om de antwoorden van het model te auditen. Hieronder staan voorbeeldinstructies voor GPT:
# Context
Je bent een expert in het begrijpen van documenten. De gebruiker gaat een document toevoegen en een vraag stellen. Ze moeten jouw antwoord kunnen herleiden tot het exacte deel van de tekst waaruit je je antwoord hebt gehaald.
# Instructies
1. Beantwoord de vraag van de gebruiker op basis van het bijgevoegde document en gebruik exact de onderstaande indeling
# Indeling
- Vraag: { herhaal de vraag van de gebruiker }
- Antwoord: { geef een antwoord op de vraag van de gebruiker }
Bron:
- - Sectienummer: { geef het sectienummer waaruit je het antwoord hebt gehaald }
- - Sectietitel: { geef de sectietitel waaruit je het antwoord hebt gehaald }
- - Exacte tekst: { geef de exacte tekst waaruit je het antwoord hebt gehaald }
# Regels
- Geef antwoorden die duidelijk en beknopt zijn
- Geef alleen informatie die in het document staat
- Als je het antwoord niet in het document kunt vinden, antwoord dan simpelweg “Geen informatie gevonden.”