ChatGPT Enterprise unterstützt jetzt das Lesen und Verstehen visueller Inhalte (Bilder, Diagramme, Schaubilder usw.), die in PDF-Dateien eingebettet sind, die in Prompts enthalten sind. Nutzer:innen können ein PDF hochladen, und ChatGPT kann den Text und alle visuellen Elemente in dieser Datei interpretieren.
Details finden Sie unter FAQ zu Visual Retrieval mit PDFs.
ChatGPT Enterprise ermöglicht Ihnen, Dateien auf verschiedene Arten hochzuladen:
Direkt von Ihrem Computer
Als GPT Knowledge
Als Projektdatei
Aus einer GPT Action
Dieser Leitfaden erklärt, wie Funktionen von ChatGPT Enterprise Dateien je nach Typ, Anzahl und Größe verarbeiten, und behandelt Strategien zur Verbesserung von Ausgaben anhand von Dateianforderungen.
Zusammenfassung
ChatGPT Enterprise behandelt verschiedene Dateitypen sehr unterschiedlich: Es extrahiert Text aus Textdokumenten wie PDFs, Präsentationen und Word-Dateien, analysiert strukturierte Daten aus Tabellenkalkulationen mithilfe von Python-Code und beschreibt Bilddateien über GPT-Vision. Zu verstehen, welcher Dateityp welchen Workflow auslöst, ist entscheidend, um das erwartete Ergebnis zu erhalten.
Bei textbasierten Dokumenten bindet ChatGPT Enterprise möglichst viel relevanten Text direkt neben dem Prompt ein und verwendet ein Suchsystem, um auf zusätzliche Informationen zuzugreifen. Das funktioniert gut, um spezifische Fragen zu beantworten. Dieser Ansatz kann jedoch bei komplexen Aufgaben wie dem Zusammenfassen sehr großer Dokumente oder dem Vergleichen mehrerer großer Dateien an Grenzen stoßen. Lesen Sie weiter, um Strategien zur Verbesserung Ihrer Ergebnisse kennenzulernen.
Dateien nach Typ verarbeiten
ChatGPT Enterprise verarbeitet Dateien auf drei Hauptarten: Textextraktion, Codeanalyse und Bildinterpretation. Der Dateityp bestimmt, welchem Workflow ChatGPT Enterprise folgt.
| Textbasierter Abruf | Code Interpreter | Bildverarbeitung | Visual Retrieval | |
|---|---|---|---|---|
| Beispiele für Dateitypen | pptx, docx, txt, md, json, xml, pdf* * PDFs, die als GPT Knowledge oder Projektdateien hochgeladen werden | csv, xls, xlsx* *Hinweis: Code Interpreter kann mit jedem Dateityp arbeiten, aber ChatGPT Enterprise verwendet bei Tabellenkalkulationen meistens standardmäßig CI | jpg, png | pdf* * PDFs, die in Nutzer:innen-Prompts enthalten sind |
| Verhalten | Extrahiert den Text aus der Datei – ein Teil des Textes wird direkt in das Kontextfenster eingefügt („gestuffed“); ein Teil des Textes wird für die Suche gespeichert | Code Interpreter übergibt die Datei zur Verarbeitung an Python | Bilder werden nativ von multimodalen Modellen interpretiert, vorbehaltlich bekannter Einschränkungen . | Eine hybride Kombination aus Textabruf und Bildverarbeitung. Text wird digital extrahiert, und visuelle Inhalte werden nativ von multimodalen Modellen interpretiert. |
Bei reinen Textdateien, Bilddateien oder klar strukturierten Datendateien (z. B. einer Excel-Tabelle mit Transaktionen) stellen diese Einteilungen das bestmögliche Verhalten dar.
Es gibt einige Graubereiche, die weniger offensichtlich sind, zum Beispiel:
Bilder, die in anderen Dateien als PDFs eingebettet sind, werden nicht verarbeitet. Um sie einzubeziehen, konvertieren Sie die Datei vor dem Hochladen in ein PDF.
ChatGPT Enterprise verwendet immer Code Interpreter, um mit Tabellenkalkulationen zu interagieren, selbst wenn das Dokument eine große Menge Text enthält. Wenn Sie ChatGPT Enterprise beispielsweise bitten, eine CSV-Datei mit 10 Textzeilen zu übersetzen, wird es versuchen, die Datei mithilfe einer Python-Bibliothek zu übersetzen. Das ist weniger genau, als dem Modell zu erlauben, direkt eine Übersetzung zu erzeugen. Um dies abzumildern, versuchen Sie, die Tabellenkalkulation in ein textbasiertes Format zu exportieren (zum Beispiel PDF).
Ebenso interpretiert ChatGPT Enterprise eine hochgeladene strukturierte Transaktionstabelle, die in einer JSON-Datei enthalten ist, als Klartext. Wenn Sie die in einer JSON-Datei enthaltenen Daten analysieren möchten, weisen Sie das Modell in Ihrem Prompt an, Code Interpreter zu verwenden.
Dateien nach Größe verarbeiten
ChatGPT Enterprise verwendet Modelle mit einem maximalen Kontextfenster von 128k Token (etwa 200 Textseiten). Allerdings werden nicht alle Token verwendet, um den Text aus hochgeladenen Dateien einzubinden. Die Anzahl der „eingefügten“ Token variiert je nach Nutzungsart.
ChatGPT Enterprise „fügt“ eine gewisse Textmenge ein, und der verbleibende Text wird an einen privaten Suchindex gesendet (einen „Vektorspeicher“, eine Art Datenbank, die große Textmengen effizient speichern und abrufen kann). Wenn Sie eine Frage stellen, zieht ChatGPT Enterprise den eingebundenen Text zusammen mit relevanten Abschnitten heran, die aus einem privaten Suchindex abgerufen werden.
Wenn Sie ein einzelnes Dokument hochladen, bindet ChatGPT Enterprise Text vom Anfang an ein, bis das Limit erreicht ist. Wenn Sie mehrere Dokumente hochladen, bindet ChatGPT Enterprise Teile oder die Gesamtheit jedes Dokuments ein. Der gesamte Text aus den Dokumenten wird außerdem an einen privaten Suchindex gesendet.
Kontextbefüllung für Textdokumente
Diese Funktion befindet sich in aktiver Entwicklung. Daher können sich die folgenden Details ohne Vorankündigung ändern.
ChatGPT Enterprise kann bis zu 110k Token aus hochgeladenen Dokumenten im Kontextfenster verarbeiten. Wenn Sie ein oder mehrere Dokumente mit insgesamt weniger als 110k Token hochladen, wird der gesamte Inhalt eingebunden.
Bei einem einzelnen Dokument mit mehr als 110k Token werden nur die ersten 110k Token eingebunden, beginnend am Anfang. Der Rest wird nur an den privaten Suchindex gesendet.
Wenn mehrere Dokumente hochgeladen werden und ihre Gesamtsumme 110k Token überschreitet, nutzt ChatGPT Enterprise einen zweistufigen Prozess, um die Dokumentrepräsentation auszugleichen:
Extrahieren Sie bis zu 55k Token, gleichmäßig auf die hochgeladenen Dokumente verteilt.
Weisen Sie für Dokumente, die im ersten Schritt nicht vollständig repräsentiert wurden, die verbleibenden 55k Token proportional anhand der in jedem Dokument verbleibenden Token zu.
Alle verbleibenden Token werden nur an den privaten Suchindex gesendet.
Sie können die Anzahl der Token in einem Textdokument schätzen, indem Sie den Text des Dokuments in den OpenAI Tokenizer kopieren.
Kontextbefüllung für Multimedia-PDFs
Wenn Nutzer:innen PDFs hochladen, die sowohl Text als auch Bilder enthalten, ermöglicht Visual Retrieval ChatGPT, diese Bilder nativ zusammen mit digital extrahiertem Text zu verarbeiten. Die folgenden Schritte ergänzen unsere Standardverfahren zur Kontextverarbeitung für Multimedia-PDFs:
Bildextraktion und Einbettung: Bilder werden extrahiert und zusammen mit dem zugehörigen digitalen Text eingebettet.
Intelligente Skalierung: Bilder werden automatisch skaliert, um ein Gleichgewicht zwischen Informationsqualität und effizienter Nutzung des verfügbaren Kontextfensters zu wahren.
Wenn hochgeladene PDFs das Limit von 110k Token überschreiten, werden sowohl Bilder als auch Text in den privaten Suchindex eingebettet. Texteinbettungen verweisen auf relevante Bilder, sodass ChatGPT anhand von Nutzer:innen-Abfragen die passenden Text-Bild-Paare abrufen kann. Abgerufene Bilder werden anschließend mit den nativen multimodalen Fähigkeiten von ChatGPT verarbeitet.
Den Tokenbedarf für Multimedia-PDFs genau zu schätzen, ist schwierig. Tests deuten darauf hin, dass etwa 350 Seiten mit gemischtem Text und Bildern das 110k-Token-Kontextfenster vollständig ausnutzen.
Suchstrategien nach Modelltyp
Sowohl Modelle der GPT-Serie als auch der o-Serie unterstützen Dateiuploads und verwenden identische Logik für Kontextbefüllung und Suchembeddings. Alle Modelle führen hybride Suchen in einem privaten Suchindex aus und kombinieren dabei Keyword- und semantische Methoden. Bei einer hybriden Suche erzeugt das Modell eine Suchphrase auf Grundlage des Prompts der Nutzer:innen, und der private Suchindex ruft entsprechend relevante Texte und Bilder ab.
Diese Modelle unterscheiden sich jedoch darin, wie sie große Dokumente durchsuchen, die das Kontextfenster überschreiten:
Modelle der GPT-Serie
Eine Suche pro Prompt: Modelle der GPT-Serie führen eine Suche pro Nutzer:innen-Prompt aus.
Effektive Anwendungsfälle: Ideal zur Beantwortung einfacher Fragen, die in umfangreicher Dokumentation eingebettet sind.
Beispielabfragen:
„Welche HR-Richtlinie gilt für den Vorruhestand?“
„Was tut die Funktion
process_order?“
Modelle der o-Serie
Mehrere Suchen pro Prompt: Können mehrere Suchen (in der Regel 2–3) pro Nutzer:innen-Prompt ausführen, jeweils mit einer eigenen Suchphrase. Suchen werden nacheinander ausgeführt, und das Modell kann seinen Ansatz anhand der in vorherigen Suchen abgerufenen Informationen aktualisieren.
Effektive Anwendungsfälle: Eher geeignet für komplexe Fragen, die mehrere gezielte Suchen in umfangreicher Dokumentation erfordern.
Beispielabfragen:
„Welche HR-Richtlinien gelten für Vorruhestand, Elternzeit und Versetzungen ins Ausland?“
„Erkläre, was die Funktion
process_ordertut, liste alle von dieser Funktion aufgerufenen Methoden auf und beschreibe jede aufgerufene Methode kurz.“
Trotz ihrer Stärken können Modelle der o-Serie Schwierigkeiten haben, wenn eine Abfrage mehr als drei Suchen erfordert.
Tipps zur Verbesserung von Dateisuchergebnissen
Versuchen Sie, für komplexe Fragen, die mehrere Suchen erfordern, ein Modell der o-Serie zu verwenden.
Denken Sie daran, dass Antworten je nach Typ, Anzahl und Größe der hochgeladenen Dokumente variieren können.
Im Allgemeinen führt das Laden weniger, fokussierter Dokumente zu höherer Genauigkeit.
Wandeln Sie Themen mit mehreren Fragen in Einzelfragen um:
Wenn Sie die HR-Richtlinien jedes Bundesstaats kennen müssen, fragen Sie sie einzeln ab.
Wenn Sie viele Dokumente zusammenfassen müssen, fragen Sie jeweils nach einem Dokument. Wenn dieses Dokument viele Hundert Seiten umfasst, sollten Sie es in kleinere Bestandteile aufteilen.
Sie könnten ChatGPT Enterprise bitten, eine „Zusammenfassung von Zusammenfassungen“ zu erstellen, wenn Sie mehrere Zusammenfassungen statt ganzer Dokumente eingeben.
Wenn Sie eine CSV-Datei zu einem RFP haben (jede Zeile ist eine andere Frage), stellen Sie diese Fragen einzeln, statt nur die CSV zu laden und eine einzige Antwort anzufordern.
Finden Sie Möglichkeiten, die Antworten des Modells zu überprüfen. Beispielhafte GPT-Anweisungen finden Sie unten:
# Kontext
Sie sind Expert:in für das Verstehen von Dokumenten. Die Nutzer:innen werden ein Dokument anhängen und eine Frage stellen. Sie müssen Ihre Antwort auf genau die Textstelle zurückführen können, aus der Sie Ihre Antwort entnommen haben.
# Anweisungen
1. Beantworten Sie die Frage der Nutzer:innen anhand des angehängten Dokuments und verwenden Sie dabei genau das unten angegebene Format
# Format
- Frage: { Frage der Nutzer:innen wiederholen }
- Antwort: { eine Antwort auf die Frage der Nutzer:innen geben }
Quelle:
- - Abschnittsnummer: { Abschnittsnummer angeben, aus der Sie die Antwort entnommen haben }
- - Abschnittstitel: { Abschnittstitel angeben, aus dem Sie die Antwort entnommen haben }
- - Exakter Text: { den exakten Text angeben, aus dem Sie die Antwort entnommen haben }
# Regeln
- Geben Sie klare und prägnante Antworten
- Geben Sie nur Informationen an, die im Dokument enthalten sind
- Wenn Sie die Antwort im Dokument nicht finden können, antworten Sie einfach „Keine Informationen gefunden.“