OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

Dateiuploads in ChatGPT Enterprise optimieren

Erfahren Sie, wie ChatGPT-Enterprise-Funktionen Dateien je nach Typ, Anzahl und Größe verarbeiten. Verbessern Sie Ergebnisse basierend auf Dateianforderungen.

Aktualisiert: yesterday

ChatGPT Enterprise unterstützt jetzt das Lesen und Verstehen von visuellen Inhalten (Bildern, Grafiken, Diagrammen usw.), die in PDF-Dateien eingebettet sind, die in Prompts enthalten sind. Nutzer können ein PDF hochladen, und ChatGPT kann den Text und alle visuellen Elemente in dieser Datei interpretieren.

Details finden Sie in den Visual Retrieval with PDFs – FAQ.

ChatGPT Enterprise ermöglicht das Hochladen von Dateien auf verschiedene Arten:

Dieser Leitfaden erklärt, wie ChatGPT-Enterprise-Funktionen Dateien je nach Typ, Anzahl und Größe verarbeiten, und zeigt Strategien, wie Sie Ergebnisse anhand von Dateianforderungen verbessern können.

Zusammenfassung

ChatGPT Enterprise behandelt verschiedene Dateitypen sehr unterschiedlich: Es extrahiert Text aus Textdokumenten wie PDFs, Präsentationen und Word-Dateien, analysiert strukturierte Daten aus Tabellen mit Python-Code und beschreibt Bilddateien über GPT-Vision. Zu verstehen, welcher Dateityp welchen Workflow auslöst, ist entscheidend, um das erwartete Ergebnis zu erhalten.

Bei textbasierten Dokumenten nimmt ChatGPT Enterprise so viel relevanten Text wie möglich direkt neben dem Prompt auf und nutzt ein Suchsystem, um auf zusätzliche Informationen zuzugreifen. Das funktioniert gut, um spezifische Fragen zu beantworten. Dieser Ansatz kann jedoch bei komplexen Aufgaben wie dem Zusammenfassen sehr großer Dokumente oder dem Vergleichen mehrerer großer Dateien an Grenzen stoßen. Lesen Sie weiter, um Strategien zur Verbesserung Ihrer Ergebnisse zu verstehen.

Dateien je nach Typ verarbeiten

ChatGPT Enterprise verarbeitet Dateien auf drei Hauptarten: Textextraktion, Codeanalyse und Bildinterpretation. Der Dateityp bestimmt, welchem Workflow ChatGPT Enterprise folgt.

Textbasierte AbfrageCode InterpreterBildverarbeitungVisual Retrieval
Beispiele für Dateitypenpptx, docx, txt, md, json, xml, pdf*
* PDFs hochgeladen als

GPT Knowledge
oder

Projektdateien
csv, xls, xlsx*
*Hinweis: Code Interpreter kann mit jedem Dateityp arbeiten, aber bei Tabellenkalkulationen nutzt ChatGPT Enterprise am häufigsten standardmäßig CI
jpg, pngpdf*
* PDFs, die in Nutzer-Prompts enthalten sind
VerhaltenExtrahiert den Text aus der Datei – ein Teil des Textes wird direkt in das Kontextfenster eingefügt („gestufft“); ein Teil wird für die Suche gespeichertCode Interpreter übergibt die Datei zur Verarbeitung an PythonBilder werden nativ von multimodalen Modellen interpretiert, vorbehaltlich bekannter Einschränkungen
.
Eine Hybridform aus Textabfrage und Bildverarbeitung. Text wird digital extrahiert, und visuelle Inhalte werden nativ von multimodalen Modellen interpretiert.

Für reine Textdateien, Bilddateien oder klar strukturierte Datendateien (z. B. eine Excel-Tabelle mit Transaktionen) bilden diese Kategorien das bestmögliche Verhalten ab.

Es gibt einige weniger offensichtliche Grauzonen, zum Beispiel:

  • In Dateien, die keine PDFs sind, eingebettete Bilder werden nicht verarbeitet. Um sie einzubeziehen, konvertieren Sie die Datei vor dem Upload in eine PDF.

  • ChatGPT Enterprise nutzt für Tabellenkalkulationen immer Code Interpreter – auch wenn das Dokument viel Text enthält. Wenn Sie ChatGPT Enterprise z. B. bitten, eine CSV-Datei mit 10 Textzeilen zu übersetzen, wird es versuchen, die Datei mithilfe einer Python-Bibliothek zu übersetzen, was weniger genau ist, als wenn das Modell die Übersetzung direkt generiert. Um das zu vermeiden, exportieren Sie die Tabelle nach Möglichkeit in ein textbasiertes Format (z. B. PDF).

  • Ähnlich gilt: Wenn Sie eine strukturierte Transaktionstabelle in einer JSON-Datei hochladen, interpretiert ChatGPT Enterprise diese Datei als Klartext. Wenn Sie die in einer JSON-Datei enthaltenen Daten analysieren möchten, weisen Sie das Modell in Ihrem Prompt an, Code Interpreter zu verwenden.

Dateien je nach Größe verarbeiten

ChatGPT Enterprise nutzt Modelle mit einem maximalen Kontextfenster von 128k Tokens (etwa 200 Seiten Text). Allerdings werden nicht alle Tokens dafür verwendet, den Text aus hochgeladenen Dateien einzubinden. Die Anzahl der „gestufften“ Tokens variiert je nach Nutzungstyp.

ChatGPT Enterprise „stufft“ eine bestimmte Menge an Text, und der verbleibende Text wird an einen privaten Suchindex gesendet (einen „Vector Store“, also eine Art Datenbank, die dafür ausgelegt ist, große Textmengen effizient zu speichern und abzurufen). Wenn Sie eine Frage stellen, holt ChatGPT Enterprise den enthaltenen Text zusammen mit relevanten Abschnitten, die aus einem privaten Suchindex abgerufen wurden.

Wenn Sie ein einzelnes Dokument hochladen, bindet ChatGPT Enterprise Text ab dem Anfang ein, bis das Limit erreicht ist. Wenn Sie mehrere Dokumente hochladen, bindet ChatGPT Enterprise einen Teil oder den gesamten Inhalt jedes Dokuments ein. Der gesamte Text aus den Dokumenten wird außerdem an einen privaten Suchindex gesendet.

Context-Stuffing für Textdokumente

Diese Funktion befindet sich in aktiver Entwicklung. Daher können sich die folgenden Details ohne Vorankündigung ändern.

ChatGPT Enterprise kann bis zu 110k Tokens aus hochgeladenen Dokumenten im Kontextfenster verarbeiten. Wenn Sie ein oder mehrere Dokumente mit insgesamt weniger als 110k Tokens hochladen, wird der vollständige Inhalt eingebunden.

Bei einem einzelnen Dokument, das 110k Tokens überschreitet, werden nur die ersten 110k Tokens eingebunden, beginnend am Anfang. Der Rest wird nur an den privaten Suchindex gesendet.

Wenn mehrere Dokumente hochgeladen werden und ihre Gesamtsumme 110k Tokens übersteigt, nutzt ChatGPT Enterprise einen zweistufigen Prozess, um eine ausgewogene Repräsentation der Dokumente sicherzustellen:

  1. Extrahiere bis zu 55k Tokens, gleichmäßig auf die hochgeladenen Dokumente verteilt.

    • Wenn z. B. 10 Dokumente hochgeladen werden, werden 5,5k Tokens vom Anfang jedes Dokuments extrahiert.

  2. Für Dokumente, die im ersten Schritt nicht vollständig abgebildet sind, werden die verbleibenden 55k Tokens proportional anhand der jeweils verbleibenden Tokens pro Dokument verteilt.

    • Wenn z. B. Dokument A noch 10k Tokens und Dokument B noch 90k Tokens übrig hat, werden zusätzlich 5,5k Tokens aus Dokument A extrahiert ( (10k / 100k) * 55k ) und zusätzlich 49,5k Tokens aus Dokument B ( (90k / 100k) * 55k ).

  3. Alle verbleibenden Tokens werden nur an den privaten Suchindex gesendet.

Sie können die Anzahl der Tokens in einem Textdokument schätzen, indem Sie den Text des Dokuments in den OpenAI Tokenizer kopieren.

Context-Stuffing für Multimedia-PDFs

Wenn Nutzer PDFs hochladen, die sowohl Text als auch Bilder enthalten, ermöglicht Visual Retrieval ChatGPT, diese Bilder nativ zusammen mit digital extrahiertem Text zu verarbeiten. Die folgenden Schritte ergänzen unsere Standardverfahren zur Kontextverarbeitung für Multimedia-PDFs:

  • Bildextraktion und -Einbettung: Bilder werden extrahiert und zusammen mit dem zugehörigen digitalen Text eingebettet.

  • Intelligente Skalierung: Bilder werden automatisch skaliert, um ein Gleichgewicht zwischen Informationsqualität und effizienter Nutzung des verfügbaren Kontextfensters zu wahren.

Wenn hochgeladene PDFs das Limit von 110k Tokens überschreiten, werden sowohl Bilder als auch Text im privaten Suchindex eingebettet. Texteingbettungen verweisen auf relevante Bilder, sodass ChatGPT anhand von Nutzeranfragen die passenden Text-Bild-Paare abrufen kann. Abgerufene Bilder werden anschließend mit den nativen multimodalen Fähigkeiten von ChatGPT verarbeitet.

Den Token-Bedarf für Multimedia-PDFs genau zu schätzen ist schwierig. Tests deuten darauf hin, dass etwa 350 Seiten mit einer Mischung aus Text und Bildern das Kontextfenster von 110k Tokens vollständig auslasten.

Suchstrategien je nach Modelltyp

Sowohl GPT- als auch o-Modelle unterstützen Dateiuploads und verwenden dieselbe Logik für Context-Stuffing und Suchembeddings. Alle Modelle führen hybride Suchen gegen einen privaten Suchindex aus und kombinieren dabei Keyword- und semantische Methoden. Bei einer hybriden Suche generiert das Modell basierend auf dem Prompt des Nutzers eine Suchphrase, und der private Suchindex ruft entsprechend relevanten Text und Bilder ab.

Diese Modelle unterscheiden sich jedoch darin, wie sie große Dokumente durchsuchen, die das Kontextfenster überschreiten:

GPT-Modelle

  • Eine Suche pro Prompt: GPT-Modelle führen pro Nutzer-Prompt eine Suche aus.

  • Geeignete Anwendungsfälle: Ideal, um einfache Fragen zu beantworten, die in umfangreicher Dokumentation enthalten sind.

Beispielfragen:

  • "Wie lautet die HR-Richtlinie zur vorzeitigen Rente?"

  • "Was macht die Funktion process_order?"

o-Modelle

  • Mehrere Suchen pro Prompt: Können pro Nutzer-Prompt mehrere Suchen (typischerweise 2–3) ausführen, jeweils mit einer eigenen Suchphrase. Die Suchen werden nacheinander ausgeführt, und das Modell kann seine Vorgehensweise basierend auf Informationen aus vorherigen Suchen anpassen.

  • Geeignete Anwendungsfälle: Besser geeignet für komplexe Fragen, die mehrere gezielte Suchen in umfangreicher Dokumentation erfordern.

Beispielfragen:

  • "Welche HR-Richtlinien gelten für vorzeitige Rente, Elternzeit und Auslandsversetzung?"

  • "Erkläre, was die Funktion process_order macht, liste alle Methoden auf, die von dieser Funktion aufgerufen werden, und beschreibe jede aufgerufene Methode kurz."

Trotz ihrer Stärken können o-Modelle Schwierigkeiten haben, wenn eine Anfrage mehr als drei Suchen erfordert.

Tipps zur Verbesserung der Datei-Suchergebnisse

  • Versuchen Sie für komplexe Fragen, die mehrere Suchen erfordern, ein o-Modell zu verwenden.

  • Denken Sie daran, dass Antworten je nach Typ, Anzahl und Größe der hochgeladenen Dokumente variieren können.

  • In der Regel führt das Laden weniger, fokussierter Dokumente zu höherer Genauigkeit.

  • Machen Sie aus Themen mit mehreren Fragen einzelne Fragen:

    • Wenn Sie die HR-Richtlinien für jeden Bundesstaat kennen müssen, fragen Sie sie nacheinander ab.

    • Wenn Sie viele Dokumente zusammenfassen müssen, fragen Sie jeweils ein Dokument ab. Wenn dieses Dokument mehrere hundert Seiten umfasst, überlegen Sie, es in kleinere Teile zu zerlegen.

      • Sie könnten ChatGPT Enterprise bitten, eine „Zusammenfassung von Zusammenfassungen“ zu schreiben, wenn Sie ihm mehrere Zusammenfassungen statt ganzer Dokumente geben.

    • Wenn Sie eine CSV mit einem RFP haben (jede Zeile ist eine andere Frage), stellen Sie diese Fragen nacheinander, statt nur die CSV zu laden und eine einzelne Antwort anzufordern.

  • Finden Sie Wege, die Antworten des Modells zu prüfen. Beispiel-GPT-Anweisungen finden Sie unten:

# Kontext 

Sie sind ein Experte darin, Dokumente zu verstehen. Der Nutzer wird ein Dokument anhängen und eine Frage stellen. Er muss Ihre Antwort auf die exakte Textstelle zurückführen können, aus der Sie Ihre Antwort entnommen haben.

# Anweisungen

1. Beantworten Sie die Frage des Nutzers auf Basis des angehängten Dokuments und verwenden Sie dabei exakt das unten vorgegebene Format.

# Format

- Question: { Frage des Nutzers wiederholen }
- Answer: { Antwort auf die Frage des Nutzers geben }
Source:
- - Section Number: { Abschnittsnummer angeben, aus der Sie die Antwort entnommen haben }
- - Section Title: { Abschnittstitel angeben, aus dem Sie die Antwort entnommen haben }
- - Exact Text: { den exakten Text angeben, aus dem Sie die Antwort entnommen haben }

# Regeln

- Antworten müssen klar und prägnant sein
- Geben Sie ausschließlich Informationen an, die im Dokument enthalten sind
- Wenn Sie die Antwort im Dokument nicht finden können, antworten Sie einfach mit "Keine Informationen gefunden."

War dieser Artikel hilfreich?