OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

FAQ zur visuellen Erkennung in PDFs

Aktualisiert: 15 days ago

Was ist diese Funktion?

ChatGPT Enterprise unterstützt jetzt das Lesen und Verstehen von visuellen Inhalten (Bilder, Grafiken, Diagramme usw.), die in PDF-Dateien eingebettet sind und in Prompts enthalten sind. Nutzer können ein PDF hochladen, und ChatGPT kann den Text und alle visuellen Elemente in dieser Datei interpretieren.

Wie funktioniert das?

  1. Klicke im Chat auf das Büroklammer-Symbol (Anhang), um dein PDF hochzuladen.

  2. ChatGPT liest sowohl den Text als auch alle eingebetteten Bilder oder Diagramme im PDF.

  3. Danach kannst du Fragen stellen oder Zusammenfassungen anfordern – von der Extraktion der wichtigsten Punkte eines Berichts bis hin zur Erklärung komplexer Diagramme.

Ist es mit GPTs und Projekten kompatibel?

Teilweise. PDFs, die als GPT Knowledge oder Projektdateien hochgeladen werden, werden mit Text-only Retrieval verarbeitet. PDFs, die Nutzer während Interaktionen mit einem veröffentlichten GPT oder innerhalb einer Projektunterhaltung hochladen, werden mit Visual Retrieval verarbeitet.

Wer kann es nutzen?

Diese Funktion steht ausschließlich ChatGPT Enterprise-Kunden zur Verfügung. Für ChatGPT Free-, Pro-, Team- oder Edu-Konten wird sie nicht unterstützt.

Welches Problem löst das?

Bisher konnte ChatGPT Bilder nur verarbeiten, wenn sie separat hochgeladen wurden (z. B. als PNGs/JPEGs). In eine PDF eingebettete visuelle Inhalte wurden übersehen. Jetzt kann ChatGPT eine ganzheitlichere Analyse liefern – Text und visuelle Inhalte in einem Schritt kombiniert – und so genauere und kontextreichere Antworten geben.

Wird diese Funktion später auch auf andere Tarife ausgeweitet?

Derzeit ist sie exklusiv für Enterprise und wird möglicherweise in Zukunft erweitert. Wir beobachten das Kundenfeedback, um zu entscheiden, wann und wie wir die Unterstützung ausweiten.

War dieser Artikel hilfreich?