ChatGPT Enterprise nyní podporuje čtení a porozumění vizuálům (obrázkům, grafům, diagramům atd.) vloženým v souborech PDF zahrnutých v promptech. Uživatelé mohou nahrát PDF a ChatGPT dokáže interpretovat text i jakékoli vizuální prvky v tomto souboru.
Podrobnosti najdete v častých dotazech k vizuálnímu načítání v PDF.
ChatGPT Enterprise umožňuje nahrávat soubory několika způsoby:
Přímo z počítače
Jako znalosti GPT
Jako soubor projektu
Z akce GPT
Tato příručka vysvětluje, jak funkce ChatGPT Enterprise zpracovávají soubory podle jejich typu, počtu a velikosti, a probírá strategie pro zlepšení výstupů podle požadavků na soubory.
Shrnutí
ChatGPT Enterprise zachází s různými typy souborů velmi odlišně: extrahuje text z textových dokumentů, jako jsou PDF, prezentace a soubory Word, analyzuje strukturovaná data z tabulek pomocí kódu Python a popisuje obrazové soubory prostřednictvím GPT-Vision. Pochopení toho, který typ souboru spouští který pracovní postup, je klíčové pro dosažení očekávaného výsledku.
U textových dokumentů ChatGPT Enterprise zahrne co nejvíce relevantního textu přímo vedle promptu a používá vyhledávací systém pro přístup k dalším informacím. To funguje dobře pro zodpovídání konkrétních otázek. Tento přístup však může mít potíže se složitými úlohami, jako je shrnutí velmi velkých dokumentů nebo porovnávání více velkých souborů. Čtěte dál a zjistěte, jaké strategie vám pomohou zlepšit výsledky.
Zpracování souborů podle typu
ChatGPT Enterprise zpracovává soubory třemi hlavními způsoby: extrakcí textu, analýzou kódu a interpretací obrázků. Typ souboru určuje, jaký pracovní postup ChatGPT Enterprise použije.
| Načítání založené na textu | Interpret kódu | Zpracování obrázků | Vizuální načítání | |
|---|---|---|---|---|
| Příklady typů souborů | pptx, docx, txt, md, json, xml, pdf* * PDF nahraná jako znalosti GPT nebo soubory projektů | csv, xls, xlsx* *Poznámka: Interpret kódu dokáže pracovat s libovolným typem souboru, ale ChatGPT Enterprise u tabulek nejčastěji ve výchozím nastavení používá CI | jpg, png | pdf* * PDF zahrnutá v uživatelských promptech |
| Chování | Extrahuje text ze souboru – část textu je vložena („stuffed“) přímo do kontextového okna; část textu je uložena pro vyhledávání | Interpret kódu předá soubor Pythonu ke zpracování | Obrázky jsou nativně interpretovány multimodálními modely s ohledem na známá omezení . | Hybrid načítání textu a zpracování obrázků. Text je digitálně extrahován a vizuální obsah je nativně interpretován multimodálními modely. |
U textových souborů, obrazových souborů nebo jasně strukturovaných datových souborů (např. excelové tabulky transakcí) tato rozdělení představují nejlepší možné chování.
Existují určité šedé zóny, které jsou méně zřejmé, například:
Obrázky vložené v jiných souborech než PDF se nezpracovávají. Chcete-li je zahrnout, převeďte soubor před nahráním do PDF.
ChatGPT Enterprise bude pro interakci s tabulkami vždy používat interpret kódu, i když dokument obsahuje velké množství textu. Pokud například požádáte ChatGPT Enterprise o překlad souboru CSV s 10 řádky textu, pokusí se soubor přeložit pomocí knihovny Pythonu, což je méně přesné než umožnit modelu vygenerovat překlad přímo. Chcete-li to zmírnit, zkuste tabulku exportovat do textového formátu (například PDF).
Podobně pokud nahrajete strukturovanou tabulku transakcí obsaženou v souboru JSON, ChatGPT Enterprise bude tento soubor interpretovat jako prostý text. Pokud chcete analyzovat data obsažená v souboru JSON, instruujte model ve svém promptu, aby použil interpret kódu.
Zpracování souborů podle velikosti
ChatGPT Enterprise používá modely s maximálním kontextovým oknem 128 tisíc tokenů (přibližně 200 stran textu). Ne všechny tokeny se však používají k zahrnutí textu z nahraných souborů. Počet „vložených“ tokenů se liší podle typu použití.
ChatGPT Enterprise „vloží“ určité množství textu a zbývající text odešle do soukromého vyhledávacího indexu („vektorového úložiště“, což je typ databáze navržený k efektivnímu ukládání a načítání velkých objemů textu). Když položíte otázku, ChatGPT Enterprise zahrne vložený text spolu s relevantními částmi načtenými ze soukromého vyhledávacího indexu.
Pokud nahrajete jeden dokument, ChatGPT Enterprise zahrne text od začátku, dokud nedosáhne svého limitu. Pokud nahrajete více dokumentů, ChatGPT Enterprise zahrne část nebo celý obsah každého dokumentu. Veškerý text z dokumentů se také odešle do soukromého vyhledávacího indexu.
Vkládání kontextu pro textové dokumenty
Tato funkce je aktivně vyvíjena. Proto se následující podrobnosti mohou bez upozornění změnit.
ChatGPT Enterprise dokáže v kontextovém okně zpracovat až 110 tisíc tokenů z nahraných dokumentů. Pokud nahrajete jeden nebo více dokumentů s celkovým součtem menším než 110 tisíc tokenů, bude zahrnut celý obsah.
U jednoho dokumentu přesahujícího 110 tisíc tokenů bude zahrnuto pouze prvních 110 tisíc tokenů, počínaje od začátku. Zbytek bude odeslán pouze do soukromého vyhledávacího indexu.
Pokud je nahráno více dokumentů a jejich součet přesáhne 110 tisíc tokenů, ChatGPT Enterprise použije dvoukrokový proces k vyvážení zastoupení dokumentů:
Extrahuje až 55 tisíc tokenů rozdělených rovnoměrně mezi nahrané dokumenty.
U dokumentů, které nejsou v prvním kroku plně zastoupeny, přidělí zbývajících 55 tisíc tokenů poměrně podle počtu tokenů zbývajících v každém dokumentu.
Všechny zbývající tokeny se odešlou pouze do soukromého vyhledávacího indexu.
Počet tokenů v textovém dokumentu můžete odhadnout zkopírováním textu dokumentu do tokenizéru OpenAI.
Vkládání kontextu pro multimediální PDF
Když uživatelé nahrají PDF obsahující text i obrázky, vizuální načítání umožňuje službě ChatGPT zpracovávat tyto obrázky nativně spolu s digitálně extrahovaným textem. Následující kroky doplňují naše standardní postupy pro práci s kontextem u multimediálních PDF:
Extrakce a embedding obrázků: Obrázky jsou extrahovány a vkládány spolu s přidruženým digitálním textem.
Inteligentní škálování: Obrázky jsou automaticky škálovány tak, aby byla zachována rovnováha mezi kvalitou informací a efektivním využitím dostupného kontextového okna.
Když nahrané PDF překročí limit 110 tisíc tokenů, obrázky i text jsou vloženy do soukromého vyhledávacího indexu. Textové embeddingy odkazují na relevantní obrázky, což službě ChatGPT umožňuje načítat příslušné páry text–obrázek na základě dotazů uživatele. Načtené obrázky se poté zpracují pomocí nativních multimodálních schopností služby ChatGPT.
Přesný odhad požadavků na tokeny u multimediálních PDF je náročný. Testování naznačuje, že přibližně 350 stran smíšeného textu a obrázků plně využije kontextové okno o velikosti 110 tisíc tokenů.
Strategie vyhledávání podle typu modelu
Modely řady GPT i řady o podporují nahrávání souborů a využívají stejnou logiku vkládání kontextu a vyhledávacích embeddingů. Všechny modely provádějí hybridní vyhledávání v soukromém vyhledávacím indexu a kombinují metody založené na klíčových slovech a sémantice. Při hybridním vyhledávání model vygeneruje vyhledávací frázi na základě promptu uživatele a soukromý vyhledávací index podle toho načte relevantní text a obrázky.
Tyto modely se však liší v tom, jak vyhledávají ve velkých dokumentech, které přesahují kontextové okno:
Modely řady GPT
Jedno vyhledávání na prompt: Modely řady GPT provádějí jedno vyhledávání na každý uživatelský prompt.
Efektivní případy použití: Ideální pro zodpovídání přímočarých otázek vložených do rozsáhlé dokumentace.
Příklady dotazů:
„Jaká je personální politika pro předčasný odchod do důchodu?“
„Co dělá funkce
process_order?“
Modely řady o
Více vyhledávání na prompt: Dokážou provést více vyhledávání (obvykle 2–3) na jeden uživatelský prompt, každé s jedinečnou vyhledávací frází. Vyhledávání se provádějí postupně a model může upravit svůj přístup podle informací získaných v předchozích vyhledáváních.
Efektivní případy použití: Vhodnější pro složité otázky vyžadující více cílených vyhledávání v rozsáhlé dokumentaci.
Příklady dotazů:
„Jaké jsou personální zásady pro předčasný odchod do důchodu, rodičovskou dovolenou a převedení do zahraničí?“
„Vysvětli, co dělá funkce
process_order, uveď všechny metody, které tato funkce volá, a každou volanou metodu stručně popiš.“
Navzdory svým silným stránkám mohou mít modely řady o potíže, pokud dotaz vyžaduje více než tři vyhledávání.
Tipy pro zlepšení výsledků vyhledávání v souborech
U složitých otázek vyžadujících více vyhledávání zkuste použít model řady o.
Pamatujte, že odpovědi se mohou lišit podle typu, počtu a velikosti dokumentů, které nahrajete.
Obecně platí, že načtení menšího počtu zaměřených dokumentů povede k vyšší přesnosti.
Převeďte témata s více otázkami na jednotlivé otázky:
Pokud potřebujete znát personální zásady každého státu, ptejte se na ně jednu po druhé.
Pokud potřebujete shrnout mnoho dokumentů, žádejte vždy o jeden dokument. Pokud má daný dokument mnoho stovek stran, zvažte jeho rozdělení na menší části.
Můžete požádat ChatGPT Enterprise, aby napsal „shrnutí shrnutí“, pokud mu místo celých dokumentů poskytnete více shrnutí.
Pokud máte CSV se žádostí RFP (každý řádek je jiná otázka), pokládejte tyto otázky jednu po druhé, místo abyste jen načetli CSV a požádali o jednu odpověď.
Najděte způsoby, jak auditovat odpovědi modelu. Níže jsou uvedeny příklady instrukcí pro GPT:
# Kontext
Jste odborník na porozumění dokumentům. Uživatel připojí dokument a položí otázku. Musí být schopen propojit vaši odpověď s přesnou částí textu, ze které jste odpověď převzali.
# Pokyny
1. Odpovězte na otázku uživatele na základě připojeného dokumentu přesně podle níže uvedeného formátu
# Formát
- Otázka: { zopakujte otázku uživatele }
- Odpověď: { poskytněte odpověď na otázku uživatele }
Zdroj:
- - Číslo oddílu: { uveďte číslo oddílu, ze kterého jste odpověď převzali }
- - Název oddílu: { uveďte název oddílu, ze kterého jste odpověď převzali }
- - Přesný text: { uveďte přesný text, ze kterého jste odpověď převzali }
# Pravidla
- Odpovědi formulujte jasně a stručně
- Poskytujte pouze informace uvedené v dokumentu
- Pokud odpověď v dokumentu nenajdete, jednoduše odpovězte „Nebyly nalezeny žádné informace.“