OpenAI
Tato stránka byla přeložena strojově. Zobrazit původní článek v angličtině.

Optimalizace nahrávání souborů v ChatGPT Enterprise

Zjistěte, jak funkce ChatGPT Enterprise pracují se soubory podle typu, počtu a velikosti. Zlepšete výstupy podle požadavků na soubory.

Aktualizováno: 11 hours ago

ChatGPT Enterprise nyní podporuje čtení a porozumění vizuálním prvkům (obrázkům, grafům, diagramům atd.) vloženým do souborů PDF zahrnutých v promptech. Uživatelé mohou nahrát PDF a ChatGPT může interpretovat text i všechny vizuální prvky v tomto souboru.

Podrobnosti najdete v článku Časté dotazy k vizuálnímu vyhledávání s PDF.

ChatGPT Enterprise umožňuje nahrávat soubory několika způsoby:

Tato příručka vysvětluje, jak funkce ChatGPT Enterprise pracují se soubory podle jejich typu, počtu a velikosti, a popisuje strategie pro zlepšení výstupů podle požadavků na soubory.

Shrnutí

ChatGPT Enterprise přistupuje k různým typům souborů velmi odlišně: extrahuje text z textových dokumentů, jako jsou PDF, prezentace a soubory Word, analyzuje strukturovaná data z tabulek pomocí kódu Python a popisuje obrazové soubory prostřednictvím GPT-Vision. Pochopení, který typ souboru spouští který pracovní postup, je klíčem k získání očekávaného výsledku.

U textových dokumentů ChatGPT Enterprise zahrne co nejvíce relevantního textu přímo vedle promptu a používá vyhledávací systém pro přístup k dalším informacím. To funguje dobře při zodpovídání konkrétních otázek. Tento přístup však může mít potíže se složitějšími úlohami, jako je shrnutí velmi rozsáhlých dokumentů nebo porovnávání více velkých souborů. Čtěte dále a zjistěte strategie, jak zlepšit své výsledky.

Zpracování souborů podle typu

ChatGPT Enterprise zpracovává soubory třemi hlavními způsoby: extrakcí textu, analýzou kódu a interpretací obrázků. Typ souboru určuje, který pracovní postup bude ChatGPT Enterprise následovat.

Vyhledávání v textuinterpret kóduZpracování obrázkůVizuální vyhledávání
Příklady typů souborůpptx, docx, txt, md, json, xml, pdf*
* PDF nahraná jako

znalosti GPT
nebo

soubory projektu
csv, xls, xlsx*
*Poznámka: interpret kódu může pracovat s jakýmkoli typem souboru, ale ChatGPT Enterprise nejčastěji standardně používá CI pro tabulky
jpg, pngpdf*
* PDF zahrnutá v uživatelských promptech
ChováníExtrahuje text ze souboru – část textu je vložena („stuffed“) přímo do kontextového okna; část textu je uložena pro vyhledáváníinterpret kódu předá soubor do Pythonu ke zpracováníObrázky jsou nativně interpretovány multimodálními modely, s ohledem na

známá omezení
.
Hybrid textového vyhledávání a zpracování obrázků. Text je digitálně extrahován a vizuální obsah je nativně interpretován multimodálními modely.

U čistě textových souborů, obrazových souborů nebo jasně strukturovaných datových souborů (např. tabulka transakcí v Excelu) představují tato rozdělení nejlepší možné chování.

Existují i méně zřejmé hraniční případy, například:

  • Obrázky vložené v jiných souborech než PDF se nezpracovávají. Chcete-li je zahrnout, převeďte soubor před nahráním do PDF.

  • ChatGPT Enterprise bude pro práci s tabulkami vždy používat interpret kódu, i když dokument obsahuje velké množství textu. Pokud například požádáte ChatGPT Enterprise o překlad souboru CSV s 10 řádky textu, pokusí se soubor přeložit pomocí knihovny Pythonu, což je méně přesné, než kdyby model vytvořil překlad přímo. Chcete-li to zmírnit, zkuste tabulku exportovat do textového formátu (například PDF).

  • Podobně pokud nahrajete strukturovanou tabulku transakcí obsaženou v souboru JSON, ChatGPT Enterprise tento soubor vyloží jako prostý text. Pokud chcete analyzovat data obsažená v souboru JSON, uveďte v promptu pokyn, aby model použil interpret kódu.

Zpracování souborů podle velikosti

ChatGPT Enterprise používá modely s maximálním kontextovým oknem 128 tis. tokenů (zhruba 200 stran textu). Ne všechny tokeny se však používají k zahrnutí textu z nahraných souborů. Počet „vložených“ tokenů se liší podle typu použití.

ChatGPT Enterprise „vloží“ určité množství textu a zbývající text odešle do soukromého vyhledávacího indexu („vector store“, což je typ databáze navržený pro efektivní ukládání a vyhledávání velkého množství textu). Když položíte otázku, ChatGPT Enterprise přidá zahrnutý text spolu s relevantními částmi načtenými ze soukromého vyhledávacího indexu.

Pokud nahrajete jeden dokument, ChatGPT Enterprise zahrne text od začátku, dokud nedosáhne svého limitu. Pokud nahrajete více dokumentů, ChatGPT Enterprise zahrne část nebo celý obsah každého dokumentu. Veškerý text z dokumentů je také odeslán do soukromého vyhledávacího indexu.

Vkládání kontextu pro textové dokumenty

Tato funkce je aktivně vyvíjena. Proto se následující podrobnosti mohou bez upozornění změnit.

ChatGPT Enterprise dokáže v kontextovém okně zpracovat až 110 tis. tokenů z nahraných dokumentů. Pokud nahrajete jeden nebo více dokumentů s celkovým objemem menším než 110 tis. tokenů, bude zahrnut celý obsah.

U jednoho dokumentu přesahujícího 110 tis. tokenů bude zahrnuto pouze prvních 110 tis. tokenů, počínaje začátkem. Zbytek bude odeslán pouze do soukromého vyhledávacího indexu.

Pokud je nahráno více dokumentů a jejich souhrn přesáhne 110 tis. tokenů, ChatGPT Enterprise používá dvoukrokový proces k vyvážení zastoupení dokumentů:

  1. Extrahuje až 55 tis. tokenů, rozdělených rovnoměrně mezi nahrané dokumenty.

    • Například pokud je nahráno 10 dokumentů, z počátku každého se extrahuje 5,5 tis. tokenů.

  2. U dokumentů, které nejsou v prvním kroku plně zastoupeny, se zbývajících 55 tis. tokenů přidělí proporcionálně podle počtu tokenů, které v každém dokumentu zbývají.

    • Například pokud dokument A má zbývajících 10 tis. tokenů a dokument B má zbývajících 90 tis. tokenů, z dokumentu A se navíc extrahuje 5,5 tis. tokenů ( (10k / 100k) * 55k ) a z dokumentu B navíc 49,5 tis. tokenů ( (90k / 100k) * 55k ).

  3. Všechny zbývající tokeny jsou odeslány pouze do soukromého vyhledávacího indexu.

Počet tokenů v textovém dokumentu můžete odhadnout tak, že text dokumentu zkopírujete do nástroje OpenAI Tokenizer.

Vkládání kontextu pro multimediální PDF

Když uživatelé nahrávají PDF obsahující text i obrázky, vizuální vyhledávání umožňuje ChatGPT zpracovávat tyto obrázky nativně spolu s digitálně extrahovaným textem. Následující kroky doplňují naše standardní postupy práce s kontextem pro multimediální PDF:

  • Extrakce a vložení obrázků: Obrázky jsou extrahovány a vloženy spolu s příslušným digitálním textem.

  • Inteligentní škálování: Obrázky se automaticky škálují tak, aby byla zachována rovnováha mezi kvalitou informací a efektivním využitím dostupného kontextového okna.

Pokud nahraná PDF překročí limit 110 tis. tokenů, obrázky i text se vloží do soukromého vyhledávacího indexu. Textová vložení odkazují na relevantní obrázky, což umožňuje ChatGPT načíst odpovídající dvojice text–obrázek podle uživatelských dotazů. Načtené obrázky jsou pak zpracovány pomocí nativních multimodálních schopností ChatGPT.

Přesný odhad požadavků na tokeny pro multimediální PDF je obtížný. Testování naznačuje, že přibližně 350 stran kombinovaného textu a obrázků plně využije kontextové okno o velikosti 110 tis. tokenů.

Strategie vyhledávání podle typu modelu

Modely řady GPT i o-series podporují nahrávání souborů a používají stejnou logiku vkládání kontextu a vyhledávacích embeddingů. Všechny modely provádějí hybridní vyhledávání nad soukromým vyhledávacím indexem, které kombinuje klíčová slova a sémantické metody. Při hybridním vyhledávání model vytvoří vyhledávací frázi na základě promptu uživatele a soukromý vyhledávací index podle toho načte relevantní text a obrázky.

Tyto modely se však liší v tom, jak prohledávají rozsáhlé dokumenty, které přesahují kontextové okno:

Modely řady GPT

  • Jedno vyhledání na prompt: Modely řady GPT provádějí jedno vyhledání na jeden prompt uživatele.

  • Vhodné případy použití: Ideální pro zodpovídání přímočarých otázek vložených do rozsáhlé dokumentace.

Příklady dotazů:

  • „Jaká je personální politika pro předčasný odchod do důchodu?“

  • „Co dělá funkce process_order?“

Modely řady o

  • Více vyhledání na prompt: Mohou provést více vyhledání (obvykle 2–3) na jeden prompt uživatele, každé s jedinečnou vyhledávací frází. Vyhledávání se provádějí postupně a model může svůj přístup upravovat na základě informací získaných v předchozích vyhledáváních.

  • Vhodné případy použití: Vhodnější pro složité otázky vyžadující více cílených vyhledávání napříč rozsáhlou dokumentací.

Příklady dotazů:

  • „Jaké jsou personální politiky pro předčasný odchod do důchodu, rodičovskou dovolenou a přesun do zahraničí?“

  • „Vysvětlete, co dělá funkce process_order, uveďte všechny metody volané touto funkcí a stručně popište každou volanou metodu.“

I přes své silné stránky mohou mít modely řady o potíže, když dotaz vyžaduje více než tři vyhledávání.

Tipy pro zlepšení výsledků vyhledávání v souborech

  • Zkuste pro složité otázky vyžadující více vyhledávání použít model řady o.

  • Pamatujte, že odpovědi se mohou lišit v závislosti na typu, počtu a velikosti nahraných dokumentů.

  • Obecně platí, že načtení menšího počtu cílených dokumentů povede k vyšší přesnosti.

  • Převeďte témata s více otázkami na jednotlivé otázky:

    • Pokud potřebujete znát personální politiky každého státu, ptejte se na ně jednu po druhé.

    • Pokud potřebujete shrnout mnoho dokumentů, žádejte o jeden dokument po druhém. Pokud má dokument stovky stran, zvažte jeho rozdělení na menší části.

      • Můžete ChatGPT Enterprise požádat, aby napsal „souhrn souhrnů“, pokud mu místo celých dokumentů poskytnete více souhrnů.

    • Pokud máte CSV z RFP (každý řádek je jiná otázka), pokládejte tyto otázky jednu po druhé místo pouhého nahrání CSV a žádosti o jednu odpověď.

  • Najděte způsoby, jak odpovědi modelu kontrolovat. Níže jsou uvedeny příkladové instrukce GPT:

# Kontext 

Jste odborník na porozumění dokumentům. Uživatel připojí dokument a položí otázku. Musí být schopen propojit vaši odpověď s přesnou částí textu, ze které jste odpověď převzali.

# Pokyny

1. Odpovězte na otázku uživatele na základě připojeného dokumentu přesně podle níže uvedeného formátu

# Formát

- Otázka: { zopakujte otázku uživatele }
- Odpověď: { poskytněte odpověď na otázku uživatele }
Zdroj:
- - Číslo oddílu: { uveďte číslo oddílu, ze kterého jste odpověď převzali }
- - Název oddílu: { uveďte název oddílu, ze kterého jste odpověď převzali }
- - Přesný text: { uveďte přesný text, ze kterého jste odpověď převzali }

# Pravidla

- Odpovědi formulujte jasně a stručně
- Poskytujte pouze informace uvedené v dokumentu
- Pokud odpověď v dokumentu nenajdete, jednoduše odpovězte „Nebyly nalezeny žádné informace.“

Byl tento článek užitečný?