ChatGPT Enterprise mostantól támogatja a promptokban szereplő PDF-fájlokba beágyazott vizuális elemek (képek, grafikonok, diagramok stb.) olvasását és értelmezését. A felhasználók feltölthetnek egy PDF-et, és a ChatGPT értelmezni tudja a szöveget és az adott fájlban lévő bármely vizuális elemet.
További részletekért lásd a Vizuális visszakeresés PDF-ekkel – GYIK.
A ChatGPT Enterprise többféleképpen teszi lehetővé a fájlok feltöltését:
Közvetlenül a számítógépéről
A Google Drive / SharePoint / OneDrive szolgáltatásból
GPT Knowledge formájában
Egy GPT Action elemből
Ez az útmutató bemutatja, hogyan kezelik a ChatGPT Enterprise funkciói a fájlokat típusuk, számuk és méretük alapján, és stratégiákat ismertet a kimenetek javítására a fájlkövetelmények szerint.
Összefoglalás
A ChatGPT Enterprise nagyon eltérően kezeli a különböző fájltípusokat: szöveget nyer ki szöveges dokumentumokból, például PDF-ekből, prezentációkból és Word-fájlokból; strukturált adatokat elemez táblázatokból Python-kóddal; és képfájlokat ír le GPT-Vision segítségével. A várt eredmény elérésének kulcsa annak megértése, hogy melyik fájltípus melyik munkafolyamatot indítja el.
A szövegalapú dokumentumok esetében a ChatGPT Enterprise a lehető legtöbb releváns szöveget közvetlenül az utasítás mellé foglalja be, és egy keresőrendszert használ további információk eléréséhez. Ez jól működik konkrét kérdések megválaszolására. Ez a megközelítés azonban nehézségekbe ütközhet összetett feladatoknál, például nagyon nagy dokumentumok összefoglalásánál vagy több nagy fájl összehasonlításánál. Olvasson tovább, hogy megismerje az eredmények javítására szolgáló stratégiákat.
Fájlok kezelése típus alapján
A ChatGPT Enterprise három fő módon dolgozza fel a fájlokat: szövegkinyeréssel, kódelemzéssel és képértelmezéssel. A fájltípus határozza meg, hogy a ChatGPT Enterprise melyik munkafolyamatot követi.
| Szövegalapú visszakeresés | kódértelmező | Képfeldolgozás | Vizuális visszakeresés | |
|---|---|---|---|---|
| Fájltípuspéldák | pptx, docx, txt, md, json, xml, pdf* * A következőként feltöltött PDF-ek: GPT Knowledge vagy Projektfájlok | csv, xls, xlsx* *Megjegyzés: a kódértelmező bármilyen fájltípuson működhet, de a ChatGPT Enterprise a legtöbbször alapértelmezetten CI-t használ táblázatokhoz | jpg, png | pdf* * A felhasználói utasításokban szereplő PDF-ek |
| Működés | Kinyeri a szöveget a fájlból – a szöveg egy része közvetlenül beillesztésre („betöltésre”) kerül a kontextusablakba; a szöveg másik része kereséshez tárolódik | A kódértelmező a fájlt feldolgozásra átadja a Pythonnak | A képeket a multimodális modellek natívan értelmezik, az ismert korlátozások függvényében. | A szöveges visszakeresés és a képfeldolgozás hibridje. A szöveg digitálisan kinyerésre kerül, a vizuális tartalmat pedig a multimodális modellek natívan értelmezik. |
A csak szöveget tartalmazó fájlok, a képfájlok vagy a világosan strukturált adatfájlok (pl. egy Excel-tranzakciós tábla) esetében ezek a felosztások jelentik a lehető legjobb működést.
Vannak kevésbé egyértelmű szürke zónák is, például:
A PDF-eken kívüli fájlokba beágyazott képek nem kerülnek feldolgozásra. Ha szeretné ezeket is belefoglalni, feltöltés előtt alakítsa át a fájlt PDF-fé.
A ChatGPT Enterprise mindig a kódértelmezőt használja a táblázatokkal való munkához, még akkor is, ha a dokumentum nagy mennyiségű szöveget tartalmaz. Ha például megkéri a ChatGPT Enterprise-t, hogy fordítson le egy 10 sor szöveget tartalmazó CSV-fájlt, akkor a rendszer megpróbálja a fájlt egy Python-könyvtár segítségével lefordítani, ami kevésbé pontos, mint ha a modell közvetlenül készítene fordítást. Ennek mérséklésére próbálja meg a táblázatot szövegalapú formátumba exportálni (például PDF-be).
Hasonlóképpen, ha egy JSON-fájlban leírt strukturált tranzakciós táblát tölt fel, a ChatGPT Enterprise ezt a fájlt egyszerű szövegként fogja értelmezni. Ha elemezni szeretné a JSON-fájlban található adatokat, az utasításban kérje meg a modellt a kódértelmező használatára.
Fájlok kezelése méret alapján
A ChatGPT Enterprise olyan modelleket használ, amelyek maximális kontextusablaka 128k token (nagyjából 200 oldalnyi szöveg). Azonban nem minden token használható fel a feltöltött fájlok szövegének beemelésére. A „betöltött” tokenek száma használati típustól függően változik.
A ChatGPT Enterprise bizonyos mennyiségű szöveget „betölt”, a fennmaradó szöveg pedig egy privát keresési indexbe kerül (egy „vektortárba”, amely olyan adatbázistípus, amelyet nagy mennyiségű szöveg hatékony tárolására és visszakeresésére terveztek). Amikor kérdést tesz fel, a ChatGPT Enterprise a befoglalt szöveget hozza be a privát keresési indexből visszakeresett releváns szövegrészletekkel együtt.
Ha egyetlen dokumentumot tölt fel, a ChatGPT Enterprise az elejétől kezdve foglal be szöveget, amíg el nem éri a korlátját. Ha több dokumentumot tölt fel, a ChatGPT Enterprise mindegyik dokumentum egy részét vagy egészét befoglalja. A dokumentumok teljes szövege szintén elküldésre kerül egy privát keresési indexbe.
Kontextusba betöltés szöveges dokumentumoknál
Ez a funkció aktív fejlesztés alatt áll. Ennek megfelelően az alábbi részletek előzetes értesítés nélkül változhatnak.
A ChatGPT Enterprise legfeljebb 110k tokent tud feldolgozni a feltöltött dokumentumokból a kontextusablakban. Ha egy vagy több, összesen 110k tokennél kevesebbet tartalmazó dokumentumot tölt fel, a teljes tartalom bekerül.
Ha egyetlen dokumentum meghaladja a 110k tokent, akkor csak az első 110k token kerül beemelésre, az elejétől kezdve. A fennmaradó rész csak a privát keresési indexbe kerül elküldésre.
Ha több dokumentum kerül feltöltésre, és ezek együttesen meghaladják a 110k tokent, a ChatGPT Enterprise kétlépcsős folyamatot használ a dokumentumok kiegyensúlyozott megjelenítésére:
Legfeljebb 55k tokent nyer ki, egyenlő arányban elosztva a feltöltött dokumentumok között.
Például ha 10 dokumentumot tölt fel, mindegyik elejéből 5,5k token kerül kinyerésre.
Azoknál a dokumentumoknál, amelyek az első lépésben nem kerültek teljesen reprezentálásra, a fennmaradó 55k tokent arányosan osztja el az egyes dokumentumokban hátralévő tokenek alapján.
Például ha az A dokumentumban 10k token maradt, a B dokumentumban pedig 90k token maradt, akkor az A dokumentumból további 5,5k token kerül kinyerésre ( (10k / 100k) * 55k ), a B dokumentumból pedig további 49,5k token ( (90k / 100k) * 55k ).
A fennmaradó tokenek csak a privát keresési indexbe kerülnek elküldésre.
A szöveges dokumentum tokenjeinek száma megbecsülhető, ha a dokumentum szövegét bemásolja az OpenAI Tokenizer eszközbe.
Kontextusba betöltés multimédiás PDF-eknél
Amikor a felhasználók szöveget és képeket egyaránt tartalmazó PDF-eket töltenek fel, a Vizuális visszakeresés lehetővé teszi, hogy a ChatGPT ezeket a képeket natívan dolgozza fel a digitálisan kinyert szöveg mellett. Az alábbi lépések egészítik ki a multimédiás PDF-ekre vonatkozó szokásos kontextuskezelési eljárásainkat:
Képkinyerés és beágyazás: A képek kinyerésre és beágyazásra kerülnek a hozzájuk tartozó digitális szöveggel együtt.
Intelligens skálázás: A képek automatikusan átméretezésre kerülnek, hogy egyensúly maradjon az információminőség és a rendelkezésre álló kontextusablak hatékony használata között.
Amikor a feltöltött PDF-ek meghaladják a 110k tokenes korlátot, a képek és a szöveg egyaránt beágyazásra kerülnek a privát keresési indexbe. A szövegbeágyazások hivatkoznak a releváns képekre, így a ChatGPT a felhasználói lekérdezések alapján elő tudja hívni a megfelelő szöveg-kép párokat. A visszakeresett képek ezután a ChatGPT natív multimodális képességeivel kerülnek feldolgozásra.
A multimédiás PDF-ek tokenigényének pontos becslése nehéz. A tesztek szerint körülbelül 350 oldalnyi vegyes szöveg és kép teljes mértékben kihasználja a 110k tokenes kontextusablakot.
Keresési stratégiák modelltípus alapján
Mind a GPT-sorozatú, mind az o-sorozatú modellek támogatják a fájlfeltöltést, és azonos kontextusba betöltési és keresési beágyazási logikát használnak. Minden modell hibrid keresést hajt végre egy privát keresési indexen, kulcsszavas és szemantikus módszereket kombinálva. Hibrid keresés során a modell a felhasználó utasítása alapján keresőkifejezést generál, a privát keresési index pedig ennek megfelelően visszakeresi a releváns szövegeket és képeket.
Ezek a modellek azonban különböznek abban, hogyan keresnek a kontextusablakot meghaladó nagy dokumentumokban:
GPT-sorozatú modellek
Egy keresés utasításonként: A GPT-sorozatú modellek felhasználói utasításonként egy keresést hajtanak végre.
Hatékony felhasználási esetek: Ideálisak kiterjedt dokumentációba ágyazott, egyértelmű kérdések megválaszolására.
Példalekérdezések:
„Mi a HR-szabályzat a korai nyugdíjazásra?”
„Mit csinál a
process_orderfüggvény?”
o-sorozatú modellek
Több keresés utasításonként: Felhasználói utasításonként több keresést is végre tudnak hajtani (jellemzően 2–3-at), mindegyiket egyedi keresőkifejezéssel. A keresések egymás után futnak, és a modell a korábbi keresésekből visszanyert információk alapján módosíthatja a megközelítését.
Hatékony felhasználási esetek: Jobban megfelelnek az összetett kérdésekhez, amelyek több célzott keresést igényelnek kiterjedt dokumentációban.
Példalekérdezések:
„Melyek a HR-szabályzatok a korai nyugdíjazásra, a szülői szabadságra és a külföldi áthelyezésre?”
„Magyarázza el, mit csinál a
process_orderfüggvény, sorolja fel az összes, e függvény által meghívott metódust, és röviden írja le mindegyiket.”
Erősségeik ellenére az o-sorozatú modelleknek gondot okozhat, ha egy lekérdezés több mint három keresést igényel.
Tippek a fájlkeresési eredmények javításához
Összetett, több keresést igénylő kérdésekhez próbáljon meg o-sorozatú modellt használni.
Ne feledje, hogy a válaszok a feltöltött dokumentumok típusától, számától és méretétől függően változhatnak.
Általában kevesebb, célzott dokumentum betöltése nagyobb pontossághoz vezet.
Az összetett, több kérdésből álló témákat alakítsa egyedi kérdésekké:
Ha minden állam HR-szabályzatát szeretné megismerni, kérdezzen rájuk egyenként.
Ha sok dokumentumot kell összefoglalnia, kérjen egyszerre egy dokumentumot. Ha az a dokumentum több száz oldalas, fontolja meg kisebb részekre bontását.
Megkérheti a ChatGPT Enterprise-t „összefoglalók összefoglalójának” megírására, ha teljes dokumentumok helyett több összefoglalót ad meg neki.
Ha van egy CSV-je egy RFP-ről (minden sor egy másik kérdés), tegye fel ezeket a kérdéseket egyenként ahelyett, hogy csak betöltené a CSV-t és egyetlen választ kérne.
Keressen módokat a modell válaszainak auditálására. Az alábbiakban példa GPT-utasítások láthatók:
# Kontextus
Szakértője a dokumentumok megértésének. A felhasználó csatolni fog egy dokumentumot, és feltesz egy kérdést. Képesnek kell lennie arra, hogy a válaszát visszakösse a szöveg pontos részéhez, ahonnan a választ vette.
# Utasítások
1. Válaszolja meg a felhasználó kérdését a csatolt dokumentum alapján az alább megadott pontos formátumban
# Formátum
- Kérdés: { ismételje meg a felhasználó kérdését }
- Válasz: { adjon választ a felhasználó kérdésére }
Forrás:
- - Szakasz száma: { adja meg annak a szakasznak a számát, ahonnan a választ vette }
- - Szakasz címe: { adja meg annak a szakasznak a címét, ahonnan a választ vette }
- - Pontos szöveg: { adja meg a pontos szöveget, ahonnan a választ vette }
# Szabályok
- Adjon világos és tömör válaszokat
- Csak a dokumentumban szereplő információkat adja meg
- Ha nem találja a választ a dokumentumban, egyszerűen ezt válaszolja: „Nem található információ.”