A ChatGPT Enterprise mostantól támogatja az utasításokban szereplő PDF-fájlokba ágyazott vizuális elemek (képek, grafikonok, diagramok stb.) olvasását és megértését. A felhasználók feltölthetnek egy PDF-et, és a ChatGPT értelmezni tudja a fájlban található szöveget és bármilyen vizuális elemet.
Részletekért lásd: Gyakori kérdések a PDF-ekkel végzett vizuális lekérésről.
A ChatGPT Enterprise többféle módon teszi lehetővé a fájlok feltöltését:
Közvetlenül a számítógépedről
A Google Drive / SharePoint / OneDrive szolgáltatásból
GPT Knowledge-ként
GPT Action-ből
Ez az útmutató elmagyarázza, hogyan kezelik a ChatGPT Enterprise funkciói a fájlokat típusuk, számuk és méretük alapján, valamint bemutatja a fájlkövetelményekhez igazodó kimenetek javítására szolgáló stratégiákat.
Összefoglaló
A ChatGPT Enterprise a különböző fájltípusokat nagyon eltérően kezeli: szöveget nyer ki szöveges dokumentumokból, például PDF-ekből, prezentációkból és Word-fájlokból; Python-kóddal elemzi a táblázatok strukturált adatait; és a képfájlokat a GPT-Vision segítségével írja le. A várt eredmény eléréséhez kulcsfontosságú megérteni, melyik fájltípus melyik munkafolyamatot indítja el.
Szövegalapú dokumentumok esetén a ChatGPT Enterprise a lehető legtöbb releváns szöveget közvetlenül az utasítás mellé illeszti, és keresőrendszert használ a további információk eléréséhez. Ez jól működik konkrét kérdések megválaszolására. Ez a megközelítés azonban nehézségekbe ütközhet összetett feladatoknál, például nagyon nagy dokumentumok összefoglalásakor vagy több nagy fájl összehasonlításakor. Olvass tovább, hogy megismerd az eredmények javítására szolgáló stratégiákat.
Fájlok kezelése típus alapján
A ChatGPT Enterprise három fő módon dolgozza fel a fájlokat: szövegkinyerés, kódelemzés és képértelmezés. A fájltípus határozza meg, hogy a ChatGPT Enterprise melyik munkafolyamatot követi.
| Szövegalapú lekérés | Kódértelmező | Képfeldolgozás | Vizuális lekérés | |
|---|---|---|---|---|
| Fájltípus-példák | pptx, docx, txt, md, json, xml, pdf* * GPT Knowledge-ként vagy projektfájlokként feltöltött PDF-ek | csv, xls, xlsx* *Megjegyzés: A kódértelmező bármilyen fájltípuson működhet, de a ChatGPT Enterprise táblázatok esetén leggyakrabban alapértelmezetten a CI-t használja | jpg, png | pdf* * Felhasználói utasításokban szereplő PDF-ek |
| Viselkedés | Kinyeri a szöveget a fájlból – a szöveg egy része közvetlenül a kontextusablakba kerül beillesztésre („betöltésre”); a szöveg egy része keresés céljából tárolódik | A kódértelmező a fájlt feldolgozásra átadja a Pythonnak | A képeket a multimodális modellek natívan értelmezik, az ismert korlátozások figyelembevételével. | A szöveges lekérés és a képfeldolgozás hibridje. A szöveg digitálisan kerül kinyerésre, a vizuális tartalmat pedig a multimodális modellek natívan értelmezik. |
Csak szöveget tartalmazó fájlok, képfájlok vagy egyértelműen strukturált adatfájlok (például tranzakciókat tartalmazó Excel-táblázat) esetén ezek a felosztások a lehető legjobb viselkedést jelentik.
Vannak kevésbé egyértelmű szürke zónák is, például:
A PDF-eken kívüli fájlokba ágyazott képek feldolgozása nem történik meg. A bevonásukhoz feltöltés előtt alakítsd át a fájlt PDF-fé.
A ChatGPT Enterprise mindig a kódértelmezőt használja a táblázatokkal való interakcióhoz, még akkor is, ha a dokumentum nagy mennyiségű szöveget tartalmaz. Ha például arra kéred a ChatGPT Enterprise-t, hogy fordítson le egy 10 sornyi szöveget tartalmazó CSV-fájlt, akkor megpróbálja a fájlt egy Python-könyvtár segítségével lefordítani, ami kevésbé pontos, mint ha a modell közvetlenül generálhatná a fordítást. Ennek mérséklésére próbáld meg a táblázatot szövegalapú formátumba exportálni (például PDF-be).
Hasonlóképpen, ha egy JSON-fájlban található, strukturált tranzakciós táblázatot töltesz fel, a ChatGPT Enterprise egyszerű szövegként fogja értelmezni ezt a fájlt. Ha egy JSON-fájlban található adatokat szeretnél elemezni, az utasításodban kérd meg a modellt, hogy használja a kódértelmezőt.
Fájlok kezelése méret alapján
A ChatGPT Enterprise legfeljebb 128k tokenes kontextusablakkal rendelkező modelleket használ (ez nagyjából 200 oldalnyi szöveg). Azonban nem minden token szolgál a feltöltött fájlok szövegének beépítésére. A „betöltött” tokenek száma a használat típusától függően változik.
A ChatGPT Enterprise bizonyos mennyiségű szöveget „betölt”, a fennmaradó szöveg pedig egy privát keresési indexbe kerül (egy „vektortárba”, amely nagy mennyiségű szöveg hatékony tárolására és lekérésére tervezett adatbázistípus). Amikor kérdést teszel fel, a ChatGPT Enterprise a beillesztett szöveget a privát keresési indexből lekért releváns részekkel együtt használja fel.
Ha egyetlen dokumentumot töltesz fel, a ChatGPT Enterprise a dokumentum elejétől kezdve addig illeszt be szöveget, amíg el nem éri a korlátját. Ha több dokumentumot töltesz fel, a ChatGPT Enterprise mindegyik dokumentum egy részét vagy egészét beilleszti. A dokumentumok teljes szövege egy privát keresési indexbe is bekerül.
Kontextusfeltöltés szöveges dokumentumokhoz
Ez a funkció aktív fejlesztés alatt áll. Ennek megfelelően az alábbi részletek előzetes értesítés nélkül változhatnak.
A ChatGPT Enterprise akár 110k tokent is képes feldolgozni a feltöltött dokumentumokból a kontextusablakban. Ha egy vagy több olyan dokumentumot töltesz fel, amelyek összesen kevesebb mint 110k tokent tartalmaznak, a teljes tartalom bekerül.
Egy 110k tokent meghaladó dokumentum esetén csak az első 110k token kerül be, a dokumentum elejétől kezdve. A fennmaradó rész csak a privát keresési indexbe kerül.
Ha több dokumentumot töltesz fel, és ezek együttesen meghaladják a 110k tokent, a ChatGPT Enterprise kétlépéses folyamatot használ a dokumentumok kiegyensúlyozott képviseletéhez:
Legfeljebb 55k token kinyerése, egyenlően elosztva a feltöltött dokumentumok között.
Azoknál a dokumentumoknál, amelyek az első lépésben nem jelennek meg teljes egészükben, a fennmaradó 55k tokent arányosan osztja el az egyes dokumentumokban maradt tokenek alapján.
A megmaradó tokenek csak a privát keresési indexbe kerülnek.
Egy szöveges dokumentumban található tokenek számát úgy becsülheted meg, hogy a dokumentum szövegét bemásolod az OpenAI Tokenizer eszközbe.
Kontextusfeltöltés multimédiás PDF-ekhez
Amikor a felhasználók szöveget és képeket egyaránt tartalmazó PDF-eket töltenek fel, a vizuális lekérés lehetővé teszi, hogy a ChatGPT ezeket a képeket natívan, a digitálisan kinyert szöveggel együtt dolgozza fel. Az alábbi lépések kiegészítik a multimédiás PDF-ekre vonatkozó szabványos kontextuskezelési eljárásainkat:
Képkivonás és beágyazás: A képek a hozzájuk kapcsolódó digitális szöveggel együtt kerülnek kinyerésre és beágyazásra.
Intelligens méretezés: A képek automatikusan méreteződnek, hogy egyensúlyban maradjon az információ minősége és a rendelkezésre álló kontextusablak hatékony használata.
Ha a feltöltött PDF-ek meghaladják a 110k tokenes korlátot, a képek és a szöveg egyaránt beágyazásra kerülnek a privát keresési indexbe. A szövegbeágyazások releváns képekre hivatkoznak, így a ChatGPT a felhasználói lekérdezések alapján le tudja kérni a megfelelő szöveg–kép párokat. A lekért képeket ezután a ChatGPT natív multimodális képességei dolgozzák fel.
A multimédiás PDF-ek tokenigényének pontos becslése kihívást jelent. A tesztek alapján körülbelül 350 oldalnyi vegyes szöveg és kép teljesen kihasználja a 110k tokenes kontextusablakot.
Keresési stratégiák modelltípus alapján
A GPT-sorozatú és az o-sorozatú modellek egyaránt támogatják a fájlfeltöltést, és azonos kontextusfeltöltési és keresési beágyazási logikát használnak. Minden modell hibrid kereséseket hajt végre egy privát keresési indexen, kulcsszavas és szemantikus módszereket kombinálva. Hibrid keresés esetén a modell a felhasználó utasítása alapján keresési kifejezést generál, a privát keresési index pedig ennek megfelelően lekéri a releváns szövegeket és képeket.
Ezek a modellek azonban eltérnek abban, hogyan keresnek a kontextusablakot meghaladó nagy dokumentumokban:
GPT-sorozatú modellek
Egyetlen keresés utasításonként: A GPT-sorozatú modellek felhasználói utasításonként egy keresést végeznek.
Hatékony felhasználási esetek: Ideális kiterjedt dokumentációban szereplő, egyszerű kérdések megválaszolására.
Példalekérdezések:
„Mi a HR-irányelv a korai nyugdíjazásra vonatkozóan?”
„Mit csinál a
process_orderfüggvény?”
o-sorozatú modellek
Több keresés utasításonként: Felhasználói utasításonként több keresést (jellemzően 2–3-at) tud végrehajtani, mindegyiket egyedi keresési kifejezéssel. A keresések egymás után futnak le, és a modell a korábbi keresésekből lekért információk alapján módosíthatja a megközelítését.
Hatékony felhasználási esetek: Jobban megfelel olyan összetett kérdésekhez, amelyek kiterjedt dokumentációban több célzott keresést igényelnek.
Példalekérdezések:
„Mik a HR-irányelvek a korai nyugdíjazásra, a szülői szabadságra és a külföldi áthelyezésre vonatkozóan?”
„Magyarázd el, mit csinál a
process_orderfüggvény, sorold fel az összes, e függvény által meghívott metódust, és röviden írd le mindegyiket.”
Erősségeik ellenére az o-sorozatú modellek nehézségekbe ütközhetnek, ha egy lekérdezés háromnál több keresést igényel.
Tippek a fájlkeresési eredmények javításához
Összetett, több keresést igénylő kérdésekhez próbálj meg o-sorozatú modellt használni.
Ne feledd, hogy a válaszok a feltöltött dokumentumok típusától, számától és méretétől függően eltérhetnek.
Általában kevesebb, célzott dokumentum betöltése nagyobb pontosságot eredményez.
Alakítsd az összetett, több kérdésből álló témákat egyedi kérdésekké:
Ha minden állam HR-irányelveire szükséged van, kérdezd le őket egyenként.
Ha sok dokumentumot kell összefoglalnod, egyszerre egy dokumentumról kérj összefoglalót. Ha az adott dokumentum sok száz oldalas, érdemes kisebb részekre bontani.
Megkérheted a ChatGPT Enterprise-t, hogy írjon „összefoglalók összefoglalóját”, ha teljes dokumentumok helyett több összefoglalót adtál meg neki.
Ha egy RFP-t tartalmazó CSV-d van (ahol minden sor más-más kérdés), ahelyett, hogy csak betöltenéd a CSV-t és egyetlen választ kérnél, tedd fel ezeket a kérdéseket egyenként.
Keress módszereket a modell válaszainak ellenőrzésére. Az alábbiakban példa GPT-utasítások találhatók:
# Kontextus
Szakértője a dokumentumok megértésének. A felhasználó csatolni fog egy dokumentumot, és feltesz egy kérdést. Képesnek kell lennie arra, hogy a válaszát visszakösse a szöveg pontos részéhez, ahonnan a választ vette.
# Utasítások
1. Válaszolja meg a felhasználó kérdését a csatolt dokumentum alapján az alább megadott pontos formátumban
# Formátum
- Kérdés: { ismételje meg a felhasználó kérdését }
- Válasz: { adjon választ a felhasználó kérdésére }
Forrás:
- - Szakasz száma: { adja meg annak a szakasznak a számát, ahonnan a választ vette }
- - Szakasz címe: { adja meg annak a szakasznak a címét, ahonnan a választ vette }
- - Pontos szöveg: { adja meg a pontos szöveget, ahonnan a választ vette }
# Szabályok
- Adjon világos és tömör válaszokat
- Csak a dokumentumban szereplő információkat adja meg
- Ha nem találja a választ a dokumentumban, egyszerűen ezt válaszolja: „Nem található információ.”