Ismerje meg, hogyan kezelik a ChatGPT Enterprise funkciói a fájlokat típusuk, számuk és méretük alapján. Javítsa a kimeneteket a fájlkövetelmények szerint.

A ChatGPT Enterprise mostantól támogatja az utasításokban szereplő PDF-fájlokba ágyazott vizuális elemek (képek, grafikonok, diagramok stb.) olvasását és megértését. A felhasználók feltölthetnek egy PDF-et, és a ChatGPT értelmezni tudja a fájlban található szöveget és bármilyen vizuális elemet.

Részletekért lásd: Gyakori kérdések a PDF-ekkel végzett vizuális lekérésről.

A ChatGPT Enterprise többféle módon teszi lehetővé a fájlok feltöltését:

Közvetlenül a számítógépedről
A Google Drive / SharePoint / OneDrive szolgáltatásból
GPT Knowledge-ként
Projektfájlként
GPT Action-ből

Ez az útmutató elmagyarázza, hogyan kezelik a ChatGPT Enterprise funkciói a fájlokat típusuk, számuk és méretük alapján, valamint bemutatja a fájlkövetelményekhez igazodó kimenetek javítására szolgáló stratégiákat.

Összefoglaló

A ChatGPT Enterprise a különböző fájltípusokat nagyon eltérően kezeli: szöveget nyer ki szöveges dokumentumokból, például PDF-ekből, prezentációkból és Word-fájlokból; Python-kóddal elemzi a táblázatok strukturált adatait; és a képfájlokat a GPT-Vision segítségével írja le. A várt eredmény eléréséhez kulcsfontosságú megérteni, melyik fájltípus melyik munkafolyamatot indítja el.

Szövegalapú dokumentumok esetén a ChatGPT Enterprise a lehető legtöbb releváns szöveget közvetlenül az utasítás mellé illeszti, és keresőrendszert használ a további információk eléréséhez. Ez jól működik konkrét kérdések megválaszolására. Ez a megközelítés azonban nehézségekbe ütközhet összetett feladatoknál, például nagyon nagy dokumentumok összefoglalásakor vagy több nagy fájl összehasonlításakor. Olvass tovább, hogy megismerd az eredmények javítására szolgáló stratégiákat.

Fájlok kezelése típus alapján

A ChatGPT Enterprise három fő módon dolgozza fel a fájlokat: szövegkinyerés, kódelemzés és képértelmezés. A fájltípus határozza meg, hogy a ChatGPT Enterprise melyik munkafolyamatot követi.

	Szövegalapú lekérés	Kódértelmező	Képfeldolgozás	Vizuális lekérés
Fájltípus-példák	pptx, docx, txt, md, json, xml, pdf* * GPT Knowledge-ként vagy projektfájlokként feltöltött PDF-ek	csv, xls, xlsx* *Megjegyzés: A kódértelmező bármilyen fájltípuson működhet, de a ChatGPT Enterprise táblázatok esetén leggyakrabban alapértelmezetten a CI-t használja	jpg, png	pdf* * Felhasználói utasításokban szereplő PDF-ek
Viselkedés	Kinyeri a szöveget a fájlból – a szöveg egy része közvetlenül a kontextusablakba kerül beillesztésre („betöltésre”); a szöveg egy része keresés céljából tárolódik	A kódértelmező a fájlt feldolgozásra átadja a Pythonnak	A képeket a multimodális modellek natívan értelmezik, az ismert korlátozások figyelembevételével.	A szöveges lekérés és a képfeldolgozás hibridje. A szöveg digitálisan kerül kinyerésre, a vizuális tartalmat pedig a multimodális modellek natívan értelmezik.

Csak szöveget tartalmazó fájlok, képfájlok vagy egyértelműen strukturált adatfájlok (például tranzakciókat tartalmazó Excel-táblázat) esetén ezek a felosztások a lehető legjobb viselkedést jelentik.

Vannak kevésbé egyértelmű szürke zónák is, például:

A PDF-eken kívüli fájlokba ágyazott képek feldolgozása nem történik meg. A bevonásukhoz feltöltés előtt alakítsd át a fájlt PDF-fé.
A ChatGPT Enterprise mindig a kódértelmezőt használja a táblázatokkal való interakcióhoz, még akkor is, ha a dokumentum nagy mennyiségű szöveget tartalmaz. Ha például arra kéred a ChatGPT Enterprise-t, hogy fordítson le egy 10 sornyi szöveget tartalmazó CSV-fájlt, akkor megpróbálja a fájlt egy Python-könyvtár segítségével lefordítani, ami kevésbé pontos, mint ha a modell közvetlenül generálhatná a fordítást. Ennek mérséklésére próbáld meg a táblázatot szövegalapú formátumba exportálni (például PDF-be).
Hasonlóképpen, ha egy JSON-fájlban található, strukturált tranzakciós táblázatot töltesz fel, a ChatGPT Enterprise egyszerű szövegként fogja értelmezni ezt a fájlt. Ha egy JSON-fájlban található adatokat szeretnél elemezni, az utasításodban kérd meg a modellt, hogy használja a kódértelmezőt.

Fájlok kezelése méret alapján

A ChatGPT Enterprise legfeljebb 128k tokenes kontextusablakkal rendelkező modelleket használ (ez nagyjából 200 oldalnyi szöveg). Azonban nem minden token szolgál a feltöltött fájlok szövegének beépítésére. A „betöltött” tokenek száma a használat típusától függően változik.

A ChatGPT Enterprise bizonyos mennyiségű szöveget „betölt”, a fennmaradó szöveg pedig egy privát keresési indexbe kerül (egy „vektortárba”, amely nagy mennyiségű szöveg hatékony tárolására és lekérésére tervezett adatbázistípus). Amikor kérdést teszel fel, a ChatGPT Enterprise a beillesztett szöveget a privát keresési indexből lekért releváns részekkel együtt használja fel.

Ha egyetlen dokumentumot töltesz fel, a ChatGPT Enterprise a dokumentum elejétől kezdve addig illeszt be szöveget, amíg el nem éri a korlátját. Ha több dokumentumot töltesz fel, a ChatGPT Enterprise mindegyik dokumentum egy részét vagy egészét beilleszti. A dokumentumok teljes szövege egy privát keresési indexbe is bekerül.

Kontextusfeltöltés szöveges dokumentumokhoz

Ez a funkció aktív fejlesztés alatt áll. Ennek megfelelően az alábbi részletek előzetes értesítés nélkül változhatnak.

A ChatGPT Enterprise akár 110k tokent is képes feldolgozni a feltöltött dokumentumokból a kontextusablakban. Ha egy vagy több olyan dokumentumot töltesz fel, amelyek összesen kevesebb mint 110k tokent tartalmaznak, a teljes tartalom bekerül.

Egy 110k tokent meghaladó dokumentum esetén csak az első 110k token kerül be, a dokumentum elejétől kezdve. A fennmaradó rész csak a privát keresési indexbe kerül.

Ha több dokumentumot töltesz fel, és ezek együttesen meghaladják a 110k tokent, a ChatGPT Enterprise kétlépéses folyamatot használ a dokumentumok kiegyensúlyozott képviseletéhez:

Legfeljebb 55k token kinyerése, egyenlően elosztva a feltöltött dokumentumok között.

Azoknál a dokumentumoknál, amelyek az első lépésben nem jelennek meg teljes egészükben, a fennmaradó 55k tokent arányosan osztja el az egyes dokumentumokban maradt tokenek alapján.

A megmaradó tokenek csak a privát keresési indexbe kerülnek.

Egy szöveges dokumentumban található tokenek számát úgy becsülheted meg, hogy a dokumentum szövegét bemásolod az OpenAI Tokenizer eszközbe.

Kontextusfeltöltés multimédiás PDF-ekhez

Amikor a felhasználók szöveget és képeket egyaránt tartalmazó PDF-eket töltenek fel, a vizuális lekérés lehetővé teszi, hogy a ChatGPT ezeket a képeket natívan, a digitálisan kinyert szöveggel együtt dolgozza fel. Az alábbi lépések kiegészítik a multimédiás PDF-ekre vonatkozó szabványos kontextuskezelési eljárásainkat:

Képkivonás és beágyazás: A képek a hozzájuk kapcsolódó digitális szöveggel együtt kerülnek kinyerésre és beágyazásra.
Intelligens méretezés: A képek automatikusan méreteződnek, hogy egyensúlyban maradjon az információ minősége és a rendelkezésre álló kontextusablak hatékony használata.

Ha a feltöltött PDF-ek meghaladják a 110k tokenes korlátot, a képek és a szöveg egyaránt beágyazásra kerülnek a privát keresési indexbe. A szövegbeágyazások releváns képekre hivatkoznak, így a ChatGPT a felhasználói lekérdezések alapján le tudja kérni a megfelelő szöveg–kép párokat. A lekért képeket ezután a ChatGPT natív multimodális képességei dolgozzák fel.

A multimédiás PDF-ek tokenigényének pontos becslése kihívást jelent. A tesztek alapján körülbelül 350 oldalnyi vegyes szöveg és kép teljesen kihasználja a 110k tokenes kontextusablakot.

Keresési stratégiák modelltípus alapján

A GPT-sorozatú és az o-sorozatú modellek egyaránt támogatják a fájlfeltöltést, és azonos kontextusfeltöltési és keresési beágyazási logikát használnak. Minden modell hibrid kereséseket hajt végre egy privát keresési indexen, kulcsszavas és szemantikus módszereket kombinálva. Hibrid keresés esetén a modell a felhasználó utasítása alapján keresési kifejezést generál, a privát keresési index pedig ennek megfelelően lekéri a releváns szövegeket és képeket.

Ezek a modellek azonban eltérnek abban, hogyan keresnek a kontextusablakot meghaladó nagy dokumentumokban:

GPT-sorozatú modellek

Egyetlen keresés utasításonként: A GPT-sorozatú modellek felhasználói utasításonként egy keresést végeznek.
Hatékony felhasználási esetek: Ideális kiterjedt dokumentációban szereplő, egyszerű kérdések megválaszolására.

Példalekérdezések:

„Mi a HR-irányelv a korai nyugdíjazásra vonatkozóan?”
„Mit csinál a process_order függvény?”

o-sorozatú modellek

Több keresés utasításonként: Felhasználói utasításonként több keresést (jellemzően 2–3-at) tud végrehajtani, mindegyiket egyedi keresési kifejezéssel. A keresések egymás után futnak le, és a modell a korábbi keresésekből lekért információk alapján módosíthatja a megközelítését.
Hatékony felhasználási esetek: Jobban megfelel olyan összetett kérdésekhez, amelyek kiterjedt dokumentációban több célzott keresést igényelnek.

Példalekérdezések:

„Mik a HR-irányelvek a korai nyugdíjazásra, a szülői szabadságra és a külföldi áthelyezésre vonatkozóan?”
„Magyarázd el, mit csinál a process_order függvény, sorold fel az összes, e függvény által meghívott metódust, és röviden írd le mindegyiket.”

Erősségeik ellenére az o-sorozatú modellek nehézségekbe ütközhetnek, ha egy lekérdezés háromnál több keresést igényel.

Tippek a fájlkeresési eredmények javításához

Összetett, több keresést igénylő kérdésekhez próbálj meg o-sorozatú modellt használni.
Ne feledd, hogy a válaszok a feltöltött dokumentumok típusától, számától és méretétől függően eltérhetnek.
Általában kevesebb, célzott dokumentum betöltése nagyobb pontosságot eredményez.
Alakítsd az összetett, több kérdésből álló témákat egyedi kérdésekké:
- Ha minden állam HR-irányelveire szükséged van, kérdezd le őket egyenként.
- Ha sok dokumentumot kell összefoglalnod, egyszerre egy dokumentumról kérj összefoglalót. Ha az adott dokumentum sok száz oldalas, érdemes kisebb részekre bontani.
  - Megkérheted a ChatGPT Enterprise-t, hogy írjon „összefoglalók összefoglalóját”, ha teljes dokumentumok helyett több összefoglalót adtál meg neki.
- Ha egy RFP-t tartalmazó CSV-d van (ahol minden sor más-más kérdés), ahelyett, hogy csak betöltenéd a CSV-t és egyetlen választ kérnél, tedd fel ezeket a kérdéseket egyenként.
Keress módszereket a modell válaszainak ellenőrzésére. Az alábbiakban példa GPT-utasítások találhatók:

# Kontextus 

Szakértője a dokumentumok megértésének. A felhasználó csatolni fog egy dokumentumot, és feltesz egy kérdést. Képesnek kell lennie arra, hogy a válaszát visszakösse a szöveg pontos részéhez, ahonnan a választ vette.

# Utasítások

1. Válaszolja meg a felhasználó kérdését a csatolt dokumentum alapján az alább megadott pontos formátumban

# Formátum 

- Kérdés: { ismételje meg a felhasználó kérdését }
- Válasz: { adjon választ a felhasználó kérdésére }
Forrás: 
- - Szakasz száma: { adja meg annak a szakasznak a számát, ahonnan a választ vette }
- - Szakasz címe: { adja meg annak a szakasznak a címét, ahonnan a választ vette }
- - Pontos szöveg: { adja meg a pontos szöveget, ahonnan a választ vette }

# Szabályok

- Adjon világos és tömör válaszokat
- Csak a dokumentumban szereplő információkat adja meg
- Ha nem találja a választ a dokumentumban, egyszerűen ezt válaszolja: „Nem található információ.”

Fájlfeltöltések optimalizálása a ChatGPT Enterprise-ban

Összefoglaló

Fájlok kezelése típus alapján

Fájlok kezelése méret alapján

Kontextusfeltöltés szöveges dokumentumokhoz

Kontextusfeltöltés multimédiás PDF-ekhez

Keresési stratégiák modelltípus alapján

GPT-sorozatú modellek

o-sorozatú modellek

Tippek a fájlkeresési eredmények javításához

Hasznos volt ez a cikk?