OpenAI
Ez az oldal gépi fordítással készült. Tekintsd meg az eredeti angol nyelvű cikket.

Fájlfeltöltések optimalizálása a ChatGPT Enterprise-ban

Ismerje meg, hogyan kezelik a ChatGPT Enterprise funkciói a fájlokat típusuk, számuk és méretük alapján. Javítsa a kimeneteket a fájlkövetelmények szerint.

Frissítve: 13 days ago

ChatGPT Enterprise mostantól támogatja a promptokban szereplő PDF-fájlokba beágyazott vizuális elemek (képek, grafikonok, diagramok stb.) olvasását és értelmezését. A felhasználók feltölthetnek egy PDF-et, és a ChatGPT értelmezni tudja a szöveget és az adott fájlban lévő bármely vizuális elemet.

További részletekért lásd a Vizuális visszakeresés PDF-ekkel – GYIK.

A ChatGPT Enterprise többféleképpen teszi lehetővé a fájlok feltöltését:

Ez az útmutató bemutatja, hogyan kezelik a ChatGPT Enterprise funkciói a fájlokat típusuk, számuk és méretük alapján, és stratégiákat ismertet a kimenetek javítására a fájlkövetelmények szerint.

Összefoglalás

A ChatGPT Enterprise nagyon eltérően kezeli a különböző fájltípusokat: szöveget nyer ki szöveges dokumentumokból, például PDF-ekből, prezentációkból és Word-fájlokból; strukturált adatokat elemez táblázatokból Python-kóddal; és képfájlokat ír le GPT-Vision segítségével. A várt eredmény elérésének kulcsa annak megértése, hogy melyik fájltípus melyik munkafolyamatot indítja el.

A szövegalapú dokumentumok esetében a ChatGPT Enterprise a lehető legtöbb releváns szöveget közvetlenül az utasítás mellé foglalja be, és egy keresőrendszert használ további információk eléréséhez. Ez jól működik konkrét kérdések megválaszolására. Ez a megközelítés azonban nehézségekbe ütközhet összetett feladatoknál, például nagyon nagy dokumentumok összefoglalásánál vagy több nagy fájl összehasonlításánál. Olvasson tovább, hogy megismerje az eredmények javítására szolgáló stratégiákat.

Fájlok kezelése típus alapján

A ChatGPT Enterprise három fő módon dolgozza fel a fájlokat: szövegkinyeréssel, kódelemzéssel és képértelmezéssel. A fájltípus határozza meg, hogy a ChatGPT Enterprise melyik munkafolyamatot követi.

Szövegalapú visszakereséskódértelmezőKépfeldolgozásVizuális visszakeresés
Fájltípuspéldákpptx, docx, txt, md, json, xml, pdf*
* A következőként feltöltött PDF-ek:

GPT Knowledge
vagy

Projektfájlok
csv, xls, xlsx*
*Megjegyzés: a kódértelmező bármilyen fájltípuson működhet, de a ChatGPT Enterprise a legtöbbször alapértelmezetten CI-t használ táblázatokhoz
jpg, pngpdf*
* A felhasználói utasításokban szereplő PDF-ek
MűködésKinyeri a szöveget a fájlból – a szöveg egy része közvetlenül beillesztésre („betöltésre”) kerül a kontextusablakba; a szöveg másik része kereséshez tárolódikA kódértelmező a fájlt feldolgozásra átadja a PythonnakA képeket a multimodális modellek natívan értelmezik, az ismert korlátozások függvényében.A szöveges visszakeresés és a képfeldolgozás hibridje. A szöveg digitálisan kinyerésre kerül, a vizuális tartalmat pedig a multimodális modellek natívan értelmezik.

A csak szöveget tartalmazó fájlok, a képfájlok vagy a világosan strukturált adatfájlok (pl. egy Excel-tranzakciós tábla) esetében ezek a felosztások jelentik a lehető legjobb működést.

Vannak kevésbé egyértelmű szürke zónák is, például:

  • A PDF-eken kívüli fájlokba beágyazott képek nem kerülnek feldolgozásra. Ha szeretné ezeket is belefoglalni, feltöltés előtt alakítsa át a fájlt PDF-fé.

  • A ChatGPT Enterprise mindig a kódértelmezőt használja a táblázatokkal való munkához, még akkor is, ha a dokumentum nagy mennyiségű szöveget tartalmaz. Ha például megkéri a ChatGPT Enterprise-t, hogy fordítson le egy 10 sor szöveget tartalmazó CSV-fájlt, akkor a rendszer megpróbálja a fájlt egy Python-könyvtár segítségével lefordítani, ami kevésbé pontos, mint ha a modell közvetlenül készítene fordítást. Ennek mérséklésére próbálja meg a táblázatot szövegalapú formátumba exportálni (például PDF-be).

  • Hasonlóképpen, ha egy JSON-fájlban leírt strukturált tranzakciós táblát tölt fel, a ChatGPT Enterprise ezt a fájlt egyszerű szövegként fogja értelmezni. Ha elemezni szeretné a JSON-fájlban található adatokat, az utasításban kérje meg a modellt a kódértelmező használatára.

Fájlok kezelése méret alapján

A ChatGPT Enterprise olyan modelleket használ, amelyek maximális kontextusablaka 128k token (nagyjából 200 oldalnyi szöveg). Azonban nem minden token használható fel a feltöltött fájlok szövegének beemelésére. A „betöltött” tokenek száma használati típustól függően változik.

A ChatGPT Enterprise bizonyos mennyiségű szöveget „betölt”, a fennmaradó szöveg pedig egy privát keresési indexbe kerül (egy „vektortárba”, amely olyan adatbázistípus, amelyet nagy mennyiségű szöveg hatékony tárolására és visszakeresésére terveztek). Amikor kérdést tesz fel, a ChatGPT Enterprise a befoglalt szöveget hozza be a privát keresési indexből visszakeresett releváns szövegrészletekkel együtt.

Ha egyetlen dokumentumot tölt fel, a ChatGPT Enterprise az elejétől kezdve foglal be szöveget, amíg el nem éri a korlátját. Ha több dokumentumot tölt fel, a ChatGPT Enterprise mindegyik dokumentum egy részét vagy egészét befoglalja. A dokumentumok teljes szövege szintén elküldésre kerül egy privát keresési indexbe.

Kontextusba betöltés szöveges dokumentumoknál

Ez a funkció aktív fejlesztés alatt áll. Ennek megfelelően az alábbi részletek előzetes értesítés nélkül változhatnak.

A ChatGPT Enterprise legfeljebb 110k tokent tud feldolgozni a feltöltött dokumentumokból a kontextusablakban. Ha egy vagy több, összesen 110k tokennél kevesebbet tartalmazó dokumentumot tölt fel, a teljes tartalom bekerül.

Ha egyetlen dokumentum meghaladja a 110k tokent, akkor csak az első 110k token kerül beemelésre, az elejétől kezdve. A fennmaradó rész csak a privát keresési indexbe kerül elküldésre.

Ha több dokumentum kerül feltöltésre, és ezek együttesen meghaladják a 110k tokent, a ChatGPT Enterprise kétlépcsős folyamatot használ a dokumentumok kiegyensúlyozott megjelenítésére:

  1. Legfeljebb 55k tokent nyer ki, egyenlő arányban elosztva a feltöltött dokumentumok között.

    • Például ha 10 dokumentumot tölt fel, mindegyik elejéből 5,5k token kerül kinyerésre.

  2. Azoknál a dokumentumoknál, amelyek az első lépésben nem kerültek teljesen reprezentálásra, a fennmaradó 55k tokent arányosan osztja el az egyes dokumentumokban hátralévő tokenek alapján.

    • Például ha az A dokumentumban 10k token maradt, a B dokumentumban pedig 90k token maradt, akkor az A dokumentumból további 5,5k token kerül kinyerésre ( (10k / 100k) * 55k ), a B dokumentumból pedig további 49,5k token ( (90k / 100k) * 55k ).

  3. A fennmaradó tokenek csak a privát keresési indexbe kerülnek elküldésre.

A szöveges dokumentum tokenjeinek száma megbecsülhető, ha a dokumentum szövegét bemásolja az OpenAI Tokenizer eszközbe.

Kontextusba betöltés multimédiás PDF-eknél

Amikor a felhasználók szöveget és képeket egyaránt tartalmazó PDF-eket töltenek fel, a Vizuális visszakeresés lehetővé teszi, hogy a ChatGPT ezeket a képeket natívan dolgozza fel a digitálisan kinyert szöveg mellett. Az alábbi lépések egészítik ki a multimédiás PDF-ekre vonatkozó szokásos kontextuskezelési eljárásainkat:

  • Képkinyerés és beágyazás: A képek kinyerésre és beágyazásra kerülnek a hozzájuk tartozó digitális szöveggel együtt.

  • Intelligens skálázás: A képek automatikusan átméretezésre kerülnek, hogy egyensúly maradjon az információminőség és a rendelkezésre álló kontextusablak hatékony használata között.

Amikor a feltöltött PDF-ek meghaladják a 110k tokenes korlátot, a képek és a szöveg egyaránt beágyazásra kerülnek a privát keresési indexbe. A szövegbeágyazások hivatkoznak a releváns képekre, így a ChatGPT a felhasználói lekérdezések alapján elő tudja hívni a megfelelő szöveg-kép párokat. A visszakeresett képek ezután a ChatGPT natív multimodális képességeivel kerülnek feldolgozásra.

A multimédiás PDF-ek tokenigényének pontos becslése nehéz. A tesztek szerint körülbelül 350 oldalnyi vegyes szöveg és kép teljes mértékben kihasználja a 110k tokenes kontextusablakot.

Keresési stratégiák modelltípus alapján

Mind a GPT-sorozatú, mind az o-sorozatú modellek támogatják a fájlfeltöltést, és azonos kontextusba betöltési és keresési beágyazási logikát használnak. Minden modell hibrid keresést hajt végre egy privát keresési indexen, kulcsszavas és szemantikus módszereket kombinálva. Hibrid keresés során a modell a felhasználó utasítása alapján keresőkifejezést generál, a privát keresési index pedig ennek megfelelően visszakeresi a releváns szövegeket és képeket.

Ezek a modellek azonban különböznek abban, hogyan keresnek a kontextusablakot meghaladó nagy dokumentumokban:

GPT-sorozatú modellek

  • Egy keresés utasításonként: A GPT-sorozatú modellek felhasználói utasításonként egy keresést hajtanak végre.

  • Hatékony felhasználási esetek: Ideálisak kiterjedt dokumentációba ágyazott, egyértelmű kérdések megválaszolására.

Példalekérdezések:

  • „Mi a HR-szabályzat a korai nyugdíjazásra?”

  • „Mit csinál a process_order függvény?”

o-sorozatú modellek

  • Több keresés utasításonként: Felhasználói utasításonként több keresést is végre tudnak hajtani (jellemzően 2–3-at), mindegyiket egyedi keresőkifejezéssel. A keresések egymás után futnak, és a modell a korábbi keresésekből visszanyert információk alapján módosíthatja a megközelítését.

  • Hatékony felhasználási esetek: Jobban megfelelnek az összetett kérdésekhez, amelyek több célzott keresést igényelnek kiterjedt dokumentációban.

Példalekérdezések:

  • „Melyek a HR-szabályzatok a korai nyugdíjazásra, a szülői szabadságra és a külföldi áthelyezésre?”

  • „Magyarázza el, mit csinál a process_order függvény, sorolja fel az összes, e függvény által meghívott metódust, és röviden írja le mindegyiket.”

Erősségeik ellenére az o-sorozatú modelleknek gondot okozhat, ha egy lekérdezés több mint három keresést igényel.

Tippek a fájlkeresési eredmények javításához

  • Összetett, több keresést igénylő kérdésekhez próbáljon meg o-sorozatú modellt használni.

  • Ne feledje, hogy a válaszok a feltöltött dokumentumok típusától, számától és méretétől függően változhatnak.

  • Általában kevesebb, célzott dokumentum betöltése nagyobb pontossághoz vezet.

  • Az összetett, több kérdésből álló témákat alakítsa egyedi kérdésekké:

    • Ha minden állam HR-szabályzatát szeretné megismerni, kérdezzen rájuk egyenként.

    • Ha sok dokumentumot kell összefoglalnia, kérjen egyszerre egy dokumentumot. Ha az a dokumentum több száz oldalas, fontolja meg kisebb részekre bontását.

      • Megkérheti a ChatGPT Enterprise-t „összefoglalók összefoglalójának” megírására, ha teljes dokumentumok helyett több összefoglalót ad meg neki.

    • Ha van egy CSV-je egy RFP-ről (minden sor egy másik kérdés), tegye fel ezeket a kérdéseket egyenként ahelyett, hogy csak betöltené a CSV-t és egyetlen választ kérne.

  • Keressen módokat a modell válaszainak auditálására. Az alábbiakban példa GPT-utasítások láthatók:

# Kontextus 

Szakértője a dokumentumok megértésének. A felhasználó csatolni fog egy dokumentumot, és feltesz egy kérdést. Képesnek kell lennie arra, hogy a válaszát visszakösse a szöveg pontos részéhez, ahonnan a választ vette.

# Utasítások

1. Válaszolja meg a felhasználó kérdését a csatolt dokumentum alapján az alább megadott pontos formátumban

# Formátum

- Kérdés: { ismételje meg a felhasználó kérdését }
- Válasz: { adjon választ a felhasználó kérdésére }
Forrás:
- - Szakasz száma: { adja meg annak a szakasznak a számát, ahonnan a választ vette }
- - Szakasz címe: { adja meg annak a szakasznak a címét, ahonnan a választ vette }
- - Pontos szöveg: { adja meg a pontos szöveget, ahonnan a választ vette }

# Szabályok

- Adjon világos és tömör válaszokat
- Csak a dokumentumban szereplő információkat adja meg
- Ha nem találja a választ a dokumentumban, egyszerűen ezt válaszolja: „Nem található információ.”

Hasznos volt ez a cikk?