OpenAI
Šis puslapis buvo išverstas mašininiu būdu. Peržiūrėti originalų straipsnį anglų kalba.

Failų įkėlimo optimizavimas ChatGPT Enterprise

Sužinokite, kaip ChatGPT Enterprise funkcijos tvarko failus pagal jų tipą, skaičių ir dydį. Pagerinkite rezultatus pagal failų reikalavimus.

Atnaujinta: 23 days ago

ChatGPT Enterprise dabar palaiko vaizdinės medžiagos (vaizdų, grafikų, diagramų ir kt.), įterptos į PDF failus, įtrauktus į užklausas, skaitymą ir supratimą. Naudotojai gali įkelti PDF, o ChatGPT gali interpretuoti tekstą ir visus tame faile esančius vaizdinius elementus.

Išsamesnės informacijos žr. DUK apie vaizdinę paiešką PDF failuose.

ChatGPT Enterprise leidžia įkelti failus keliais būdais:

Šiame vadove paaiškinama, kaip ChatGPT Enterprise funkcijos tvarko failus pagal jų tipą, skaičių ir dydį, ir aptariamos strategijos, kaip pagerinti išvestis pagal failų reikalavimus.

Santrauka

ChatGPT Enterprise labai skirtingai tvarko skirtingų tipų failus: iš tekstinių dokumentų, pvz., PDF, pateikčių ir Word failų, išskiria tekstą, struktūrinius duomenis iš skaičiuoklių analizuoja naudodamas Python kodą, o vaizdų failus aprašo per GPT-Vision. Norint gauti tikėtiną rezultatą, svarbu suprasti, kuris failo tipas suaktyvina kurį darbo procesą.

Tekstiniais dokumentais pagrįstiems dokumentams ChatGPT Enterprise tiesiogiai kartu su užklausa įtraukia kuo daugiau susijusio teksto ir naudoja paieškos sistemą papildomai informacijai pasiekti. Tai gerai veikia atsakant į konkrečius klausimus. Tačiau šiam metodui gali būti sunku atlikti sudėtingas užduotis, pvz., apibendrinti labai didelius dokumentus arba palyginti kelis didelius failus. Skaitykite toliau, kad suprastumėte strategijas, kaip pagerinti rezultatus.

Failų tvarkymas pagal tipą

ChatGPT Enterprise apdoroja failus trimis pagrindiniais būdais: teksto išskyrimu, kodo analize ir vaizdų interpretavimu. Failo tipas nustato, kurį darbo procesą taiko ChatGPT Enterprise.

Tekstu pagrįsta paieškaKodo interpretatoriusVaizdų apdorojimasVaizdinė paieška
Failų tipų pavyzdžiaipptx, docx, txt, md, json, xml, pdf*
* PDF failai, įkelti kaip

GPT žinios
arba

projekto failai
csv, xls, xlsx*
*Pastaba: Kodo interpretatorius gali veikti su bet kokio tipo failais, bet ChatGPT Enterprise skaičiuoklėms dažniausiai pagal numatytąsias nuostatas naudoja CI
jpg, pngpdf*
* PDF failai, įtraukti į naudotojo užklausas
VeiksenaIš failo išskiria tekstą – dalis teksto įklijuojama („įterpiama“) tiesiai į konteksto langą; dalis teksto saugoma paieškaiKodo interpretatorius perduoda failą Python apdorojimuiVaizdus natūraliai interpretuoja daugiarūšiai modeliai, atsižvelgiant į

žinomus apribojimus
.
Teksto paieškos ir vaizdų apdorojimo hibridas. Tekstas išskiriamas skaitmeniniu būdu, o vaizdinį turinį natūraliai interpretuoja daugiarūšiai modeliai.

Tik teksto failams, vaizdų failams arba aiškiai struktūrizuotų duomenų failams (pvz., Excel operacijų lentelei) šie skirstymai atspindi geriausią įmanomą veikseną.

Yra ir ne tokių akivaizdžių pilkųjų zonų, pavyzdžiui:

  • Vaizdai, įterpti į kitus nei PDF failus, neapdorojami. Norėdami juos įtraukti, prieš įkeldami konvertuokite failą į PDF.

  • ChatGPT Enterprise visada naudos Kodo interpretatorių sąveikai su skaičiuoklėmis, net jei dokumente yra daug teksto. Pavyzdžiui, jei paprašysite ChatGPT Enterprise išversti CSV failą su 10 teksto eilučių, jis bandys išversti failą naudodamas Python biblioteką, o tai yra mažiau tikslu nei leisti modeliui tiesiogiai sugeneruoti vertimą. Norėdami tai sušvelninti, pabandykite eksportuoti skaičiuoklę į tekstu pagrįstą formatą (pavyzdžiui, PDF).

  • Panašiai, jei įkeliate JSON faile esančią aprašytą struktūrizuotą operacijų lentelę, ChatGPT Enterprise interpretuos šį failą kaip paprastą tekstą. Jei norite analizuoti JSON faile esančius duomenis, savo užklausoje nurodykite modeliui naudoti Kodo interpretatorių.

Failų tvarkymas pagal dydį

ChatGPT Enterprise naudoja modelius, kurių didžiausias konteksto langas yra 128 tūkst. žetonų (maždaug 200 puslapių teksto). Tačiau ne visi žetonai naudojami tekstui iš įkeltų failų įtraukti. „Įterpiamų“ žetonų skaičius priklauso nuo naudojimo tipo.

ChatGPT Enterprise „įterpia“ tam tikrą teksto kiekį, o likęs tekstas siunčiamas į privatų paieškos indeksą („vektorinę saugyklą“, kuri yra duomenų bazės tipas, skirtas efektyviai saugoti ir gauti didelius teksto kiekius). Kai užduodate klausimą, ChatGPT Enterprise pateikia įtrauktą tekstą kartu su susijusiais fragmentais, gautais iš privataus paieškos indekso.

Jei įkeliate vieną dokumentą, ChatGPT Enterprise įtraukia tekstą nuo pradžios, kol pasiekia savo ribą. Jei įkeliate kelis dokumentus, ChatGPT Enterprise įtraukia dalį arba visą kiekvieno dokumento turinį. Visas dokumentų tekstas taip pat siunčiamas į privatų paieškos indeksą.

Konteksto įterpimas tekstiniams dokumentams

Ši funkcija yra aktyviai tobulinama. Todėl toliau pateikta informacija gali būti pakeista be išankstinio įspėjimo.

ChatGPT Enterprise gali apdoroti iki 110 tūkst. žetonų iš įkeltų dokumentų konteksto lange. Jei įkeliate vieną ar daugiau dokumentų, kurių bendras dydis yra mažesnis nei 110 tūkst. žetonų, bus įtrauktas visas turinys.

Jei vienas dokumentas viršija 110 tūkst. žetonų, bus įtraukti tik pirmieji 110 tūkst. žetonų, pradedant nuo pradžios. Likusi dalis bus siunčiama tik į privatų paieškos indeksą.

Jei įkeliami keli dokumentai ir jų bendra suma viršija 110 tūkst. žetonų, ChatGPT Enterprise naudoja dviejų etapų procesą, kad subalansuotų dokumentų reprezentavimą:

  1. Išskirkite iki 55 tūkst. žetonų, tolygiai paskirstytų tarp įkeltų dokumentų.

  1. Dokumentams, kurie pirmajame etape nėra visiškai atspindėti, paskirkite likusius 55 tūkst. žetonų proporcingai pagal kiekviename dokumente likusius žetonus.

  1. Visi likę žetonai siunčiami tik į privatų paieškos indeksą.

Žetonų skaičių tekstiniame dokumente galite įvertinti nukopijuodami dokumento tekstą į OpenAI žetonų skaidytuvą.

Konteksto įterpimas multimedijos PDF failams

Kai naudotojai įkelia PDF failus, kuriuose yra ir teksto, ir vaizdų, vaizdinė paieška leidžia ChatGPT apdoroti šiuos vaizdus natūraliai kartu su skaitmeniniu būdu išskirtu tekstu. Toliau nurodyti veiksmai papildo mūsų standartines konteksto tvarkymo procedūras multimedijos PDF failams:

  • Vaizdų išskyrimas ir įterpimas: vaizdai išskiriami ir įterpiami kartu su susijusiu skaitmeniniu tekstu.

  • Išmanusis mastelio keitimas: vaizdai automatiškai masteliuojami, kad būtų išlaikyta pusiausvyra tarp informacijos kokybės ir efektyvaus turimo konteksto lango naudojimo.

Kai įkelti PDF failai viršija 110 tūkst. žetonų ribą, ir vaizdai, ir tekstas įterpiami į privatų paieškos indeksą. Teksto įterpiniai nurodo susijusius vaizdus, todėl ChatGPT gali gauti tinkamas teksto ir vaizdo poras pagal naudotojo užklausas. Gauti vaizdai tada apdorojami naudojant natūralias ChatGPT daugiarūšes galimybes.

Tiksliai įvertinti žetonų poreikį multimedijos PDF failams yra sudėtinga. Bandymai rodo, kad maždaug 350 puslapių mišraus teksto ir vaizdų visiškai išnaudos 110 tūkst. žetonų konteksto langą.

Paieškos strategijos pagal modelio tipą

Tiek GPT serijos, tiek o serijos modeliai palaiko failų įkėlimą ir naudoja tą pačią konteksto įterpimo bei paieškos įterpinių logiką. Visi modeliai atlieka hibridines paieškas privačiame paieškos indekse, derindami raktažodžių ir semantinius metodus. Hibridinėje paieškoje modelis sugeneruoja paieškos frazę pagal naudotojo užklausą, o privatus paieškos indeksas atitinkamai pateikia susijusį tekstą ir vaizdus.

Tačiau šie modeliai skiriasi tuo, kaip jie ieško dideliuose dokumentuose, viršijančiuose konteksto langą:

GPT serijos modeliai

  • Viena paieška vienai užklausai: GPT serijos modeliai atlieka vieną paiešką pagal naudotojo užklausą.

  • Veiksmingi naudojimo atvejai: idealiai tinka atsakyti į aiškius klausimus, esančius didelės apimties dokumentacijoje.

Užklausų pavyzdžiai:

  • „Kokia yra personalo politika dėl ankstyvo išėjimo į pensiją?“

  • „Ką daro funkcija process_order?“

o serijos modeliai

  • Kelios paieškos vienai užklausai: gali atlikti kelias paieškas (paprastai 2–3) pagal vieną naudotojo užklausą, kiekvienai naudodami unikalią paieškos frazę. Paieškos atliekamos nuosekliai, o modelis gali atnaujinti savo metodą remdamasis per ankstesnes paieškas gauta informacija.

  • Veiksmingi naudojimo atvejai: labiau tinka sudėtingiems klausimams, kuriems reikia kelių tikslinių paieškų didelės apimties dokumentacijoje.

Užklausų pavyzdžiai:

  • „Kokios yra personalo politikos dėl ankstyvo išėjimo į pensiją, vaiko priežiūros atostogų ir perkėlimo į užsienį?“

  • „Paaiškinkite, ką daro funkcija process_order, išvardykite visus šios funkcijos iškviečiamus metodus ir trumpai apibūdinkite kiekvieną iškviestą metodą.“

Nepaisant savo pranašumų, o serijos modeliams gali būti sunku, kai užklausai reikia daugiau nei trijų paieškų.

Patarimai, kaip pagerinti failų paieškos rezultatus

  • Sudėtingiems klausimams, kuriems reikia kelių paieškų, pabandykite naudoti o serijos modelį.

  • Atminkite, kad atsakymai gali skirtis priklausomai nuo įkeliamų dokumentų tipo, skaičiaus ir dydžio.

  • Apskritai įkeliant mažiau, tikslingesnių dokumentų tikslumas bus didesnis.

  • Kelių klausimų temas paverskite pavieniais klausimais:

    • Jei reikia sužinoti kiekvienos valstijos personalo politiką, klauskite po vieną.

    • Jei reikia apibendrinti daug dokumentų, prašykite po vieną dokumentą. Jei tas dokumentas yra kelių šimtų puslapių, apsvarstykite galimybę suskaidyti jį į mažesnes dalis.

      • Galėtumėte paprašyti ChatGPT Enterprise parašyti „santraukų santrauką“, jei pateiktumėte kelias santraukas, o ne visus dokumentus.

    • Jei turite RFP CSV failą (kiekviena eilutė yra atskiras klausimas), užduokite tuos klausimus po vieną, užuot tiesiog įkėlę CSV ir paprašę vieno atsakymo.

  • Raskite būdų audituoti modelio atsakymus. Toliau pateikiamos GPT instrukcijų pavyzdžiai:

# Kontekstas 

Jūs puikiai suprantate dokumentus. Naudotojas pridės dokumentą ir užduos klausimą. Jam turi būti įmanoma susieti jūsų atsakymą su tikslia teksto vieta, iš kurios paėmėte atsakymą.

# Instrukcijos

1. Atsakykite į naudotojo klausimą pagal jo pridėtą dokumentą, naudodami tikslų toliau pateiktą formatą

# Formatas

- Klausimas: { pakartokite naudotojo klausimą }
- Atsakymas: { pateikite atsakymą į naudotojo klausimą }
Šaltinis:
- - Skyriaus numeris: { nurodykite skyriaus numerį, iš kurio paėmėte atsakymą }
- - Skyriaus pavadinimas: { nurodykite skyriaus pavadinimą, iš kurio paėmėte atsakymą }
- - Tikslus tekstas: { pateikite tikslų tekstą, iš kurio paėmėte atsakymą }

# Taisyklės

- Pateikite aiškius ir glaustus atsakymus
- Pateikite tik dokumente esančią informaciją
- Jei negalite rasti atsakymo dokumente, tiesiog atsakykite „Informacijos nerasta.“

Ar šis straipsnis buvo naudingas?