ChatGPT Enterprise støtter nå lesing og forståelse av visuelt innhold (bilder, grafer, diagrammer osv.) som er innebygd i PDF-filer som er inkludert i prompter. Brukere kan laste opp en PDF, og ChatGPT kan tolke teksten og eventuelle visuelle elementer i den filen.
Se Vanlige spørsmål om visuelt søk med PDF-er. for mer informasjon.
ChatGPT Enterprise lar deg laste opp filer på flere måter:
Direkte fra datamaskinen din
Som GPT Knowledge
Som en prosjektfil
Fra en GPT Action
Denne veiledningen forklarer hvordan funksjoner i ChatGPT Enterprise håndterer filer basert på type, antall og størrelse, og beskriver strategier for å forbedre resultater basert på filkrav.
Sammendrag
ChatGPT Enterprise behandler ulike filtyper svært forskjellig: trekker ut tekst fra tekstdokumenter som PDF-er, presentasjoner og Word-filer, analyserer strukturerte data fra regneark ved hjelp av Python-kode og beskriver bildefiler gjennom GPT-Vision. Å forstå hvilken filtype som utløser hvilken arbeidsflyt, er nøkkelen til å få det forventede resultatet.
For tekstbaserte dokumenter inkluderer ChatGPT Enterprise så mye relevant tekst som mulig direkte sammen med prompten og bruker et søkesystem for å få tilgang til tilleggsinformasjon. Dette fungerer godt for å svare på spesifikke spørsmål. Denne tilnærmingen kan imidlertid få problemer med komplekse oppgaver, som å oppsummere svært store dokumenter eller sammenligne flere store filer. Les videre for å forstå strategier for å forbedre resultatene dine.
Håndtering av filer basert på type
ChatGPT Enterprise behandler filer på tre hovedmåter: tekstuttrekk, kodeanalyse og bildetolkning. Filtypen avgjør hvilken arbeidsflyt ChatGPT Enterprise følger.
| Tekstbasert henting | Kodetolker | Bildebehandling | Visuelt søk | |
|---|---|---|---|---|
| Eksempler på filtyper | pptx, docx, txt, md, json, xml, pdf* * PDF-er lastet opp som GPT Knowledge eller prosjektfiler | csv, xls, xlsx* *Merk: Kodetolker kan arbeide med alle filtyper, men ChatGPT Enterprise bruker som oftest CI som standard for regneark | jpg, png | pdf* * PDF-er inkludert i brukerprompter |
| Atferd | Trekker ut teksten fra filen – noe av teksten limes («fylles») direkte inn i kontekstvinduet; noe tekst lagres for søk | Kodetolker sender filen til Python for behandling | Bilder tolkes direkte av multimodale modeller, med forbehold om kjente begrensninger . | En hybrid av teksthenting og bildebehandling. Tekst trekkes ut digitalt, og visuelt innhold tolkes direkte av multimodale modeller. |
For filer med bare tekst, bildefiler eller klart strukturerte datafiler (f.eks. en Excel-tabell med transaksjoner) representerer disse inndelingene best mulig atferd.
Det finnes noen gråsoner som er mindre åpenbare, for eksempel:
Bilder som er innebygd i andre filer enn PDF-er, behandles ikke. For å inkludere dem kan du konvertere filen til en PDF før opplasting.
ChatGPT Enterprise vil alltid bruke Kodetolker til å samhandle med regneark, selv om dokumentet inneholder mye tekst. Hvis du for eksempel ber ChatGPT Enterprise om å oversette en CSV-fil med 10 rader tekst, vil den forsøke å oversette filen ved hjelp av et Python-bibliotek, noe som er mindre nøyaktig enn å la modellen generere en oversettelse direkte. For å redusere dette kan du prøve å eksportere regnearket til et tekstbasert format (for eksempel PDF).
På samme måte, hvis du laster opp en strukturert transaksjonstabell i en JSON-fil, vil ChatGPT Enterprise tolke denne filen som ren tekst. Hvis du vil analysere dataene i en JSON-fil, må du be modellen bruke Kodetolker i prompten din.
Håndtering av filer basert på størrelse
ChatGPT Enterprise bruker modeller med et maksimalt kontekstvindu på 128k token (omtrent 200 sider med tekst). Det er imidlertid ikke alle token som brukes til å innlemme teksten fra opplastede filer. Antallet «innfylte» token varierer etter brukstype.
ChatGPT Enterprise «fyller inn» en viss mengde tekst, og den gjenværende teksten sendes til en privat søkeindeks (et «vektorlager», som er en type database utviklet for å lagre og hente store mengder tekst effektivt). Når du stiller et spørsmål, henter ChatGPT Enterprise inn den inkluderte teksten sammen med relevante utdrag hentet fra en privat søkeindeks.
Hvis du laster opp ett enkelt dokument, inkluderer ChatGPT Enterprise tekst fra begynnelsen til grensen er nådd. Hvis du laster opp flere dokumenter, inkluderer ChatGPT Enterprise noe eller alt av hvert dokument. All tekst fra dokumentene sendes også til en privat søkeindeks.
Kontekstfylling for tekstdokumenter
Denne funksjonen er under aktiv utvikling. Derfor kan detaljene nedenfor endres uten varsel.
ChatGPT Enterprise kan behandle opptil 110k token fra opplastede dokumenter i kontekstvinduet. Hvis du laster opp ett eller flere dokumenter med totalt mindre enn 110k token, blir hele innholdet inkludert.
For ett enkelt dokument som overstiger 110k token, blir bare de første 110k token inkludert, fra begynnelsen. Resten sendes bare til den private søkeindeksen.
Hvis flere dokumenter lastes opp og den samlede totalen overstiger 110k token, bruker ChatGPT Enterprise en totrinnsprosess for å balansere dokumentrepresentasjonen:
Trekk ut opptil 55k token, fordelt jevnt mellom de opplastede dokumentene.
For dokumenter som ikke er fullt representert i første trinn, fordeles de gjenværende 55k token proporsjonalt basert på token som gjenstår i hvert dokument.
Eventuelle gjenværende token sendes bare til den private søkeindeksen.
Du kan anslå antall token i et tekstdokument ved å kopiere dokumentets tekst inn i OpenAI Tokenizer.
Kontekstfylling for multimedie-PDF-er
Når brukere laster opp PDF-er som inneholder både tekst og bilder, gjør Visuelt søk det mulig for ChatGPT å behandle disse bildene direkte sammen med digitalt ekstrahert tekst. Følgende trinn supplerer standardprosedyrene våre for konteksthåndtering av multimedie-PDF-er:
Bildeuttrekk og embedding: Bilder trekkes ut og embeddes sammen med tilhørende digital tekst.
Intelligent skalering: Bilder skaleres automatisk for å opprettholde en balanse mellom informasjonskvalitet og effektiv bruk av det tilgjengelige kontekstvinduet.
Når opplastede PDF-er overskrider grensen på 110k token, embeddes både bilder og tekst i den private søkeindeksen. Tekst-embeddings refererer til relevante bilder, slik at ChatGPT kan hente de riktige tekst-bilde-parene basert på brukerspørringer. Hentede bilder behandles deretter ved hjelp av ChatGPTs innebygde multimodale funksjoner.
Det er utfordrende å anslå tokenbehov nøyaktig for multimedie-PDF-er. Testing tyder på at omtrent 350 sider med blandet tekst og bilder vil bruke hele kontekstvinduet på 110k token.
Søkestrategier basert på modelltype
Både modeller i GPT-serien og o-serien støtter filopplastinger og bruker identisk logikk for kontekstfylling og søke-embeddings. Alle modeller utfører hybridsøk mot en privat søkeindeks, som kombinerer nøkkelordbaserte og semantiske metoder. I et hybridsøk genererer modellen en søkefrase basert på brukerens prompt, og den private søkeindeksen henter relevant tekst og relevante bilder deretter.
Disse modellene skiller seg imidlertid fra hverandre i hvordan de søker gjennom store dokumenter som overskrider kontekstvinduet:
modeller i GPT-serien
Ett søk per prompt: Modeller i GPT-serien utfører ett søk per brukerprompt.
Effektive bruksområder: Ideelt for å svare på enkle spørsmål som er innebygd i omfattende dokumentasjon.
Eksempelspørringer:
«Hva er HR-retningslinjen for tidlig pensjonering?»
«Hva gjør funksjonen
process_order?»
modeller i o-serien
Flere søk per prompt: Kan utføre flere søk (vanligvis 2–3) per brukerprompt, hvert med en unik søkefrase. Søk utføres sekvensielt, og modellen kan oppdatere tilnærmingen sin basert på informasjon hentet i tidligere søk.
Effektive bruksområder: Mer egnet for komplekse spørsmål som krever flere målrettede søk på tvers av omfattende dokumentasjon.
Eksempelspørringer:
«Hva er HR-retningslinjene for tidlig pensjonering, foreldrepermisjon og overføring til utlandet?»
«Forklar hva funksjonen
process_ordergjør, list opp alle metodene som kalles av denne funksjonen, og beskriv kort hver metode som kalles.»
Til tross for styrkene sine kan modeller i o-serien få problemer når en spørring krever mer enn tre søk.
Tips for å forbedre filsøkeresultater
Prøv å bruke en modell i o-serien for komplekse spørsmål som krever flere søk.
Husk at svar kan variere avhengig av typen, antallet og størrelsen på dokumentene du laster opp.
Generelt vil færre, fokuserte dokumenter gi høyere nøyaktighet.
Gjør emner med flere spørsmål om til enkeltspørsmål:
Hvis du trenger å vite HR-retningslinjene for alle delstater, kan du spørre om dem én etter én.
Hvis du trenger å oppsummere mange dokumenter, kan du be om ett dokument om gangen. Hvis dokumentet er mange hundre sider langt, bør du vurdere å dele det opp i mindre deler.
Du kan be ChatGPT Enterprise om å skrive en «oppsummering av oppsummeringer» hvis du mater den med flere oppsummeringer i stedet for hele dokumenter.
Hvis du har en CSV-fil for en RFP (der hver linje er et annet spørsmål), bør du stille spørsmålene ett etter ett i stedet for bare å laste inn CSV-filen og be om ett enkelt svar.
Finn måter å revidere modellens svar på. Eksempel på GPT-instruksjoner følger nedenfor:
# Kontekst
Du er ekspert på å forstå dokumenter. Brukeren kommer til å legge ved et dokument og stille et spørsmål. De må kunne knytte svaret ditt tilbake til den nøyaktige delen av teksten der du hentet svaret fra.
# Instruksjoner
1. Svar på brukerens spørsmål basert på det vedlagte dokumentet ved å bruke nøyaktig formatet nedenfor
# Format
- Spørsmål: { gjenta brukerens spørsmål }
- Svar: { gi et svar på brukerens spørsmål }
Kilde:
- - Seksjonsnummer: { oppgi seksjonsnummeret der du hentet svaret }
- - Seksjonstittel: { oppgi seksjonstittelen der du hentet svaret }
- - Nøyaktig tekst: { oppgi den nøyaktige teksten der du hentet svaret fra }
# Regler
- Gi svar som er tydelige og konsise
- Oppgi bare informasjon som finnes i dokumentet
- Hvis du ikke finner svaret i dokumentet, svar ganske enkelt «Ingen informasjon funnet.»