OpenAI
Denne siden ble maskinoversatt. Se den opprinnelige engelske artikkelen.

Optimalisering av filopplastinger i ChatGPT Enterprise

Forstå hvordan funksjonene i ChatGPT Enterprise håndterer filer basert på type, antall og størrelse. Forbedre svar basert på filkrav.

Oppdatert: 3 hours ago

ChatGPT Enterprise støtter nå lesing og forståelse av visuelle elementer (bilder, grafer, diagrammer osv.) innebygd i PDF-filer som er inkludert i prompter. Brukere kan laste opp en PDF, og ChatGPT kan tolke teksten og alle visuelle elementer i filen.

Du finner mer informasjon i Vanlige spørsmål om visuell henting med PDF-er.

ChatGPT Enterprise lar deg laste opp filer på flere måter:

Denne veiledningen forklarer hvordan funksjonene i ChatGPT Enterprise håndterer filer basert på type, antall og størrelse, og drøfter strategier for å forbedre svar basert på filkrav.

Sammendrag

ChatGPT Enterprise behandler ulike filtyper svært forskjellig: trekker ut tekst fra tekstdokumenter som PDF-er, presentasjoner og Word-filer, analyserer strukturerte data fra regneark ved hjelp av Python-kode, og beskriver bildefiler gjennom GPT-Vision. Å forstå hvilken filtype som utløser hvilken arbeidsflyt, er nøkkelen til å få det forventede resultatet.

For tekstbaserte dokumenter inkluderer ChatGPT Enterprise så mye relevant tekst som mulig direkte sammen med prompten og bruker et søkesystem for å få tilgang til tilleggsinformasjon. Dette fungerer godt for å svare på konkrete spørsmål. Denne tilnærmingen kan imidlertid ha problemer med komplekse oppgaver som å oppsummere svært store dokumenter eller sammenligne flere store filer. Les videre for å forstå strategier for å forbedre resultatene dine.

Håndtering av filer basert på type

ChatGPT Enterprise behandler filer på tre hovedmåter: tekstuttrekk, kodeanalyse og bildetolkning. Filtypen avgjør hvilken arbeidsflyt ChatGPT Enterprise følger.

Tekstbasert hentingKodetolkerBildebehandlingVisuell henting
Eksempler på filtyperpptx, docx, txt, md, json, xml, pdf*
* PDF-er lastet opp som

GPT Knowledge
eller

prosjektfiler
csv, xls, xlsx*
*Merk: Kodetolker kan brukes på alle filtyper, men ChatGPT Enterprise bruker oftest standardmessig KI for regneark
jpg, pngpdf*
* PDF-er inkludert i brukerprompter
AtferdTrekker ut teksten fra filen – noe av teksten limes direkte inn i kontekstvinduet («stuffed»); noe tekst lagres for søkKodetolker sender filen til Python for behandlingBilder tolkes direkte av multimodale modeller, med forbehold om

kjente begrensninger
.
En hybrid av teksthenting og bildebehandling. Tekst trekkes ut digitalt, og visuelt innhold tolkes direkte av multimodale modeller.

For rene tekstfiler, bildefiler eller tydelig strukturerte datafiler (f.eks. en Excel-tabell med transaksjoner), representerer disse inndelingene best mulig atferd.

Det finnes noen gråsoner som er mindre åpenbare, for eksempel:

  • Bilder som er innebygd i andre filer enn PDF-er, behandles ikke. For å inkludere dem må du konvertere filen til en PDF før opplasting.

  • ChatGPT Enterprise vil alltid bruke Kodetolker for å samhandle med regneark, selv om dokumentet inneholder store mengder tekst. Hvis du for eksempel ber ChatGPT Enterprise om å oversette en CSV-fil med 10 tekstlinjer, vil det forsøke å oversette filen ved hjelp av et Python-bibliotek, som er mindre nøyaktig enn å la modellen generere en oversettelse direkte. For å redusere dette kan du prøve å eksportere regnearket til et tekstbasert format (for eksempel PDF).

  • Tilsvarende vil ChatGPT Enterprise tolke en strukturert transaksjonstabell som er beskrevet i en JSON-fil, som ren tekst. Hvis du vil analysere dataene i en JSON-fil, kan du instruere modellen i prompten om å bruke Kodetolker.

Håndtering av filer basert på størrelse

ChatGPT Enterprise bruker modeller med et maksimalt kontekstvindu på 128k token (omtrent 200 sider tekst). Det er imidlertid ikke alle tokenene som brukes til å innarbeide teksten fra opplastede filer. Antallet «stuffed» token varierer etter brukstype.

ChatGPT Enterprise «stuffer» en viss mengde tekst, og den resterende teksten sendes til en privat søkeindeks («vector store»), som er en type database utviklet for å lagre og hente store mengder tekst effektivt. Når du stiller et spørsmål, henter ChatGPT Enterprise inn den inkluderte teksten sammen med relevante biter hentet fra en privat søkeindeks.

Hvis du laster opp ett enkelt dokument, inkluderer ChatGPT Enterprise tekst fra begynnelsen til det når grensen sin. Hvis du laster opp flere dokumenter, inkluderer ChatGPT Enterprise noe eller alt av hvert dokument. All tekst fra dokumentene sendes også til en privat søkeindeks.

Kontekst-stuffing for tekstdokumenter

Denne funksjonen er under aktiv utvikling. Derfor kan detaljene nedenfor endres uten varsel.

ChatGPT Enterprise kan behandle opptil 110k token fra opplastede dokumenter i kontekstvinduet. Hvis du laster opp ett eller flere dokumenter med et samlet antall på mindre enn 110k token, inkluderes hele innholdet.

For et enkelt dokument som overstiger 110k token, inkluderes bare de første 110k tokenene, fra begynnelsen. Resten sendes bare til den private søkeindeksen.

Hvis flere dokumenter lastes opp og det samlede antallet overstiger 110k token, bruker ChatGPT Enterprise en totrinnsprosess for å balansere dokumentrepresentasjonen:

  1. Trekk ut opptil 55k token, fordelt jevnt mellom de opplastede dokumentene.

    • Hvis det for eksempel lastes opp 10 dokumenter, trekkes 5,5k token ut fra begynnelsen av hvert.

  2. For dokumenter som ikke er fullt representert i det første trinnet, fordeles de resterende 55k tokenene proporsjonalt basert på tokenene som gjenstår i hvert dokument.

    • Hvis dokument A for eksempel har 10k token igjen og dokument B har 90k token igjen, trekkes ytterligere 5,5k token ut fra dokument A ( (10k / 100k) * 55k ), og ytterligere 49,5k token trekkes ut fra dokument B ( (90k / 100k) * 55k ).

  3. Eventuelle gjenværende token sendes bare til den private søkeindeksen.

Du kan anslå antall token i et tekstdokument ved å kopiere dokumentets tekst inn i OpenAI Tokenizer.

Kontekst-stuffing for multimediale PDF-er

Når brukere laster opp PDF-er som inneholder både tekst og bilder, gjør Visuell henting det mulig for ChatGPT å behandle disse bildene direkte sammen med digitalt uttrukket tekst. Følgende trinn supplerer våre standardprosedyrer for konteksthåndtering for multimediale PDF-er:

  • Bildeuttrekk og innebygging: Bilder trekkes ut og bygges inn sammen med den tilknyttede digitale teksten.

  • Intelligent skalering: Bilder skaleres automatisk for å opprettholde en balanse mellom informasjonskvalitet og effektiv bruk av det tilgjengelige kontekstvinduet.

Når opplastede PDF-er overskrider grensen på 110k token, bygges både bilder og tekst inn i den private søkeindeksen. Tekstinnbygginger refererer til relevante bilder, slik at ChatGPT kan hente de riktige tekst-bilde-parene basert på brukerforespørsler. Hentede bilder behandles deretter ved hjelp av ChatGPTs opprinnelige multimodale egenskaper.

Det er vanskelig å anslå tokenbehovet nøyaktig for multimediale PDF-er. Testing tyder på at omtrent 350 sider med blandet tekst og bilder vil utnytte kontekstvinduet på 110k token fullt ut.

Søkestrategier basert på modelltype

Både GPT-serie- og o-serie-modeller støtter filopplastinger og bruker identisk logikk for kontekst-stuffing og søkeinnbygging. Alle modeller utfører hybridsøk mot en privat søkeindeks, der nøkkelordbaserte og semantiske metoder kombineres. I et hybridsøk genererer modellen en søkefrase basert på brukerens prompt, og den private søkeindeksen henter deretter relevant tekst og relevante bilder.

Disse modellene skiller seg imidlertid i hvordan de søker gjennom store dokumenter som overskrider kontekstvinduet:

GPT-serie-modeller

  • Ett søk per prompt: GPT-serie-modeller utfører ett søk per brukerprompt.

  • Effektive bruksområder: Ideelt for å svare på enkle spørsmål som er innebygd i omfattende dokumentasjon.

Eksempelspørringer:

  • «Hva er HR-policyen for tidlig pensjonering?»

  • «Hva gjør funksjonen process_order

o-serie-modeller

  • Flere søk per prompt: Kan utføre flere søk (vanligvis 2–3) per brukerprompt, hver med en unik søkefrase. Søk utføres sekvensielt, og modellen kan oppdatere tilnærmingen sin basert på informasjon hentet i tidligere søk.

  • Effektive bruksområder: Mer egnet for komplekse spørsmål som krever flere målrettede søk på tvers av omfattende dokumentasjon.

Eksempelspørringer:

  • «Hva er HR-policyene for tidlig pensjonering, foreldrepermisjon og utenlandsflytting?»

  • «Forklar hva funksjonen process_order gjør, oppgi alle metoder som kalles av denne funksjonen, og beskriv kort hver metode som kalles.»

Til tross for styrkene sine kan o-serie-modeller ha problemer når en spørring krever mer enn tre søk.

Tips for å forbedre resultater fra filsøk

  • Prøv å bruke en o-serie-modell for komplekse spørsmål som krever flere søk.

  • Husk at svarene kan variere avhengig av type, antall og størrelse på dokumentene du laster opp.

  • Generelt vil det å laste inn færre, fokuserte dokumenter gi høyere nøyaktighet.

  • Gjør temaer med flere spørsmål om til enkeltspørsmål:

    • Hvis du trenger å kjenne HR-policyene for hver delstat, spør om dem én om gangen.

    • Hvis du trenger å oppsummere mange dokumenter, be om ett dokument om gangen. Hvis dokumentet er mange hundre sider langt, bør du vurdere å dele det opp i mindre deler.

      • Du kan be ChatGPT Enterprise om å skrive et «sammendrag av sammendrag» hvis du ga det flere sammendrag i stedet for hele dokumenter.

    • Hvis du har en CSV-fil med en RFP (hver linje er et annet spørsmål), still spørsmålene ett om gangen i stedet for bare å laste inn CSV-filen og be om ett enkelt svar.

  • Finn måter å revidere modellens svar på. Eksempelinstruksjoner for GPT er nedenfor:

# Kontekst 

Du er ekspert på å forstå dokumenter. Brukeren kommer til å legge ved et dokument og stille et spørsmål. De må kunne knytte svaret ditt tilbake til den nøyaktige delen av teksten der du hentet svaret fra.

# Instruksjoner

1. Svar på brukerens spørsmål basert på det vedlagte dokumentet ved å bruke nøyaktig formatet nedenfor

# Format

- Spørsmål: { gjenta brukerens spørsmål }
- Svar: { gi et svar på brukerens spørsmål }
Kilde:
- - Seksjonsnummer: { oppgi seksjonsnummeret der du hentet svaret }
- - Seksjonstittel: { oppgi seksjonstittelen der du hentet svaret }
- - Nøyaktig tekst: { oppgi den nøyaktige teksten der du hentet svaret fra }

# Regler

- Gi svar som er tydelige og konsise
- Oppgi bare informasjon som finnes i dokumentet
- Hvis du ikke finner svaret i dokumentet, svar ganske enkelt «Ingen informasjon funnet.»

Var denne artikkelen nyttig?