OpenAI
Ta strona została przetłumaczona maszynowo. Wyświetl oryginalny artykuł w języku angielskim.

Optymalizacja przesyłania plików w ChatGPT Enterprise

Dowiedz się, jak funkcje ChatGPT Enterprise obsługują pliki zależnie od ich typu, liczby i rozmiaru. Popraw wyniki zgodnie z wymaganiami plików.

Zaktualizowano: 13 days ago

ChatGPT Enterprise obsługuje teraz odczytywanie i rozumienie elementów wizualnych (obrazów, wykresów, diagramów itp.) osadzonych w plikach PDF dołączonych do poleceń. Użytkownicy mogą przesłać plik PDF, a ChatGPT może interpretować tekst oraz wszelkie elementy wizualne w tym pliku.

Szczegóły znajdziesz w artykule FAQ dotyczące Visual Retrieval z plikami PDF.

ChatGPT Enterprise umożliwia przesyłanie plików na kilka sposobów:

Ten przewodnik wyjaśnia, jak funkcje ChatGPT Enterprise obsługują pliki w zależności od ich typu, liczby i rozmiaru, oraz omawia strategie poprawy wyników w oparciu o wymagania plików.

Podsumowanie

ChatGPT Enterprise traktuje różne typy plików bardzo odmiennie: wyodrębnia tekst z dokumentów tekstowych, takich jak pliki PDF, prezentacje i pliki Word, analizuje dane strukturalne z arkuszy kalkulacyjnych przy użyciu kodu Python oraz opisuje pliki graficzne za pomocą GPT-Vision. Zrozumienie, który typ pliku uruchamia który przepływ pracy, jest kluczem do uzyskania oczekiwanego wyniku.

W przypadku dokumentów tekstowych ChatGPT Enterprise uwzględnia jak najwięcej istotnego tekstu bezpośrednio obok polecenia i korzysta z systemu wyszukiwania, aby uzyskać dostęp do dodatkowych informacji. Dobrze sprawdza się to przy odpowiadaniu na konkretne pytania. Jednak takie podejście może mieć trudności przy złożonych zadaniach, takich jak streszczanie bardzo dużych dokumentów lub porównywanie wielu dużych plików. Czytaj dalej, aby poznać strategie poprawy wyników.

Obsługa plików według typu

ChatGPT Enterprise przetwarza pliki na trzy główne sposoby: ekstrakcję tekstu, analizę kodu i interpretację obrazów. Typ pliku określa, który przepływ pracy stosuje ChatGPT Enterprise.

Odzyskiwanie tekstuInterpreter koduPrzetwarzanie obrazówVisual Retrieval
Przykłady typów plikówpptx, docx, txt, md, json, xml, pdf*
* Pliki PDF przesłane jako

GPT Knowledge
lub

Project Files
csv, xls, xlsx*
*Uwaga: Interpreter kodu może działać na dowolnym typie pliku, ale ChatGPT Enterprise najczęściej domyślnie wybiera CI dla arkuszy kalkulacyjnych
jpg, pngpdf*
* Pliki PDF dołączone do poleceń użytkownika
ZachowanieWyodrębnia tekst z pliku – część tekstu jest wklejana („upychana”) bezpośrednio do okna kontekstu; część tekstu jest przechowywana do wyszukiwaniaInterpreter kodu przekazuje plik do Pythona w celu przetworzeniaObrazy są interpretowane natywnie przez modele wielomodalne, z uwzględnieniem znanych ograniczeń.Hybryda odzyskiwania tekstu i przetwarzania obrazów. Tekst jest wyodrębniany cyfrowo, a treści wizualne są interpretowane natywnie przez modele wielomodalne.

W przypadku plików zawierających wyłącznie tekst, plików graficznych lub wyraźnie ustrukturyzowanych plików danych (np. tabeli transakcji w Excelu) te podziały odzwierciedlają najlepsze możliwe zachowanie.

Istnieją jednak pewne mniej oczywiste obszary pośrednie, na przykład:

  • Obrazy osadzone w plikach innych niż PDF nie są przetwarzane. Aby je uwzględnić, przed przesłaniem przekonwertuj plik do formatu PDF.

  • ChatGPT Enterprise zawsze użyje Interpretera kodu do pracy z arkuszami kalkulacyjnymi, nawet jeśli dokument zawiera dużą ilość tekstu. Na przykład jeśli poprosisz ChatGPT Enterprise o przetłumaczenie pliku CSV z 10 wierszami tekstu, spróbuje przetłumaczyć plik przy użyciu biblioteki Python, co jest mniej dokładne niż pozwolenie, aby model bezpośrednio wygenerował tłumaczenie. Aby temu zaradzić, spróbuj wyeksportować arkusz kalkulacyjny do formatu tekstowego (na przykład PDF).

  • Podobnie, jeśli prześlesz ustrukturyzowaną tabelę transakcji opisaną zawartą w pliku JSON, ChatGPT Enterprise zinterpretuje ten plik jako zwykły tekst. Jeśli chcesz analizować dane zawarte w pliku JSON, poinstruuj model w poleceniu, aby użył Interpretera kodu.

Obsługa plików według rozmiaru

ChatGPT Enterprise używa modeli z maksymalnym oknem kontekstu 128k tokenów (około 200 stron tekstu). Jednak nie wszystkie tokeny są wykorzystywane do uwzględnienia tekstu z przesłanych plików. Liczba „upchanych” tokenów różni się w zależności od typu użycia.

ChatGPT Enterprise „upycha” pewną ilość tekstu, a pozostały tekst jest wysyłany do prywatnego indeksu wyszukiwania („vector store”, czyli rodzaju bazy danych zaprojektowanej do wydajnego przechowywania i pobierania dużych ilości tekstu). Gdy zadasz pytanie, ChatGPT Enterprise pobiera dołączony tekst wraz z odpowiednimi fragmentami odzyskanymi z prywatnego indeksu wyszukiwania.

Jeśli prześlesz jeden dokument, ChatGPT Enterprise uwzględni tekst od początku aż do osiągnięcia limitu. Jeśli prześlesz wiele dokumentów, ChatGPT Enterprise uwzględni część lub całość każdego dokumentu. Cały tekst z dokumentów jest również wysyłany do prywatnego indeksu wyszukiwania.

Upychanie kontekstu dla dokumentów tekstowych

Ta funkcja jest aktywnie rozwijana. W związku z tym poniższe informacje mogą ulec zmianie bez powiadomienia.

ChatGPT Enterprise może przetworzyć do 110k tokenów z przesłanych dokumentów w oknie kontekstu. Jeśli prześlesz jeden lub więcej dokumentów o łącznej liczbie mniejszej niż 110k tokenów, uwzględniona zostanie pełna zawartość.

W przypadku pojedynczego dokumentu przekraczającego 110k tokenów uwzględnione zostanie tylko pierwsze 110k tokenów, zaczynając od początku. Pozostała część zostanie wysłana wyłącznie do prywatnego indeksu wyszukiwania.

Jeśli przesłano wiele dokumentów i ich łączna liczba przekracza 110k tokenów, ChatGPT Enterprise stosuje dwuetapowy proces, aby zrównoważyć reprezentację dokumentów:

  1. Wyodrębnij do 55k tokenów, podzielonych równo między przesłane dokumenty.

    • Na przykład jeśli przesłano 10 dokumentów, z początku każdego wyodrębniane jest 5,5k tokenów.

  2. Dla dokumentów, które nie zostały w pełni ujęte w pierwszym kroku, przydziel pozostałe 55k tokenów proporcjonalnie na podstawie liczby tokenów pozostałych w każdym dokumencie.

    • Na przykład jeśli w Dokumencie A pozostaje 10k tokenów, a w Dokumencie B pozostaje 90k tokenów, z Dokumentu A wyodrębniane jest dodatkowe 5,5k tokenów ( (10k / 100k) * 55k ), a z Dokumentu B dodatkowe 49,5k tokenów ( (90k / 100k) * 55k ).

  3. Wszelkie pozostałe tokeny są wysyłane wyłącznie do prywatnego indeksu wyszukiwania.

Liczbę tokenów w dokumencie tekstowym możesz oszacować, kopiując tekst dokumentu do OpenAI Tokenizer.

Upychanie kontekstu dla multimedialnych plików PDF

Gdy użytkownicy przesyłają pliki PDF zawierające zarówno tekst, jak i obrazy, Visual Retrieval umożliwia ChatGPT natywne przetwarzanie tych obrazów wraz z cyfrowo wyodrębnionym tekstem. Poniższe kroki uzupełniają nasze standardowe procedury obsługi kontekstu dla multimedialnych plików PDF:

  • Ekstrakcja i osadzanie obrazów: Obrazy są wyodrębniane i osadzane razem z powiązanym z nimi tekstem cyfrowym.

  • Inteligentne skalowanie: Obrazy są automatycznie skalowane, aby zachować równowagę między jakością informacji a efektywnym wykorzystaniem dostępnego okna kontekstu.

Gdy przesłane pliki PDF przekraczają limit 110k tokenów, zarówno obrazy, jak i tekst są osadzane w prywatnym indeksie wyszukiwania. Osadzenia tekstu odwołują się do odpowiednich obrazów, co pozwala ChatGPT pobierać właściwe pary tekst-obraz na podstawie zapytań użytkownika. Pobrane obrazy są następnie przetwarzane przy użyciu natywnych możliwości wielomodalnych ChatGPT.

Dokładne oszacowanie wymagań dotyczących tokenów dla multimedialnych plików PDF jest trudne. Testy sugerują, że około 350 stron mieszanej treści tekstowej i graficznej w pełni wykorzysta okno kontekstu 110k tokenów.

Strategie wyszukiwania zależne od typu modelu

Zarówno modele serii GPT, jak i serii o obsługują przesyłanie plików i wykorzystują identyczną logikę upychania kontekstu oraz osadzania do wyszukiwania. Wszystkie modele wykonują wyszukiwanie hybrydowe względem prywatnego indeksu wyszukiwania, łącząc metody słów kluczowych i semantyczne. W wyszukiwaniu hybrydowym model generuje frazę wyszukiwania na podstawie polecenia użytkownika, a prywatny indeks wyszukiwania odpowiednio pobiera trafny tekst i obrazy.

Modele te różnią się jednak sposobem przeszukiwania dużych dokumentów, które przekraczają okno kontekstu:

Modele serii GPT

  • Jedno wyszukiwanie na polecenie: Modele serii GPT wykonują jedno wyszukiwanie na każde polecenie użytkownika.

  • Skuteczne zastosowania: Idealne do odpowiadania na proste pytania osadzone w obszernej dokumentacji.

Przykładowe zapytania:

  • „Jaka jest polityka HR dotycząca wcześniejszej emerytury?”

  • „Co robi funkcja process_order?”

Modele serii o

  • Wiele wyszukiwań na polecenie: Mogą wykonywać wiele wyszukiwań (zwykle 2–3) na każde polecenie użytkownika, każde z unikalną frazą wyszukiwania. Wyszukiwania są wykonywane sekwencyjnie, a model może aktualizować swoje podejście na podstawie informacji uzyskanych we wcześniejszych wyszukiwaniach.

  • Skuteczne zastosowania: Lepiej nadają się do złożonych pytań wymagających wielu ukierunkowanych wyszukiwań w obszernej dokumentacji.

Przykładowe zapytania:

  • „Jakie są polityki HR dotyczące wcześniejszej emerytury, urlopu rodzicielskiego i przeniesienia za granicę?”

  • „Wyjaśnij, co robi funkcja process_order, wypisz wszystkie metody wywoływane przez tę funkcję i krótko opisz każdą wywoływaną metodę.”

Mimo swoich zalet modele serii o mogą mieć trudności, gdy zapytanie wymaga więcej niż trzech wyszukiwań.

Wskazówki dotyczące poprawy wyników wyszukiwania w plikach

  • W przypadku złożonych pytań wymagających wielu wyszukiwań spróbuj użyć modelu serii o.

  • Pamiętaj, że odpowiedzi mogą się różnić w zależności od typu, liczby i rozmiaru przesyłanych dokumentów.

  • Ogólnie rzecz biorąc, wczytanie mniejszej liczby skoncentrowanych dokumentów zapewni większą dokładność.

  • Zamieniaj tematy wielopytaniowe na pojedyncze pytania:

    • Jeśli chcesz poznać polityki HR każdego stanu, pytaj o nie po kolei.

    • Jeśli chcesz streścić wiele dokumentów, proś o jeden dokument naraz. Jeśli ten dokument ma wiele setek stron, rozważ podzielenie go na mniejsze części.

      • Możesz poprosić ChatGPT Enterprise o napisanie „streszczenia streszczeń”, jeśli przekażesz mu wiele streszczeń zamiast całych dokumentów.

    • Jeśli masz plik CSV z RFP (każdy wiersz to inne pytanie), zadawaj te pytania jedno po drugim zamiast po prostu wczytywać plik CSV i prosić o jedną odpowiedź.

  • Znajdź sposoby audytowania odpowiedzi modelu. Przykładowe instrukcje GPT znajdują się poniżej:

# Kontekst 

Jesteś ekspertem w rozumieniu dokumentów. Użytkownik dołączy dokument i zada pytanie. Musi mieć możliwość powiązania Twojej odpowiedzi z dokładnym fragmentem tekstu, z którego pochodzi odpowiedź.

# Instrukcje

1. Odpowiedz na pytanie użytkownika na podstawie dołączonego dokumentu, używając dokładnie poniższego formatu

# Format

- Pytanie: { powtórz pytanie użytkownika }
- Odpowiedź: { udziel odpowiedzi na pytanie użytkownika }
Źródło:
- - Numer sekcji: { podaj numer sekcji, z której pochodzi odpowiedź }
- - Tytuł sekcji: { podaj tytuł sekcji, z której pochodzi odpowiedź }
- - Dokładny tekst: { podaj dokładny tekst, z którego pochodzi odpowiedź }

# Zasady

- Udzielaj odpowiedzi jasnych i zwięzłych
- Podawaj wyłącznie informacje zawarte w dokumencie
- Jeśli nie możesz znaleźć odpowiedzi w dokumencie, po prostu odpowiedz „Nie znaleziono informacji.”

Czy ten artykuł był pomocny?