OpenAI
Тази страница е машинно преведена. Вижте оригиналната статия на английски език.

Оптимизиране на качването на файлове в ChatGPT Enterprise

Разберете как функциите на ChatGPT Enterprise обработват файловете според техния тип, брой и размер. Подобрете резултатите според изискванията към файловете.

Актуализирано: 3 hours ago

ChatGPT Enterprise вече поддържа четене и разбиране на визуални елементи (изображения, графики, диаграми и др.), вградени в PDF файлове, включени в подканите. Потребителите могат да качат PDF файл и ChatGPT може да интерпретира текста и всички визуални елементи в този файл.

За подробности вижте ЧЗВ за Visual Retrieval with PDFs.

ChatGPT Enterprise ви позволява да качвате файлове по няколко начина:

Това ръководство обяснява как функциите на ChatGPT Enterprise обработват файловете според техния тип, брой и размер и разглежда стратегии за подобряване на резултатите според изискванията към файловете.

Обобщение

ChatGPT Enterprise третира различните типове файлове много различно: извлича текст от текстови документи като PDF файлове, презентации и Word файлове, анализира структурирани данни от електронни таблици с Python код и описва файлове с изображения чрез GPT-Vision. Разбирането кой тип файл задейства кой работен процес е ключово за получаване на очаквания резултат.

За текстови документи ChatGPT Enterprise включва възможно най-много релевантен текст директно заедно с подканата и използва система за търсене за достъп до допълнителна информация. Това работи добре за отговаряне на конкретни въпроси. Този подход обаче може да срещне трудности при сложни задачи като обобщаване на много големи документи или сравняване на множество големи файлове. Прочетете нататък, за да разберете стратегии за подобряване на резултатите си.

Обработка на файлове според типа

ChatGPT Enterprise обработва файловете по три основни начина: извличане на текст, анализ с код и интерпретация на изображения. Типът файл определя кой работен процес следва ChatGPT Enterprise.

Извличане на текстИнтерпретатор на кодовеОбработка на изображенияВизуално извличане
Примери за типове файловеpptx, docx, txt, md, json, xml, pdf*
* PDF файлове, качени като

знание за GPT
или

файлове на проект
csv, xls, xlsx*
*Забележка: Интерпретатор на кодове може да работи с всеки тип файл, но ChatGPT Enterprise най-често по подразбиране използва CI за електронни таблици
jpg, pngpdf*
* PDF файлове, включени в подканите на потребителя
ПоведениеИзвлича текста от файла – част от текста се поставя („вмъква“) директно в прозореца на контекста; част от текста се съхранява за търсенеИнтерпретатор на кодове предава файла на Python за обработкаИзображенията се интерпретират директно от мултимодални модели, в рамките на

известните ограничения
.
Хибрид от извличане на текст и обработка на изображения. Текстът се извлича цифрово, а визуалното съдържание се интерпретира директно от мултимодални модели.

За файлове само с текст, файлове с изображения или ясно структурирани файлове с данни (напр. таблица в Excel с транзакции), тези разграничения представляват възможно най-доброто поведение.

Има и някои по-неясни случаи, например:

  • Изображения, вградени във файлове, различни от PDF, не се обработват. За да ги включите, преобразувайте файла в PDF преди качване.

  • ChatGPT Enterprise винаги ще използва Интерпретатор на кодове за работа с електронни таблици, дори ако документът съдържа голямо количество текст. Например, ако помолите ChatGPT Enterprise да преведе CSV файл с 10 реда текст, той ще се опита да преведе файла с помощта на библиотека на Python, което е по-малко точно, отколкото ако позволите на модела директно да генерира превод. За да намалите този проблем, опитайте да експортирате електронната таблица в текстов формат (например PDF).

  • По подобен начин, ако качите структурирана таблица с транзакции, описана в JSON файл, ChatGPT Enterprise ще интерпретира този файл като обикновен текст. Ако искате да анализирате данните, съдържащи се в JSON файл, инструктирайте модела да използва Интерпретатор на кодове в подканата си.

Обработка на файлове според размера

ChatGPT Enterprise използва модели с максимален контекстен прозорец от 128k токена (приблизително 200 страници текст). Не всички токени обаче се използват за включване на текста от качените файлове. Броят на „вмъкнатите“ токени варира според типа употреба.

ChatGPT Enterprise „вмъква“ определено количество текст, а оставащият текст се изпраща към частен индекс за търсене („vector store“, вид база данни, предназначена за ефективно съхраняване и извличане на големи количества текст). Когато зададете въпрос, ChatGPT Enterprise добавя включения текст заедно с релевантни фрагменти, извлечени от частния индекс за търсене.

Ако качите един документ, ChatGPT Enterprise включва текст, започвайки от началото, докато достигне лимита си. Ако качите няколко документа, ChatGPT Enterprise включва част или целия текст от всеки документ. Целият текст от документите също се изпраща към частен индекс за търсене.

Вмъкване в контекста за текстови документи

Тази функция е в процес на активно разработване. Поради това следните подробности подлежат на промяна без предизвестие.

ChatGPT Enterprise може да обработва до 110k токена от качени документи в контекстния прозорец. Ако качите един или повече документи с общо по-малко от 110k токена, ще бъде включено цялото съдържание.

За единичен документ, който надвишава 110k токена, ще бъдат включени само първите 110k токена, започвайки от началото. Останалата част ще бъде изпратена само към частния индекс за търсене.

Ако са качени няколко документа и общият им брой надвишава 110k токена, ChatGPT Enterprise използва двустепенен процес, за да балансира представянето на документите:

  1. Извлечете до 55k токена, разпределени равномерно между качените документи.

    • Например, ако са качени 10 документа, от началото на всеки се извличат по 5.5k токена.

  2. За документи, които не са напълно представени в първата стъпка, разпределете оставащите 55k токена пропорционално според оставащите токени във всеки документ.

    • Например, ако Документ A има 10k оставащи токена, а Документ B има 90k оставащи токена, се извличат допълнителни 5.5k токена от Документ A ( (10k / 100k) * 55k ) и допълнителни 49.5k токена от Документ B ( (90k / 100k) * 55k ).

  3. Всички оставащи токени се изпращат само към частния индекс за търсене.

Можете да прецените броя токени в текстов документ, като копирате текста на документа в OpenAI Tokenizer.

Вмъкване в контекста за мултимедийни PDF файлове

Когато потребителите качват PDF файлове, съдържащи и текст, и изображения, Visual Retrieval позволява на ChatGPT да обработва тези изображения директно заедно с цифрово извлечения текст. Следните стъпки допълват стандартните ни процедури за обработка на контекста за мултимедийни PDF файлове:

  • Извличане и вграждане на изображения: Изображенията се извличат и вграждат заедно със свързания с тях цифров текст.

  • Интелигентно мащабиране: Изображенията автоматично се мащабират, за да се поддържа баланс между качеството на информацията и ефективното използване на наличния контекстен прозорец.

Когато качените PDF файлове надвишават лимита от 110k токена, и изображенията, и текстът се вграждат в частния индекс за търсене. Текстовите embedding-и препращат към релевантни изображения, което позволява на ChatGPT да извлича подходящите двойки текст-изображение според потребителските заявки. След това извлечените изображения се обработват чрез вградените мултимодални възможности на ChatGPT.

Точното оценяване на нуждите от токени за мултимедийни PDF файлове е предизвикателство. Тестовете показват, че приблизително 350 страници със смесен текст и изображения ще използват изцяло контекстния прозорец от 110k токена.

Стратегии за търсене според типа модел

И моделите от серията GPT, и моделите от серията o поддържат качване на файлове и използват еднаква логика за вмъкване в контекста и за embedding при търсене. Всички модели изпълняват хибридни търсения спрямо частен индекс за търсене, като комбинират ключови думи и семантични методи. При хибридно търсене моделът генерира фраза за търсене въз основа на подканата на потребителя, а частният индекс за търсене извлича съответните текстове и изображения.

Тези модели обаче се различават по начина, по който търсят в големи документи, които надвишават контекстния прозорец:

Модели от серията GPT

  • Едно търсене на подкана: Моделите от серията GPT извършват едно търсене за всяка подкана на потребителя.

  • Ефективни случаи на употреба: Идеални са за отговаряне на директни въпроси, вложени в обширна документация.

Примерни заявки:

  • „Каква е HR политиката за ранно пенсиониране?“

  • „Какво прави функцията process_order?“

Модели от серията o

  • Множество търсения на подкана: Могат да изпълняват множество търсения (обикновено 2–3) за всяка подкана на потребителя, всяко с уникална фраза за търсене. Търсенията се изпълняват последователно и моделът може да актуализира подхода си според информацията, извлечена при предишни търсения.

  • Ефективни случаи на употреба: По-подходящи са за сложни въпроси, изискващи множество целеви търсения в обширна документация.

Примерни заявки:

  • „Какви са HR политиките за ранно пенсиониране, родителски отпуск и преместване в чужбина?“

  • „Обясни какво прави функцията process_order, изброи всички методи, извиквани от тази функция, и опиши накратко всеки извикан метод.“

Въпреки силните си страни, моделите от серията o може да срещнат трудности, когато дадена заявка изисква повече от три търсения.

Съвети за подобряване на резултатите от търсенето във файлове

  • Опитайте да използвате модел от серията o за сложни въпроси, изискващи множество търсения.

  • Имайте предвид, че отговорите може да варират според типа, броя и размера на документите, които качвате.

  • Като цяло, зареждането на по-малко и по-фокусирани документи води до по-висока точност.

  • Превърнете темите с много въпроси в единични въпроси:

    • Ако трябва да знаете HR политиките на всеки щат, задавайте ги една по една.

    • Ако трябва да обобщите много документи, искайте по един документ наведнъж. Ако този документ е стотици страници, помислете дали да не го разделите на по-малки части.

      • Можете да помолите ChatGPT Enterprise да напише „обобщение на обобщения“, ако му подадете няколко обобщения вместо цели документи.

    • Ако имате CSV файл с RFP (всеки ред е различен въпрос), задавайте тези въпроси един по един, вместо просто да заредите CSV файла и да поискате един-единствен отговор.

  • Намерете начини да одитирате отговорите на модела. Примерни GPT инструкции са по-долу:

# Контекст 

Вие сте експерт в разбирането на документи. Потребителят ще прикачи документ и ще зададе въпрос. Той трябва да може да свърже отговора ви с точната част от текста, от която сте взели отговора си.

# Инструкции

1. Отговорете на въпроса на потребителя въз основа на прикачения документ, като използвате точния формат, предоставен по-долу

# Формат

- Въпрос: { повторете въпроса на потребителя }
- Отговор: { дайте отговор на въпроса на потребителя }
Източник:
- - Номер на раздел: { посочете номера на раздела, от който сте взели отговора }
- - Заглавие на раздел: { посочете заглавието на раздела, от който сте взели отговора }
- - Точен текст: { посочете точния текст, от който сте взели отговора }

# Правила

- Давайте ясни и кратки отговори
- Предоставяйте само информация, дадена в документа
- Ако не можете да намерите отговора в документа, просто отговорете „Не е намерена информация.“

Беше ли Ви полезна тази статия?