OpenAI
Тази страница е машинно преведена. Вижте оригиналната статия на английски език.

Оптимизиране на качването на файлове в ChatGPT Enterprise

Разберете как функциите на ChatGPT Enterprise обработват файловете според техния тип, брой и размер. Подобрете резултатите според изискванията към файловете.

Актуализирано: 15 days ago

ChatGPT Enterprise вече поддържа четене и разбиране на визуални елементи (изображения, графики, диаграми и др.), вградени в PDF файлове, включени в подканите. Потребителите могат да качат PDF файл и ChatGPT може да интерпретира текста и всички визуални елементи в този файл.

За подробности вижте ЧЗВ за Visual Retrieval с PDF файлове.

ChatGPT Enterprise ви позволява да качвате файлове по няколко начина:

Това ръководство обяснява как функциите на ChatGPT Enterprise обработват файлове според техния тип, брой и размер, и разглежда стратегии за подобряване на резултатите въз основа на изискванията към файловете.

Резюме

ChatGPT Enterprise обработва различните типове файлове по много различен начин: извлича текст от текстови документи като PDF файлове, презентации и Word файлове, анализира структурирани данни от електронни таблици с помощта на Python код и описва файлове с изображения чрез GPT-Vision. Разбирането кой тип файл задейства кой работен процес е ключово за получаване на очаквания резултат.

За текстови документи ChatGPT Enterprise включва възможно най-много релевантен текст директно заедно с подканата и използва система за търсене за достъп до допълнителна информация. Това работи добре за отговаряне на конкретни въпроси. Този подход обаче може да се затрудни със сложни задачи като обобщаване на много големи документи или сравняване на няколко големи файла. Продължете да четете, за да разберете стратегии за подобряване на резултатите си.

Обработка на файлове според типа

ChatGPT Enterprise обработва файлове по три основни начина: извличане на текст, анализ на код и интерпретация на изображения. Типът файл определя кой работен процес следва ChatGPT Enterprise.

Извличане на база текстИнтерпретатор на кодовеОбработка на изображенияВизуално извличане
Примери за типове файловеpptx, docx, txt, md, json, xml, pdf*
* PDF файлове, качени като

GPT Knowledge
или

файлове на проект
csv, xls, xlsx*
*Забележка: Интерпретатор на кодове може да работи с всеки тип файл, но ChatGPT Enterprise най-често по подразбиране използва CI за електронни таблици
jpg, pngpdf*
* PDF файлове, включени в потребителски подкани
ПоведениеИзвлича текста от файла – част от текста се поставя („включва“) директно в контекстния прозорец; друга част се съхранява за търсенеИнтерпретатор на кодове предава файла на Python за обработкаИзображенията се интерпретират естествено от мултимодални модели, при спазване на

известните ограничения
.
Хибрид от извличане на текст и обработка на изображения. Текстът се извлича дигитално, а визуалното съдържание се интерпретира естествено от мултимодални модели.

За файлове само с текст, файлове с изображения или ясно структурирани файлове с данни (напр. Excel таблица с транзакции) тези разделения представляват най-доброто възможно поведение.

Има някои по-неясни случаи, които не са толкова очевидни, например:

  • Изображения, вградени във файлове, различни от PDF, не се обработват. За да ги включите, конвертирайте файла в PDF, преди да го качите.

  • ChatGPT Enterprise винаги ще използва Интерпретатор на кодове за взаимодействие с електронни таблици, дори ако документът съдържа голямо количество текст. Например, ако помолите ChatGPT Enterprise да преведе CSV файл с 10 реда текст, той ще се опита да преведе файла с помощта на Python библиотека, което е по-малко точно, отколкото ако позволите на модела да генерира превод директно. За да смекчите това, опитайте да експортирате електронната таблица в текстово базиран формат (например PDF).

  • По подобен начин, ако качите структурирана транзакционна таблица, съдържаща се в JSON файл, ChatGPT Enterprise ще интерпретира този файл като обикновен текст. Ако искате да анализирате данните, съдържащи се в JSON файл, инструктирайте модела да използва Интерпретатор на кодове във вашата подкана.

Обработка на файлове според размера

ChatGPT Enterprise използва модели с максимален контекстен прозорец от 128 хил. токена (приблизително 200 страници текст). Не всички токени обаче се използват за включване на текста от качените файлове. Броят на „включените“ токени варира според типа употреба.

ChatGPT Enterprise „включва“ определено количество текст, а останалият текст се изпраща към частен индекс за търсене („векторно хранилище“, което е тип база данни, предназначена да съхранява и извлича ефективно големи количества текст). Когато зададете въпрос, ChatGPT Enterprise включва добавения текст заедно с релевантни части, извлечени от частен индекс за търсене.

Ако качите един документ, ChatGPT Enterprise включва текст от началото, докато достигне лимита си. Ако качите няколко документа, ChatGPT Enterprise включва част или целия текст от всеки документ. Целият текст от документите също се изпраща към частен индекс за търсене.

Включване в контекста за текстови документи

Тази функция е в процес на активно разработване. Поради това следните подробности подлежат на промяна без предизвестие.

ChatGPT Enterprise може да обработва до 110 хил. токена от качени документи в контекстния прозорец. Ако качите един или повече документи с общ обем под 110 хил. токена, ще бъде включено цялото съдържание.

За един документ, надхвърлящ 110 хил. токена, ще бъдат включени само първите 110 хил. токена, започвайки от началото. Останалата част ще бъде изпратена само към частния индекс за търсене.

Ако са качени няколко документа и общият им обем надхвърля 110 хил. токена, ChatGPT Enterprise използва процес в две стъпки, за да балансира представянето на документите:

  1. Извлича до 55 хил. токена, разпределени равномерно между качените документи.

  1. За документи, които не са напълно представени в първата стъпка, разпределя останалите 55 хил. токена пропорционално въз основа на оставащите токени във всеки документ.

  1. Всички останали токени се изпращат само към частния индекс за търсене.

Можете да оцените броя токени в текстов документ, като копирате текста на документа в токенизатора на OpenAI.

Включване в контекста за мултимедийни PDF файлове

Когато потребителите качват PDF файлове, съдържащи както текст, така и изображения, визуалното извличане позволява на ChatGPT да обработва тези изображения естествено заедно с дигитално извлечения текст. Следните стъпки допълват нашите стандартни процедури за обработка на контекста при мултимедийни PDF файлове:

  • Извличане и вграждане на изображения: Изображенията се извличат и вграждат заедно със свързания с тях дигитален текст.

  • Интелигентно мащабиране: Изображенията се мащабират автоматично, за да се поддържа баланс между качеството на информацията и ефективното използване на наличния контекстен прозорец.

Когато качените PDF файлове надхвърлят лимита от 110 хил. токена, както изображенията, така и текстът се вграждат в частния индекс за търсене. Текстовите вграждания препращат към релевантни изображения, което позволява на ChatGPT да извлича подходящите двойки текст–изображение въз основа на потребителските заявки. След това извлечените изображения се обработват чрез вградените мултимодални възможности на ChatGPT.

Точното оценяване на изискванията за токени при мултимедийни PDF файлове е трудно. Тестовете показват, че приблизително 350 страници със смесени текст и изображения ще използват напълно контекстния прозорец от 110 хил. токена.

Стратегии за търсене според типа модел

Както моделите от GPT-серията, така и моделите от o-серията поддържат качване на файлове и използват идентична логика за включване в контекста и вграждания за търсене. Всички модели изпълняват хибридни търсения в частен индекс за търсене, комбинирайки методи с ключови думи и семантични методи. При хибридно търсене моделът генерира фраза за търсене въз основа на подканата на потребителя, а частният индекс за търсене извлича съответните текст и изображения.

Тези модели обаче се различават по начина, по който търсят в големи документи, надхвърлящи контекстния прозорец:

Модели от GPT-серията

  • Едно търсене на подкана: Моделите от GPT-серията извършват едно търсене за всяка потребителска подкана.

  • Ефективни случаи на употреба: Идеални за отговаряне на директни въпроси, вложени в обширна документация.

Примерни заявки:

  • „Каква е HR политиката за ранно пенсиониране?“

  • „Какво прави функцията process_order?“

Модели от o-серията

  • Множество търсения на подкана: Могат да изпълняват множество търсения (обикновено 2–3) за всяка потребителска подкана, всяко с уникална фраза за търсене. Търсенията се изпълняват последователно и моделът може да актуализира подхода си въз основа на информацията, извлечена при предишни търсения.

  • Ефективни случаи на употреба: По-подходящи за сложни въпроси, изискващи множество целенасочени търсения в обширна документация.

Примерни заявки:

  • „Какви са HR политиките за ранно пенсиониране, родителски отпуск и прехвърляне в чужбина?“

  • „Обясни какво прави функцията process_order, изброи всички методи, извиквани от тази функция, и опиши накратко всеки извикан метод.“

Въпреки силните си страни, моделите от o-серията може да се затруднят, когато дадена заявка изисква повече от три търсения.

Съвети за подобряване на резултатите от търсенето във файлове

  • Опитайте да използвате модел от o-серията за сложни въпроси, изискващи множество търсения.

  • Имайте предвид, че отговорите може да варират според типа, броя и размера на документите, които качвате.

  • Като цяло зареждането на по-малко на брой, фокусирани документи води до по-висока точност.

  • Превърнете темите с множество въпроси в отделни въпроси:

    • Ако трябва да знаете HR политиките на всеки щат, задавайте въпросите един по един.

    • Ако трябва да обобщите много документи, поискайте по един документ наведнъж. Ако този документ е от много стотици страници, помислете дали да не го разделите на по-малки части.

      • Можете да помолите ChatGPT Enterprise да напише „обобщение на обобщения“, ако му подадете няколко обобщения вместо цели документи.

    • Ако имате CSV файл на RFP (всеки ред е различен въпрос), задавайте тези въпроси един по един, вместо просто да заредите CSV файла и да поискате един общ отговор.

  • Намерете начини да проверявате отговорите на модела. По-долу са дадени примерни инструкции за GPT:

# Контекст 

Вие сте експерт в разбирането на документи. Потребителят ще прикачи документ и ще зададе въпрос. Той трябва да може да свърже отговора ви с точната част от текста, от която сте взели отговора си.

# Инструкции

1. Отговорете на въпроса на потребителя въз основа на прикачения документ, като използвате точния формат, предоставен по-долу

# Формат

- Въпрос: { повторете въпроса на потребителя }
- Отговор: { дайте отговор на въпроса на потребителя }
Източник:
- - Номер на раздел: { посочете номера на раздела, от който сте взели отговора }
- - Заглавие на раздел: { посочете заглавието на раздела, от който сте взели отговора }
- - Точен текст: { посочете точния текст, от който сте взели отговора }

# Правила

- Давайте ясни и кратки отговори
- Предоставяйте само информация, дадена в документа
- Ако не можете да намерите отговора в документа, просто отговорете „Не е намерена информация.“

Беше ли Ви полезна тази статия?