ChatGPT Enterprise тепер підтримує читання й розуміння візуальних матеріалів (зображень, графіків, діаграм тощо), вбудованих у файли PDF, включені до запитів. Користувачі можуть завантажити PDF, і ChatGPT зможе інтерпретувати текст і будь-які візуальні елементи в цьому файлі.
Докладніше див. у FAQ щодо Visual Retrieval з PDF.
ChatGPT Enterprise дає змогу завантажувати файли кількома способами:
Безпосередньо з вашого комп’ютера
Як файл проєкту
З дії GPT
У цьому посібнику пояснюється, як функції ChatGPT Enterprise обробляють файли залежно від їхнього типу, кількості та розміру, а також обговорюються стратегії покращення результатів відповідно до вимог до файлів.
Підсумок
ChatGPT Enterprise обробляє різні типи файлів дуже по-різному: витягує текст із текстових документів, як-от PDF, презентації та файли Word, аналізує структуровані дані з електронних таблиць за допомогою коду Python і описує файли зображень через GPT-Vision. Розуміння того, який тип файлу запускає який робочий процес, є ключем до отримання очікуваного результату.
Для текстових документів ChatGPT Enterprise включає якомога більше релевантного тексту безпосередньо поруч із запитом і використовує пошукову систему для доступу до додаткової інформації. Це добре працює для відповідей на конкретні запитання. Однак цей підхід може мати труднощі зі складними завданнями, як-от підсумовування дуже великих документів або порівняння кількох великих файлів. Читайте далі, щоб зрозуміти стратегії покращення результатів.
Обробка файлів залежно від типу
ChatGPT Enterprise обробляє файли трьома основними способами: витягування тексту, аналіз коду та інтерпретація зображень. Тип файлу визначає, якого робочого процесу дотримується ChatGPT Enterprise.
| Отримання на основі тексту | Інтерпретатор коду | Обробка зображень | Visual Retrieval | |
|---|---|---|---|---|
| Приклади типів файлів | pptx, docx, txt, md, json, xml, pdf* * PDF, завантажені як GPT Knowledge або файли проєкту | csv, xls, xlsx* *Примітка: інтерпретатор коду може працювати з будь-яким типом файлів, але ChatGPT Enterprise найчастіше за замовчуванням використовує CI для електронних таблиць | jpg, png | pdf* * PDF, включені до запитів користувачів |
| Поведінка | Витягує текст із файлу — частина тексту вставляється («поміщається») безпосередньо в ліміт контексту; частина тексту зберігається для пошуку | Інтерпретатор коду передає файл у Python для обробки | Зображення нативно інтерпретуються мультимодальними моделями з урахуванням відомих обмежень . | Гібрид отримання тексту та обробки зображень. Текст витягується цифровим способом, а візуальний вміст нативно інтерпретується мультимодальними моделями. |
Для файлів лише з текстом, файлів зображень або чітко структурованих файлів даних (наприклад, таблиці Excel із транзакціями) ці розподіли представляють найкращу можливу поведінку.
Є деякі менш очевидні сірі зони, наприклад:
Зображення, вбудовані у файли, відмінні від PDF, не обробляються. Щоб включити їх, перетворіть файл на PDF перед завантаженням.
ChatGPT Enterprise завжди використовуватиме інтерпретатор коду для взаємодії з електронними таблицями, навіть якщо документ містить великий обсяг тексту. Наприклад, якщо ви попросите ChatGPT Enterprise перекласти CSV-файл із 10 рядками тексту, він спробує перекласти файл за допомогою бібліотеки Python, що менш точно, ніж дозволити моделі згенерувати переклад безпосередньо. Щоб пом’якшити це, спробуйте експортувати електронну таблицю у текстовий формат (наприклад, PDF).
Подібно, якщо ви завантажите структуровану таблицю транзакцій, що міститься у файлі JSON, ChatGPT Enterprise інтерпретуватиме цей файл як звичайний текст. Якщо ви хочете проаналізувати дані, що містяться у файлі JSON, у своєму запиті вкажіть моделі використовувати інтерпретатор коду.
Обробка файлів залежно від розміру
ChatGPT Enterprise використовує моделі з максимальним лімітом контексту 128 тис. токенів (приблизно 200 сторінок тексту). Однак не всі токени використовуються для включення тексту із завантажених файлів. Кількість «вставлених» токенів залежить від типу використання.
ChatGPT Enterprise «вставляє» певний обсяг тексту, а решта тексту надсилається до приватного пошукового індексу («векторного сховища» — типу бази даних, призначеного для ефективного зберігання й отримання великих обсягів тексту). Коли ви ставите запитання, ChatGPT Enterprise додає включений текст разом із релевантними фрагментами, отриманими з приватного пошукового індексу.
Якщо ви завантажуєте один документ, ChatGPT Enterprise включає текст від початку, доки не досягне свого ліміту. Якщо ви завантажуєте кілька документів, ChatGPT Enterprise включає частину або весь текст кожного документа. Увесь текст із документів також надсилається до приватного пошукового індексу.
Наповнення контексту для текстових документів
Ця функція перебуває в активній розробці. Тому наведені нижче деталі можуть змінюватися без попередження.
ChatGPT Enterprise може обробляти до 110 тис. токенів із завантажених документів у ліміті контексту. Якщо ви завантажите один або кілька документів із сумарним обсягом менш ніж 110 тис. токенів, буде включено весь вміст.
Для одного документа, що перевищує 110 тис. токенів, буде включено лише перші 110 тис. токенів, починаючи з початку. Решту буде надіслано лише до приватного пошукового індексу.
Якщо завантажено кілька документів і їхній сумарний обсяг перевищує 110 тис. токенів, ChatGPT Enterprise використовує двоетапний процес, щоб збалансувати представлення документів:
Видобути до 55 тис. токенів, розподілених порівну між завантаженими документами.
Для документів, які не повністю представлені на першому кроці, розподілити решту 55 тис. токенів пропорційно до кількості токенів, що залишилися в кожному документі.
Усі решта токенів надсилаються лише до приватного пошукового індексу.
Ви можете оцінити кількість токенів у текстовому документі, скопіювавши текст документа в OpenAI Tokenizer.
Наповнення контексту для мультимедійних PDF
Коли користувачі завантажують PDF-файли, що містять і текст, і зображення, Visual Retrieval дає ChatGPT змогу обробляти ці зображення нативно разом із цифрово витягнутим текстом. Наведені нижче кроки доповнюють наші стандартні процедури обробки контексту для мультимедійних PDF:
Видобування та вбудовування зображень: зображення видобуваються та вбудовуються разом із пов’язаним із ними цифровим текстом.
Інтелектуальне масштабування: зображення автоматично масштабуються, щоб підтримувати баланс між якістю інформації та ефективним використанням доступного ліміту контексту.
Коли завантажені PDF перевищують ліміт у 110 тис. токенів, і зображення, і текст вбудовуються в приватний пошуковий індекс. Текстові вбудовування посилаються на релевантні зображення, що дає ChatGPT змогу отримувати відповідні пари тексту й зображення на основі запитів користувачів. Отримані зображення потім обробляються за допомогою нативних мультимодальних можливостей ChatGPT.
Точно оцінити потреби в токенах для мультимедійних PDF складно. Тестування показує, що приблизно 350 сторінок змішаного тексту й зображень повністю використають ліміт контексту в 110 тис. токенів.
Стратегії пошуку залежно від типу моделі
Моделі серії GPT і серії o підтримують завантаження файлів і використовують однакову логіку наповнення контексту та пошукових вбудовувань. Усі моделі виконують гібридний пошук у приватному пошуковому індексі, поєднуючи ключові слова й семантичні методи. Під час гібридного пошуку модель генерує пошукову фразу на основі запиту користувача, а приватний пошуковий індекс відповідно отримує релевантний текст і зображення.
Однак ці моделі відрізняються тим, як вони здійснюють пошук у великих документах, що перевищують ліміт контексту:
Моделі серії GPT
Один пошук на один запит: моделі серії GPT виконують один пошук на кожен запит користувача.
Ефективні сценарії використання: ідеально підходять для відповідей на прості запитання, вбудовані у велику документацію.
Приклади запитів:
«Яка HR-політика щодо дострокового виходу на пенсію?»
«Що робить функція
process_order?»
Моделі серії o
Кілька пошуків на один запит: можуть виконувати кілька пошуків (зазвичай 2–3) на один запит користувача, кожен з унікальною пошуковою фразою. Пошуки виконуються послідовно, і модель може оновлювати свій підхід на основі інформації, отриманої під час попередніх пошуків.
Ефективні сценарії використання: краще підходять для складних запитань, що потребують кількох цільових пошуків у великій документації.
Приклади запитів:
«Які HR-політики щодо дострокового виходу на пенсію, відпустки для догляду за дитиною та переведення за кордон?»
«Поясни, що робить функція
process_order, переліч усі методи, які викликає ця функція, і коротко опиши кожен викликаний метод».
Попри свої переваги, моделі серії o можуть мати труднощі, коли запит потребує більш ніж трьох пошуків.
Поради щодо покращення результатів пошуку у файлах
Спробуйте використовувати модель серії o для складних запитань, що потребують кількох пошуків.
Пам’ятайте, що відповіді можуть відрізнятися залежно від типу, кількості та розміру документів, які ви завантажуєте.
Загалом завантаження меншої кількості цільових документів підвищує точність.
Перетворюйте теми з кількома запитаннями на окремі запитання:
Якщо вам потрібно дізнатися HR-політики кожного штату, запитуйте їх по черзі.
Якщо вам потрібно підсумувати багато документів, просіть опрацьовувати один документ за раз. Якщо цей документ має багато сотень сторінок, подумайте про те, щоб розбити його на менші частини.
Ви можете попросити ChatGPT Enterprise написати «підсумок підсумків», якщо надасте йому кілька підсумків замість цілих документів.
Якщо у вас є CSV з RFP (кожен рядок — окреме запитання), ставте ці запитання по черзі, а не просто завантажуйте CSV і просіть одну відповідь.
Знайдіть способи перевіряти відповіді моделі. Нижче наведено приклади інструкцій для GPT:
# Контекст
Ви є експертом у розумінні документів. Користувач збирається прикріпити документ і поставити запитання. Йому потрібно мати змогу пов’язати вашу відповідь із точною частиною тексту, звідки ви взяли відповідь.
# Інструкції
1. Дайте відповідь на запитання користувача на основі прикріпленого документа, використовуючи точний формат, наведений нижче
# Формат
- Запитання: { повторіть запитання користувача }
- Відповідь: { надайте відповідь на запитання користувача }
Джерело:
- - Номер розділу: { вкажіть номер розділу, звідки ви взяли відповідь }
- - Назва розділу: { вкажіть назву розділу, звідки ви взяли відповідь }
- - Точний текст: { наведіть точний текст, звідки ви взяли відповідь }
# Правила
- Надавайте чіткі й лаконічні відповіді
- Надавайте лише інформацію, що міститься в документі
- Якщо ви не можете знайти відповідь у документі, просто відповідайте «Інформацію не знайдено.»