ChatGPT Enterprise теперь поддерживает чтение и понимание визуальных материалов (изображений, графиков, диаграмм и т. д.), встроенных в файлы PDF, включенные в промпты. Пользователи могут загрузить PDF, а ChatGPT может интерпретировать текст и любые визуальные элементы внутри этого файла.
Подробнее см. часто задаваемые вопросы о визуальном поиске в PDF.
ChatGPT Enterprise позволяет загружать файлы несколькими способами:
Непосредственно с вашего компьютера
Как база знаний GPT
Как файл проекта
Из действия GPT
В этом руководстве объясняется, как функции ChatGPT Enterprise обрабатывают файлы в зависимости от их типа, количества и размера, а также рассматриваются стратегии улучшения результатов с учетом требований к файлам.
Сводка
ChatGPT Enterprise обрабатывает разные типы файлов очень по-разному: извлекает текст из текстовых документов, таких как PDF, презентации и файлы Word, анализирует структурированные данные из электронных таблиц с помощью кода Python и описывает файлы изображений через GPT-Vision. Понимание того, какой тип файла запускает какой рабочий процесс, является ключом к получению ожидаемого результата.
Для текстовых документов ChatGPT Enterprise включает как можно больше релевантного текста непосредственно рядом с промптом и использует поисковую систему для доступа к дополнительной информации. Это хорошо работает для ответов на конкретные вопросы. Однако этот подход может испытывать трудности со сложными задачами, такими как резюмирование очень больших документов или сравнение нескольких больших файлов. Читайте дальше, чтобы узнать о стратегиях улучшения результатов.
Обработка файлов в зависимости от типа
ChatGPT Enterprise обрабатывает файлы тремя основными способами: извлечение текста, анализ кода и интерпретация изображений. Тип файла определяет, какому рабочему процессу следует ChatGPT Enterprise.
| Поиск по тексту | Интерпретатор кода | Обработка изображений | Визуальный поиск | |
|---|---|---|---|---|
| Примеры типов файлов | pptx, docx, txt, md, json, xml, pdf* * PDF, загруженные как база знаний GPT или файлы проектов | csv, xls, xlsx* *Примечание: Интерпретатор кода может работать с любым типом файлов, но ChatGPT Enterprise чаще всего по умолчанию использует CI для электронных таблиц | jpg, png | pdf* * PDF, включенные в промпты пользователя |
| Поведение | Извлекает текст из файла: часть текста вставляется («подставляется») непосредственно в контекстное окно; часть текста сохраняется для поиска | Интерпретатор кода передает файл в Python для обработки | Изображения нативно интерпретируются мультимодальными моделями с учетом известных ограничений . | Гибрид поиска по тексту и обработки изображений. Текст извлекается в цифровом виде, а визуальное содержимое нативно интерпретируется мультимодальными моделями. |
Для текстовых файлов, файлов изображений или четко структурированных файлов данных (например, таблицы Excel с транзакциями) эти категории отражают наилучшее возможное поведение.
Есть и менее очевидные серые зоны, например:
Изображения, встроенные в файлы, отличные от PDF, не обрабатываются. Чтобы включить их, перед загрузкой преобразуйте файл в PDF.
ChatGPT Enterprise всегда будет использовать Интерпретатор кода для взаимодействия с электронными таблицами, даже если документ содержит большой объем текста. Например, если вы попросите ChatGPT Enterprise перевести CSV-файл с 10 строками текста, он попытается перевести файл с помощью библиотеки Python, что менее точно, чем позволить модели сгенерировать перевод напрямую. Чтобы смягчить это, попробуйте экспортировать электронную таблицу в текстовый формат (например, PDF).
Аналогично, если вы загрузите структурированную таблицу транзакций, содержащуюся в JSON-файле, ChatGPT Enterprise интерпретирует этот файл как обычный текст. Если вы хотите проанализировать данные, содержащиеся в JSON-файле, укажите модели использовать Интерпретатор кода в вашем промпте.
Обработка файлов в зависимости от размера
ChatGPT Enterprise использует модели с максимальным контекстным окном 128 тыс. токенов (примерно 200 страниц текста). Однако не все токены используются для включения текста из загруженных файлов. Количество «подставляемых» токенов зависит от типа использования.
ChatGPT Enterprise «подставляет» некоторый объем текста, а оставшийся текст отправляется в частный поисковый индекс («векторное хранилище» — тип базы данных, предназначенный для эффективного хранения и извлечения больших объемов текста). Когда вы задаете вопрос, ChatGPT Enterprise добавляет включенный текст вместе с релевантными фрагментами, извлеченными из частного поискового индекса.
Если вы загружаете один документ, ChatGPT Enterprise включает текст с начала, пока не достигнет своего лимита. Если вы загружаете несколько документов, ChatGPT Enterprise включает часть или весь текст каждого документа. Весь текст из документов также отправляется в частный поисковый индекс.
Заполнение контекста для текстовых документов
Эта функция находится в активной разработке. Поэтому приведенные ниже сведения могут быть изменены без уведомления.
ChatGPT Enterprise может обрабатывать до 110 тыс. токенов из загруженных документов в контекстном окне. Если вы загружаете один или несколько документов с общим объемом менее 110 тыс. токенов, будет включено все содержимое.
Для одного документа, превышающего 110 тыс. токенов, будут включены только первые 110 тыс. токенов, начиная с начала. Остальная часть будет отправлена только в частный поисковый индекс.
Если загружено несколько документов и их общий объем превышает 110 тыс. токенов, ChatGPT Enterprise использует двухэтапный процесс для балансировки представления документов:
Извлечь до 55 тыс. токенов, распределенных равномерно между загруженными документами.
Для документов, не полностью представленных на первом этапе, выделить оставшиеся 55 тыс. токенов пропорционально количеству токенов, оставшихся в каждом документе.
Все оставшиеся токены отправляются только в частный поисковый индекс.
Вы можете оценить количество токенов в текстовом документе, скопировав текст документа в токенизатор OpenAI.
Заполнение контекста для мультимедийных PDF
Когда пользователи загружают PDF, содержащие и текст, и изображения, визуальный поиск позволяет ChatGPT обрабатывать эти изображения нативно вместе с цифровым извлеченным текстом. Следующие шаги дополняют наши стандартные процедуры обработки контекста для мультимедийных PDF:
Извлечение и эмбеддинг изображений: изображения извлекаются и встраиваются вместе со связанным с ними цифровым текстом.
Интеллектуальное масштабирование: изображения автоматически масштабируются, чтобы поддерживать баланс между качеством информации и эффективным использованием доступного контекстного окна.
Когда загруженные PDF превышают лимит в 110 тыс. токенов, и изображения, и текст встраиваются в частный поисковый индекс. Текстовые эмбеддинги ссылаются на релевантные изображения, позволяя ChatGPT извлекать подходящие пары «текст — изображение» на основе запросов пользователей. Затем извлеченные изображения обрабатываются с помощью нативных мультимодальных возможностей ChatGPT.
Точно оценить требования к токенам для мультимедийных PDF сложно. Тестирование показывает, что примерно 350 страниц смешанного текста и изображений полностью используют контекстное окно в 110 тыс. токенов.
Стратегии поиска в зависимости от типа модели
Модели серий GPT и o поддерживают загрузку файлов и используют одинаковую логику заполнения контекста и поисковых эмбеддингов. Все модели выполняют гибридный поиск по частному поисковому индексу, сочетая методы поиска по ключевым словам и семантического поиска. При гибридном поиске модель создает поисковую фразу на основе промпта пользователя, а частный поисковый индекс извлекает соответствующий текст и изображения.
Однако эти модели различаются тем, как они ищут по большим документам, превышающим контекстное окно:
Модели серии GPT
Один поиск на промпт: модели серии GPT выполняют один поиск на промпт пользователя.
Эффективные сценарии использования: идеально подходят для ответов на простые вопросы, содержащиеся в обширной документации.
Примеры запросов:
«Каковы правила HR в отношении досрочного выхода на пенсию?»
«Что делает функция
process_order?»
Модели серии o
Несколько поисков на промпт: могут выполнять несколько поисков (обычно 2–3) на один промпт пользователя, каждый с уникальной поисковой фразой. Поиски выполняются последовательно, и модель может обновлять свой подход на основе информации, полученной в предыдущих поисках.
Эффективные сценарии использования: больше подходят для сложных вопросов, требующих нескольких целевых поисков по обширной документации.
Примеры запросов:
«Каковы правила HR в отношении досрочного выхода на пенсию, отпуска по уходу за ребенком и перевода за границу?»
«Объясните, что делает функция
process_order, перечислите все методы, вызываемые этой функцией, и кратко опишите каждый вызываемый метод».
Несмотря на свои преимущества, модели серии o могут испытывать трудности, когда запрос требует более трех поисков.
Советы по улучшению результатов поиска по файлам
Попробуйте использовать модель серии o для сложных вопросов, требующих нескольких поисков.
Помните, что ответы могут различаться в зависимости от типа, количества и размера загружаемых документов.
Как правило, загрузка меньшего количества сфокусированных документов приводит к более высокой точности.
Преобразуйте темы с несколькими вопросами в отдельные вопросы:
Если вам нужно узнать правила HR каждого штата, задавайте вопросы по одному.
Если вам нужно резюмировать много документов, запрашивайте по одному документу за раз. Если документ состоит из многих сотен страниц, рассмотрите возможность разбить его на более мелкие части.
Вы можете попросить ChatGPT Enterprise написать «сводку сводок», если дадите ему несколько сводок, а не полные документы.
Если у вас есть CSV с RFP (каждая строка — отдельный вопрос), задавайте эти вопросы по одному, а не просто загружайте CSV и запрашивайте единый ответ.
Найдите способы проверять ответы модели. Пример инструкций GPT приведен ниже:
# Контекст
Вы эксперт в понимании документов. Пользователь собирается прикрепить документ и задать вопрос. Ему нужно иметь возможность связать ваш ответ с точной частью текста, из которой вы взяли ответ.
# Инструкции
1. Ответьте на вопрос пользователя на основе прикрепленного документа, используя точный формат ниже
# Формат
- Вопрос: { repeat user's question }
- Ответ: { provide an answer to user's question }
Источник:
- - Номер раздела: { provide section number where you pulled in the answer }
- - Заголовок раздела: { provide section title where you pulled in the answer }
- - Точный текст: { provide the exact text where you pulled the answer from }
# Правила
- Давайте ясные и краткие ответы
- Предоставляйте только информацию, указанную в документе
- Если вы не можете найти ответ в документе, просто ответьте «Информация не найдена».