ChatGPT Enterprise ahora admite leer y comprender elementos visuales (imágenes, gráficos, diagramas, etc.) integrados en archivos PDF incluidos en prompts. Los usuarios pueden cargar un PDF, y ChatGPT puede interpretar el texto y cualquier elemento visual dentro de ese archivo.
Para obtener más detalles, consulta Preguntas frecuentes sobre Visual Retrieval con archivos PDF.
ChatGPT Enterprise te permite cargar archivos de varias maneras:
Directamente desde tu computadora
Como conocimiento de GPT
Como archivo de proyecto
Desde una acción de GPT
Esta guía explica cómo las funciones de ChatGPT Enterprise manejan los archivos según su tipo, cantidad y tamaño, y analiza estrategias para mejorar los resultados según los requisitos de los archivos.
Resumen
ChatGPT Enterprise trata los distintos tipos de archivo de maneras muy diferentes: extrae texto de documentos de texto como archivos PDF, presentaciones y archivos de Word; analiza datos estructurados de hojas de cálculo usando código Python; y describe archivos de imagen mediante GPT-Vision. Comprender qué tipo de archivo activa cada flujo de trabajo es clave para obtener el resultado esperado.
Para documentos basados en texto, ChatGPT Enterprise incluye la mayor cantidad posible de texto relevante directamente junto al prompt y usa un sistema de búsqueda para acceder a información adicional. Esto funciona bien para responder preguntas específicas. Sin embargo, este enfoque puede tener dificultades con tareas complejas, como resumir documentos muy grandes o comparar varios archivos grandes. Sigue leyendo para comprender estrategias que te ayuden a mejorar tus resultados.
Manejo de archivos según el tipo
ChatGPT Enterprise procesa archivos de tres maneras principales: extracción de texto, análisis de código e interpretación de imágenes. El tipo de archivo determina qué flujo de trabajo sigue ChatGPT Enterprise.
| Recuperación basada en texto | Intérprete de código | Procesamiento de imágenes | Visual Retrieval | |
|---|---|---|---|---|
| Ejemplos de tipos de archivo | pptx, docx, txt, md, json, xml, pdf* * PDF cargados como conocimiento de GPT o archivos de proyecto | csv, xls, xlsx* *Nota: el intérprete de código puede operar con cualquier tipo de archivo, pero ChatGPT Enterprise suele usar CI de forma predeterminada para hojas de cálculo | jpg, png | pdf* * PDF incluidos en prompts del usuario |
| Comportamiento | Extrae el texto del archivo: parte del texto se pega (“inserta”) directamente en la ventana de contexto; parte del texto se almacena para búsqueda | El intérprete de código pasa el archivo a Python para su procesamiento | Las imágenes se interpretan de forma nativa mediante modelos multimodales, sujetas a limitaciones conocidas . | Un híbrido de recuperación de texto y procesamiento de imágenes. El texto se extrae digitalmente, y el contenido visual se interpreta de forma nativa mediante modelos multimodales. |
Para archivos solo de texto, archivos de imagen o archivos de datos claramente estructurados (por ejemplo, una tabla de Excel con transacciones), estas divisiones representan el mejor comportamiento posible.
Hay algunas áreas grises que son menos obvias, por ejemplo:
Las imágenes integradas en archivos que no sean PDF no se procesan. Para incluirlas, convierte el archivo a PDF antes de cargarlo.
ChatGPT Enterprise siempre usará el intérprete de código para interactuar con hojas de cálculo, incluso si el documento contiene una gran cantidad de texto. Por ejemplo, si le pides a ChatGPT Enterprise que traduzca un archivo CSV con 10 filas de texto, intentará traducir el archivo usando una biblioteca de Python, lo cual es menos preciso que permitir que el modelo genere una traducción directamente. Para mitigar esto, intenta exportar la hoja de cálculo a un formato basado en texto (PDF, por ejemplo).
Del mismo modo, si cargas una tabla transaccional estructurada contenida en un archivo JSON, ChatGPT Enterprise interpretará este archivo como texto sin formato. Si quieres analizar los datos contenidos en un archivo JSON, indica al modelo en tu prompt que use el intérprete de código.
Manejo de archivos según el tamaño
ChatGPT Enterprise usa modelos con una ventana de contexto máxima de 128 000 tokens (aproximadamente 200 páginas de texto). Sin embargo, no todos los tokens se usan para incorporar el texto de los archivos cargados. La cantidad de tokens “insertados” varía según el tipo de uso.
ChatGPT Enterprise “inserta” cierta cantidad de texto, y el texto restante se envía a un índice de búsqueda privado (un “almacén de vectores”, que es un tipo de base de datos diseñada para almacenar y recuperar grandes cantidades de texto de manera eficiente). Cuando haces una pregunta, ChatGPT Enterprise incorpora el texto incluido junto con fragmentos relevantes recuperados de un índice de búsqueda privado.
Si cargas un solo documento, ChatGPT Enterprise incluye texto desde el principio hasta que alcanza su límite. Si cargas varios documentos, ChatGPT Enterprise incluye parte o la totalidad de cada documento. Todo el texto de los documentos también se envía a un índice de búsqueda privado.
Inserción de contexto para documentos de texto
Esta función está en desarrollo activo. Por lo tanto, los siguientes detalles están sujetos a cambios sin previo aviso.
ChatGPT Enterprise puede procesar hasta 110 000 tokens de documentos cargados en la ventana de contexto. Si cargas uno o más documentos con un total combinado inferior a 110 000 tokens, se incluirá todo el contenido.
Para un solo documento que supere los 110 000 tokens, solo se incluirán los primeros 110 000 tokens, empezando desde el principio. El resto solo se enviará al índice de búsqueda privado.
Si se cargan varios documentos y su total combinado supera los 110 000 tokens, ChatGPT Enterprise usa un proceso de dos pasos para equilibrar la representación de los documentos:
Extrae hasta 55 000 tokens, divididos en partes iguales entre los documentos cargados.
Para los documentos que no estén representados por completo en el primer paso, asigna los 55 000 tokens restantes proporcionalmente según los tokens que queden en cada documento.
Los tokens restantes solo se envían al índice de búsqueda privado.
Puedes estimar la cantidad de tokens en un documento de texto copiando el texto del documento en el tokenizador de OpenAI.
Inserción de contexto para archivos PDF multimedia
Cuando los usuarios cargan archivos PDF que contienen texto e imágenes, Visual Retrieval permite que ChatGPT procese estas imágenes de forma nativa junto con el texto extraído digitalmente. Los siguientes pasos complementan nuestros procedimientos estándar de manejo de contexto para archivos PDF multimedia:
Extracción e incrustación de imágenes: las imágenes se extraen y se incrustan junto con su texto digital asociado.
Escalado inteligente: las imágenes se escalan automáticamente para mantener un equilibrio entre la calidad de la información y el uso eficiente de la ventana de contexto disponible.
Cuando los archivos PDF cargados superan el límite de 110 000 tokens, tanto las imágenes como el texto se incrustan en el índice de búsqueda privado. Las incrustaciones de texto hacen referencia a imágenes relevantes, lo que permite que ChatGPT recupere los pares de texto e imagen adecuados según las consultas del usuario. Luego, las imágenes recuperadas se procesan con las capacidades multimodales nativas de ChatGPT.
Estimar con precisión los requisitos de tokens para archivos PDF multimedia es difícil. Las pruebas sugieren que aproximadamente 350 páginas de texto e imágenes combinados usarán por completo la ventana de contexto de 110 000 tokens.
Estrategias de búsqueda según el tipo de modelo
Tanto los modelos de la serie GPT como los de la serie o admiten cargas de archivos y usan la misma lógica de inserción de contexto e incrustación de búsqueda. Todos los modelos ejecutan búsquedas híbridas en un índice de búsqueda privado, combinando métodos de palabras clave y semánticos. En una búsqueda híbrida, el modelo genera una frase de búsqueda según el prompt del usuario, y el índice de búsqueda privado recupera texto e imágenes relevantes en consecuencia.
Sin embargo, estos modelos difieren en la forma en que buscan en documentos grandes que superan la ventana de contexto:
Modelos de la serie GPT
Una sola búsqueda por prompt: los modelos de la serie GPT realizan una búsqueda por prompt del usuario.
Casos de uso eficaces: ideales para responder preguntas directas integradas en documentación extensa.
Consultas de ejemplo:
“¿Cuál es la política de RR. HH. sobre jubilación anticipada?”
“¿Qué hace la función
process_order?”
Modelos de la serie o
Varias búsquedas por prompt: pueden ejecutar varias búsquedas (normalmente 2 o 3) por prompt del usuario, cada una con una frase de búsqueda única. Las búsquedas se ejecutan en secuencia, y el modelo puede actualizar su enfoque según la información recuperada en búsquedas anteriores.
Casos de uso eficaces: más adecuados para preguntas complejas que requieren varias búsquedas dirigidas en documentación extensa.
Consultas de ejemplo:
“¿Cuáles son las políticas de RR. HH. sobre jubilación anticipada, licencia parental y traslado al extranjero?”
“Explica qué hace la función
process_order, enumera todos los métodos invocados por esta función y describe brevemente cada método invocado”.
A pesar de sus fortalezas, los modelos de la serie o pueden tener dificultades cuando una consulta requiere más de tres búsquedas.
Consejos para mejorar los resultados de búsqueda de archivos
Prueba usar un modelo de la serie o para preguntas complejas que requieren varias búsquedas.
Recuerda que las respuestas pueden variar según el tipo, la cantidad y el tamaño de los documentos que cargues.
En general, cargar menos documentos y más enfocados generará mayor precisión.
Convierte los temas con varias preguntas en preguntas individuales:
Si necesitas conocer las políticas de RR. HH. de cada estado, pregúntalas una por una.
Si necesitas resumir muchos documentos, pide un documento a la vez. Si ese documento tiene muchos cientos de páginas, considera dividirlo en componentes más pequeños.
Podrías pedirle a ChatGPT Enterprise que escriba un “resumen de resúmenes” si le proporcionaste varios resúmenes en lugar de documentos completos.
Si tienes un CSV de una RFP (cada línea es una pregunta distinta), haz esas preguntas una por una en lugar de simplemente cargar el CSV y solicitar una sola respuesta.
Busca formas de auditar las respuestas del modelo. A continuación se incluyen instrucciones de GPT de ejemplo:
# Contexto
Eres experto en comprender documentos. El usuario va a adjuntar un documento y hacer una pregunta. Necesita poder conectar tu respuesta con la parte exacta del texto de donde obtuviste la respuesta.
# Instrucciones
1. Responde la pregunta del usuario según el documento adjunto usando el formato exacto que se proporciona a continuación
# Formato
- Pregunta: { repetir la pregunta del usuario }
- Respuesta: { proporcionar una respuesta a la pregunta del usuario }
Fuente:
- - Número de sección: { proporcionar el número de sección de donde obtuviste la respuesta }
- - Título de la sección: { proporcionar el título de la sección de donde obtuviste la respuesta }
- - Texto exacto: { proporcionar el texto exacto de donde obtuviste la respuesta }
# Reglas
- Da respuestas claras y concisas
- Proporciona solo información incluida en el documento
- Si no puedes encontrar la respuesta en el documento, responde simplemente “No se encontró información”.