Descubre cómo las funciones de ChatGPT Enterprise gestionan archivos según su tipo, cantidad y tamaño. Mejora los resultados según los requisitos del archivo.

ChatGPT Enterprise ahora admite leer y comprender elementos visuales (imágenes, gráficos, diagramas, etc.) incrustados en archivos PDF incluidos en prompts. Los usuarios pueden subir un PDF, y ChatGPT puede interpretar el texto y cualquier elemento visual dentro de ese archivo.

Para más información, consulta las Preguntas frecuentes sobre Recuperación visual con PDF.

ChatGPT Enterprise te permite subir archivos de varias formas:

Directamente desde tu ordenador
Desde Google Drive / SharePoint / OneDrive
Como Conocimiento de GPT
Como un Archivo de proyecto
Desde una Acción de GPT

Esta guía explica cómo las funciones de ChatGPT Enterprise gestionan los archivos según su tipo, cantidad y tamaño, y analiza estrategias para mejorar los resultados en función de los requisitos del archivo.

Resumen

ChatGPT Enterprise trata los distintos tipos de archivo de forma muy diferente: extrae texto de documentos de texto como PDF, presentaciones y archivos de Word; analiza datos estructurados de hojas de cálculo con código Python; y describe archivos de imagen mediante GPT-Vision. Entender qué tipo de archivo activa cada flujo de trabajo es clave para obtener el resultado esperado.

En el caso de los documentos basados en texto, ChatGPT Enterprise incluye la mayor cantidad posible de texto relevante directamente junto al prompt y usa un sistema de búsqueda para acceder a información adicional. Esto funciona bien para responder preguntas concretas. Sin embargo, este enfoque puede tener dificultades con tareas complejas, como resumir documentos muy grandes o comparar varios archivos grandes. Sigue leyendo para conocer estrategias que mejoren tus resultados.

Gestión de archivos según el tipo

ChatGPT Enterprise procesa archivos de tres formas principales: extracción de texto, análisis con código e interpretación de imágenes. El tipo de archivo determina qué flujo de trabajo sigue ChatGPT Enterprise.

	Recuperación basada en texto	Intérprete de código	Procesamiento de imágenes	Recuperación visual
Ejemplos de tipos de archivo	pptx, docx, txt, md, json, xml, pdf* * PDF subidos como Conocimiento de GPT o Archivos de proyecto	csv, xls, xlsx* *Nota: Intérprete de código puede operar con cualquier tipo de archivo, pero ChatGPT Enterprise usa CI de forma predeterminada con más frecuencia para hojas de cálculo	jpg, png	pdf* * PDF incluidos en prompts de usuario
Comportamiento	Extrae el texto del archivo: parte del texto se pega («se inserta») directamente en la ventana de contexto; otra parte se almacena para la búsqueda	Intérprete de código pasa el archivo a Python para su procesamiento	Las imágenes son interpretadas de forma nativa por modelos multimodales, sujetas a las limitaciones conocidas .	Una combinación de recuperación de texto y procesamiento de imágenes. El texto se extrae digitalmente y el contenido visual es interpretado de forma nativa por modelos multimodales.

En el caso de archivos solo de texto, archivos de imagen o archivos de datos claramente estructurados (por ejemplo, una tabla de transacciones de Excel), estas divisiones representan el mejor comportamiento posible.

Hay algunas zonas grises menos evidentes, por ejemplo:

Las imágenes incrustadas en archivos distintos de PDF no se procesan. Para incluirlas, convierte el archivo a PDF antes de subirlo.
ChatGPT Enterprise siempre usará Intérprete de código para interactuar con hojas de cálculo, incluso si el documento contiene una gran cantidad de texto. Por ejemplo, si pides a ChatGPT Enterprise que traduzca un archivo CSV con 10 filas de texto, intentará traducirlo usando una biblioteca de Python, lo que es menos preciso que permitir que el modelo genere una traducción directamente. Para mitigarlo, prueba a exportar la hoja de cálculo a un formato basado en texto (por ejemplo, PDF).
Del mismo modo, si subes una tabla transaccional estructurada descrita contenida en un archivo JSON, ChatGPT Enterprise interpretará este archivo como texto sin formato. Si quieres analizar los datos contenidos en un archivo JSON, indica en tu prompt al modelo que use Intérprete de código.

Gestión de archivos según el tamaño

ChatGPT Enterprise usa modelos con una ventana de contexto máxima de 128k tokens (aproximadamente 200 páginas de texto). Sin embargo, no todos los tokens se usan para incorporar el texto de los archivos subidos. El número de tokens «insertados» varía según el tipo de uso.

ChatGPT Enterprise «inserta» cierta cantidad de texto, y el texto restante se envía a un índice de búsqueda privado (un «vector store», que es un tipo de base de datos diseñada para almacenar y recuperar de forma eficiente grandes cantidades de texto). Cuando haces una pregunta, ChatGPT Enterprise incorpora el texto incluido junto con fragmentos relevantes recuperados de un índice de búsqueda privado.

Si subes un único documento, ChatGPT Enterprise incluye texto desde el principio hasta alcanzar su límite. Si subes varios documentos, ChatGPT Enterprise incluye parte o la totalidad de cada documento. Todo el texto de los documentos también se envía a un índice de búsqueda privado.

Inserción de contexto para documentos de texto

Esta función está en desarrollo activo. Por tanto, los siguientes detalles están sujetos a cambios sin previo aviso.

ChatGPT Enterprise puede procesar hasta 110k tokens de documentos subidos en la ventana de contexto. Si subes uno o varios documentos con un total combinado inferior a 110k tokens, se incluirá todo el contenido.

Para un único documento que supere los 110k tokens, solo se incluirán los primeros 110k tokens, empezando por el principio. El resto solo se enviará al índice de búsqueda privado.

Si se suben varios documentos y su total combinado supera los 110k tokens, ChatGPT Enterprise usa un proceso de dos pasos para equilibrar la representación de los documentos:

Extraer hasta 55k tokens, repartidos de forma uniforme entre los documentos subidos.
- Por ejemplo, si se suben 10 documentos, se extraen 5,5k tokens del principio de cada uno.
Para los documentos que no queden totalmente representados en el primer paso, asignar los 55k tokens restantes de forma proporcional en función de los tokens que queden en cada documento.
- Por ejemplo, si el Documento A tiene 10k tokens restantes y el Documento B tiene 90k tokens restantes, se extraen 5,5k tokens adicionales del Documento A ( (10k / 100k) * 55k ), y 49,5k tokens adicionales del Documento B ( (90k / 100k) * 55k ).
Los tokens restantes solo se envían al índice de búsqueda privado.

Puedes estimar el número de tokens de un documento de texto copiando el texto del documento en el Tokenizer de OpenAI.

Inserción de contexto para PDF multimedia

Cuando los usuarios suben PDF que contienen texto e imágenes, la Recuperación visual permite a ChatGPT procesar estas imágenes de forma nativa junto con el texto extraído digitalmente. Los siguientes pasos complementan nuestros procedimientos estándar de gestión del contexto para PDF multimedia:

Extracción e incrustación de imágenes: Las imágenes se extraen y se incrustan junto con su texto digital asociado.
Escalado inteligente: Las imágenes se escalan automáticamente para mantener un equilibrio entre la calidad de la información y el uso eficiente de la ventana de contexto disponible.

Cuando los PDF subidos superan el límite de 110k tokens, tanto las imágenes como el texto se incrustan en el índice de búsqueda privado. Las incrustaciones de texto hacen referencia a imágenes relevantes, lo que permite a ChatGPT recuperar los pares texto-imagen adecuados en función de las consultas del usuario. Las imágenes recuperadas se procesan después usando las capacidades multimodales nativas de ChatGPT.

Estimar con precisión los requisitos de tokens para PDF multimedia es difícil. Las pruebas indican que aproximadamente 350 páginas de texto e imágenes mixtos aprovecharán por completo la ventana de contexto de 110k tokens.

Estrategias de búsqueda según el tipo de modelo

Tanto los modelos de la serie GPT como los de la serie o admiten la subida de archivos y usan la misma lógica de inserción de contexto e incrustación de búsqueda. Todos los modelos ejecutan búsquedas híbridas en un índice de búsqueda privado, combinando métodos de palabras clave y semánticos. En una búsqueda híbrida, el modelo genera una frase de búsqueda basada en el prompt del usuario, y el índice de búsqueda privado recupera el texto y las imágenes relevantes en consecuencia.

Sin embargo, estos modelos difieren en cómo buscan en documentos grandes que superan la ventana de contexto:

Modelos de la serie GPT

Una sola búsqueda por prompt: Los modelos de la serie GPT realizan una búsqueda por cada prompt del usuario.
Casos de uso eficaces: Ideales para responder preguntas directas incluidas en documentación extensa.

Ejemplos de consultas:

«¿Cuál es la política de RR. HH. sobre la jubilación anticipada?»
«¿Qué hace la función process_order?»

Modelos de la serie o

Múltiples búsquedas por prompt: Pueden ejecutar varias búsquedas (normalmente 2-3) por cada prompt del usuario, cada una con una frase de búsqueda única. Las búsquedas se ejecutan secuencialmente, y el modelo puede actualizar su enfoque en función de la información recuperada en búsquedas anteriores.
Casos de uso eficaces: Más adecuados para preguntas complejas que requieren varias búsquedas específicas en documentación extensa.