OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Optimizar la carga de archivos en ChatGPT Enterprise

Entiende cómo las funciones de ChatGPT Enterprise manejan los archivos según su tipo, cantidad y tamaño. Mejora los resultados según los requisitos del archivo.

Última actualización: yesterday

ChatGPT Enterprise ahora admite leer y comprender elementos visuales (imágenes, gráficos, diagramas, etc.) incrustados en archivos PDF incluidos en los prompts. Los usuarios pueden cargar un PDF y ChatGPT puede interpretar el texto y cualquier elemento visual dentro de ese archivo.

Para más detalles, consulta Preguntas frecuentes sobre recuperación visual con PDFs.

ChatGPT Enterprise te permite cargar archivos de varias maneras:

Esta guía explica cómo las funciones de ChatGPT Enterprise manejan los archivos según su tipo, cantidad y tamaño, y analiza estrategias para mejorar los resultados en función de los requisitos del archivo.

Resumen

ChatGPT Enterprise trata tipos de archivos diferentes de manera muy distinta: extrae texto de documentos de texto como PDFs, presentaciones y archivos de Word; analiza datos estructurados de hojas de cálculo usando código Python; y describe archivos de imagen mediante GPT-Vision. Entender qué tipo de archivo activa qué flujo de trabajo es clave para obtener el resultado esperado.

En el caso de documentos basados en texto, ChatGPT Enterprise incluye la mayor cantidad posible de texto relevante directamente junto al prompt y usa un sistema de búsqueda para acceder a información adicional. Esto funciona bien para responder preguntas específicas. Sin embargo, este enfoque puede tener dificultades con tareas complejas como resumir documentos muy grandes o comparar varios archivos grandes. Sigue leyendo para entender estrategias para mejorar tus resultados.

Manejo de archivos según el tipo

ChatGPT Enterprise procesa archivos de tres maneras principales: extracción de texto, análisis con código e interpretación de imágenes. El tipo de archivo determina qué flujo de trabajo sigue ChatGPT Enterprise.

Recuperación basada en textoIntérprete de códigoProcesamiento de imágenesRecuperación visual
Ejemplos de tipos de archivopptx, docx, txt, md, json, xml, pdf*
* PDFs cargados como

Conocimiento del GPT
o

Archivos de proyecto
csv, xls, xlsx*
*Nota: El Intérprete de código puede operar con cualquier tipo de archivo, pero ChatGPT Enterprise casi siempre usa IC de forma predeterminada para hojas de cálculo
jpg, pngpdf*
* PDFs incluidos en los prompts del usuario
ComportamientoExtrae el texto del archivo: parte del texto se pega (“se inserta”) directamente en la ventana de contexto; otra parte se almacena para búsquedaEl Intérprete de código envía el archivo a Python para su procesamientoLas imágenes son interpretadas de forma nativa por modelos multimodales, sujetas a

limitaciones conocidas
.
Un híbrido de recuperación de texto y procesamiento de imágenes. El texto se extrae digitalmente y el contenido visual se interpreta de forma nativa por modelos multimodales.

Para archivos solo de texto, archivos de imagen o archivos de datos claramente estructurados (p. ej., una tabla de transacciones en Excel), estas divisiones representan el mejor comportamiento posible.

Hay algunas zonas grises que son menos obvias, por ejemplo:

  • Las imágenes incrustadas en archivos que no sean PDFs no se procesan. Para incluirlas, convierte el archivo a PDF antes de cargarlo.

  • ChatGPT Enterprise siempre usará el Intérprete de código para interactuar con hojas de cálculo, incluso si el documento contiene una gran cantidad de texto. Por ejemplo, si le pides a ChatGPT Enterprise que traduzca un archivo CSV con 10 filas de texto, intentará traducir el archivo usando una biblioteca de Python, lo cual es menos preciso que permitir que el modelo genere una traducción directamente. Para mitigarlo, intenta exportar la hoja de cálculo a un formato basado en texto (PDF, por ejemplo).

  • De forma similar, si cargas una tabla transaccional estructurada contenida en un archivo JSON, ChatGPT Enterprise interpretará este archivo como texto sin formato. Si quieres analizar los datos contenidos en un archivo JSON, indica al modelo que use el Intérprete de código en tu prompt.

Manejo de archivos según el tamaño

ChatGPT Enterprise usa modelos con una ventana de contexto máxima de 128k tokens (aproximadamente 200 páginas de texto). Sin embargo, no todos los tokens se usan para incorporar el texto de los archivos cargados. La cantidad de tokens “insertados” varía según el tipo de uso.

ChatGPT Enterprise “inserta” cierta cantidad de texto, y el texto restante se envía a un índice de búsqueda privado (un “vector store”, que es un tipo de base de datos diseñada para almacenar y recuperar eficientemente grandes cantidades de texto). Cuando haces una pregunta, ChatGPT Enterprise incorpora el texto incluido junto con fragmentos relevantes recuperados del índice de búsqueda privado.

Si cargas un solo documento, ChatGPT Enterprise incluye texto desde el inicio hasta alcanzar su límite. Si cargas varios documentos, ChatGPT Enterprise incluye parte o la totalidad de cada documento. Todo el texto de los documentos también se envía a un índice de búsqueda privado.

Inserción en el contexto para documentos de texto

Esta función está en desarrollo activo. Por lo tanto, los siguientes detalles pueden cambiar sin previo aviso.

ChatGPT Enterprise puede procesar hasta 110k tokens de los documentos cargados en la ventana de contexto. Si cargas uno o más documentos con un total combinado de menos de 110k tokens, se incluirá el contenido completo.

En el caso de un documento único que supere los 110k tokens, solo se incluirán los primeros 110k tokens, empezando desde el inicio. El resto solo se enviará al índice de búsqueda privado.

Si se cargan varios documentos y su total combinado supera los 110k tokens, ChatGPT Enterprise usa un proceso de dos pasos para equilibrar la representación de los documentos:

  1. Extraer hasta 55k tokens, divididos de manera uniforme entre los documentos cargados.

    • Por ejemplo, si se cargan 10 documentos, se extraen 5.5k tokens del inicio de cada uno.

  2. Para los documentos que no quedaron completamente representados en el primer paso, asignar los 55k tokens restantes de manera proporcional según los tokens que queden en cada documento.

    • Por ejemplo, si el Documento A tiene 10k tokens restantes y el Documento B tiene 90k tokens restantes, se extraen 5.5k tokens adicionales del Documento A ( (10k / 100k) * 55k ), y 49.5k tokens adicionales del Documento B ( (90k / 100k) * 55k ).

  3. Cualquier token restante solo se envía al índice de búsqueda privado.

Puedes estimar la cantidad de tokens en un documento de texto copiando el texto del documento en el Tokenizer de OpenAI.

Inserción en el contexto para PDFs multimedia

Cuando los usuarios cargan PDFs que contienen tanto texto como imágenes, Recuperación visual permite que ChatGPT procese estas imágenes de forma nativa junto con el texto extraído digitalmente. Los siguientes pasos complementan nuestros procedimientos estándar de manejo del contexto para PDFs multimedia:

  • Extracción e incrustación de imágenes: Las imágenes se extraen y se incrustan junto con su texto digital asociado.

  • Escalado inteligente: Las imágenes se escalan automáticamente para mantener un equilibrio entre la calidad de la información y el uso eficiente de la ventana de contexto disponible.

Cuando los PDFs cargados superan el límite de 110k tokens, tanto las imágenes como el texto se incrustan en el índice de búsqueda privado. Las incrustaciones de texto hacen referencia a imágenes relevantes, lo que permite que ChatGPT recupere los pares adecuados de texto e imagen según las consultas del usuario. Luego, las imágenes recuperadas se procesan usando las capacidades multimodales nativas de ChatGPT.

Estimar con precisión los requisitos de tokens para PDFs multimedia es difícil. Las pruebas sugieren que aproximadamente 350 páginas de mezcla de texto e imágenes utilizarán por completo la ventana de contexto de 110k tokens.

Estrategias de búsqueda según el tipo de modelo

Tanto los modelos de la serie GPT como los de la serie o admiten cargas de archivos y utilizan la misma lógica de inserción de contexto e incrustación para búsqueda. Todos los modelos ejecutan búsquedas híbridas contra un índice de búsqueda privado, combinando métodos de palabras clave y semánticos. En una búsqueda híbrida, el modelo genera una frase de búsqueda a partir del prompt del usuario, y el índice de búsqueda privado recupera el texto y las imágenes relevantes en consecuencia.

Sin embargo, estos modelos difieren en cómo buscan en documentos grandes que superan la ventana de contexto:

Modelos de la serie GPT

  • Una búsqueda por prompt: Los modelos de la serie GPT realizan una búsqueda por cada prompt del usuario.

  • Casos de uso efectivos: Ideales para responder preguntas directas contenidas en documentación extensa.

Consultas de ejemplo:

  • "¿Cuál es la política de RR. HH. para la jubilación anticipada?"

  • "¿Qué hace la función process_order?"

Modelos de la serie o

  • Múltiples búsquedas por prompt: Pueden ejecutar múltiples búsquedas (normalmente 2-3) por cada prompt del usuario, cada una con una frase de búsqueda única. Las búsquedas se ejecutan de forma secuencial, y el modelo puede ajustar su enfoque con base en la información recuperada en búsquedas anteriores.

  • Casos de uso efectivos: Más adecuados para preguntas complejas que requieren múltiples búsquedas dirigidas a lo largo de documentación extensa.

Consultas de ejemplo:

  • "¿Cuáles son las políticas de RR. HH. para la jubilación anticipada, la licencia parental y el traslado al extranjero?"

  • "Explica qué hace la función process_order, enumera todos los métodos invocados por esta función y describe brevemente cada método invocado."

A pesar de sus fortalezas, los modelos de la serie o pueden tener dificultades cuando una consulta requiere más de tres búsquedas.

Consejos para mejorar los resultados de búsqueda en archivos

  • Intenta usar un modelo de la serie o para preguntas complejas que requieran múltiples búsquedas.

  • Recuerda que las respuestas pueden variar según el tipo, la cantidad y el tamaño de los documentos que cargues.

  • En general, cargar menos documentos y más enfocados dará mayor precisión.

  • Convierte temas con varias preguntas en preguntas individuales:

    • Si necesitas conocer las políticas de RR. HH. de cada estado, pregúntalas una por una.

    • Si necesitas resumir muchos documentos, pide uno a la vez. Si ese documento tiene cientos de páginas, considera dividirlo en componentes más pequeños.

      • Podrías pedirle a ChatGPT Enterprise que escriba un “resumen de resúmenes” si le proporcionas varios resúmenes en lugar de documentos completos.

    • Si tienes un CSV de una RFP (cada línea es una pregunta distinta), haz esas preguntas una por una en lugar de solo cargar el CSV y pedir una única respuesta.

  • Busca maneras de auditar las respuestas del modelo. A continuación se muestran instrucciones de ejemplo para GPT:

# Contexto 

Eres un experto en comprender documentos. El usuario va a adjuntar un documento y hacer una pregunta. Necesitan poder vincular tu respuesta con la parte exacta del texto de donde obtuviste tu respuesta.

# Instrucciones

1. Responde la pregunta del usuario basándote en su documento adjunto usando el formato exacto que se proporciona a continuación

# Formato

- Pregunta: { repetir la pregunta del usuario }
- Respuesta: { proporcionar una respuesta a la pregunta del usuario }
Fuente:
- - Número de sección: { proporcionar el número de la sección de donde obtuviste la respuesta }
- - Título de la sección: { proporcionar el título de la sección de donde obtuviste la respuesta }
- - Texto exacto: { proporcionar el texto exacto de donde obtuviste la respuesta }

# Reglas

- Da respuestas claras y concisas
- Solo proporciona información que esté en el documento
- Si no puedes encontrar la respuesta en el documento, responde simplemente "No se encontró información."

¿Este artículo te fue útil?