OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Optimización de cargas de archivos en ChatGPT Enterprise

Descubre cómo las funciones de ChatGPT Enterprise gestionan archivos según su tipo, cantidad y tamaño. Mejora los resultados según los requisitos del archivo.

Actualización: 16 days ago

ChatGPT Enterprise ahora admite la lectura y comprensión de elementos visuales (imágenes, gráficos, diagramas, etc.) incrustados en archivos PDF incluidos en los prompts. Los usuarios pueden cargar un PDF, y ChatGPT puede interpretar el texto y cualquier elemento visual dentro de ese archivo.

Para obtener más información, consulta Preguntas frecuentes sobre Recuperación visual con PDF.

ChatGPT Enterprise te permite cargar archivos de varias formas:

Esta guía explica cómo las funciones de ChatGPT Enterprise gestionan los archivos según su tipo, número y tamaño, y analiza estrategias para mejorar los resultados según los requisitos de los archivos.

Resumen

ChatGPT Enterprise trata los distintos tipos de archivo de formas muy diferentes: extrae texto de documentos de texto como PDF, presentaciones y archivos de Word; analiza datos estructurados de hojas de cálculo mediante código Python; y describe archivos de imagen mediante GPT-Vision. Comprender qué tipo de archivo activa cada flujo de trabajo es clave para obtener el resultado esperado.

En el caso de los documentos basados en texto, ChatGPT Enterprise incluye tanto texto relevante como sea posible directamente junto al prompt y usa un sistema de búsqueda para acceder a información adicional. Esto funciona bien para responder preguntas específicas. Sin embargo, este enfoque puede tener dificultades con tareas complejas, como resumir documentos muy grandes o comparar varios archivos grandes. Sigue leyendo para conocer estrategias que mejoren tus resultados.

Gestión de archivos según el tipo

ChatGPT Enterprise procesa los archivos de tres formas principales: extracción de texto, análisis de código e interpretación de imágenes. El tipo de archivo determina qué flujo de trabajo sigue ChatGPT Enterprise.

Recuperación basada en textoIntérprete de códigoProcesamiento de imágenesRecuperación visual
Ejemplos de tipos de archivopptx, docx, txt, md, json, xml, pdf*
* PDF cargados como

conocimiento de GPT
o

archivos de proyecto
csv, xls, xlsx*
*Nota: el Intérprete de código puede operar con cualquier tipo de archivo, pero ChatGPT Enterprise suele usar CI de forma predeterminada para hojas de cálculo
jpg, pngpdf*
* PDF incluidos en prompts de usuario
ComportamientoExtrae el texto del archivo: parte del texto se pega («se inserta») directamente en la ventana de contexto; parte del texto se almacena para la búsquedaEl Intérprete de código pasa el archivo a Python para su procesamientoLas imágenes son interpretadas de forma nativa por modelos multimodales, sujetas a

limitaciones conocidas
.
Un híbrido de recuperación de texto y procesamiento de imágenes. El texto se extrae digitalmente, y el contenido visual es interpretado de forma nativa por modelos multimodales.

Para archivos solo de texto, archivos de imagen o archivos de datos claramente estructurados (por ejemplo, una tabla de Excel de transacciones), estas divisiones representan el mejor comportamiento posible.

Hay algunas zonas grises que son menos evidentes, por ejemplo:

  • Las imágenes incrustadas en archivos que no sean PDF no se procesan. Para incluirlas, convierte el archivo a PDF antes de cargarlo.

  • ChatGPT Enterprise siempre usará el Intérprete de código para interactuar con hojas de cálculo, aunque el documento contenga una gran cantidad de texto. Por ejemplo, si pides a ChatGPT Enterprise que traduzca un archivo CSV con 10 filas de texto, intentará traducir el archivo usando una biblioteca de Python, lo que es menos preciso que permitir que el modelo genere una traducción directamente. Para mitigar esto, prueba a exportar la hoja de cálculo a un formato basado en texto (PDF, por ejemplo).

  • Del mismo modo, si cargas una tabla transaccional estructurada contenida en un archivo JSON, ChatGPT Enterprise interpretará este archivo como texto sin formato. Si quieres analizar los datos contenidos en un archivo JSON, indica al modelo que use el Intérprete de código en tu prompt.

Gestión de archivos según el tamaño

ChatGPT Enterprise utiliza modelos con una ventana de contexto máxima de 128 000 tokens (aproximadamente 200 páginas de texto). Sin embargo, no todos los tokens se usan para incorporar el texto de los archivos cargados. El número de tokens «insertados» varía según el tipo de uso.

ChatGPT Enterprise «inserta» cierta cantidad de texto, y el texto restante se envía a un índice de búsqueda privado (un «almacén de vectores», que es un tipo de base de datos diseñada para almacenar y recuperar de forma eficiente grandes cantidades de texto). Cuando haces una pregunta, ChatGPT Enterprise incorpora el texto incluido junto con fragmentos relevantes recuperados de un índice de búsqueda privado.

Si cargas un único documento, ChatGPT Enterprise incluye texto desde el principio hasta alcanzar su límite. Si cargas varios documentos, ChatGPT Enterprise incluye parte o la totalidad de cada documento. Todo el texto de los documentos también se envía a un índice de búsqueda privado.

Inclusión de contexto para documentos de texto

Esta función está en desarrollo activo. Por tanto, los siguientes detalles están sujetos a cambios sin previo aviso.

ChatGPT Enterprise puede procesar hasta 110 000 tokens de documentos cargados en la ventana de contexto. Si cargas uno o más documentos con un total combinado inferior a 110 000 tokens, se incluirá todo el contenido.

Para un único documento que supere los 110 000 tokens, solo se incluirán los primeros 110 000 tokens, empezando desde el principio. El resto solo se enviará al índice de búsqueda privado.

Si se cargan varios documentos y su total combinado supera los 110 000 tokens, ChatGPT Enterprise usa un proceso de dos pasos para equilibrar la representación de los documentos:

  1. Extrae hasta 55 000 tokens, divididos equitativamente entre los documentos cargados.

  1. Para los documentos que no estén plenamente representados en el primer paso, asigna los 55 000 tokens restantes proporcionalmente según los tokens que queden en cada documento.

  1. Los tokens restantes solo se envían al índice de búsqueda privado.

Puedes estimar el número de tokens de un documento de texto copiando el texto del documento en el tokenizador de OpenAI.

Inclusión de contexto para PDF multimedia

Cuando los usuarios cargan PDF que contienen tanto texto como imágenes, Recuperación visual permite a ChatGPT procesar estas imágenes de forma nativa junto con el texto extraído digitalmente. Los pasos siguientes complementan nuestros procedimientos estándar de gestión del contexto para PDF multimedia:

  • Extracción e incrustación de imágenes: las imágenes se extraen e incrustan junto con su texto digital asociado.

  • Escalado inteligente: las imágenes se escalan automáticamente para mantener un equilibrio entre la calidad de la información y el uso eficiente de la ventana de contexto disponible.

Cuando los PDF cargados superan el límite de 110 000 tokens, tanto las imágenes como el texto se incrustan en el índice de búsqueda privado. Las incrustaciones de texto hacen referencia a imágenes relevantes, lo que permite a ChatGPT recuperar los pares de texto e imagen adecuados según las consultas del usuario. Las imágenes recuperadas se procesan entonces con las capacidades multimodales nativas de ChatGPT.

Estimar con precisión los requisitos de tokens para PDF multimedia es difícil. Las pruebas sugieren que aproximadamente 350 páginas de texto e imágenes combinados utilizarán por completo la ventana de contexto de 110 000 tokens.

Estrategias de búsqueda según el tipo de modelo

Tanto los modelos de la serie GPT como los de la serie o admiten la carga de archivos y utilizan la misma lógica de inclusión de contexto e incrustaciones de búsqueda. Todos los modelos ejecutan búsquedas híbridas en un índice de búsqueda privado, combinando métodos de palabras clave y semánticos. En una búsqueda híbrida, el modelo genera una frase de búsqueda a partir del prompt del usuario, y el índice de búsqueda privado recupera el texto y las imágenes relevantes en consecuencia.

Sin embargo, estos modelos difieren en la forma en que buscan en documentos grandes que superan la ventana de contexto:

Modelos de la serie GPT

  • Una sola búsqueda por prompt: los modelos de la serie GPT realizan una búsqueda por cada prompt del usuario.

  • Casos de uso eficaces: ideales para responder preguntas sencillas incluidas en documentación extensa.

Consultas de ejemplo:

  • «¿Cuál es la política de RR. HH. sobre jubilación anticipada?»

  • «¿Qué hace la función process_order

Modelos de la serie o

  • Varias búsquedas por prompt: puede ejecutar varias búsquedas (normalmente 2 o 3) por cada prompt del usuario, cada una con una frase de búsqueda única. Las búsquedas se ejecutan de forma secuencial, y el modelo puede actualizar su enfoque según la información recuperada en búsquedas anteriores.

  • Casos de uso eficaces: más adecuados para preguntas complejas que requieren varias búsquedas específicas en documentación extensa.

Consultas de ejemplo:

  • «¿Cuáles son las políticas de RR. HH. sobre jubilación anticipada, permiso parental y traslado al extranjero?»

  • «Explica qué hace la función process_order, enumera todos los métodos invocados por esta función y describe brevemente cada método invocado».

A pesar de sus puntos fuertes, los modelos de la serie o pueden tener dificultades cuando una consulta requiere más de tres búsquedas.

Consejos para mejorar los resultados de búsqueda de archivos

  • Prueba a usar un modelo de la serie o para preguntas complejas que requieran varias búsquedas.

  • Recuerda que las respuestas pueden variar en función del tipo, el número y el tamaño de los documentos que cargues.

  • Por lo general, cargar menos documentos y más centrados dará lugar a una mayor precisión.

  • Convierte los temas con varias preguntas en preguntas individuales:

    • Si necesitas conocer las políticas de RR. HH. de cada estado, pregúntalas una por una.

    • Si necesitas resumir muchos documentos, pide un documento cada vez. Si ese documento tiene muchos cientos de páginas, considera dividirlo en componentes más pequeños.

      • Podrías pedir a ChatGPT Enterprise que escriba un «resumen de resúmenes» si le proporcionas varios resúmenes en lugar de documentos completos.

    • Si tienes un CSV de una RFP (cada línea es una pregunta diferente), haz esas preguntas una por una en lugar de limitarte a cargar el CSV y solicitar una única respuesta.

  • Busca formas de auditar las respuestas del modelo. A continuación se muestran instrucciones de GPT de ejemplo:

# Contexto 

Eres un experto en comprender documentos. El usuario va a adjuntar un documento y hacer una pregunta. Necesita poder conectar tu respuesta con la parte exacta del texto de la que obtuviste la respuesta.

# Instrucciones

1. Responde a la pregunta del usuario basándote en el documento adjunto usando el formato exacto que se proporciona a continuación

# Formato

- Pregunta: { repite la pregunta del usuario }
- Respuesta: { proporciona una respuesta a la pregunta del usuario }
Fuente:
- - Número de sección: { indica el número de sección de donde extrajiste la respuesta }
- - Título de la sección: { indica el título de la sección de donde extrajiste la respuesta }
- - Texto exacto: { proporciona el texto exacto de donde extrajiste la respuesta }

# Reglas

- Da respuestas claras y concisas
- Proporciona solo la información incluida en el documento
- Si no encuentras la respuesta en el documento, responde simplemente «No se encontró información».

¿Te ha resultado útil este artículo?