Entenda como os recursos do ChatGPT Enterprise lidam com arquivos conforme tipo, quantidade e tamanho. Melhore os resultados com base nos requisitos dos arquivos.

O ChatGPT Enterprise agora oferece suporte à leitura e compreensão de elementos visuais (imagens, gráficos, diagramas etc.) incorporados em arquivos PDF incluídos em prompts. Os usuários podem enviar um PDF, e o ChatGPT pode interpretar o texto e quaisquer elementos visuais dentro desse arquivo.

Para detalhes, consulte Perguntas frequentes sobre Recuperação visual com PDFs.

O ChatGPT Enterprise permite enviar arquivos de várias maneiras:

Diretamente do seu computador
Do Google Drive / SharePoint / OneDrive
Como Conhecimento do GPT
Como Arquivo de projeto
A partir de uma Ação do GPT

Este guia explica como os recursos do ChatGPT Enterprise lidam com arquivos com base em seu tipo, número e tamanho, e discute estratégias para melhorar os resultados com base nos requisitos dos arquivos.

Resumo

O ChatGPT Enterprise trata diferentes tipos de arquivo de maneiras muito diferentes: extraindo texto de documentos como PDFs, apresentações e arquivos do Word, analisando dados estruturados de planilhas usando código Python e descrevendo arquivos de imagem por meio do GPT-Vision. Entender qual tipo de arquivo aciona qual fluxo de trabalho é essencial para obter o resultado esperado.

Para documentos baseados em texto, o ChatGPT Enterprise inclui o máximo possível de texto relevante diretamente junto ao prompt e usa um sistema de busca para acessar informações adicionais. Isso funciona bem para responder a perguntas específicas. No entanto, essa abordagem pode ter dificuldades com tarefas complexas, como resumir documentos muito grandes ou comparar vários arquivos grandes. Continue lendo para entender estratégias para melhorar seus resultados.

Como lidar com arquivos com base no tipo

O ChatGPT Enterprise processa arquivos de três formas principais: extração de texto, análise de código e interpretação de imagens. O tipo de arquivo determina qual fluxo de trabalho o ChatGPT Enterprise segue.

	Recuperação baseada em texto	Code Interpreter	Processamento de imagens	Recuperação visual
Exemplos de tipos de arquivo	pptx, docx, txt, md, json, xml, pdf* * PDFs enviados como Conhecimento do GPT ou Arquivos de projeto	csv, xls, xlsx* *Observação: o Code Interpreter pode operar em qualquer tipo de arquivo, mas o ChatGPT Enterprise geralmente usa CI por padrão para planilhas	jpg, png	pdf* * PDFs incluídos em prompts do usuário
Comportamento	Extrai o texto do arquivo – parte do texto é colada (“preenchida”) diretamente na janela de contexto; parte do texto é armazenada para busca	O Code Interpreter passa o arquivo para o Python para processamento	As imagens são interpretadas nativamente por modelos multimodais, sujeitas a limitações conhecidas .	Um híbrido de recuperação de texto e processamento de imagens. O texto é extraído digitalmente, e o conteúdo visual é interpretado nativamente por modelos multimodais.

Para arquivos somente de texto, arquivos de imagem ou arquivos de dados claramente estruturados (por exemplo, uma tabela do Excel com transações), essas divisões representam o melhor comportamento possível.

Há algumas áreas cinzentas que são menos óbvias, por exemplo:

Imagens incorporadas em arquivos que não sejam PDFs não são processadas. Para incluí-las, converta o arquivo em PDF antes de enviá-lo.
O ChatGPT Enterprise sempre usará o Code Interpreter para interagir com planilhas, mesmo que o documento contenha uma grande quantidade de texto. Por exemplo, se você pedir ao ChatGPT Enterprise para traduzir um arquivo CSV com 10 linhas de texto, ele tentará traduzir o arquivo usando uma biblioteca Python, o que é menos preciso do que permitir que o modelo gere uma tradução diretamente. Para mitigar isso, tente exportar a planilha para um formato baseado em texto (PDF, por exemplo).
Da mesma forma, se você enviar uma tabela transacional estruturada descrita contida em um arquivo JSON, o ChatGPT Enterprise interpretará esse arquivo como texto simples. Se você quiser analisar os dados contidos em um arquivo JSON, instrua o modelo a usar o Code Interpreter em seu prompt.

Como lidar com arquivos com base no tamanho

O ChatGPT Enterprise usa modelos com uma janela de contexto máxima de 128 mil tokens (aproximadamente 200 páginas de texto). No entanto, nem todos os tokens são usados para incorporar o texto dos arquivos enviados. O número de tokens “preenchidos” varia de acordo com o tipo de uso.

O ChatGPT Enterprise “preenche” uma certa quantidade de texto, e o texto restante é enviado para um índice de busca privado (um “armazenamento vetorial”, que é um tipo de banco de dados projetado para armazenar e recuperar grandes quantidades de texto com eficiência). Quando você faz uma pergunta, o ChatGPT Enterprise inclui o texto incorporado junto com trechos relevantes recuperados de um índice de busca privado.

Se você enviar um único documento, o ChatGPT Enterprise inclui o texto desde o início até atingir seu limite. Se você enviar vários documentos, o ChatGPT Enterprise inclui parte ou todo o conteúdo de cada documento. Todo o texto dos documentos também é enviado para um índice de busca privado.

Preenchimento de contexto para documentos de texto

Este recurso está em desenvolvimento ativo. Portanto, os detalhes a seguir estão sujeitos a alterações sem aviso prévio.

O ChatGPT Enterprise pode processar até 110 mil tokens de documentos enviados na janela de contexto. Se você enviar um ou mais documentos com um total combinado de menos de 110 mil tokens, o conteúdo completo será incluído.

Para um único documento com mais de 110 mil tokens, apenas os primeiros 110 mil tokens serão incluídos, começando pelo início. O restante será enviado apenas para o índice de busca privado.

Se vários documentos forem enviados e seu total combinado exceder 110 mil tokens, o ChatGPT Enterprise usa um processo em duas etapas para equilibrar a representação dos documentos:

Extraia até 55 mil tokens, divididos igualmente entre os documentos enviados.

Para documentos que não foram totalmente representados na primeira etapa, aloque os 55 mil tokens restantes proporcionalmente com base nos tokens que restam em cada documento.

Quaisquer tokens restantes são enviados apenas para o índice de busca privado.

Você pode estimar o número de tokens em um documento de texto copiando o texto do documento para o Tokenizer da OpenAI.

Preenchimento de contexto para PDFs multimídia

Quando usuários enviam PDFs contendo texto e imagens, a Recuperação visual permite que o ChatGPT processe essas imagens nativamente junto com o texto extraído digitalmente. As etapas a seguir complementam nossos procedimentos padrão de tratamento de contexto para PDFs multimídia:

Extração e embedding de imagens: as imagens são extraídas e convertidas em embeddings junto com seu texto digital associado.
Dimensionamento inteligente: as imagens são dimensionadas automaticamente para manter um equilíbrio entre a qualidade das informações e o uso eficiente da janela de contexto disponível.

Quando os PDFs enviados excedem o limite de 110 mil tokens, tanto as imagens quanto o texto são incorporados ao índice de busca privado. Embeddings de texto fazem referência a imagens relevantes, permitindo que o ChatGPT recupere os pares texto-imagem apropriados com base nas consultas do usuário. As imagens recuperadas são então processadas usando os recursos multimodais nativos do ChatGPT.

Estimar com precisão os requisitos de tokens para PDFs multimídia é desafiador. Testes sugerem que aproximadamente 350 páginas de texto e imagens mistos usarão totalmente a janela de contexto de 110 mil tokens.

Estratégias de busca com base no tipo de modelo

Tanto os modelos da série GPT quanto os da série o aceitam uploads de arquivos e usam a mesma lógica de preenchimento de contexto e embeddings de busca. Todos os modelos executam buscas híbridas em um índice de busca privado, combinando métodos por palavra-chave e semânticos. Em uma busca híbrida, o modelo gera uma frase de busca com base no prompt do usuário, e o índice de busca privado recupera textos e imagens relevantes de acordo.

No entanto, esses modelos diferem na forma como pesquisam em documentos grandes que excedem a janela de contexto:

modelos da série GPT

Busca única por prompt: os modelos da série GPT realizam uma busca por prompt do usuário.
Casos de uso eficazes: ideal para responder a perguntas diretas inseridas em documentação extensa.

Exemplos de consultas:

“Qual é a política de RH para aposentadoria antecipada?”
“O que a função process_order faz?”

modelos da série o

Várias buscas por prompt: podem executar várias buscas (geralmente 2 a 3) por prompt do usuário, cada uma com uma frase de busca exclusiva. As buscas são executadas sequencialmente, e o modelo pode atualizar sua abordagem com base nas informações recuperadas em buscas anteriores.
Casos de uso eficazes: mais adequados para perguntas complexas que exigem várias buscas direcionadas em documentação extensa.

Exemplos de consultas:

“Quais são as políticas de RH para aposentadoria antecipada, licença parental e transferência para o exterior?”
“Explique o que a função process_order faz, liste todos os métodos invocados por essa função e descreva brevemente cada método invocado.”

Apesar de seus pontos fortes, os modelos da série o podem ter dificuldades quando uma consulta exige mais de três buscas.

Dicas para melhorar os resultados da busca em arquivos

Experimente usar um modelo da série o para perguntas complexas que exigem várias buscas.
Lembre-se de que as respostas podem variar dependendo do tipo, número e tamanho dos documentos que você envia.
Em geral, carregar menos documentos, mais focados, levará a uma precisão maior.
Transforme tópicos com várias perguntas em perguntas únicas:
- Se você precisar conhecer as políticas de RH de todos os estados, pergunte uma a uma.
- Se você precisar resumir muitos documentos, peça um documento por vez. Se esse documento tiver muitas centenas de páginas, considere dividi-lo em componentes menores.
  - Você poderia pedir ao ChatGPT Enterprise que escrevesse um “resumo dos resumos” se fornecesse a ele vários resumos em vez de documentos inteiros.
- Se você tiver um CSV de uma RFP (cada linha é uma pergunta diferente), faça essas perguntas uma a uma em vez de simplesmente carregar o CSV e solicitar uma única resposta.
Encontre formas de auditar as respostas do modelo. Exemplos de instruções para GPT estão abaixo:

# Contexto 

Você é especialista em entender documentos. O usuário vai anexar um documento e fazer uma pergunta. Ele precisa conseguir conectar sua resposta à parte exata do texto de onde você extraiu a resposta.

# Instruções

1. Responda à pergunta do usuário com base no documento anexado usando o formato exato fornecido abaixo

# Formato 

- Pergunta: { repita a pergunta do usuário }
- Resposta: { forneça uma resposta à pergunta do usuário }
Fonte: 
- - Número da seção: { forneça o número da seção de onde você extraiu a resposta }
- - Título da seção: { forneça o título da seção de onde você extraiu a resposta }
- - Texto exato: { forneça o texto exato de onde você extraiu a resposta }

# Regras

- Dê respostas claras e concisas
- Forneça apenas informações presentes no documento
- Se você não encontrar a resposta no documento, responda simplesmente “Nenhuma informação encontrada.”

Como otimizar uploads de arquivos no ChatGPT Enterprise

Resumo

Como lidar com arquivos com base no tipo

Como lidar com arquivos com base no tamanho

Preenchimento de contexto para documentos de texto

Preenchimento de contexto para PDFs multimídia

Estratégias de busca com base no tipo de modelo

modelos da série GPT

modelos da série o

Dicas para melhorar os resultados da busca em arquivos

Este artigo foi útil?