O ChatGPT Enterprise agora oferece suporte à leitura e compreensão de elementos visuais (imagens, gráficos, diagramas etc.) incorporados em arquivos PDF incluídos em prompts. Usuários podem enviar um PDF, e o ChatGPT pode interpretar o texto e quaisquer elementos visuais dentro desse arquivo.
Para mais detalhes, consulte FAQ de Visual Retrieval com PDFs.
O ChatGPT Enterprise permite que você faça upload de arquivos de várias formas:
Diretamente do seu computador
Como GPT Knowledge
Como um Arquivo de Projeto
De uma Ação de GPT
Este guia explica como os recursos do ChatGPT Enterprise lidam com arquivos com base no tipo, na quantidade e no tamanho, e discute estratégias para melhorar os resultados de acordo com os requisitos do arquivo.
Resumo
O ChatGPT Enterprise trata tipos de arquivo diferentes de formas bem distintas: extraindo texto de documentos de texto como PDFs, apresentações e arquivos do Word, analisando dados estruturados de planilhas usando código Python e descrevendo arquivos de imagem por meio do GPT-Vision. Entender qual tipo de arquivo aciona qual fluxo de trabalho é fundamental para obter o resultado esperado.
Para documentos baseados em texto, o ChatGPT Enterprise inclui o máximo possível de texto relevante diretamente junto ao prompt e usa um sistema de busca para acessar informações adicionais. Isso funciona bem para responder perguntas específicas. No entanto, essa abordagem pode ter dificuldade com tarefas complexas, como resumir documentos muito grandes ou comparar vários arquivos grandes. Continue lendo para entender estratégias para melhorar seus resultados.
Como os arquivos são processados com base no tipo
O ChatGPT Enterprise processa arquivos de três formas principais: extração de texto, análise por código e interpretação de imagem. O tipo de arquivo determina qual fluxo de trabalho o ChatGPT Enterprise segue.
| Recuperação baseada em texto | Code Interpreter | Processamento de imagem | Visual Retrieval | |
|---|---|---|---|---|
| Exemplos de tipos de arquivo | pptx, docx, txt, md, json, xml, pdf* * PDFs enviados como GPT Knowledge ou Arquivos de Projeto | csv, xls, xlsx* *Observação: o Code Interpreter pode operar em qualquer tipo de arquivo, mas o ChatGPT Enterprise com mais frequência assume o CI como padrão para planilhas | jpg, png | pdf* * PDFs incluídos em prompts do usuário |
| Comportamento | Extrai o texto do arquivo — parte do texto é colada ("inserida") diretamente na janela de contexto; parte do texto é armazenada para busca | O Code Interpreter envia o arquivo ao Python para processamento | Imagens são interpretadas nativamente por modelos multimodais, sujeitas a limitações conhecidas . | Um híbrido de recuperação de texto e processamento de imagem. O texto é extraído digitalmente, e o conteúdo visual é interpretado nativamente por modelos multimodais. |
Para arquivos somente de texto, arquivos de imagem ou arquivos de dados claramente estruturados (por exemplo, uma tabela do Excel com transações), essas divisões representam o melhor comportamento possível.
Há algumas áreas cinzentas que são menos óbvias, por exemplo:
Imagens incorporadas em arquivos que não sejam PDFs não são processadas. Para incluí-las, converta o arquivo em PDF antes de fazer o upload.
O ChatGPT Enterprise sempre usará o Code Interpreter para interagir com planilhas, mesmo que o documento contenha uma grande quantidade de texto. Por exemplo, se você pedir ao ChatGPT Enterprise para traduzir um arquivo CSV com 10 linhas de texto, ele tentará traduzir o arquivo usando uma biblioteca Python, o que é menos preciso do que permitir que o modelo gere a tradução diretamente. Para mitigar isso, tente exportar a planilha para um formato baseado em texto (PDF, por exemplo).
Da mesma forma, se você fizer upload de uma tabela transacional estruturada descrita em um arquivo JSON, o ChatGPT Enterprise interpretará esse arquivo como texto simples. Se você quiser analisar os dados contidos em um arquivo JSON, instrua o modelo a usar o Code Interpreter no seu prompt.
Como os arquivos são processados com base no tamanho
O ChatGPT Enterprise usa modelos com uma janela de contexto máxima de 128k tokens (aproximadamente 200 páginas de texto). No entanto, nem todos os tokens são usados para incorporar o texto dos arquivos enviados. A quantidade de tokens “inseridos” varia conforme o tipo de uso.
O ChatGPT Enterprise "insere" uma parte do texto, e o texto restante é enviado a um índice de busca privado (um "vector store", que é um tipo de banco de dados projetado para armazenar e recuperar grandes quantidades de texto com eficiência). Quando você faz uma pergunta, o ChatGPT Enterprise traz o texto incluído juntamente com trechos relevantes recuperados de um índice de busca privado.
Se você fizer upload de um único documento, o ChatGPT Enterprise inclui texto a partir do começo até atingir o limite. Se você fizer upload de vários documentos, o ChatGPT Enterprise inclui parte ou a totalidade de cada documento. Todo o texto dos documentos também é enviado a um índice de busca privado.
Inserção de contexto para documentos de texto
Este recurso está em desenvolvimento ativo. Portanto, os detalhes a seguir estão sujeitos a mudanças sem aviso prévio.
O ChatGPT Enterprise pode processar até 110k tokens de documentos enviados na janela de contexto. Se você enviar um ou mais documentos com um total combinado de menos de 110k tokens, todo o conteúdo será incluído.
Para um único documento que exceda 110k tokens, apenas os primeiros 110k tokens serão incluídos, a partir do início. O restante será enviado somente ao índice de busca privado.
Se vários documentos forem enviados e o total combinado exceder 110k tokens, o ChatGPT Enterprise usa um processo em duas etapas para equilibrar a representação dos documentos:
Extrair até 55k tokens, divididos igualmente entre os documentos enviados.
Por exemplo, se 10 documentos forem enviados, 5,5k tokens serão extraídos do início de cada um.
Para documentos que não foram totalmente representados na primeira etapa, alocar os 55k tokens restantes de forma proporcional com base nos tokens restantes em cada documento.
Por exemplo, se o Documento A tiver 10k tokens restantes e o Documento B tiver 90k tokens restantes, serão extraídos mais 5,5k tokens do Documento A ( (10k / 100k) * 55k ) e mais 49,5k tokens do Documento B ( (90k / 100k) * 55k ).
Quaisquer tokens restantes são enviados apenas ao índice de busca privado.
Você pode estimar o número de tokens em um documento de texto copiando o texto do documento para o OpenAI Tokenizer.
Inserção de contexto para PDFs multimídia
Quando usuários fazem upload de PDFs contendo texto e imagens, o Visual Retrieval permite que o ChatGPT processe essas imagens nativamente junto com o texto extraído digitalmente. As etapas a seguir complementam nossos procedimentos padrão de tratamento de contexto para PDFs multimídia:
Extração e incorporação de imagens: as imagens são extraídas e incorporadas junto com o texto digital associado.
Escalonamento inteligente: as imagens são escalonadas automaticamente para manter um equilíbrio entre qualidade da informação e uso eficiente da janela de contexto disponível.
Quando PDFs enviados excedem o limite de 110k tokens, tanto imagens quanto texto são incorporados ao índice de busca privado. As incorporações de texto fazem referência a imagens relevantes, permitindo que o ChatGPT recupere os pares texto-imagem apropriados com base nas consultas do usuário. As imagens recuperadas são então processadas usando as capacidades multimodais nativas do ChatGPT.
Estimar com precisão os requisitos de tokens para PDFs multimídia é desafiador. Testes sugerem que aproximadamente 350 páginas de texto e imagens mistos utilizarão totalmente a janela de contexto de 110k tokens.
Estratégias de busca com base no tipo de modelo
Tanto os modelos da série GPT quanto os da série o oferecem suporte a uploads de arquivos e utilizam a mesma lógica de inserção de contexto e incorporação para busca. Todos os modelos executam buscas híbridas em um índice de busca privado, combinando métodos por palavra-chave e semânticos. Em uma busca híbrida, o modelo gera uma frase de busca com base no prompt do usuário, e o índice de busca privado recupera texto e imagens relevantes conforme necessário.
No entanto, esses modelos diferem em como pesquisam documentos grandes que excedem a janela de contexto:
Modelos da série GPT
Uma busca por prompt: modelos da série GPT fazem uma busca por prompt do usuário.
Casos de uso eficazes: ideais para responder perguntas diretas embutidas em documentação extensa.
Exemplos de consultas:
"Qual é a política de RH para aposentadoria antecipada?"
"O que a função
process_orderfaz?"
Modelos da série o
Múltiplas buscas por prompt: podem executar múltiplas buscas (tipicamente 2–3) por prompt do usuário, cada uma com uma frase de busca única. As buscas são executadas sequencialmente, e o modelo pode atualizar sua abordagem com base nas informações recuperadas em buscas anteriores.
Casos de uso eficazes: mais adequados para perguntas complexas que exigem múltiplas buscas direcionadas em documentação extensa.
Exemplos de consultas:
"Quais são as políticas de RH para aposentadoria antecipada, licença parental e transferência para o exterior?"
"Explique o que a função
process_orderfaz, liste todos os métodos chamados por essa função e descreva brevemente cada método chamado."
Apesar de seus pontos fortes, modelos da série o podem ter dificuldade quando uma consulta exige mais de três buscas.
Dicas para melhorar os resultados de busca em arquivos
Tente usar um modelo da série o para perguntas complexas que exigem múltiplas buscas.
Lembre-se de que as respostas podem variar dependendo do tipo, da quantidade e do tamanho dos documentos que você enviar.
Em geral, carregar menos documentos e mais focados tende a levar a maior precisão.
Transforme tópicos com várias perguntas em perguntas únicas:
Se você precisar saber as políticas de RH de cada estado, pergunte uma por vez.
Se você precisar resumir muitos documentos, peça um documento por vez. Se esse documento tiver muitas centenas de páginas, considere dividi-lo em componentes menores.
Você pode pedir ao ChatGPT Enterprise para escrever um “resumo de resumos” se você fornecer vários resumos em vez de documentos inteiros.
Se você tiver um CSV de uma RFP (cada linha é uma pergunta diferente), faça as perguntas uma por vez em vez de apenas carregar o CSV e solicitar uma única resposta.
Encontre maneiras de auditar as respostas do modelo. Exemplos de instruções de GPT estão abaixo:
# Contexto
Você é especialista em entender documentos. O usuário vai anexar um documento e fazer uma pergunta. Eles precisam conseguir relacionar sua resposta à parte exata do texto de onde você tirou a resposta.
# Instruções
1. Responda à pergunta do usuário com base no documento anexado usando exatamente o formato fornecido abaixo
# Formato
- Pergunta: { repita a pergunta do usuário }
- Resposta: { forneça uma resposta à pergunta do usuário }
Fonte:
- - Número da seção: { informe o número da seção de onde você tirou a resposta }
- - Título da seção: { informe o título da seção de onde você tirou a resposta }
- - Texto exato: { informe o texto exato de onde você tirou a resposta }
# Regras
- Dê respostas claras e concisas
- Forneça apenas informações presentes no documento
- Se você não conseguir encontrar a resposta no documento, simplesmente responda "Nenhuma informação encontrada."