ChatGPT Enterprise suporta agora a leitura e compreensão de elementos visuais (imagens, gráficos, diagramas, etc.) incorporados em ficheiros PDF incluídos nos prompts. Os utilizadores podem carregar um PDF, e o ChatGPT consegue interpretar o texto e quaisquer elementos visuais nesse ficheiro.
Para mais detalhes, consulte as Perguntas frequentes sobre a Recuperação visual com PDFs.
O ChatGPT Enterprise permite-lhe carregar ficheiros de várias formas:
Diretamente do seu computador
A partir do Google Drive / SharePoint / OneDrive
Como GPT Knowledge
Como um Ficheiro de projeto
A partir de uma Ação GPT
Este guia explica como as funcionalidades do ChatGPT Enterprise tratam ficheiros com base no seu tipo, número e tamanho, e aborda estratégias para melhorar os resultados com base nos requisitos dos ficheiros.
Resumo
O ChatGPT Enterprise trata tipos de ficheiro diferentes de forma muito distinta: extraindo texto de documentos de texto como PDFs, apresentações e ficheiros Word, analisando dados estruturados de folhas de cálculo com código Python e descrevendo ficheiros de imagem através do GPT-Vision. Compreender que tipo de ficheiro ativa que fluxo de trabalho é essencial para obter o resultado esperado.
Para documentos baseados em texto, o ChatGPT Enterprise inclui o máximo de texto relevante possível diretamente ao lado do prompt e utiliza um sistema de pesquisa para aceder a informação adicional. Isto funciona bem para responder a perguntas específicas. No entanto, esta abordagem pode ter dificuldades com tarefas complexas como resumir documentos muito grandes ou comparar vários ficheiros grandes. Continue a ler para compreender estratégias para melhorar os seus resultados.
Processamento de ficheiros com base no tipo
O ChatGPT Enterprise processa ficheiros de três formas principais: extração de texto, análise de código e interpretação de imagens. O tipo de ficheiro determina que fluxo de trabalho o ChatGPT Enterprise segue.
| Recuperação baseada em texto | Code Interpreter | Processamento de imagens | Recuperação visual | |
|---|---|---|---|---|
| Exemplos de tipos de ficheiro | pptx, docx, txt, md, json, xml, pdf* * PDFs carregados como GPT Knowledge ou Ficheiros de projeto | csv, xls, xlsx* *Nota: o Code Interpreter pode operar sobre qualquer tipo de ficheiro, mas o ChatGPT Enterprise usa mais frequentemente o CI por predefinição para folhas de cálculo | jpg, png | pdf* * PDFs incluídos nos prompts do utilizador |
| Comportamento | Extrai o texto do ficheiro – parte do texto é colada («inserida») diretamente na janela de contexto; parte do texto é armazenada para pesquisa | O Code Interpreter passa o ficheiro para Python para processamento | As imagens são interpretadas nativamente por modelos multimodais, sujeitas a limitações conhecidas . | Um híbrido de recuperação de texto e processamento de imagens. O texto é extraído digitalmente e o conteúdo visual é interpretado nativamente por modelos multimodais. |
Para ficheiros apenas de texto, ficheiros de imagem ou ficheiros de dados claramente estruturados (por exemplo, uma tabela Excel de transações), estas divisões representam o melhor comportamento possível.
Há algumas zonas cinzentas menos óbvias, por exemplo:
As imagens incorporadas em ficheiros que não sejam PDFs não são processadas. Para as incluir, converta o ficheiro em PDF antes de o carregar.
O ChatGPT Enterprise usará sempre o Code Interpreter para interagir com folhas de cálculo, mesmo que o documento contenha uma grande quantidade de texto. Por exemplo, se pedir ao ChatGPT Enterprise para traduzir um ficheiro CSV com 10 linhas de texto, tentará traduzir o ficheiro usando uma biblioteca Python, o que é menos preciso do que permitir que o modelo gere diretamente uma tradução. Para mitigar isto, experimente exportar a folha de cálculo para um formato baseado em texto (PDF, por exemplo).
Da mesma forma, se carregar uma tabela transacional estruturada descrita contida num ficheiro JSON, o ChatGPT Enterprise interpretará este ficheiro como texto simples. Se pretender analisar os dados contidos num ficheiro JSON, instrua o modelo a usar o Code Interpreter no seu prompt.
Processamento de ficheiros com base no tamanho
O ChatGPT Enterprise usa modelos com uma janela de contexto máxima de 128k tokens (aproximadamente 200 páginas de texto). No entanto, nem todos os tokens são usados para incorporar o texto de ficheiros carregados. O número de tokens «inseridos» varia consoante o tipo de utilização.
O ChatGPT Enterprise «insere» alguma quantidade de texto, e o texto restante é enviado para um índice de pesquisa privado (um «vector store», que é um tipo de base de dados concebida para armazenar e recuperar de forma eficiente grandes quantidades de texto). Quando faz uma pergunta, o ChatGPT Enterprise traz o texto incluído juntamente com fragmentos relevantes recuperados de um índice de pesquisa privado.
Se carregar um único documento, o ChatGPT Enterprise inclui texto a partir do início até atingir o seu limite. Se carregar vários documentos, o ChatGPT Enterprise inclui parte ou a totalidade de cada documento. Todo o texto dos documentos também é enviado para um índice de pesquisa privado.
Inserção no contexto para documentos de texto
Esta funcionalidade está em desenvolvimento ativo. Como tal, os detalhes seguintes estão sujeitos a alterações sem aviso prévio.
O ChatGPT Enterprise pode processar até 110k tokens de documentos carregados na janela de contexto. Se carregar um ou mais documentos com um total combinado inferior a 110k tokens, o conteúdo completo será incluído.
Para um único documento que exceda 110k tokens, apenas os primeiros 110k tokens serão incluídos, a partir do início. O restante será apenas enviado para o índice de pesquisa privado.
Se forem carregados vários documentos e o total combinado exceder 110k tokens, o ChatGPT Enterprise usa um processo em duas etapas para equilibrar a representação dos documentos:
Extrair até 55k tokens, divididos de forma uniforme entre os documentos carregados.
Por exemplo, se forem carregados 10 documentos, são extraídos 5,5k tokens do início de cada um.
Para documentos não totalmente representados na primeira etapa, atribuir os 55k tokens restantes proporcionalmente com base nos tokens que restam em cada documento.
Por exemplo, se o Documento A tiver 10k tokens restantes e o Documento B tiver 90k tokens restantes, são extraídos mais 5,5k tokens do Documento A ( (10k / 100k) * 55k ), e mais 49,5k tokens do Documento B ( (90k / 100k) * 55k ).
Quaisquer tokens restantes são apenas enviados para o índice de pesquisa privado.
Pode estimar o número de tokens num documento de texto copiando o texto do documento para o OpenAI Tokenizer.
Inserção no contexto para PDFs multimédia
Quando os utilizadores carregam PDFs que contêm texto e imagens, a Recuperação visual permite ao ChatGPT processar estas imagens nativamente juntamente com o texto extraído digitalmente. Os passos seguintes complementam os nossos procedimentos padrão de gestão de contexto para PDFs multimédia:
Extração e incorporação de imagens: as imagens são extraídas e incorporadas juntamente com o respetivo texto digital associado.
Dimensionamento inteligente: as imagens são automaticamente redimensionadas para manter um equilíbrio entre a qualidade da informação e a utilização eficiente da janela de contexto disponível.
Quando os PDFs carregados excedem o limite de 110k tokens, tanto as imagens como o texto são incorporados no índice de pesquisa privado. As incorporações de texto fazem referência a imagens relevantes, permitindo ao ChatGPT recuperar os pares texto-imagem adequados com base nas consultas do utilizador. As imagens recuperadas são depois processadas usando as capacidades multimodais nativas do ChatGPT.
Estimar com precisão os requisitos de tokens para PDFs multimédia é difícil. Os testes sugerem que aproximadamente 350 páginas de texto e imagens mistos utilizarão totalmente a janela de contexto de 110k tokens.
Estratégias de pesquisa com base no tipo de modelo
Tanto os modelos da série GPT como os da série o suportam carregamentos de ficheiros e utilizam lógica idêntica de inserção no contexto e de incorporação de pesquisa. Todos os modelos executam pesquisas híbridas num índice de pesquisa privado, combinando métodos por palavra-chave e semânticos. Numa pesquisa híbrida, o modelo gera uma expressão de pesquisa com base no prompt do utilizador, e o índice de pesquisa privado recupera texto e imagens relevantes em conformidade.
No entanto, estes modelos diferem na forma como pesquisam documentos grandes que excedem a janela de contexto:
Modelos da série GPT
Uma pesquisa por prompt: os modelos da série GPT realizam uma pesquisa por prompt do utilizador.
Casos de utilização eficazes: ideais para responder a perguntas diretas inseridas em documentação extensa.
Exemplos de consultas:
«Qual é a política de RH para a reforma antecipada?»
«O que faz a função
process_order?»
Modelos da série o
Várias pesquisas por prompt: podem executar várias pesquisas (normalmente 2-3) por prompt do utilizador, cada uma com uma expressão de pesquisa única. As pesquisas são executadas sequencialmente, e o modelo pode atualizar a sua abordagem com base na informação recuperada em pesquisas anteriores.
Casos de utilização eficazes: mais adequados para perguntas complexas que exigem várias pesquisas direcionadas em documentação extensa.
Exemplos de consultas:
«Quais são as políticas de RH para reforma antecipada, licença parental e transferência para o estrangeiro?»
«Explique o que faz a função
process_order, liste todos os métodos invocados por esta função e descreva brevemente cada método invocado.»
Apesar dos seus pontos fortes, os modelos da série o podem ter dificuldades quando uma consulta exige mais de três pesquisas.
Dicas para melhorar os resultados da pesquisa em ficheiros
Tente usar um modelo da série o para perguntas complexas que exijam várias pesquisas.
Lembre-se de que as respostas podem variar consoante o tipo, o número e o tamanho dos documentos que carregar.
Em geral, carregar menos documentos e mais focados conduz a maior precisão.
Transforme tópicos com várias perguntas em perguntas únicas:
Se precisar de conhecer as políticas de RH de todos os estados, pergunte uma a uma.
Se precisar de resumir muitos documentos, peça um documento de cada vez. Se esse documento tiver muitas centenas de páginas, pondere dividi-lo em componentes mais pequenos.
Poderá pedir ao ChatGPT Enterprise para escrever um «resumo de resumos» se lhe fornecer vários resumos em vez de documentos inteiros.
Se tiver um CSV de um RFP (cada linha é uma pergunta diferente), faça essas perguntas uma a uma em vez de apenas carregar o CSV e pedir uma única resposta.
Encontre formas de auditar as respostas do modelo. Seguem-se instruções GPT de exemplo:
# Contexto
É especialista em compreender documentos. O utilizador vai anexar um documento e fazer uma pergunta. Ele precisa de conseguir ligar a sua resposta à parte exata do texto de onde retirou a resposta.
# Instruções
1. Responda à pergunta do utilizador com base no documento anexado usando o formato exato indicado abaixo
# Formato
- Pergunta: { repetir a pergunta do utilizador }
- Resposta: { fornecer uma resposta à pergunta do utilizador }
Fonte:
- - Número da secção: { indicar o número da secção de onde retirou a resposta }
- - Título da secção: { indicar o título da secção de onde retirou a resposta }
- - Texto exato: { indicar o texto exato de onde retirou a resposta }
# Regras
- Dê respostas claras e concisas
- Forneça apenas informações presentes no documento
- Se não conseguir encontrar a resposta no documento, responda simplesmente «Nenhuma informação encontrada.»