OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

Otimizar carregamentos de ficheiros no ChatGPT Enterprise

Compreenda como as funcionalidades do ChatGPT Enterprise tratam ficheiros consoante o tipo, número e tamanho. Melhore os resultados com base nos requisitos dos ficheiros.

Atualizado: 17 days ago

O ChatGPT Enterprise agora suporta a leitura e compreensão de elementos visuais (imagens, gráficos, diagramas, etc.) incorporados em ficheiros PDF incluídos em prompts. Os utilizadores podem carregar um PDF, e o ChatGPT pode interpretar o texto e quaisquer elementos visuais nesse ficheiro.

Para obter detalhes, consulte as Perguntas frequentes sobre Recuperação visual com PDFs.

O ChatGPT Enterprise permite-lhe carregar ficheiros de várias formas:

Este guia explica como as funcionalidades do ChatGPT Enterprise tratam ficheiros com base no respetivo tipo, número e tamanho, e aborda estratégias para melhorar os resultados com base nos requisitos dos ficheiros.

Resumo

O ChatGPT Enterprise trata tipos de ficheiro diferentes de formas muito distintas: extrai texto de documentos de texto como PDFs, apresentações e ficheiros Word, analisa dados estruturados de folhas de cálculo usando código Python e descreve ficheiros de imagem através do GPT-Vision. Compreender que tipo de ficheiro aciona cada fluxo de trabalho é essencial para obter o resultado esperado.

Para documentos baseados em texto, o ChatGPT Enterprise inclui o máximo de texto relevante possível diretamente junto ao prompt e utiliza um sistema de pesquisa para aceder a informações adicionais. Isto funciona bem para responder a perguntas específicas. No entanto, esta abordagem pode ter dificuldades com tarefas complexas, como resumir documentos muito grandes ou comparar vários ficheiros grandes. Continue a ler para compreender estratégias para melhorar os seus resultados.

Tratamento de ficheiros com base no tipo

O ChatGPT Enterprise processa ficheiros de três formas principais: extração de texto, análise de código e interpretação de imagens. O tipo de ficheiro determina o fluxo de trabalho seguido pelo ChatGPT Enterprise.

Recuperação baseada em textoCode InterpreterProcessamento de imagensRecuperação visual
Exemplos de tipos de ficheiropptx, docx, txt, md, json, xml, pdf*
* PDFs carregados como

Conhecimento de GPT
ou

Ficheiros de projeto
csv, xls, xlsx*
*Nota: o Code Interpreter pode operar em qualquer tipo de ficheiro, mas o ChatGPT Enterprise predefine mais frequentemente o CI para folhas de cálculo
jpg, pngpdf*
* PDFs incluídos nos prompts dos utilizadores
ComportamentoExtrai o texto do ficheiro – parte do texto é colada («inserida») diretamente na janela de contexto; algum texto é armazenado para pesquisaO Code Interpreter passa o ficheiro para o Python para processamentoAs imagens são interpretadas nativamente por modelos multimodais, sujeitas a

limitações conhecidas
.
Um híbrido de recuperação de texto e processamento de imagens. O texto é extraído digitalmente, e o conteúdo visual é interpretado nativamente por modelos multimodais.

Para ficheiros apenas de texto, ficheiros de imagem ou ficheiros de dados claramente estruturados (por exemplo, uma tabela Excel de transações), estas divisões representam o melhor comportamento possível.

Há algumas áreas cinzentas que são menos óbvias, por exemplo:

  • As imagens incorporadas em ficheiros que não sejam PDFs não são processadas. Para as incluir, converta o ficheiro para PDF antes de o carregar.

  • O ChatGPT Enterprise utilizará sempre o Code Interpreter para interagir com folhas de cálculo, mesmo que o documento contenha uma grande quantidade de texto. Por exemplo, se pedir ao ChatGPT Enterprise para traduzir um ficheiro CSV com 10 linhas de texto, ele tentará traduzir o ficheiro usando uma biblioteca Python, o que é menos preciso do que permitir que o modelo gere uma tradução diretamente. Para atenuar isto, experimente exportar a folha de cálculo para um formato baseado em texto (PDF, por exemplo).

  • De forma semelhante, se carregar uma tabela transacional estruturada contida num ficheiro JSON, o ChatGPT Enterprise interpretará este ficheiro como texto simples. Se quiser analisar os dados contidos num ficheiro JSON, instrua o modelo a utilizar o Code Interpreter no seu prompt.

Tratamento de ficheiros com base no tamanho

O ChatGPT Enterprise utiliza modelos com uma janela de contexto máxima de 128 mil tokens (aproximadamente 200 páginas de texto). No entanto, nem todos os tokens são utilizados para incorporar o texto dos ficheiros carregados. O número de tokens «inseridos» varia consoante o tipo de utilização.

O ChatGPT Enterprise «insere» alguma quantidade de texto, e o texto restante é enviado para um índice de pesquisa privado (um «repositório vetorial», que é um tipo de base de dados concebido para armazenar e recuperar grandes quantidades de texto de forma eficiente). Quando faz uma pergunta, o ChatGPT Enterprise inclui o texto incorporado juntamente com blocos relevantes recuperados de um índice de pesquisa privado.

Se carregar um único documento, o ChatGPT Enterprise inclui texto desde o início até atingir o seu limite. Se carregar vários documentos, o ChatGPT Enterprise inclui parte ou a totalidade de cada documento. Todo o texto dos documentos também é enviado para um índice de pesquisa privado.

Inserção no contexto para documentos de texto

Esta funcionalidade está em desenvolvimento ativo. Como tal, os detalhes seguintes estão sujeitos a alterações sem aviso prévio.

O ChatGPT Enterprise consegue processar até 110 mil tokens de documentos carregados na janela de contexto. Se carregar um ou mais documentos com um total combinado inferior a 110 mil tokens, todo o conteúdo será incluído.

Para um único documento com mais de 110 mil tokens, apenas os primeiros 110 mil tokens serão incluídos, a partir do início. O restante será enviado apenas para o índice de pesquisa privado.

Se forem carregados vários documentos e o total combinado exceder 110 mil tokens, o ChatGPT Enterprise utiliza um processo em duas etapas para equilibrar a representação dos documentos:

  1. Extrair até 55 mil tokens, divididos igualmente entre os documentos carregados.

  1. Para documentos não totalmente representados na primeira etapa, alocar os 55 mil tokens restantes proporcionalmente com base nos tokens que faltam em cada documento.

  1. Quaisquer tokens restantes são enviados apenas para o índice de pesquisa privado.

Pode estimar o número de tokens num documento de texto copiando o texto do documento para o Tokenizer da OpenAI.

Inserção no contexto para PDFs multimédia

Quando os utilizadores carregam PDFs que contêm texto e imagens, a Recuperação visual permite ao ChatGPT processar estas imagens de forma nativa juntamente com texto extraído digitalmente. Os passos seguintes complementam os nossos procedimentos padrão de tratamento de contexto para PDFs multimédia:

  • Extração e embedding de imagens: as imagens são extraídas e incorporadas juntamente com o texto digital associado.

  • Dimensionamento inteligente: as imagens são dimensionadas automaticamente para manter um equilíbrio entre a qualidade da informação e a utilização eficiente da janela de contexto disponível.

Quando os PDFs carregados excedem o limite de 110 mil tokens, tanto as imagens como o texto são incorporados no índice de pesquisa privado. Os embeddings de texto referenciam imagens relevantes, permitindo ao ChatGPT recuperar os pares texto-imagem adequados com base nas consultas dos utilizadores. As imagens recuperadas são então processadas usando as capacidades multimodais nativas do ChatGPT.

Estimar com precisão os requisitos de tokens para PDFs multimédia é um desafio. Os testes sugerem que cerca de 350 páginas com texto e imagens mistos utilizarão totalmente a janela de contexto de 110 mil tokens.

Estratégias de pesquisa com base no tipo de modelo

Tanto os modelos da série GPT como os modelos da série o suportam carregamentos de ficheiros e utilizam a mesma lógica de inserção de contexto e embeddings de pesquisa. Todos os modelos executam pesquisas híbridas num índice de pesquisa privado, combinando métodos por palavra-chave e semânticos. Numa pesquisa híbrida, o modelo gera uma expressão de pesquisa com base no prompt do utilizador, e o índice de pesquisa privado recupera texto e imagens relevantes em conformidade.

No entanto, estes modelos diferem na forma como pesquisam em documentos grandes que excedem a janela de contexto:

modelos da série GPT

  • Uma única pesquisa por prompt: os modelos da série GPT realizam uma pesquisa por prompt do utilizador.

  • Casos de utilização eficazes: ideal para responder a perguntas simples integradas em documentação extensa.

Exemplos de consultas:

  • «Qual é a política de RH para a reforma antecipada?»

  • «O que faz a função process_order

modelos da série o

  • Várias pesquisas por prompt: consegue executar várias pesquisas (normalmente 2 a 3) por prompt do utilizador, cada uma com uma expressão de pesquisa única. As pesquisas são executadas sequencialmente, e o modelo pode atualizar a sua abordagem com base nas informações obtidas em pesquisas anteriores.

  • Casos de utilização eficazes: mais adequado para perguntas complexas que exigem várias pesquisas direcionadas em documentação extensa.

Exemplos de consultas:

  • «Quais são as políticas de RH para reforma antecipada, licença parental e transferência para o estrangeiro?»

  • «Explique o que faz a função process_order, liste todos os métodos invocados por esta função e descreva brevemente cada método invocado.»

Apesar dos seus pontos fortes, os modelos da série o podem ter dificuldades quando uma consulta exige mais de três pesquisas.

Sugestões para melhorar os resultados da pesquisa de ficheiros

  • Experimente usar um modelo da série o para perguntas complexas que exijam várias pesquisas.

  • Lembre-se de que as respostas podem variar consoante o tipo, o número e o tamanho dos documentos que carrega.

  • Em geral, carregar menos documentos e mais focados conduz a uma maior precisão.

  • Transforme tópicos com várias perguntas em perguntas únicas:

    • Se precisar de conhecer as políticas de RH de todos os estados, pergunte uma a uma.

    • Se precisar de resumir muitos documentos, peça um documento de cada vez. Se esse documento tiver muitas centenas de páginas, considere dividi-lo em componentes mais pequenos.

      • Pode pedir ao ChatGPT Enterprise que escreva um «resumo de resumos» se lhe fornecer vários resumos em vez de documentos completos.

    • Se tiver um CSV de uma RFP (cada linha é uma pergunta diferente), faça essas perguntas uma a uma em vez de simplesmente carregar o CSV e pedir uma única resposta.

  • Encontre formas de auditar as respostas do modelo. Seguem-se exemplos de instruções GPT:

# Contexto 

É especialista em compreender documentos. O utilizador vai anexar um documento e fazer uma pergunta. Ele precisa de conseguir ligar a sua resposta à parte exata do texto de onde retirou a resposta.

# Instruções

1. Responda à pergunta do utilizador com base no documento anexado usando o formato exato indicado abaixo

# Formato

- Pergunta: { repetir a pergunta do utilizador }
- Resposta: { fornecer uma resposta à pergunta do utilizador }
Fonte:
- - Número da secção: { indicar o número da secção de onde retirou a resposta }
- - Título da secção: { indicar o título da secção de onde retirou a resposta }
- - Texto exato: { indicar o texto exato de onde retirou a resposta }

# Regras

- Dê respostas claras e concisas
- Forneça apenas informações presentes no documento
- Se não conseguir encontrar a resposta no documento, responda simplesmente «Nenhuma informação encontrada.»

Este artigo foi útil?