OpenAI
Cette page a été traduite automatiquement. Afficher l’article original en anglais.

Optimiser les téléversements de fichiers dans ChatGPT Enterprise

Comprenez comment les fonctions de ChatGPT Enterprise traitent les fichiers selon leur type, leur nombre et leur taille. Améliorez les résultats selon les exigences des fichiers.

Mise à jour : yesterday

ChatGPT Enterprise prend maintenant en charge la lecture et la compréhension des éléments visuels (images, graphiques, diagrammes, etc.) intégrés dans des fichiers PDF inclus dans les invites. Les utilisateurs peuvent téléverser un PDF, et ChatGPT peut interpréter le texte et tous les éléments visuels de ce fichier.

Pour en savoir plus, consultez la FAQ sur la récupération visuelle avec des PDF.

ChatGPT Enterprise vous permet de téléverser des fichiers de plusieurs façons :

Ce guide explique comment les fonctions de ChatGPT Enterprise traitent les fichiers selon leur type, leur nombre et leur taille, et présente des stratégies pour améliorer les résultats selon les exigences des fichiers.

Résumé

ChatGPT Enterprise traite les différents types de fichiers de façons très différentes : extraction du texte de documents textuels comme les PDF, les présentations et les fichiers Word, analyse de données structurées dans des feuilles de calcul à l’aide de code Python, et description de fichiers image au moyen de GPT-Vision. Comprendre quel type de fichier déclenche quel flux de travail est essentiel pour obtenir le résultat attendu.

Pour les documents textuels, ChatGPT Enterprise inclut autant de texte pertinent que possible directement avec l’invite et utilise un système de recherche pour accéder à des informations supplémentaires. Cette approche fonctionne bien pour répondre à des questions précises. Cependant, elle peut avoir du mal avec des tâches complexes comme résumer de très gros documents ou comparer plusieurs fichiers volumineux. Poursuivez votre lecture pour comprendre les stratégies permettant d’améliorer vos résultats.

Traitement des fichiers selon le type

ChatGPT Enterprise traite les fichiers de trois façons principales : extraction de texte, analyse par code et interprétation d’images. Le type de fichier détermine le flux de travail suivi par ChatGPT Enterprise.

Récupération basée sur le texteinterpréteur de codeTraitement d’imagesRécupération visuelle
Exemples de types de fichierspptx, docx, txt, md, json, xml, pdf*
* PDF téléversés comme

connaissances GPT
ou

fichiers de projet
csv, xls, xlsx*
*Remarque : l’interpréteur de code peut fonctionner avec n’importe quel type de fichier, mais ChatGPT Enterprise utilise le plus souvent par défaut l’IC pour les feuilles de calcul
jpg, pngpdf*
* PDF inclus dans les invites utilisateur
ComportementExtrait le texte du fichier – une partie du texte est collée (« insérée ») directement dans la fenêtre de contexte; une autre est conservée pour la rechercheL’interpréteur de code transmet le fichier à Python pour le traitementLes images sont interprétées nativement par des modèles multimodaux, sous réserve des

limitations connues
.
Une combinaison de récupération de texte et de traitement d’images. Le texte est extrait numériquement, et le contenu visuel est interprété nativement par des modèles multimodaux.

Pour les fichiers texte seulement, les fichiers image ou les fichiers de données clairement structurés (p. ex., un tableau Excel de transactions), ces catégories représentent le meilleur comportement possible.

Il existe certaines zones grises moins évidentes, par exemple :

  • Les images intégrées dans des fichiers autres que des PDF ne sont pas traitées. Pour les inclure, convertissez le fichier en PDF avant de le téléverser.

  • ChatGPT Enterprise utilisera toujours l’interpréteur de code pour interagir avec les feuilles de calcul, même si le document contient beaucoup de texte. Par exemple, si vous demandez à ChatGPT Enterprise de traduire un fichier CSV contenant 10 lignes de texte, il tentera de traduire le fichier à l’aide d’une bibliothèque Python, ce qui est moins précis que de laisser le modèle générer directement une traduction. Pour atténuer cela, essayez d’exporter la feuille de calcul vers un format textuel (un PDF, par exemple).

  • De même, si vous téléversez un tableau transactionnel structuré décrit contenu dans un fichier JSON, ChatGPT Enterprise interprétera ce fichier comme du texte brut. Si vous souhaitez analyser les données contenues dans un fichier JSON, indiquez au modèle d’utiliser l’interpréteur de code dans votre invite.

Traitement des fichiers selon la taille

ChatGPT Enterprise utilise des modèles avec une fenêtre de contexte maximale de 128k tokens (environ 200 pages de texte). Toutefois, tous les tokens ne sont pas utilisés pour intégrer le texte des fichiers téléversés. Le nombre de tokens « insérés » varie selon le type d’utilisation.

ChatGPT Enterprise « insère » une certaine quantité de texte, et le texte restant est envoyé à un index de recherche privé (un « vector store », soit un type de base de données conçu pour stocker et récupérer efficacement de grandes quantités de texte). Lorsque vous posez une question, ChatGPT Enterprise ajoute le texte inclus ainsi que des segments pertinents récupérés depuis un index de recherche privé.

Si vous téléversez un seul document, ChatGPT Enterprise inclut le texte à partir du début jusqu’à atteindre sa limite. Si vous téléversez plusieurs documents, ChatGPT Enterprise inclut une partie ou la totalité de chaque document. Tout le texte des documents est aussi envoyé à un index de recherche privé.

Insertion dans le contexte pour les documents textuels

Cette fonctionnalité est en cours de développement actif. Par conséquent, les détails suivants peuvent changer sans préavis.

ChatGPT Enterprise peut traiter jusqu’à 110k tokens de documents téléversés dans la fenêtre de contexte. Si vous téléversez un ou plusieurs documents dont le total combiné est inférieur à 110k tokens, le contenu complet sera inclus.

Pour un document unique dépassant 110k tokens, seuls les 110k premiers tokens seront inclus, à partir du début. Le reste sera uniquement envoyé à l’index de recherche privé.

Si plusieurs documents sont téléversés et que leur total combiné dépasse 110k tokens, ChatGPT Enterprise utilise un processus en deux étapes pour équilibrer la représentation des documents :

  1. Extraire jusqu’à 55k tokens, répartis également entre les documents téléversés.

    • Par exemple, si 10 documents sont téléversés, 5,5k tokens sont extraits du début de chacun.

  2. Pour les documents qui ne sont pas entièrement représentés à la première étape, attribuer les 55k tokens restants proportionnellement selon le nombre de tokens restants dans chaque document.

    • Par exemple, si le document A compte 10k tokens restants et le document B 90k tokens restants, 5,5k tokens supplémentaires sont extraits du document A ( (10k / 100k) * 55k ), et 49,5k tokens supplémentaires sont extraits du document B ( (90k / 100k) * 55k ).

  3. Tout token restant est seulement envoyé à l’index de recherche privé.

Vous pouvez estimer le nombre de tokens dans un document texte en copiant le texte du document dans le Tokenizer OpenAI.

Insertion dans le contexte pour les PDF multimédias

Lorsque des utilisateurs téléversent des PDF contenant à la fois du texte et des images, la récupération visuelle permet à ChatGPT de traiter ces images nativement avec le texte extrait numériquement. Les étapes suivantes s’ajoutent à nos procédures standard de gestion du contexte pour les PDF multimédias :

  • Extraction et intégration des images : les images sont extraites et intégrées avec leur texte numérique associé.

  • Mise à l’échelle intelligente : les images sont automatiquement mises à l’échelle pour maintenir un équilibre entre la qualité de l’information et l’utilisation efficace de la fenêtre de contexte disponible.

Lorsque les PDF téléversés dépassent la limite de 110k tokens, les images et le texte sont tous deux intégrés dans l’index de recherche privé. Les représentations vectorielles du texte font référence aux images pertinentes, ce qui permet à ChatGPT de récupérer les bonnes paires texte-image selon les requêtes des utilisateurs. Les images récupérées sont ensuite traitées à l’aide des capacités multimodales natives de ChatGPT.

Il est difficile d’estimer avec précision les besoins en tokens pour les PDF multimédias. Les tests indiquent qu’environ 350 pages de texte et d’images mixtes utiliseront pleinement la fenêtre de contexte de 110k tokens.

Stratégies de recherche selon le type de modèle

Les modèles de la série GPT et de la série o prennent tous en charge le téléversement de fichiers et utilisent une logique identique d’insertion dans le contexte et d’intégration pour la recherche. Tous les modèles exécutent des recherches hybrides dans un index de recherche privé, en combinant des méthodes par mots-clés et sémantiques. Dans une recherche hybride, le modèle génère une expression de recherche à partir de l’invite de l’utilisateur, et l’index de recherche privé récupère ensuite le texte et les images pertinents.

Cependant, ces modèles diffèrent dans leur façon de chercher dans les documents volumineux qui dépassent la fenêtre de contexte :

Modèles de la série GPT

  • Une seule recherche par invite : les modèles de la série GPT effectuent une recherche par invite utilisateur.

  • Cas d’utilisation efficaces : idéals pour répondre à des questions simples intégrées dans une documentation volumineuse.

Exemples de requêtes :

  • « Quelle est la politique RH concernant la retraite anticipée? »

  • « Que fait la fonction process_order? »

Modèles de la série o

  • Plusieurs recherches par invite : peuvent exécuter plusieurs recherches (généralement 2 ou 3) par invite utilisateur, chacune avec une expression de recherche unique. Les recherches sont exécutées de façon séquentielle, et le modèle peut ajuster son approche selon les informations récupérées dans les recherches précédentes.

  • Cas d’utilisation efficaces : conviennent mieux aux questions complexes nécessitant plusieurs recherches ciblées dans une documentation volumineuse.

Exemples de requêtes :

  • « Quelles sont les politiques RH sur la retraite anticipée, le congé parental et le transfert à l’étranger? »

  • « Expliquez ce que fait la fonction process_order, dressez la liste de toutes les méthodes appelées par cette fonction et décrivez brièvement chacune d’elles. »

Malgré leurs forces, les modèles de la série o peuvent avoir du mal lorsqu’une requête exige plus de trois recherches.

Conseils pour améliorer les résultats de recherche dans les fichiers

  • Essayez d’utiliser un modèle de la série o pour les questions complexes nécessitant plusieurs recherches.

  • N’oubliez pas que les réponses peuvent varier selon le type, le nombre et la taille des documents que vous téléversez.

  • En général, le chargement d’un plus petit nombre de documents ciblés mènera à une meilleure exactitude.

  • Transformez les sujets comportant plusieurs questions en questions uniques :

    • Si vous devez connaître les politiques RH de chaque État, posez les questions une par une.

    • Si vous devez résumer de nombreux documents, demandez un document à la fois. Si ce document compte plusieurs centaines de pages, envisagez de le diviser en plus petites sections.

      • Vous pourriez demander à ChatGPT Enterprise de rédiger un « résumé de résumés » si vous lui fournissez plusieurs résumés plutôt que des documents entiers.

    • Si vous avez un CSV d’une DP (chaque ligne est une question différente), posez ces questions une par une au lieu de simplement charger le CSV et demander une seule réponse.

  • Trouvez des façons de vérifier les réponses du modèle. Voici des exemples d’instructions GPT ci-dessous :

# Contexte 

Vous êtes un expert en compréhension de documents. L’utilisateur va joindre un document et poser une question. Il doit être en mesure de rattacher votre réponse à la partie exacte du texte d’où vous avez tiré votre réponse.

# Instructions

1. Répondez à la question de l’utilisateur en vous basant sur son document joint, en utilisant exactement le format ci-dessous

# Format

- Question : { répéter la question de l’utilisateur }
- Réponse : { fournir une réponse à la question de l’utilisateur }
Source :
- - Numéro de section : { indiquer le numéro de section d’où vous avez tiré la réponse }
- - Titre de la section : { indiquer le titre de la section d’où vous avez tiré la réponse }
- - Texte exact : { fournir le texte exact d’où vous avez tiré la réponse }

# Règles

- Donnez des réponses claires et concises
- Fournissez seulement l’information présente dans le document
- Si vous ne trouvez pas la réponse dans le document, répondez simplement « Aucune information trouvée. »

Cet article vous a-t-il été utile?