ChatGPT Enterprise prend désormais en charge la lecture et la compréhension des éléments visuels (images, graphiques, diagrammes, etc.) intégrés dans des fichiers PDF inclus dans les prompts. Les utilisateurs peuvent téléverser un PDF, et ChatGPT peut interpréter le texte ainsi que tous les éléments visuels contenus dans ce fichier.
Pour plus de détails, consultez la FAQ sur la récupération visuelle avec les PDF.
ChatGPT Enterprise vous permet de téléverser des fichiers de plusieurs façons :
Directement depuis votre ordinateur
Comme connaissances GPT
Comme fichier de projet
Depuis une action GPT
Ce guide explique comment les fonctionnalités de ChatGPT Enterprise gèrent les fichiers selon leur type, leur nombre et leur taille, et présente des stratégies pour améliorer les résultats selon les exigences des fichiers.
Résumé
ChatGPT Enterprise traite les types de fichiers très différemment : extraction de texte à partir de documents texte comme les PDF, présentations et fichiers Word, analyse de données structurées issues de feuilles de calcul à l’aide de code Python, et description de fichiers image via GPT-Vision. Comprendre quel type de fichier déclenche quel workflow est essentiel pour obtenir le résultat attendu.
Pour les documents textuels, ChatGPT Enterprise inclut autant de texte pertinent que possible directement avec le prompt et utilise un système de recherche pour accéder à des informations supplémentaires. Cela fonctionne bien pour répondre à des questions précises. Cependant, cette approche peut être mise en difficulté par des tâches complexes, comme résumer de très grands documents ou comparer plusieurs fichiers volumineux. Poursuivez votre lecture pour découvrir des stratégies permettant d’améliorer vos résultats.
Gestion des fichiers selon leur type
ChatGPT Enterprise traite les fichiers de trois façons principales : extraction de texte, analyse de code et interprétation d’images. Le type de fichier détermine le workflow que suit ChatGPT Enterprise.
| Récupération textuelle | Interpréteur de code | Traitement des images | Récupération visuelle | |
|---|---|---|---|---|
| Exemples de types de fichiers | pptx, docx, txt, md, json, xml, pdf* * PDF téléversés comme connaissances GPT ou fichiers de projet | csv, xls, xlsx* *Remarque : l’Interpréteur de code peut fonctionner avec tout type de fichier, mais ChatGPT Enterprise utilise le plus souvent CI par défaut pour les feuilles de calcul | jpg, png | pdf* * PDF inclus dans les prompts utilisateur |
| Comportement | Extrait le texte du fichier : une partie du texte est collée (« insérée ») directement dans la fenêtre de contexte ; une partie du texte est stockée pour la recherche | L’Interpréteur de code transmet le fichier à Python pour traitement | Les images sont interprétées nativement par des modèles multimodaux, sous réserve de limitations connues . | Un hybride de récupération de texte et de traitement d’images. Le texte est extrait numériquement, et le contenu visuel est interprété nativement par des modèles multimodaux. |
Pour les fichiers contenant uniquement du texte, les fichiers image ou les fichiers de données clairement structurées (par exemple, un tableau Excel de transactions), ces divisions représentent le meilleur comportement possible.
Il existe certaines zones grises moins évidentes, par exemple :
Les images intégrées dans des fichiers autres que des PDF ne sont pas traitées. Pour les inclure, convertissez le fichier en PDF avant de le téléverser.
ChatGPT Enterprise utilisera toujours l’Interpréteur de code pour interagir avec les feuilles de calcul, même si le document contient une grande quantité de texte. Par exemple, si vous demandez à ChatGPT Enterprise de traduire un fichier CSV contenant 10 lignes de texte, il tentera de traduire le fichier à l’aide d’une bibliothèque Python, ce qui est moins précis que de laisser le modèle générer directement une traduction. Pour atténuer ce problème, essayez d’exporter la feuille de calcul vers un format textuel (PDF, par exemple).
De même, si vous téléversez un tableau transactionnel structuré décrit contenu dans un fichier JSON, ChatGPT Enterprise interprétera ce fichier comme du texte brut. Si vous souhaitez analyser les données contenues dans un fichier JSON, demandez au modèle d’utiliser l’Interpréteur de code dans votre prompt.
Gestion des fichiers selon leur taille
ChatGPT Enterprise utilise des modèles dont la fenêtre de contexte maximale est de 128 k tokens (environ 200 pages de texte). Cependant, tous les tokens ne sont pas utilisés pour intégrer le texte des fichiers téléversés. Le nombre de tokens « insérés » varie selon le type d’utilisation.
ChatGPT Enterprise « insère » une certaine quantité de texte, et le texte restant est envoyé à un index de recherche privé (un « magasin vectoriel », c’est-à-dire un type de base de données conçu pour stocker et récupérer efficacement de grands volumes de texte). Lorsque vous posez une question, ChatGPT Enterprise utilise le texte inclus ainsi que les extraits pertinents récupérés depuis un index de recherche privé.
Si vous téléversez un seul document, ChatGPT Enterprise inclut le texte à partir du début jusqu’à atteindre sa limite. Si vous téléversez plusieurs documents, ChatGPT Enterprise inclut une partie ou la totalité de chaque document. Tout le texte des documents est également envoyé à un index de recherche privé.
Remplissage de contexte pour les documents texte
Cette fonctionnalité est en cours de développement actif. À ce titre, les détails suivants sont susceptibles de changer sans préavis.
ChatGPT Enterprise peut traiter jusqu’à 110 k tokens provenant de documents téléversés dans la fenêtre de contexte. Si vous téléversez un ou plusieurs documents dont le total combiné est inférieur à 110 k tokens, tout le contenu sera inclus.
Pour un seul document dépassant 110 k tokens, seuls les 110 k premiers tokens seront inclus, à partir du début. Le reste sera uniquement envoyé à l’index de recherche privé.
Si plusieurs documents sont téléversés et que leur total combiné dépasse 110 k tokens, ChatGPT Enterprise utilise un processus en deux étapes pour équilibrer la représentation des documents :
Extraire jusqu’à 55 k tokens, répartis uniformément entre les documents téléversés.
Pour les documents qui ne sont pas entièrement représentés à la première étape, attribuer les 55 k tokens restants proportionnellement en fonction des tokens restant dans chaque document.
Tous les tokens restants sont uniquement envoyés à l’index de recherche privé.
Vous pouvez estimer le nombre de tokens dans un document texte en copiant le texte du document dans l’OpenAI Tokenizer.
Remplissage de contexte pour les PDF multimédias
Lorsque les utilisateurs téléversent des PDF contenant à la fois du texte et des images, la récupération visuelle permet à ChatGPT de traiter ces images nativement avec le texte extrait numériquement. Les étapes suivantes complètent nos procédures standard de gestion du contexte pour les PDF multimédias :
Extraction et embedding des images : les images sont extraites et intégrées avec leur texte numérique associé.
Mise à l’échelle intelligente : les images sont automatiquement redimensionnées afin de préserver l’équilibre entre la qualité de l’information et l’utilisation efficace de la fenêtre de contexte disponible.
Lorsque les PDF téléversés dépassent la limite de 110 k tokens, les images comme le texte sont intégrés dans l’index de recherche privé. Les embeddings de texte font référence aux images pertinentes, ce qui permet à ChatGPT de récupérer les paires texte-image appropriées selon les requêtes utilisateur. Les images récupérées sont ensuite traitées à l’aide des capacités multimodales natives de ChatGPT.
Il est difficile d’estimer précisément les besoins en tokens pour les PDF multimédias. Les tests indiquent qu’environ 350 pages mêlant texte et images utiliseront pleinement la fenêtre de contexte de 110 k tokens.
Stratégies de recherche selon le type de modèle
Les modèles de série GPT comme de série o prennent en charge les téléversements de fichiers et utilisent la même logique de remplissage de contexte et d’embeddings de recherche. Tous les modèles exécutent des recherches hybrides sur un index de recherche privé, en combinant des méthodes par mots-clés et sémantiques. Dans une recherche hybride, le modèle génère une expression de recherche à partir du prompt de l’utilisateur, et l’index de recherche privé récupère les textes et images pertinents en conséquence.
Cependant, ces modèles diffèrent dans leur façon de rechercher dans de grands documents qui dépassent la fenêtre de contexte :
Modèles de série GPT
Une seule recherche par prompt : les modèles de série GPT effectuent une recherche par prompt utilisateur.
Cas d’utilisation efficaces : idéaux pour répondre à des questions simples intégrées dans une documentation volumineuse.
Exemples de requêtes :
« Quelle est la politique RH concernant la retraite anticipée ? »
« Que fait la fonction
process_order? »
Modèles de série o
Plusieurs recherches par prompt : peuvent exécuter plusieurs recherches (généralement 2 à 3) par prompt utilisateur, chacune avec une expression de recherche unique. Les recherches sont exécutées séquentiellement, et le modèle peut adapter son approche en fonction des informations récupérées lors des recherches précédentes.
Cas d’utilisation efficaces : plus adaptés aux questions complexes nécessitant plusieurs recherches ciblées dans une documentation volumineuse.
Exemples de requêtes :
« Quelles sont les politiques RH concernant la retraite anticipée, le congé parental et la mutation à l’étranger ? »
« Expliquez ce que fait la fonction
process_order, listez toutes les méthodes appelées par cette fonction et décrivez brièvement chaque méthode appelée. »
Malgré leurs points forts, les modèles de série o peuvent rencontrer des difficultés lorsqu’une requête nécessite plus de trois recherches.
Conseils pour améliorer les résultats de recherche dans les fichiers
Essayez d’utiliser un modèle de série o pour les questions complexes nécessitant plusieurs recherches.
Gardez à l’esprit que les réponses peuvent varier selon le type, le nombre et la taille des documents que vous téléversez.
En général, charger moins de documents, mais plus ciblés, améliore la précision.
Transformez les sujets comportant plusieurs questions en questions uniques :
Si vous devez connaître les politiques RH de chaque État, posez les questions une par une.
Si vous devez résumer de nombreux documents, demandez un document à la fois. Si ce document fait plusieurs centaines de pages, envisagez de le diviser en composants plus petits.
Vous pourriez demander à ChatGPT Enterprise de rédiger un « résumé de résumés » si vous lui fournissez plusieurs résumés plutôt que des documents entiers.
Si vous avez un CSV d’une demande de propositions (chaque ligne étant une question différente), posez ces questions une par une au lieu de simplement charger le CSV et de demander une seule réponse.
Trouvez des moyens d’auditer les réponses du modèle. Des exemples d’instructions GPT sont fournis ci-dessous :
# Contexte
Vous êtes expert dans la compréhension des documents. L’utilisateur va joindre un document et poser une question. Il doit pouvoir relier votre réponse à la partie exacte du texte dont vous avez tiré votre réponse.
# Instructions
1. Répondez à la question de l’utilisateur à partir du document joint, en utilisant le format exact fourni ci-dessous
# Format
- Question : { répéter la question de l’utilisateur }
- Réponse : { fournir une réponse à la question de l’utilisateur }
Source :
- - Numéro de section : { fournir le numéro de section d’où vous avez tiré la réponse }
- - Titre de section : { fournir le titre de section d’où vous avez tiré la réponse }
- - Texte exact : { fournir le texte exact d’où vous avez tiré la réponse }
# Règles
- Donnez des réponses claires et concises
- Fournissez uniquement les informations présentes dans le document
- Si vous ne trouvez pas la réponse dans le document, répondez simplement « Aucune information trouvée. »