ChatGPT Enterprise prend désormais en charge la lecture et la compréhension des éléments visuels (images, graphiques, diagrammes, etc.) intégrés dans les fichiers PDF inclus dans les prompts. Les utilisateurs peuvent importer un PDF, et ChatGPT peut interpréter le texte et tous les éléments visuels de ce fichier.
Pour plus de détails, consultez FAQ sur la récupération visuelle avec des PDF.
ChatGPT Enterprise vous permet d’importer des fichiers de plusieurs façons :
Directement depuis votre ordinateur
En tant que Connaissances GPT
En tant que fichier de projet
Depuis une Action GPT
Ce guide explique comment les fonctionnalités de ChatGPT Enterprise gèrent les fichiers selon leur type, leur nombre et leur taille, et présente des stratégies pour améliorer les résultats en fonction des exigences des fichiers.
Résumé
ChatGPT Enterprise traite les différents types de fichiers de manière très différente : extraction du texte à partir de documents textuels comme les PDF, les présentations et les fichiers Word, analyse de données structurées à partir de feuilles de calcul via du code Python, et description des fichiers image via GPT-Vision. Comprendre quel type de fichier déclenche quel flux de travail est essentiel pour obtenir le résultat attendu.
Pour les documents textuels, ChatGPT Enterprise inclut autant de texte pertinent que possible directement avec le prompt et utilise un système de recherche pour accéder à des informations supplémentaires. Cela fonctionne bien pour répondre à des questions précises. En revanche, cette approche peut être mise en difficulté par des tâches complexes comme résumer de très grands documents ou comparer plusieurs fichiers volumineux. Poursuivez votre lecture pour comprendre les stratégies permettant d’améliorer vos résultats.
Traitement des fichiers selon leur type
ChatGPT Enterprise traite les fichiers de trois façons principales : extraction de texte, analyse par code et interprétation d’images. Le type de fichier détermine quel flux de travail ChatGPT Enterprise suit.
| Récupération basée sur le texte | Interpréteur de code | Traitement d’images | Récupération visuelle | |
|---|---|---|---|---|
| Exemples de types de fichiers | pptx, docx, txt, md, json, xml, pdf* * PDF importés comme Connaissances GPT ou fichiers de projet | csv, xls, xlsx* *Remarque : l’Interpréteur de code peut fonctionner avec n’importe quel type de fichier, mais ChatGPT Enterprise bascule le plus souvent vers l’IC pour les feuilles de calcul | jpg, png | pdf* * PDF inclus dans les prompts des utilisateurs |
| Comportement | Extrait le texte du fichier : une partie du texte est collée (« injectée ») directement dans la fenêtre de contexte ; une autre partie est stockée pour la recherche | L’Interpréteur de code transmet le fichier à Python pour traitement | Les images sont interprétées nativement par des modèles multimodaux, sous réserve de limitations connues. | Un hybride entre récupération de texte et traitement d’images. Le texte est extrait numériquement et le contenu visuel est interprété nativement par des modèles multimodaux. |
Pour les fichiers uniquement textuels, les fichiers image ou les fichiers de données clairement structurées (p. ex. un tableau Excel de transactions), ces catégories représentent le meilleur comportement possible.
Cependant, certaines zones grises sont moins évidentes, par exemple :
Les images intégrées dans des fichiers autres que les PDF ne sont pas traitées. Pour les inclure, convertissez le fichier en PDF avant de l’importer.
ChatGPT Enterprise utilisera toujours l’Interpréteur de code pour interagir avec des feuilles de calcul, même si le document contient une grande quantité de texte. Par exemple, si vous demandez à ChatGPT Enterprise de traduire un fichier CSV contenant 10 lignes de texte, il essaiera de traduire le fichier à l’aide d’une bibliothèque Python, ce qui est moins précis que de laisser le modèle générer directement une traduction. Pour limiter cela, essayez d’exporter la feuille de calcul vers un format basé sur du texte (PDF, par exemple).
De même, si vous importez un tableau de transactions structuré contenu dans un fichier JSON, ChatGPT Enterprise interprétera ce fichier comme du texte brut. Si vous souhaitez analyser les données contenues dans un fichier JSON, demandez au modèle d’utiliser l’Interpréteur de code dans votre prompt.
Traitement des fichiers selon leur taille
ChatGPT Enterprise utilise des modèles avec une fenêtre de contexte maximale de 128 k tokens (environ 200 pages de texte). Toutefois, tous ces tokens ne sont pas utilisés pour intégrer le texte des fichiers importés. Le nombre de tokens « injectés » varie selon le type d’utilisation.
ChatGPT Enterprise « injecte » une certaine quantité de texte, et le texte restant est envoyé vers un index de recherche privé (un « magasin de vecteurs », qui est un type de base de données conçu pour stocker et récupérer efficacement de grandes quantités de texte). Lorsque vous posez une question, ChatGPT Enterprise fait entrer le texte inclus ainsi que des segments pertinents récupérés depuis l’index de recherche privé.
Si vous importez un seul document, ChatGPT Enterprise inclut le texte à partir du début jusqu’à atteindre sa limite. Si vous importez plusieurs documents, ChatGPT Enterprise inclut tout ou partie de chacun d’entre eux. Tout le texte des documents est également envoyé vers un index de recherche privé.
Injection de contexte pour les documents textuels
Cette fonctionnalité est en cours de développement actif. Par conséquent, les détails suivants peuvent être modifiés sans préavis.
ChatGPT Enterprise peut traiter jusqu’à 110 k tokens issus de documents importés dans la fenêtre de contexte. Si vous importez un ou plusieurs documents dont le total cumulé est inférieur à 110 k tokens, l’intégralité du contenu sera incluse.
Pour un document unique dépassant 110 k tokens, seuls les 110 k premiers tokens seront inclus, en partant du début. Le reste sera uniquement envoyé vers l’index de recherche privé.
Si plusieurs documents sont importés et que leur total cumulé dépasse 110 k tokens, ChatGPT Enterprise utilise un processus en deux étapes pour équilibrer la représentation des documents :
Extraire jusqu’à 55 k tokens, répartis équitablement entre les documents importés.
Par exemple, si 10 documents sont importés, 5,5 k tokens sont extraits au début de chacun.
Pour les documents qui ne sont pas entièrement représentés à l’étape 1, allouer les 55 k tokens restants proportionnellement en fonction du nombre de tokens restants dans chaque document.
Par exemple, si le document A a 10 k tokens restants et le document B en a 90 k, 5,5 k tokens supplémentaires sont extraits du document A ( (10 k / 100 k) * 55 k ), et 49,5 k tokens supplémentaires sont extraits du document B ( (90 k / 100 k) * 55 k ).
Tous les tokens restants sont uniquement envoyés vers l’index de recherche privé.
Vous pouvez estimer le nombre de tokens d’un document texte en copiant le texte du document dans le Tokenizer OpenAI.
Injection de contexte pour les PDF multimédias
Lorsque les utilisateurs importent des PDF contenant à la fois du texte et des images, la Récupération visuelle permet à ChatGPT de traiter ces images nativement aux côtés du texte extrait numériquement. Les étapes suivantes complètent nos procédures standard de gestion du contexte pour les PDF multimédias :
Extraction et intégration des images : les images sont extraites et intégrées avec leur texte numérique associé.
Mise à l’échelle intelligente : les images sont automatiquement redimensionnées afin de maintenir un équilibre entre la qualité de l’information et l’utilisation efficace de la fenêtre de contexte disponible.
Lorsque les PDF importés dépassent la limite de 110 k tokens, les images et le texte sont intégrés dans l’index de recherche privé. Les embeddings de texte référencent les images pertinentes, ce qui permet à ChatGPT de récupérer les paires texte-image appropriées en fonction des requêtes des utilisateurs. Les images récupérées sont ensuite traitées à l’aide des capacités multimodales natives de ChatGPT.
Estimer précisément les besoins en tokens pour des PDF multimédias est difficile. Les tests suggèrent qu’environ 350 pages mêlant texte et images utiliseront entièrement la fenêtre de contexte de 110 k tokens.
Stratégies de recherche selon le type de modèle
Les modèles de la série GPT et de la série o prennent tous deux en charge l’importation de fichiers et utilisent une logique identique d’injection de contexte et d’embedding pour la recherche. Tous les modèles exécutent des recherches hybrides sur un index de recherche privé, en combinant des méthodes par mots-clés et sémantiques. Dans une recherche hybride, le modèle génère une expression de recherche à partir du prompt de l’utilisateur, puis l’index de recherche privé récupère le texte et les images pertinents en conséquence.
Cependant, ces modèles diffèrent dans la façon dont ils recherchent dans de grands documents qui dépassent la fenêtre de contexte :
Modèles de la série GPT
Une recherche par prompt : les modèles de la série GPT effectuent une recherche par prompt utilisateur.
Cas d’usage efficaces : idéaux pour répondre à des questions simples noyées dans une documentation volumineuse.
Exemples de requêtes :
"Quelle est la politique RH concernant la retraite anticipée ?"
"Que fait la fonction
process_order?"
Modèles de la série o
Plusieurs recherches par prompt : peuvent effectuer plusieurs recherches (généralement 2 à 3) par prompt utilisateur, chacune avec une expression de recherche unique. Les recherches sont exécutées de façon séquentielle, et le modèle peut ajuster son approche en fonction des informations récupérées lors des recherches précédentes.
Cas d’usage efficaces : mieux adaptés aux questions complexes nécessitant plusieurs recherches ciblées dans une documentation volumineuse.
Exemples de requêtes :
"Quelles sont les politiques RH en matière de retraite anticipée, de congé parental et de mutation à l’étranger ?"
"Expliquez ce que fait la fonction
process_order, listez toutes les méthodes appelées par cette fonction et décrivez brièvement chaque méthode appelée."
Malgré leurs atouts, les modèles de la série o peuvent être mis en difficulté lorsqu’une requête nécessite plus de trois recherches.
Conseils pour améliorer les résultats de recherche dans les fichiers
Essayez d’utiliser un modèle de la série o pour les questions complexes qui nécessitent plusieurs recherches.
Gardez à l’esprit que les réponses peuvent varier en fonction du type, du nombre et de la taille des documents que vous importez.
En règle générale, importer moins de documents, et plus ciblés, améliore la précision.
Transformez les sujets à questions multiples en questions uniques :
Si vous devez connaître les politiques RH de chaque État, posez les questions une par une.
Si vous devez résumer de nombreux documents, demandez un document à la fois. Si ce document fait plusieurs centaines de pages, envisagez de le découper en éléments plus petits.
Vous pourriez demander à ChatGPT Enterprise de rédiger une « synthèse de synthèses » si vous lui fournissez plusieurs synthèses plutôt que des documents entiers.
Si vous avez un CSV d’un appel d’offres (chaque ligne correspond à une question différente), posez ces questions une par une au lieu de simplement importer le CSV et de demander une réponse unique.
Trouvez des moyens d’auditer les réponses du modèle. Des exemples d’instructions GPT figurent ci-dessous :
# Contexte
Vous êtes un expert dans la compréhension de documents. L’utilisateur va joindre un document et poser une question. Il doit être en mesure de relier votre réponse à la partie exacte du texte d’où vous avez tiré votre réponse.
# Instructions
1. Répondez à la question de l’utilisateur à partir de son document joint en utilisant exactement le format fourni ci-dessous
# Format
- Question : { répétez la question de l’utilisateur }
- Réponse : { apportez une réponse à la question de l’utilisateur }
Source :
- - Numéro de section : { indiquez le numéro de section d’où vous avez tiré la réponse }
- - Titre de section : { indiquez le titre de section d’où vous avez tiré la réponse }
- - Texte exact : { fournissez le texte exact d’où vous avez tiré la réponse }
# Règles
- Donnez des réponses claires et concises
- Ne fournissez que les informations présentes dans le document
- Si vous ne trouvez pas la réponse dans le document, répondez simplement : "Aucune information trouvée."