Skip to main content

Processus de développement de ChatGPT et de nos modèles de fondation

Découvrez comment nous développons nos modèles et les utilisons dans des services comme ChatGPT.

Updated over 2 months ago

Les modèles de fondation d’OpenAI, y compris les modèles qui alimentent ChatGPT, sont développés en utilisant principalement trois sources de données: (1) les données accessibles publiquement sur Internet, (2) les données obtenues via des partenaires tiers, et (3) les données fournies ou générées par nos utilisateurs, notre personnel en charge de l’entraînement des modèles et nos chercheurs.

Cet article décrit les données accessibles publiquement que nous utilisons pour contribuer au développement de ces modèles et la manière dont nous les collectons et les utilisons dans le respect du cadre légal applicable à la protection des données personnelles. Pour comprendre comment nous collectons et utilisons les données des utilisateurs de nos services, y compris comment refuser que les conversations de ChatGPT soient utilisées pour entraîner nos modèles, veuillez consulter notre Politique de confidentialité et cet article du centre d’aide.

Qu’est-ce que ChatGPT et quel est son fonctionnement ?

ChatGPT est un service basé sur l’intelligence artificielle auquel vous pouvez accéder via Internet. Vous pouvez utiliser ChatGPT pour diverses tâches, telles que l’organisation ou la synthèse d’informations, l’aide à la traduction, l’analyse ou la génération d’images, l’assistance pour les tâches quotidiennes ou comme source d’inspiration et d’idées. ChatGPT a été développé de manière à pouvoir comprendre et répondre aux questions et instructions de l’utilisateur. Pour ce faire, ChatGPT examine une grande quantité de contenus existants, tels que du texte, des images, de l’audio ou de la vidéo, et apprend à partir des relations entre ces contenus. Ainsi, le modèle apprend comment les mots tendent à apparaître dans un certain contexte avec d’autres mots, puis utilise ce qu’il a appris pour prédire le mot suivant le plus susceptible d’apparaître en réponse à une demande d’utilisateur. Il fait de même avec chaque mot suivant. Ces modèles peuvent également apprendre à générer d’autres formes de contenus, comme des images, en apprenant comment les pixels qui composent les images dans les données d’entraînement sont liés les uns aux autres, ainsi qu’aux légendes qui les décrivent.

Par exemple, au cours du processus d’apprentissage (appelé « entraînement »), nous pourrions demander à un modèle d’essayer de compléter la phrase suivante : « au lieu de tourner à gauche, elle a tourné___ ». Avant l’entraînement, le modèle répondra avec des mots aléatoires, mais au fur et à mesure qu’il lit et apprend à partir de nombreuses lignes de texte, il comprend mieux ce type de phrase et peut prédire les mots suivants avec plus de précision. Il répète ensuite ce processus sur un très grand nombre de phrases.

Étant donné que de nombreux mots pourraient compléter cette phrase (par exemple, au lieu de tourner à gauche, elle a tourné « à droite », « autour » ou « pour faire demi-tour »), il y a un élément aléatoire dans la façon dont un modèle peut répondre et, dans de nombreux cas, nos modèles répondront à la même question de différentes façons.

Les modèles d’apprentissage automatique sont constitués de longues chaînes de nombres, appelées « poids » ou « paramètres », et d’un code qui interprète et exécute ces nombres.

Les modèles ne contiennent ni ne stockent de copies des données à partir desquelles ils apprennent. En réalité, à mesure qu’un modèle apprend, certains des nombres qui le composent changent légèrement pour refléter ce qu’il a appris. Dans l’exemple ci-dessus, le modèle a examiné des données qui l’ont aidé à passer de la prédiction de mots incorrects aléatoires à la prédiction de mots plus exacts. Pour résumer ce qui s’est réellement passé dans le modèle lui-même, les nombres ont légèrement changé. Le modèle n’a pas stocké ou copié les phrases, les images ou l’audio qu’il a passés en revue.

Quels types de données sont utilisés pour entraîner ChatGPT ?

Comme indiqué ci-dessus, ChatGPT et nos autres services sont développés en utilisant (1) les données accessibles publiquement sur Internet, (2) les données obtenues via des partenaires tiers et (3) les données fournies ou générées par nos utilisateurs,notre personnel en charge de l’entraînement des modèles ou nos chercheurs. Cet article se concentre sur le premier ensemble : les données accessibles publiquement sur Internet.

Pour cet ensemble de données, nous n’utilisons que des données librement et publiquement accessibles sur Internet. Par exemple, nous n’utilisons pas les données soumises à des frais d'accès ou disponibles sur le « dark web ». Nous appliquons des filtres et supprimons les données à partir desquelles nous ne souhaitons pas que nos modèles tirent des enseignements ou génèrent des résultats, tels que les discours haineux, les contenus pour adultes, les sites qui agrègent principalement des données personnelles et les spams. Nous utilisons ensuite ces données pour entraîner nos modèles.

Comme indiqué ci-dessus, ChatGPT ne copie ni ne stocke les données d’entraînement dans une base de données. Il apprend plutôt les associations qui existent entre les mots et les concepts et ces apprentissages l’aident à mettre à jour ses nombres/poids. Le modèle utilise ensuite ces poids pour prédire et générer de nouveaux contenus en réponse à une demande d’utilisateur. Il ne fait pas un « copier-coller » des données d’entraînement. A l’instar d'un enseignant qui a beaucoup appris grâce à des études antérieures et qui peut expliquer des principes parce qu’il a appris les relations entre les concepts, sans conserver de copies des documents dans sa tête.

Les données personnelles sont-elles utilisées pour entraîner ChatGPT ?

Une grande partie des données accessibles sur Internet concerne des personnes, nos données d’entraînement contiennent donc accessoirement des données personnelles. Nous ne cherchons pas activement à obtenir des données personnelles pour entraîner nos modèles.

Nous utilisons les données d’entraînement uniquement pour entraîner l’intelligence à nos modèles, par exemple la capacité de prédire, de raisonner et de résoudre des problèmes. Nous n’utilisons pas et n’utiliserons pas de données personnelles contenues dans les données d’entraînement pour établir des profils de personnes, pour les contacter, pour leur faire de la publicité, pour essayer de leur vendre quoi que ce soit ou pour vendre les données elles-mêmes.

Nos modèles peuvent s’appuyer sur des données personnelles pour comprendre comment des éléments tels que les noms et les adresses s’intègrent dans le langage et les phrases, ou pour en savoir plus sur les personnes célèbres et les personnalités publiques. Nos modèles sont ainsi plus à même de fournir des réponses pertinentes.

Nous prenons également des mesures pour réduire le traitement des données personnelles lors de l’entraînement de nos modèles. Par exemple, nous supprimons les sites Internet qui agrègent de grandes quantités de données personnelles et nous entraînons nos modèles à rejeter les demandes d’informations privées ou sensibles sur les personnes.

Comment le développement de ChatGPT respecte-t-il les lois sur la protection des données personnelles?

Nous utilisons les données d’entraînement dans le respect de la loi. Nos modèles de fondation ont de nombreuses applications qui offrent des avantages significatifs et assistent déjà les utilisateurs notamment à créer du contenu, à améliorer le service client, à développer des logiciels, à personnaliser l’éducation et à soutenir la recherche scientifique. Ces avantages ne peuvent être obtenus sans une grande quantité de données pour entraîner les modèles. En outre, notre utilisation des données d’entraînement n’a pas pour but de produire un impact négatif sur les individus, et les principales sources de ces données d’entraînement sont déjà publiquement accessibles. Pour ces raisons, nous fondons notre collecte et notre utilisation des données personnelles incluses dans les données d’entraînement sur des intérêts légitimes en vertu des lois sur la protection des données personnelles telles que le RGPD. Nous l’expliquons plus en détail dans notre Politique de confidentialité. Nous avons également réalisé une analyse d’impact relative à la protection des données personnelles pour nous assurer que nous collectons et utilisons ces données légalement et de manière responsable.

Nous répondons aux demandes d’opposition et d’exercice de droits similaires. Pour apprendre le langage, les réponses de ChatGPT peuvent parfois inclure des données personnelles sur des personnes dont les données personnelles apparaissent plusieurs fois sur Internet (par exemple, des personnalités publiques). Les personnes relevant de certaines juridictions peuvent s’opposer au traitement de leurs données personnelles par nos modèles ou soumettre d’autres demandes relatives aux droits des personnes concernées via notre Portail de protection des données personnelles. Vous pouvez également exercer ces droits en écrivant à l’adresse dsar@openai.com.

Veuillez noter que, conformément aux lois sur la protection des données personnelles, certains droits peuvent ne pas être absolus. Nous pouvons refuser une demande si nous avons une raison légale de le faire. Toutefois, nous nous efforçons de donner la priorité à la protection des données personnelles et de nous conformer à toutes les lois en vigueur en matière de protection des données personnelles. Si vous estimez que nous n’avons pas traité un problème de manière adéquate, vous avez le droit d’introduire une réclamation auprès de votre autorité locale de protection des données.

Pour en savoir plus sur les pratiques d’OpenAI concernant les données personnelles que nous recueillons auprès de vous ou à votre sujet lorsque vous utilisez notre site Internet, nos applications et nos services, veuillez consulter notre Politique de confidentialité.

Did this answer your question?