Remarque : La conservation des données pour certains services peut être touchée par de récents développements juridiques; veuillez consulter notre billet de blogue pour en savoir plus.
Les modèles de base d’OpenAI, y compris les modèles qui alimentent ChatGPT, sont développés à partir de trois principales sources d’information : (1) l’information accessible au public sur Internet, (2) l’information à laquelle nous accédons en collaboration avec des tiers et (3) l’information fournie ou générée par nos utilisateurs, nos formateurs humains et nos chercheurs.
Cet article donne un aperçu de l’information accessible au public que nous utilisons pour aider à développer ces modèles, ainsi que de la façon dont nous recueillons et utilisons cette information conformément aux lois sur la confidentialité. Pour comprendre comment nous recueillons et utilisons l’information provenant des utilisateurs de nos services, y compris comment refuser que les conversations ChatGPT soient utilisées pour aider à entraîner nos modèles, veuillez consulter notre politique de confidentialité et cet article du centre d’aide.
Qu’est-ce que ChatGPT et comment fonctionne-t-il?
ChatGPT est un service fondé sur l’intelligence artificielle auquel vous pouvez accéder par Internet. Vous pouvez utiliser ChatGPT pour un large éventail de tâches, notamment organiser et résumer de l’information, aider à la traduction, analyser ou générer des images, stimuler la créativité et les idées, et accomplir d’autres activités quotidiennes. ChatGPT est conçu pour comprendre les questions et les instructions des utilisateurs et y répondre en apprenant des tendances à partir de grandes quantités d’information, y compris du texte, des images, de l’audio et de la vidéo. Pendant l’entraînement, le modèle analyse les relations au sein de ces données — par exemple, la façon dont les mots apparaissent généralement ensemble en contexte — et utilise cette compréhension pour prédire le mot suivant le plus probable lorsqu’il génère une réponse, un mot à la fois. De même, les modèles qui génèrent d’autres formes de contenu, comme des images, apprennent des tendances dans la façon dont les pixels sont liés entre eux et aux légendes associées dans les données d’entraînement.
Par exemple, pendant le processus d’apprentissage du modèle (appelé « entraînement »), on pourrait lui demander de compléter une phrase comme : « Au lieu de tourner à gauche, elle a tourné ___ ». Au début de l’entraînement, ses réponses sont en grande partie aléatoires. Cependant, à mesure que le modèle traite un grand volume de texte et en tire des apprentissages, il s’améliore pour reconnaître les tendances et prédire le mot suivant le plus probable. Ce processus est répété sur des millions de phrases afin d’affiner sa compréhension et d’améliorer son exactitude.
Comme il existe plusieurs façons plausibles de compléter une phrase — par exemple « Au lieu de tourner à gauche, elle a tourné à droite », « en rond » ou « en arrière » — il y a un élément inhérent d’aléatoire dans la façon dont le modèle répond. Par conséquent, une même question peut produire des réponses différentes selon les requêtes.
Les modèles d’apprentissage automatique sont constitués de grands ensembles de nombres, appelés « poids » ou « paramètres », ainsi que de code qui interprète et utilise ces nombres. Ces modèles ne stockent ni ne conservent de copies des données sur lesquelles ils sont entraînés. À mesure qu’un modèle apprend, les valeurs de ses paramètres sont plutôt légèrement ajustées pour refléter les tendances qu’il a repérées. Dans l’exemple précédent, le modèle est passé de la prédiction de mots aléatoires à des prédictions plus exactes — non pas en stockant les phrases d’entraînement, mais en mettant à jour ses paramètres internes. Le modèle ne conserve pas de copies des phrases, des images ou de l’audio qu’il traite pendant l’entraînement. ChatGPT ne fait pas de « copier-coller » à partir de ses données d’entraînement — tout comme un enseignant qui, après une étude approfondie, peut expliquer des concepts en comprenant les relations entre les idées sans mémoriser ni reproduire mot pour mot les documents originaux. Lorsqu’il génère une réponse à une demande d’utilisateur, le modèle utilise ces poids appris pour prédire et créer du nouveau contenu.
Quel type d’information publique est utilisé pour entraîner ChatGPT?
Pour le contenu Internet accessible au public, nous utilisons uniquement l’information qui est accessible librement et ouvertement sur Internet. Nous ne recueillons pas intentionnellement de données provenant de sources reconnues comme étant derrière des murs payants ou du Web clandestin. De plus, nous appliquons des filtres pour supprimer les éléments dont nous ne voulons pas que nos modèles tirent des apprentissages, comme les discours haineux, le contenu pour adultes, les sites qui regroupent des renseignements personnels et les pourriels. L’information restante est ensuite utilisée pour entraîner nos modèles.
Les renseignements personnels sont-ils utilisés pour entraîner ChatGPT?
Une grande partie du contenu en ligne comporte de l’information sur des personnes; nos données d’entraînement peuvent donc inclure incidemment des renseignements personnels. Cependant, nous ne recueillons pas intentionnellement de renseignements personnels dans le but d’entraîner nos modèles.
Nous utilisons les données d’entraînement pour développer les capacités du modèle — comme la prédiction, le raisonnement et la résolution de problèmes — et non pour créer des profils d’utilisateurs, communiquer avec des personnes ou soutenir nos activités publicitaires ou marketing.
Dans certains cas, les modèles peuvent apprendre à partir de renseignements personnels pour comprendre la fonction d’éléments comme les noms et les adresses dans le langage, ou pour reconnaître des personnalités publiques et des entités bien connues. Cela aide le modèle à générer des réponses plus exactes et adaptées au contexte.
Nous prenons des mesures actives pour limiter le traitement des renseignements personnels pendant l’entraînement. Par exemple, nous excluons les sources qui regroupent de grandes quantités de données personnelles, et nous entraînons nos modèles à éviter de répondre aux demandes de renseignements privés ou sensibles concernant des personnes.
Comment le développement de ChatGPT respecte-t-il les lois sur la confidentialité?
Nous utilisons l’information d’entraînement de manière légale. Nos modèles de base alimentent un large éventail d’applications utiles, allant de la création de contenu et du soutien à la clientèle au développement de logiciels, à l’éducation personnalisée et à la recherche scientifique. Ces capacités dépendent de données d’entraînement à grande échelle. L’information utilisée pour entraîner nos modèles est accessible au public et n’est pas destinée à causer un préjudice aux personnes. Nous fondons notre collecte et notre utilisation des renseignements personnels inclus dans l’information d’entraînement sur des intérêts légitimes en vertu de lois sur la confidentialité comme le RGPD, comme l’explique plus en détail notre politique de confidentialité. Nous avons réalisé une analyse d’impact relative à la protection des données afin de contribuer à garantir que nous recueillons et utilisons cette information de façon légale et responsable.
Nous répondons aux demandes d’opposition et aux demandes relatives à des droits similaires. Comme il apprend le langage, ChatGPT peut parfois inclure dans ses réponses des renseignements personnels sur des personnes dont les renseignements personnels apparaissent à plusieurs reprises sur l’Internet public (par exemple, des personnalités publiques). Les personnes se trouvant dans certains territoires peuvent s’opposer au traitement de leurs renseignements personnels par nos modèles ou présenter d’autres demandes relatives aux droits des personnes concernées par l’intermédiaire de notre Portail de confidentialité. Vous pouvez également exercer ces droits en communiquant avec dsar@openai.com.
Veuillez noter que, conformément aux lois sur la confidentialité, certains droits peuvent ne pas être absolus. Nous pouvons refuser une demande si nous avons un motif légal de le faire. Cependant, nous nous efforçons d’accorder la priorité à la protection des renseignements personnels et de respecter toutes les lois applicables en matière de confidentialité. Si vous estimez que nous n’avons pas traité adéquatement un problème, vous avez le droit de déposer une plainte auprès de votre autorité de contrôle locale.
Pour en savoir plus sur les pratiques d’OpenAI concernant les renseignements personnels que nous recueillons auprès de vous ou à votre sujet lorsque vous utilisez notre site Web, nos applications et nos services, veuillez consulter notre politique de confidentialité.
