OpenAI

Processus de développement de ChatGPT et de nos modèles de fondation

En savoir plus sur la manière dont nous développons nos modèles et les appliquons dans des produits tels que ChatGPT.

Dernière mise à jour : 23 hours ago

Remarque : la conservation des données pour certains services peut être affectée par des évolutions législatives récentes. Veuillez consulter notre article de blog pour plus de détails.Les modèles de base d’OpenAI, y compris ceux qui alimentent ChatGPT, sont développés à partir de trois principales sources d’information : (1) les informations accessibles au public sur Internet, (2) les informations obtenues grâce à des partenariats avec des tiers et (3) les informations fournies ou générées par nos utilisateurs, formateurs humains et chercheurs.

Cet article fournit un aperçu des informations accessibles au public que nous utilisons pour développer ces modèles, ainsi que de la manière dont nous collectons et utilisons ces informations en conformité avec les lois sur la protection de la vie privée. Pour comprendre comment nous collectons et utilisons les informations des utilisateurs de nos services, y compris comment refuser que vos conversations ChatGPT soient utilisées pour entraîner nos modèles, veuillez consulter notre Politique de confidentialité et cet article du centre d’assistance.

Qu'est-ce que ChatGPT et comment fonctionne-t-il ?

ChatGPT est un service basé sur l'intelligence artificielle auquel vous pouvez accéder via Internet. Vous pouvez utiliser ChatGPT pour un large éventail de tâches, notamment organiser et résumer des informations, vous aider avec des traductions, analyser ou générer des images, stimuler la créativité et les idées, ainsi que pour d'autres activités du quotidien. ChatGPT est conçu pour comprendre les questions et instructions des utilisateurs, et y répondre en apprenant des régularités à partir de grandes quantités d'informations, notamment du texte, des images, de l'audio et de la vidéo. Pendant l'entraînement, le modèle analyse les relations au sein de ces données — par exemple la façon dont les mots apparaissent généralement ensemble en contexte — et utilise cette compréhension pour prédire le mot suivant le plus probable lorsqu'il génère une réponse, un mot à la fois. De même, les modèles qui génèrent d'autres formes de contenu, comme des images, apprennent les schémas selon lesquels les pixels sont liés les uns aux autres et aux légendes associées dans les données d'entraînement.

Par exemple, au cours du processus d'apprentissage du modèle (appelé « entraînement »), le modèle peut être chargé de compléter une phrase telle que : « Au lieu de tourner à gauche, elle a tourné ___. » Au début de l'entraînement, ses réponses sont en grande partie aléatoires. Cependant, à mesure que le modèle traite un grand volume de texte et en tire des enseignements, il s'améliore dans sa capacité à reconnaître des régularités et à prédire le mot suivant le plus probable. Ce processus est répété sur des millions de phrases afin d'affiner sa compréhension et d'améliorer sa précision.

Comme il existe plusieurs façons plausibles de compléter une phrase — par exemple « au lieu de tourner à gauche, elle a tourné à droite », « elle a fait demi-tour » ou « elle est revenue en arrière » —, la manière dont le modèle répond comporte une part inhérente d'aléatoire. Par conséquent, une même question peut donner lieu à des réponses différentes d'une requête à l'autre.

Les modèles d'apprentissage automatique se composent de grands ensembles de nombres, appelés « pondérations » ou « paramètres », ainsi que d'un code qui interprète et utilise ces nombres. Ces modèles ne stockent ni ne conservent de copies des données sur lesquelles ils sont entraînés. Au lieu de cela, à mesure qu'un modèle apprend, les valeurs de ses paramètres sont légèrement ajustées pour refléter les schémas qu'il a identifiés. Dans l'exemple précédent, le modèle s'est amélioré, passant de la prédiction de mots au hasard à des prédictions plus précises, non pas en stockant les phrases d'entraînement, mais en mettant à jour ses paramètres internes. Le modèle ne conserve pas de copies des phrases, des images ni des enregistrements audio qu'il traite pendant l'entraînement. ChatGPT ne fait pas de « copier-coller » à partir de ses données d'entraînement : de la même manière qu'un enseignant, après avoir longuement étudié, peut expliquer des concepts en comprenant les relations entre les idées sans mémoriser ni reproduire mot pour mot les supports d'origine. Lorsqu'il génère une réponse à une demande utilisateur, le modèle utilise ces poids appris pour prédire et créer du nouveau contenu.

Quel type d'informations publiques est utilisé pour entraîner ChatGPT ?

Pour le contenu internet accessible au public, nous utilisons uniquement des informations librement et ouvertement accessibles sur internet. Nous ne collectons pas intentionnellement de données provenant de sources connues pour être soumises à un accès payant ou issues du dark web. De plus, nous appliquons des filtres pour supprimer les contenus que nous ne souhaitons pas que nos modèles apprennent, comme les discours haineux, les contenus pour adultes, les sites qui agrègent des informations personnelles et le spam. Les informations restantes sont ensuite utilisées pour entraîner nos modèles.

Les informations personnelles sont-elles utilisées pour entraîner ChatGPT ?

Une part importante du contenu en ligne contient des informations sur des personnes ; nos données d'entraînement peuvent donc inclure de manière fortuite des informations personnelles. Toutefois, nous ne collectons pas intentionnellement d'informations personnelles dans le but d'entraîner nos modèles.

Nous utilisons les données d'entraînement pour développer les capacités du modèle — telles que la prédiction, le raisonnement et la résolution de problèmes —, et non pour créer des profils d'utilisateurs, contacter des personnes, ni à des fins publicitaires ou marketing.

Dans certains cas, les modèles peuvent apprendre à partir d'informations personnelles pour comprendre comment des éléments tels que les noms et les adresses fonctionnent dans la langue, ou pour reconnaître des personnalités publiques et des entités bien connues. Cela aide le modèle à générer des réponses plus précises et adaptées au contexte.

Nous prenons des mesures actives pour limiter le traitement des informations personnelles pendant l'entraînement. Par exemple, nous excluons les sources qui agrègent de grandes quantités de données personnelles et nous entraînons nos modèles à éviter de répondre aux demandes d'informations privées ou sensibles concernant des individus.

Comment le développement de ChatGPT respecte-t-il les lois sur la protection de la vie privée ?

Nous utilisons les informations d’entraînement de manière licite. Nos modèles de fondation alimentent un large éventail d’applications bénéfiques, de la création de contenu et du support client au développement logiciel, à l’éducation personnalisée et à la recherche scientifique. Ces capacités dépendent de données d’entraînement à grande échelle. Les informations utilisées pour entraîner nos modèles sont accessibles publiquement et ne sont pas destinées à porter préjudice à des individus. Nous fondons notre collecte et notre utilisation des informations personnelles incluses dans les informations d’entraînement sur des intérêts légitimes en vertu des lois relatives à la confidentialité, telles que le RGPD, comme expliqué plus en détail dans notre Politique de confidentialité. Nous avons réalisé une analyse d’impact relative à la protection des données afin de contribuer à garantir que nous collectons et utilisons ces informations de manière légale et responsable.


Nous répondons aux demandes d’opposition et aux demandes relatives à des droits similaires. En raison de l’apprentissage du langage, les réponses de ChatGPT peuvent parfois inclure des informations personnelles sur des individus dont les données apparaissent fréquemment sur Internet (par exemple, des personnalités publiques). Les personnes situées dans certaines juridictions peuvent s’opposer au traitement de leurs informations personnelles par nos modèles ou formuler d’autres demandes d’exercice des droits des personnes concernées via notre Portail de confidentialité. Vous pouvez également exercer ces droits en nous contactant à l’adresse dsar@openai.com.

Veuillez noter que, conformément aux lois sur la protection de la vie privée, certains droits peuvent ne pas être absolus. Nous pouvons refuser une demande si nous avons une raison légitime de le faire. Cependant, nous nous efforçons de donner la priorité à la protection des informations personnelles et de respecter toutes les lois applicables en matière de protection de la vie privée. Si vous estimez que nous n’avons pas traité un problème de manière adéquate, vous avez le droit d’introduire une réclamation auprès de votre autorité de contrôle locale.


Pour en savoir plus sur les pratiques d’OpenAI concernant les informations personnelles que nous collectons auprès de vous ou à votre sujet lorsque vous utilisez notre site web, nos applications et nos services, veuillez consulter notre Politique de confidentialité.

Cet article vous a-t-il été utile ?