| Hinweis : Die Speicherung von Daten für bestimmte Dienste kann von aktuellen rechtlichen Entwicklungen betroffen sein – Details finden Sie in unserem Blogbeitrag. |
|---|
Die Foundation-Modelle von OpenAI, einschließlich der Modelle, die ChatGPT antreiben, werden mit drei Hauptinformationsquellen entwickelt: (1) öffentlich zugängliche Informationen im Internet, (2) Informationen, die wir durch Partnerschaften mit Dritten erhalten, und (3) Informationen, die unsere Benutzer, menschlichen Trainer und Forscher bereitstellen oder generieren.
Dieser Artikel gibt einen Überblick über die öffentlich zugänglichen Informationen, die wir zur Entwicklung dieser Modelle verwenden, und darüber, wie wir diese Informationen im Einklang mit den Datenschutzgesetzen erheben und nutzen. Um zu verstehen, wie wir Informationen von Benutzern unserer Dienste erheben und verwenden, einschließlich der Möglichkeit, der Nutzung von ChatGPT-Gesprächen zur Unterstützung des Trainings unserer Modelle zu widersprechen, lies bitte unsere Datenschutzrichtlinie und diesen Hilfeartikel.
Was ist ChatGPT und wie funktioniert es?
ChatGPT ist ein auf künstlicher Intelligenz basierender Dienst, auf den du über das Internet zugreifen kannst. Du kannst ChatGPT für eine Vielzahl von Aufgaben verwenden, einschließlich der Organisation und Zusammenfassung von Informationen, der Unterstützung bei Übersetzungen, der Analyse oder dem Generieren von Bildern, der Inspiration von Kreativität und Ideen sowie anderer alltäglicher Aktivitäten. ChatGPT ist darauf ausgelegt, Benutzerfragen und Anweisungen zu verstehen und darauf zu reagieren, indem es Muster aus großen Mengen an Informationen lernt, einschließlich Text, Bilder, Audio und Video. Während des Trainierens analysiert das Modell die Beziehungen innerhalb dieser Daten – zum Beispiel, wie Wörter typischerweise im Kontext zusammen erscheinen – und nutzt dieses Verständnis, um das nächstwahrscheinliche Wort vorherzusagen, wenn es eine Antwort generiert, ein Wort nach dem anderen. Ähnlich lernen Modelle, die andere Formen von Inhalten generieren, wie Bilder, Muster darin, wie Pixel zueinander und zu den zugehörigen Bildunterschriften in den Trainieren Daten in Beziehung stehen.
Zum Beispiel könnte während des Lernprozesses des Modells (bekannt als „Trainieren“) das Modell die Aufgabe haben, einen Satz wie diesen zu vervollständigen: „Statt nach links abzubiegen, bog sie ___.“ Früh im Trainieren sind die Antworten weitgehend zufällig. Wenn das Modell jedoch eine große Menge an Text verarbeitet und daraus lernt, wird es besser darin, Muster zu erkennen und das wahrscheinlichste weiter Wort vorherzusagen. Dieser Prozess wird über Millionen von Sätzen hinweg wiederholt, um das Verständnis zu verfeinern und die Genauigkeit zu erhöhen.
Da es mehrere plausible Möglichkeiten gibt, einen Satz zu vervollständigen – wie „Statt nach links abzubiegen, bog sie nach rechts“, „um“ oder „zurück“ – gibt es ein inhärentes Zufallselement in der Art und Weise, wie das Modell reagiert. Infolgedessen kann dieselbe Frage bei unterschiedlichen Anfragen verschiedene Antworten liefern.
Maschinelle Lernmodelle bestehen aus großen Mengen von Zahlen, die als „Gewichte“ oder „Parameter“ bekannt sind, zusammen mit einem Code, der diese Zahlen interpretiert und verwendet. Diese Modelle speichern oder behalten keine Kopien der Daten, auf denen sie trainiert wurden. Stattdessen werden, während ein Modell lernt, die Werte seiner Parameter geringfügig angepasst, um die Muster widerzuspiegeln, die es identifiziert hat. Im früheren Beispiel verbesserte sich das Modell von der Vorhersage zufälliger Wörter zu genaueren Vorhersagen—nicht durch das Speichern der Sätze des Trainierens, sondern durch das Aktualisieren seiner internen Parameter. Das Modell speichert keine Kopien der Sätze, Bilder oder Audiodateien, die es während des Trainierens verarbeitet. ChatGPT „kopiert und fügt“ nicht aus seinen Trainieren-Daten ein – ähnlich wie eine Lehrkraft, die nach umfangreichem Studium Konzepte erklären kann, indem sie die Beziehungen zwischen Ideen versteht, ohne die ursprünglichen Materialien wortwörtlich zu speichern oder zu reproduzieren. Wenn das Modell eine Antwort auf eine Benutzeranfrage generiert, nutzt es diese gelernten Gewichtungen, um neue Inhalte vorherzusagen und zu erstellen.
Welche Art von öffentlichen Informationen wird verwendet, um ChatGPT zu lehren?
Für öffentlich zugängliche Internetinhalte verwenden wir nur Informationen, die frei und offen im Internet zugänglich sind. Wir sammeln nicht absichtlich Daten aus Quellen, die bekannt dafür sind, sich hinter Bezahlschranken zu befinden oder aus dem Dunkelnetz zu stammen. Zusätzlich filtern wir Material, um es zu entfernen, von dem wir nicht möchten, dass unsere Modelle daraus lernen, wie z. B. Hassrede, nicht jugendfreie Inhalte, Websites, die personenbezogene Daten aggregieren, und Spam. Die verbleibenden Informationen werden dann genutzt, um unsere Modelle zu trainieren.
Werden personenbezogene Daten verwendet, um ChatGPT zu lehren?
Ein bedeutender Teil der Online-Inhalte enthält Informationen über Personen, sodass unsere Daten zum Trainieren möglicherweise auch personenbezogene Informationen umfassen. Wir sammeln jedoch nicht absichtlich personenbezogene Daten zum Zweck des Trainierens unserer Modelle.
Wir verwenden Trainingsdaten, um die Fähigkeiten des Modells zu entwickeln, z. B. Vorhersage, logisches Denken und Problemlösung, nicht um Benutzerprofile zu erstellen, Einzelpersonen zu kontaktieren oder im Rahmen unserer Werbe- oder Marketingmaßnahmen.
In einigen Fällen können Modelle aus persönlichen Informationen lernen, um zu verstehen, wie Elemente wie Namen und Adressen in der Sprache funktionieren, oder um öffentliche Personen und bekannte Entitäten zu erkennen. Das hilft dem Modell, genauere und kontextuell passende Antworten zu generieren.
Wir ergreifen aktive Schritte, um die Verarbeitung personenbezogener Daten während des Trainierens zu begrenzen. Zum Beispiel schließen wir Quellen aus, die große Mengen personenbezogener Daten sammeln, und wir trainieren unsere Modelle darauf, Anfragen nach privaten oder sensiblen Informationen über Einzelpersonen nicht zu beantworten.
Wie wird bei der Entwicklung von ChatGPT die Einhaltung der Datenschutzgesetze sichergestellt?
Wir verwenden Trainingsinformationen rechtmäßig. Unsere Modelle treiben eine Vielzahl nützlicher Anwendungen an – von der Inhaltserstellung und dem Kundensupport bis hin zur Softwareentwicklung, personalisierter Bildung und wissenschaftlicher Forschung. Diese Fähigkeiten hängen von groß angelegten Trainingsdaten ab. Die Informationen, die wir zum Trainieren unserer Modelle verwenden, sind öffentlich zugänglich und sollen keinen Schaden für Einzelpersonen verursachen. Wir stützen unsere Erhebung und Nutzung von personenbezogenen Daten, die im Rahmen des Trainierens enthalten sind, auf berechtigte Interessen gemäß Datenschutzgesetzen wie der DSGVO, wie in unserer Datenschutzrichtlinie näher erläutert wird. Wir haben eine Datenschutz-Folgenabschätzung durchgeführt, um sicherzustellen, dass wir diese Informationen auf legale und verantwortungsvolle Weise erheben und verwenden.
Wir reagieren auf Widerspruchsanfragen und ähnliche Rechte. Durch das Erlernen von Sprache kann es passieren, dass ChatGPT-Antworten manchmal persönliche Informationen über Personen enthalten, deren Daten mehrfach im öffentlichen Internet zu finden sind (z. B. öffentliche Persönlichkeiten). Einzelpersonen in bestimmten Rechtsordnungen können der Verarbeitung ihrer persönlichen Daten durch unsere Modelle widersprechen oder andere Betroffenenrechte über unser Privacy-Portal geltend machen. Du kannst diese Rechte auch ausüben, indem du dich an dsar@openai.com wendest.
Bitte beachte, dass einige Rechte gemäß den Datenschutzgesetzen nicht absolut sind. Wir können eine Anfrage ablehnen, wenn wir eine rechtmäßige Reasoning dafür haben. Wir sind jedoch bestrebt, dem Schutz personenbezogener Daten Vorrang einzuräumen und alle geltenden Datenschutzgesetze einzuhalten. Wenn du der Meinung bist, dass wir ein Problem nicht angemessen behandelt haben, hast du das Recht, eine Beschwerde bei deiner örtlichen Aufsichtsbehörde einzureichen.
Weitere Informationen zu den Praktiken von OpenAI bezüglich der personenbezogenen Daten, die wir von dir oder über dich erheben, wenn du unsere Website, Anwendungen und Dienste nutzt, findest du in unserer Datenschutzrichtlinie.
