Die Basismodelle von OpenAI, einschließlich der Modelle, die ChatGPT zugrunde liegen, werden mit Hilfe von drei primären Informationsquellen entwickelt: (1) Informationen, die öffentlich im Internet verfügbar sind, (2) Informationen, zu denen wir durch Partnerschaften mit Dritten Zugang erhalten, und (3) Informationen, die von unseren Nutzern oder unseren menschlichen Trainern und Forschern zur Verfügung gestellt oder generiert werden.
Dieser Artikel gibt einen Überblick über die öffentlich zugänglichen Informationen, die wir zur Entwicklung dieser Modelle verwenden, sowie darüber, wie wir diese Informationen im Einklang mit den Datenschutzgesetzen erheben und verwenden. Wenn Sie wissen möchten, wie wir Informationen von Nutzern unserer Dienste erheben und verwenden, einschließlich wie Sie der Verwendung von ChatGPT-Konversationen zur Unterstützung des Trainierens unserer Modelle widersprechen können (opt out), lesen Sie bitte unsere Datenschutzerklärung und diesen Help Center-Artikel.
Was ist ChatGPT und wie funktioniert es?
ChatGPT ist ein auf künstlicher Intelligenz basierender Dienst, auf den Sie über das Internet zugreifen können. Sie können ChatGPT für eine Vielzahl von Aufgaben verwenden, wie beispielsweise zum Organisieren oder Zusammenfassen von Informationen, als Übersetzungshilfe, zum Analysieren oder Generieren von Bildern, als Quelle für Kreativität und Ideengeber sowie zur Unterstützung bei alltäglichen Aufgaben. ChatGPT wurde so entwickelt, dass es Fragen und Anweisungen des Nutzers verstehen und darauf reagieren kann. Dazu betrachtet es eine große Menge vorhandener Informationen wie Texte, Bilder, Audio- oder Videoaufnahmen und lernt aus den Beziehungen zwischen den Informationen. So lernt das Modell beispielsweise, wie Wörter im Kontext mit anderen Wörtern vorkommen. Anschließend verwendet es das Gelernte, um das wahrscheinlichste nächste Wort vorherzusagen, das als Antwort auf eine Nutzeranfrage erscheinen könnte, sowie jedes folgende Wort. Diese Modelle können auch lernen, andere Arten von Informationen wie Bilder zu erzeugen, indem sie lernen, wie die Pixel, aus denen die Bilder in den Trainingsdaten bestehen, miteinander und mit den zugehörigen Bildunterschriften in Beziehung stehen.
Während des Lernprozesses des Modells (auch „Training“ genannt) könnten wir beispielsweise ein Modell versuchen lassen, den folgenden Satz zu vervollständigen: „Statt nach Hause zu gehen, ging sie ___.“ Vor dem Training wird das Modell mit zufälligen Wörtern antworten. Wenn es aber viele Zeilen Text liest und daraus lernt, versteht es diese Art von Sätzen besser und kann das nächste Wort genauer vorhersagen. Diesen Prozess wiederholt es dann mit einer sehr großen Anzahl von Sätzen.
Da es viele mögliche Wörter gibt, die in diesem Satz als nächstes kommen könnten (z. B. Statt nach Hause zu gehen, ging sie „weiter“, „zurück“ oder „hinüber“), gibt es ein Zufallselement in der Art und Weise, wie ein Modell antworten kann, und in vielen Fällen werden unsere Modelle die gleiche Frage auf unterschiedliche Weise beantworten.
Modelle für maschinelles Lernen (Machine Learning) bestehen aus großen Zahlenfolgen, die als „Gewichte“ oder „Parameter“ bezeichnet werden, und aus Code, der diese Zahlen interpretiert und ausführt. Modelle enthalten oder speichern keine Kopien der Informationen, aus denen sie lernen. Wenn ein Modell lernt, ändern sich stattdessen einige der Zahlen, aus denen das Modell besteht, geringfügig, um das Gelernte widerzuspiegeln. Im obigen Beispiel hat das Modell Informationen berücksichtigt, die ihm geholfen haben, von der Vorhersage zufälliger falscher Wörter zur Vorhersage passenderer Wörter überzugehen. Im Modell selbst haben sich jedoch nur die Zahlen leicht verändert. Das Modell hat die berücksichtigten Sätze, Bilder oder Audiodateien nicht gespeichert oder kopiert.
Welche Art von Informationen werden verwendet, um ChatGPT zu trainieren?
Wie bereits oben erwähnt, werden bei der Entwicklung von ChatGPT und unseren anderen Diensten Informationen verwendet, (1) die im Internet öffentlich verfügbar sind, (2) zu denen wir durch Partnerschaften mit Dritten Zugang erhalten, und (3) die von unseren Nutzern oder unseren menschlichen Trainern und Forschern zur Verfügung gestellt oder generiert werden. Dieser Artikel konzentriert sich auf die erste Gruppe: Informationen, die im Internet öffentlich verfügbar sind.
Für diese Gruppe von Informationen verwenden wir nur öffentlich verfügbare Informationen, die frei und offen im Internet zugänglich sind – wir suchen zum Beispiel nicht nach Informationen, von denen wir wissen, dass sie sich hinter Bezahlschranken (Paywalls) oder im Darknet befinden. Wir wenden Filter an und entfernen Informationen, von denen wir nicht möchten, dass unsere Modelle daraus lernen oder sie ausgeben, wie z. B. Hassrede, nicht jugendfreie Inhalte, Webseiten, die hauptsächlich personenbezogene Daten aggregieren, und Spam. Anschließend verwenden wir die Informationen, um unsere Modelle zu trainieren.
Wie bereits im vorherigen Abschnitt erwähnt, kopiert oder speichert ChatGPT keine Trainingsinformationen in einer Datenbank. Stattdessen lernt es durch Assoziationen zwischen Wörtern und Begriffen. Auf der Grundlage der gewonnenen Erkenntnisse kann das Modell dann seine Zahlen/Gewichte aktualisieren. Anschließend verwendet das Modell diese Gewichte, um neue Inhalte als Antwort auf eine Nutzeranfrage vorherzusagen und zu generieren. Dabei geht es nicht darum, Trainingsinformationen zu kopieren und einzufügen. Das Modell ist eher mit einer Lehrerin vergleichbar, die während ihrer Ausbildung ein umfangreiches Wissen erworben hat und Dinge erklären kann, weil sie die Zusammenhänge zwischen Konzepten verstanden hat, die aber keine Kopien des Lehrmaterials in ihrem Kopf gespeichert hat.
Werden personenbezogene Daten zum Trainieren von ChatGPT verwendet?
Ein großer Teil der Daten im Internet bezieht sich auf Personen, so dass unsere Trainingsinformationen auch personenbezogene Daten enthalten können. Wir suchen nicht aktiv nach personenbezogenen Daten, um unsere Modelle zu trainieren.
Wir verwenden Trainingsinformationen nur, um unseren Modellen Intelligenz beizubringen, damit sie Vorhersagen treffen, Schlussfolgerungen ziehen und Probleme lösen können. Wir verwenden keine personenbezogenen Daten in den Trainingsinformationen, um Profile von Personen zu erstellen, um sie zu kontaktieren, um ihnen Werbung zuzusenden, um zu versuchen, ihnen etwas zu verkaufen oder um die Informationen selbst zu verkaufen, und werden dies auch in Zukunft nicht tun.
Unsere Modelle können aus personenbezogenen Daten lernen, wie sich Dinge wie Namen und Adressen in Sprache und Sätze einfügen, oder etwas über berühmte Personen und Persönlichkeiten des öffentlichen Lebens erfahren. Dadurch sind unsere Modelle besser in der Lage, relevante Antworten zu geben.
Wir ergreifen auch Maßnahmen, um die Verarbeitung personenbezogener Daten beim Training unserer Modelle zu reduzieren. Beispielsweise entfernen wir Websites, auf denen große Mengen personenbezogener Daten aggregiert werden, und trainieren unsere Modelle so, dass sie Anfragen nach privaten oder sensiblen Informationen über Personen ablehnen.
Wie werden bei der Entwicklung von ChatGPT die Datenschutzgesetze eingehalten?
Wir verwenden die Trainingsinformationen in rechtmäßiger Weise. Unsere Basismodelle bieten viele Anwendungsmöglichkeiten, die erhebliche Vorteile bringen. Schon jetzt helfen sie Menschen bei der Erstellung von Inhalten, der Verbesserung von Kundendiensten, der Softwareentwicklung, der Unterrichts- und Ausbildungsgestaltung, der wissenschaftlichen Forschung und vielem mehr. Diese Vorteile können nicht ohne eine große Menge an Informationen erzielt werden, mit denen die Modelle trainiert werden. Darüber hinaus zielt unsere Verwendung von Trainingsinformationen nicht darauf ab, Einzelpersonen zu beeinträchtigen. Außerdem sind die primären Quellen dieser Trainingsinformationen bereits öffentlich zugänglich. Aus diesen Gründen stützen wir uns bei der Erhebung und Verwendung personenbezogener Daten, die in Trainingsinformationen enthalten sind, auf berechtigte Interessen im Rahmen von Datenschutzgesetzen wie der DSGVO. Weitere Einzelheiten hierzu können Sie unserer Datenschutzerklärung entnehmen. Wir haben außerdem eine Datenschutz-Folgenabschätzung durchgeführt, um sicherzustellen, dass wir diese Daten auf rechtmäßige und verantwortungsvolle Weise erheben und verwenden.
Wir reagieren auf Widerspruchsersuchen und ähnliche Rechte. Aufgrund des Erlernens von Sprache kann es vorkommen, dass die Antworten von ChatGPT personenbezogene Daten von Personen enthalten, deren personenbezogene Daten mehrfach im öffentlich zugänglichen Internet erscheinen (z. B. Personen des öffentlichen Lebens). Über unser Datenschutz-Portal können natürliche Personen in bestimmten Rechtsordnungen Widerspruch gegen die Verarbeitung ihrer personenbezogenen Daten durch unsere Modelle einlegen oder andere Betroffenenrechte geltend machen. Sie können diese Rechte auch ausüben, indem Sie sich an dsar@openai.com wenden.
Bitte beachten Sie, dass einige Rechte in Übereinstimmung mit den Datenschutzgesetzen nicht absolut gelten. Wir können eine Anfrage ablehnen, wenn wir einen rechtmäßigen Grund dafür haben. Wir sind jedoch bestrebt, dem Schutz personenbezogener Daten Vorrang einzuräumen und alle geltenden Datenschutzgesetze einzuhalten. Wenn Sie der Meinung sind, dass wir ein Problem nicht angemessen behandelt haben, haben Sie das Recht, eine Beschwerde bei einer Aufsichtsbehörde einzureichen.
Weitere Informationen über die Praktiken von OpenAI in Bezug auf personenbezogene Daten, die wir bei der Nutzung unserer Website, Anwendungen und Dienste von Ihnen oder über Sie erheben, finden Sie in unserer Datenschutzerklärung.