Mehr erfahren darüber, wie wir unsere Modelle entwickeln und sie in Produkten wie ChatGPT einsetzen.

Die Foundation-Modelle von OpenAI, einschließlich der Modelle, die ChatGPT antreiben, werden mit drei Hauptinformationsquellen entwickelt: (1) öffentlich zugängliche Informationen im Internet, (2) Informationen, die wir durch Partnerschaften mit Dritten erhalten, und (3) Informationen, die unsere Benutzer, menschlichen Trainer und Forscher bereitstellen oder generieren.

Die Entwicklung von Grundmodellen wie denen, die in ChatGPT verwendet werden, umfasst mehrere Phasen, darunter die Vorbereitung von Trainingsdaten, Pre-Training und Post-Training sowie die laufende Evaluierung und Verbesserung nach der Bereitstellung. In diesen Phasen können verschiedene Arten von Informationen für unterschiedliche Zwecke verwendet werden, unter anderem zur Verbesserung der Leistung, Zuverlässigkeit und Sicherheit des Modells.

Dieser Artikel bietet einen Überblick über die Informationen, die wir zur Entwicklung dieser Modelle nutzen, darüber, wie wir diese Informationen in Übereinstimmung mit den Datenschutzgesetzen erfassen und nutzen, sowie über die Schutzmaßnahmen, die wir während des gesamten Trainingsprozesses anwenden. Weitere Informationen dazu, wie wir Informationen von Nutzer:innen unserer Dienste erfassen und verwenden – einschließlich wie du der Verwendung von ChatGPT-Konversationen zur Verbesserung unserer Modelle widersprechen kannst –, findest du in unserer Datenschutzrichtlinie und in diesem Hilfecenter-Artikel.

Was ist ChatGPT und wie funktioniert es?

ChatGPT ist ein Dienst, der auf künstlicher Intelligenz basiert und auf den du über das Internet oder per App zugreifen kannst. Du kannst ChatGPT für viele Aufgaben nutzen, wie das Organisieren und Zusammenfassen von Informationen, Unterstützung bei Übersetzungen, Unterstützung beim Programmieren, Recherche und Analyse, Erledigung mehrstufiger Aufgaben über verschiedene Tools hinweg, Analysieren oder Generieren von Bildern, Anregen von Kreativität und Ideen sowie andere alltägliche Aktivitäten. ChatGPT wurde entwickelt, um Fragen und Anweisungen von Nutzer:innen zu verstehen und darauf zu reagieren, indem es Muster aus großen Informationsmengen lernt, darunter Text, Bilder, Audio und Video.

Während des Trainings analysiert das Modell Zusammenhänge innerhalb dieser Daten – etwa, wie Wörter typischerweise in einem Kontext gemeinsam auftreten – und nutzt dieses Verständnis, um bei der Erstellung einer Antwort das wahrscheinlichste nächste Wort vorherzusagen, ein Wort nach dem anderen. Text kann in kleinere Einheiten umgewandelt werden, die manchmal als „Token“ bezeichnet werden und ganze Wörter, Wortbestandteile oder Satzzeichen darstellen können. Token sind die Bausteine eines Textes, die vom Modell verarbeitet werden. Ähnlich lernen Modelle, die andere Formen von Inhalten wie Bilder generieren, Muster darin, wie Pixel zueinander und zu den zugehörigen Bildunterschriften in den Trainingsdaten in Beziehung stehen.

Zum Beispiel könnte während des Lernprozesses des Modells (bekannt als „Trainieren“) das Modell die Aufgabe haben, einen Satz wie diesen zu vervollständigen: „Statt nach links abzubiegen, bog sie ___.“ Früh im Trainieren sind die Antworten weitgehend zufällig. Wenn das Modell jedoch eine große Menge an Text verarbeitet und daraus lernt, wird es besser darin, Muster zu erkennen und das wahrscheinlichste weiter Wort vorherzusagen. Dieser Prozess wird über Millionen von Sätzen hinweg wiederholt, um das Verständnis zu verfeinern und die Genauigkeit zu erhöhen.

Da es mehrere plausible Möglichkeiten gibt, einen Satz zu vervollständigen – wie „Statt nach links abzubiegen, bog sie nach rechts“, „um“ oder „zurück“ – gibt es ein inhärentes Zufallselement in der Art und Weise, wie das Modell reagiert. Infolgedessen kann dieselbe Frage bei unterschiedlichen Anfragen verschiedene Antworten liefern.

Maschinelle Lernmodelle bestehen aus großen Mengen von Zahlen, die als „Gewichte“ oder „Parameter“ bekannt sind, zusammen mit einem Code, der diese Zahlen interpretiert und verwendet. Diese Modelle speichern oder behalten keine Kopien der Daten, auf denen sie trainiert wurden. Stattdessen werden, während ein Modell lernt, die Werte seiner Parameter geringfügig angepasst, um die Muster widerzuspiegeln, die es identifiziert hat. Im früheren Beispiel verbesserte sich das Modell von der Vorhersage zufälliger Wörter zu genaueren Vorhersagen—nicht durch das Speichern der Sätze des Trainierens, sondern durch das Aktualisieren seiner internen Parameter. Das Modell speichert keine Kopien der Sätze, Bilder oder Audiodateien, die es während des Trainierens verarbeitet. ChatGPT „kopiert und fügt“ nicht aus seinen Trainieren-Daten ein – ähnlich wie eine Lehrkraft, die nach umfangreichem Studium Konzepte erklären kann, indem sie die Beziehungen zwischen Ideen versteht, ohne die ursprünglichen Materialien wortwörtlich zu speichern oder zu reproduzieren. Wenn das Modell eine Antwort auf eine Benutzeranfrage generiert, nutzt es diese gelernten Gewichtungen, um neue Inhalte vorherzusagen und zu erstellen.

Welche Art von Informationen wird zum Training von ChatGPT verwendet?

Bei öffentlich verfügbaren Internetinhalten verwenden wir ausschließlich Informationen, die im Internet frei und offen zugänglich sind. Dies kann öffentlich zugängliche Webseiten, öffentliche Foren, öffentliche Blogs, öffentliche Beiträge und andere öffentlich zugängliche Online-Inhalte umfassen. Wenn du beispielsweise an einem öffentlich zugänglichen Online-Diskussionsforum teilnimmst oder einen öffentlichen Blogbeitrag oder sonstigen Beitrag veröffentlichst, können wir diese öffentlich zugänglichen Inhalte zum Trainieren von Modellen verwenden. Wir ergreifen jedoch Maßnahmen, um die Verarbeitung personenbezogener Daten in unserem Trainingsprozess zu reduzieren. Beim Sammeln öffentlich verfügbarer Internetinhalte sammeln wir nicht absichtlich Daten aus Quellen, von denen bekannt ist, dass sie sich hinter Paywalls befinden, oder aus dem Dark Web. Außerdem wenden wir Filter an, um Material zu entfernen, von dem unsere Modelle nicht lernen sollen, wie etwa Hassreden, Inhalte für Erwachsene, Websites, die persönliche Daten sammeln, und Spam. Die verbleibenden Informationen werden dann zum Trainieren unserer Modelle verwendet.

Website-Inhaber:innen können mithilfe standardmäßiger Web-Kontrollen wie robots.txt festlegen, ob öffentlich verfügbare Inhalte ihrer Websites zur Verwendung beim Training abgerufen werden dürfen, um GPTBot auszuschließen, der öffentlich verfügbare Inhalte crawlen kann, um unsere Modelle zu trainieren. Wir stellen Leitlinien bereit, die Website-Inhaber:innen dabei helfen, zu steuern, wie ihre Websites und Inhalte mit unseren KI-Systemen interagieren.

Wir verwenden außerdem Informationen von Drittpartnern, um unsere Modelle zu trainieren und zu verbessern. Dies kann Informationen in Datensätzen umfassen, auf die wir über Vereinbarungen mit Dritten zugreifen, sowie Informationen, die von menschlichen Trainer:innen und Forscher:innen bereitgestellt oder generiert wurden, soweit dies gemäß unseren Richtlinien und Vereinbarungen zulässig ist. Dies trägt dazu bei, die Qualität, Sicherheit und Leistung unserer Modelle zu verbessern. Diese Quellen können Text, Bilder, Audio, Video oder andere Datentypen umfassen, je nach Datensatz.

Außerdem verwenden wir in einigen Trainingsprozessen zunehmend synthetische Daten. Beispielsweise können wir Informationen und unser Modell verwenden, um synthetische Prompts, mehrsprachige Beispiele oder andere Trainingsmaterialien zu erstellen. Synthetische Daten können dazu beitragen, die Modellleistung zu verbessern, unter anderem indem sie Trainingsdaten in Bereichen ergänzen, in denen Daten spärlich vorhanden oder unausgewogen sind, und können zudem datenschutzfördernde Ansätze bei der Modellentwicklung unterstützen.

Werden personenbezogene Daten verwendet, um ChatGPT zu lehren?

Da ein erheblicher Teil der Online-Inhalte Informationen über Personen umfasst, können unsere Trainingsdaten unbeabsichtigt personenbezogene Daten enthalten. Wir ergreifen jedoch Maßnahmen, um die Verarbeitung personenbezogener Daten in unserem Trainingsprozess zu reduzieren.

Wir verwenden Trainingsdaten, um die Fähigkeiten des Modells zu entwickeln – etwa Vorhersage, Schlussfolgern und Problemlösung – und nicht, um Profile von Einzelpersonen zu erstellen, sie zu kontaktieren oder Werbeanzeigen für sie zu personalisieren.

In einigen Fällen können Modelle aus persönlichen Informationen lernen, um zu verstehen, wie Elemente wie Namen und Adressen in der Sprache funktionieren, oder um öffentliche Personen und bekannte Entitäten zu erkennen. Das hilft dem Modell, genauere und kontextuell passende Antworten zu generieren.

Wie werden personenbezogene Daten während des Trainings geschützt?

Wir ergreifen aktive Maßnahmen, um die Verarbeitung personenbezogener Daten während des Trainings zu begrenzen. Beispielsweise schließen wir bekannte Quellen aus, die große Mengen personenbezogener Daten aggregieren, wenden Filterverfahren an, um personenbezogene Informationen im Trainingsprozess zu reduzieren, und ergreifen Maßnahmen, um doppelte Inhalte zu identifizieren und zu entfernen, um das Risiko der Wiederholung von Trainingsdaten zu verringern. Darüber hinaus trainieren wir unsere Modelle darauf, Anfragen nach privaten oder sensiblen Informationen über Einzelpersonen nicht zu beantworten.

Wie lange wir Informationen aufbewahren

Wir bewahren Informationen in Trainingsdaten nur so lange auf, wie es für die in diesem Artikel und in unserer Datenschutzrichtlinie beschriebenen Zwecke vernünftigerweise erforderlich ist, einschließlich der Entwicklung und Verbesserung unserer Modelle sowie für damit verbundene wissenschaftliche Forschungszwecke. Die Aufbewahrung unterliegt regelmäßigen Überprüfungen, um ihre fortdauernde Erforderlichkeit sicherzustellen, und variiert je nach Art der Informationen und deren Verwendung. Bei der Festlegung der Aufbewahrungsdauer berücksichtigen wir Faktoren wie den Zweck unserer Verarbeitung der Informationen, den Umfang, die Art und die Sensibilität der Informationen, das potenzielle Risiko eines Schadens durch unbefugte Nutzung oder Offenlegung sowie gesetzliche Verpflichtungen, denen wir unterliegen.

Wie wird bei der Entwicklung von ChatGPT die Einhaltung der Datenschutzgesetze sichergestellt?

Wir verwenden Trainingsinformationen rechtmäßig. Unsere Basis-Modelle unterstützen eine Vielzahl nützlicher Anwendungen – darunter Barrierefreiheitswerkzeuge, Kundensupport, Softwareentwicklung, personalisierte Bildung und wissenschaftliche Forschung. Diese Fähigkeiten hängen von Daten des groß angelegten Trainings ab, darunter öffentlich verfügbare Informationen und Daten von Drittanbieter-Partnerschaften. Wir wenden während des gesamten Trainingsprozesses Schutzmaßnahmen an, einschließlich Maßnahmen, die darauf ausgelegt sind, die Verarbeitung personenbezogener Daten im Trainingsprozess zu reduzieren und Risiken zu mindern, wie in diesem Artikel beschrieben. Wir stützen die Erhebung und Nutzung personenbezogener Daten, die in Trainingsinformationen enthalten sind, auf berechtigte Interessen gemäß Datenschutzgesetzen wie der DSGVO, unter anderem um unsere Modelle für Nutzer:innen und die Gesellschaft insgesamt im Einklang mit unserer Mission zu trainieren und zu verbessern und dafür zu sorgen, dass künstliche allgemeine Intelligenz allen zugute kommt, wie in unserer Datenschutzrichtlinie ausführlicher erläutert. Wir haben eine Datenschutz-Folgenabschätzung durchgeführt, um sicherzustellen, dass wir diese Informationen rechtmäßig und verantwortungsvoll erheben und verwenden.

Wann Informationen weitergegeben oder übertragen werden dürfen

Wir „verkaufen“ keine personenbezogenen Daten und legen personenbezogene Daten in Trainingsdaten nur unter den in unserer Datenschutzrichtlinie beschriebenen eingeschränkten Umständen offen. Beispielsweise können wir Informationen an verbundene Unternehmen, Anbieter und Dienstleister weitergeben, die die Entwicklung, das Testen und die Verbesserung unserer Modelle unterstützen. Wir können Informationen auch offenlegen, wenn wir nach Treu und Glauben davon ausgehen, dass eine solche Maßnahme erforderlich ist, um einer gesetzlichen Verpflichtung nachzukommen oder unsere Rechte, unsere Sicherheit und unseren Schutz sowie die unserer Nutzer:innen, Mitarbeitenden oder der Öffentlichkeit zu wahren, wie in unserer Datenschutzrichtlinie beschrieben.

Da unsere Infrastruktur global ist, können personenbezogene Daten in Trainingsdaten in Ländern außerhalb des EWR, der Schweiz oder des Vereinigten Königreichs verarbeitet werden (einschließlich in den Vereinigten Staaten). In solchen Fällen wenden wir geeignete Schutzmaßnahmen an, etwa Angemessenheitsbeschlüsse oder Standardvertragsklauseln, wie in unserer Datenschutzrichtlinie beschrieben.

Deine Rechte und wie du sie ausüben kannst

Wir beantworten Anfragen zu Widersprüchen und ähnlichen Rechten. Durch das Erlernen von Sprache können ChatGPT-Antworten gelegentlich personenbezogene Daten über Personen enthalten, deren personenbezogene Daten mehrfach im öffentlichen Internet erscheinen (zum Beispiel öffentliche Persönlichkeiten). Personen in bestimmten Rechtsräumen können der Verarbeitung ihrer personenbezogenen Daten durch unsere Modelle widersprechen oder andere Anfragen zu Betroffenenrechten über unser Datenschutz-Portal stellen. Du kannst diese Rechte auch ausüben, indem du dich an privacy@openai.com wendest.

Damit wir deine Anfrage beurteilen und darauf reagieren können, stelle uns bitte ausreichend Informationen zur Verfügung, damit wir verstehen, auf welche personenbezogenen Daten sich deine Anfrage bezieht, z. B. deinen Namen, relevante URLs, konkrete Beispiele für Modellausgaben oder andere Details, die dabei helfen, das Problem zu identifizieren. In einigen Fällen bitten wir dich möglicherweise, deine Identität zu überprüfen oder zu bestätigen, dass sich die Informationen auf dich beziehen, bevor wir tätig werden können. Weitere Informationen dazu, wie du diese Anfragen einreichst, einschließlich Best Practices, und dazu, wie Anfragen geprüft werden, findest du in unserem Hilfecenter-Artikel zur Entfernung personenbezogener Daten aus ChatGPT. Wir prüfen Anfragen gemäß den geltenden Datenschutzgesetzen und antworten innerhalb der geltenden gesetzlichen Fristen.

Bitte beachte, dass gemäß den Datenschutzgesetzen einige Rechte möglicherweise nicht uneingeschränkt sind. Beispielsweise können wir einem Antrag möglicherweise nicht nachkommen, wenn wir die relevanten Informationen nicht verifizieren können, wenn sich der Antrag nicht auf personenbezogene Daten bezieht, die von OpenAI verarbeitet werden, wenn eine Ausnahme gilt oder wenn wir einen anderen rechtmäßigen Grund dafür haben. Anfragen werden von Fall zu Fall geprüft, und dabei können Datenschutzrechte gegen andere wichtige Erwägungen wie die Meinungsfreiheit und das öffentliche Interesse abgewogen werden.

Wir sind jedoch bestrebt, dem Schutz personenbezogener Daten Priorität einzuräumen und alle geltenden Datenschutzgesetze einzuhalten. Wenn du der Ansicht bist, dass wir ein Anliegen nicht angemessen bearbeitet haben, hast du das Recht, bei deiner zuständigen Aufsichtsbehörde eine Beschwerde einzureichen.

Weitere Informationen zu den Verfahrensweisen von OpenAI in Bezug auf personenbezogene Daten, die wir von dir oder über dich erheben, wenn du unsere Website, Anwendungen und Dienste nutzt, findest du in unserer Datenschutzrichtlinie.

Wie ChatGPT und unsere Foundation-Modelle entwickelt werden

Was ist ChatGPT und wie funktioniert es?

Welche Art von Informationen wird zum Training von ChatGPT verwendet?

Werden personenbezogene Daten verwendet, um ChatGPT zu lehren?

Wie wird bei der Entwicklung von ChatGPT die Einhaltung der Datenschutzgesetze sichergestellt?

War dieser Artikel hilfreich?