Примітка: На строки зберігання даних для певних сервісів можуть впливати нещодавні правові події — докладніше див. у нашій публікації в блозі.
Базові моделі OpenAI, зокрема моделі, на яких працює ChatGPT, розробляються з використанням трьох основних джерел інформації: (1) інформації, що є загальнодоступною в інтернеті, (2) інформації, до якої ми отримуємо доступ у партнерстві з третіми сторонами, і (3) інформації, яку надають або створюють наші користувачі, тренери-люди та дослідники.
У цій статті наведено огляд загальнодоступної інформації, яку ми використовуємо для розробки цих моделей, а також того, як ми збираємо й використовуємо цю інформацію відповідно до законів про конфіденційність. Щоб зрозуміти, як ми збираємо й використовуємо інформацію від користувачів наших сервісів, зокрема як відмовитися від використання розмов із ChatGPT для навчання наших моделей, ознайомтеся з нашою Політикою конфіденційності та цією статтею довідкового центру.
Що таке ChatGPT і як він працює?
ChatGPT — це сервіс на основі штучного інтелекту, до якого можна отримати доступ через інтернет. Ви можете використовувати ChatGPT для широкого кола завдань, зокрема для організації та узагальнення інформації, допомоги з перекладами, аналізу або створення зображень, натхнення для творчості й ідей, а також інших повсякденних дій. ChatGPT розроблено так, щоб розуміти запитання й інструкції користувачів і відповідати на них, навчаючись закономірностей на основі великих обсягів інформації, зокрема тексту, зображень, аудіо та відео. Під час навчання модель аналізує зв’язки в цих даних — наприклад, як слова зазвичай з’являються разом у контексті, — і використовує це розуміння, щоб передбачати наступне найімовірніше слово під час створення відповіді, по одному слову за раз. Подібно до цього, моделі, які створюють інші форми контенту, як-от зображення, вивчають закономірності того, як пікселі пов’язані між собою та з відповідними підписами в навчальних даних.
Наприклад, під час процесу навчання моделі (відомого як «навчання») моделі може бути поставлено завдання завершити речення на кшталт: «Замість того щоб повернути ліворуч, вона повернула ___». На початку навчання її відповіді здебільшого випадкові. Однак у міру того, як модель обробляє великий обсяг тексту й навчається на ньому, вона краще розпізнає закономірності та передбачає найімовірніше наступне слово. Цей процес повторюється на мільйонах речень, щоб удосконалити її розуміння та підвищити точність.
Оскільки існує кілька правдоподібних способів завершити речення — наприклад, «Замість того щоб повернути ліворуч, вона повернула праворуч», «навколо» або «назад», — у тому, як модель відповідає, є невід’ємний елемент випадковості. Унаслідок цього те саме запитання може давати різні відповіді в різних запитах.
Моделі машинного навчання складаються з великих наборів чисел, відомих як «ваги» або «параметри», а також коду, який інтерпретує та використовує ці числа. Ці моделі не зберігають копії даних, на яких їх навчали. Натомість, коли модель навчається, значення її параметрів трохи коригуються, щоб відображати виявлені нею закономірності. У попередньому прикладі модель покращилася від передбачення випадкових слів до точніших прогнозів — не завдяки зберіганню навчальних речень, а завдяки оновленню своїх внутрішніх параметрів. Модель не зберігає копії речень, зображень чи аудіо, які вона обробляє під час навчання. ChatGPT не «копіює і вставляє» зі своїх навчальних даних — подібно до того, як учитель після тривалого навчання може пояснювати поняття, розуміючи зв’язки між ідеями, без заучування або дослівного відтворення оригінальних матеріалів. Створюючи відповідь на запит користувача, модель використовує ці вивчені ваги, щоб передбачати й створювати новий контент.
Який тип публічної інформації використовується для навчання ChatGPT?
Щодо загальнодоступного інтернет-контенту, ми використовуємо лише інформацію, яка є безплатно й відкрито доступною в інтернеті. Ми свідомо не збираємо дані з джерел, про які відомо, що вони розташовані за платним доступом, або з дарквебу. Крім того, ми застосовуємо фільтри, щоб видаляти матеріали, на яких не хочемо навчати наші моделі, як-от мову ворожнечі, контент для дорослих, сайти, що агрегують персональну інформацію, і спам. Після цього решта інформації використовується для навчання наших моделей.
Чи використовується персональна інформація для навчання ChatGPT?
Значна частина онлайн-контенту містить інформацію про людей, тому наші навчальні дані можуть випадково включати персональну інформацію. Однак ми свідомо не збираємо персональну інформацію з метою навчання наших моделей.
Ми використовуємо навчальні дані для розвитку можливостей моделі — як-от передбачення, міркування та розв’язання проблем, — а не для створення профілів користувачів, зв’язку з окремими особами чи як частину наших рекламних або маркетингових зусиль.
У деяких випадках моделі можуть навчатися на персональній інформації, щоб розуміти, як такі елементи, як імена й адреси, функціонують у мові, або щоб розпізнавати публічних осіб і відомі організації. Це допомагає моделі створювати точніші та контекстуально доречніші відповіді.
Ми вживаємо активних заходів, щоб обмежити обробку персональної інформації під час навчання. Наприклад, ми виключаємо джерела, що агрегують великі обсяги персональних даних, і навчаємо наші моделі уникати відповідей на запити щодо приватної або чутливої інформації про окремих осіб.
Як розробка ChatGPT відповідає законам про конфіденційність?
Ми використовуємо навчальну інформацію законно. Наші базові моделі забезпечують широкий спектр корисних застосувань — від створення контенту й підтримки клієнтів до розробки програмного забезпечення, персоналізованої освіти та наукових досліджень. Ці можливості залежать від навчальних даних великого масштабу. Інформація, що використовується для навчання наших моделей, є загальнодоступною та не призначена для завдання шкоди окремим особам. Ми ґрунтуємо збирання й використання персональної інформації, що входить до навчальної інформації, на законних інтересах відповідно до законів про конфіденційність, як-от GDPR, про що докладніше пояснено в нашій Політиці конфіденційності. Ми провели оцінку впливу на захист даних, щоб допомогти забезпечити законне та відповідальне збирання й використання цієї інформації.
Ми реагуємо на запити щодо заперечення та подібні права. Унаслідок навчання мови відповіді ChatGPT іноді можуть містити персональну інформацію про осіб, чия персональна інформація багаторазово з’являється у відкритому інтернеті (наприклад, публічних осіб). Особи в певних юрисдикціях можуть заперечити проти обробки своєї персональної інформації нашими моделями або подати інші запити щодо прав суб’єкта даних через наш Портал конфіденційності. Ви також можете скористатися цими правами, звернувшись за адресою dsar@openai.com.
Зверніть увагу, що відповідно до законів про конфіденційність деякі права можуть не бути абсолютними. Ми можемо відхилити запит, якщо маємо для цього законну підставу. Однак ми прагнемо надавати пріоритет захисту персональної інформації та дотримуватися всіх застосовних законів про конфіденційність. Якщо ви вважаєте, що ми не вирішили проблему належним чином, ви маєте право подати скаргу до місцевого наглядового органу.
Докладніше про практики OpenAI щодо персональної інформації, яку ми збираємо від вас або про вас, коли ви користуєтеся нашим вебсайтом, застосунками та сервісами, див. у нашій Політиці конфіденційності.
