Дізнайтеся більше про те, як ми розробляємо наші моделі та застосовуємо їх у таких продуктах, як ChatGPT

Базові моделі OpenAI, зокрема моделі, на яких працює ChatGPT, розробляються з використанням трьох основних джерел інформації: (1) інформації, загальнодоступної в інтернеті, (2) інформації, доступ до якої ми отримуємо у співпраці з третіми сторонами, і (3) інформації, яку надають або генерують наші користувачі, тренери-люди та дослідники.

Розроблення базових моделей, подібних до тих, що використовуються в ChatGPT, охоплює кілька етапів, зокрема підготовку навчальних даних, попереднє навчання та подальше навчання, а також постійне оцінювання й удосконалення після розгортання. На цих етапах можуть використовуватися різні типи інформації для різних цілей, зокрема для підвищення продуктивності, надійності та безпеки моделі.

У цій статті наведено огляд інформації, яку ми використовуємо для розроблення цих моделей, того, як ми збираємо й використовуємо цю інформацію відповідно до законів про конфіденційність, а також захисних заходів, які ми застосовуємо протягом усього процесу навчання. Щоб дізнатися, як ми збираємо й використовуємо інформацію користувачів наших сервісів, зокрема як відмовитися від використання розмов із ChatGPT для вдосконалення наших моделей, ознайомтеся з нашою Політикою конфіденційності та цією статтею довідкового центру.

Що таке ChatGPT і як він працює?

ChatGPT — це сервіс на основі штучного інтелекту, доступний через інтернет або застосунок. Ви можете використовувати ChatGPT для широкого кола завдань, зокрема для впорядкування й узагальнення інформації, допомоги з перекладами, підтримки програмування, досліджень і аналізу, виконання багатоетапних завдань у різних інструментах, аналізу або створення зображень, натхнення для творчості та ідей, а також інших повсякденних справ. ChatGPT розроблено так, щоб він розумів запитання та інструкції користувачів і відповідав на них, вивчаючи закономірності у великих обсягах інформації, зокрема текстах, зображеннях, аудіо та відео.

Під час навчання модель аналізує зв’язки в цих даних — наприклад, як слова зазвичай з’являються разом у контексті, — і використовує це розуміння, щоб під час генерування відповіді передбачати наступне найімовірніше слово, слово за словом. Текст може перетворюватися на менші одиниці, які іноді називають «токенами» і які можуть представляти цілі слова, частини слів або розділові знаки. Токени — це будівельні блоки тексту, які обробляє модель. Так само моделі, що генерують інші форми контенту, наприклад зображення, вивчають закономірності того, як пікселі пов’язані між собою та з відповідними підписами в навчальних даних.

Наприклад, під час процесу навчання моделі (відомого як «training») моделі можуть дати завдання завершити речення на кшталт: «Замість повернути ліворуч вона повернула ___». На ранніх етапах навчання її відповіді здебільшого випадкові. Однак, обробляючи й вивчаючи великий обсяг тексту, модель краще розпізнає закономірності та точніше прогнозує найімовірніше наступне слово. Цей процес повторюється на мільйонах речень, щоб удосконалити її розуміння й підвищити точність.

Оскільки речення можна правдоподібно завершити кількома способами — наприклад: «Замість повернути ліворуч вона повернула праворуч», «кругом» або «назад», — у відповідях моделі є невід’ємний елемент випадковості. У результаті одне й те саме запитання в різних запитах може давати різні відповіді.

Моделі машинного навчання складаються з великих наборів чисел, відомих як «ваги» або «параметри», а також коду, який інтерпретує й використовує ці числа. Ці моделі не зберігають і не утримують копії даних, на яких їх навчали. Натомість у процесі навчання моделі значення її параметрів трохи коригуються, щоб відобразити виявлені закономірності. У попередньому прикладі модель перейшла від прогнозування випадкових слів до точніших прогнозів — не завдяки зберіганню навчальних речень, а завдяки оновленню своїх внутрішніх параметрів. Модель не зберігає копії речень, зображень або аудіо, які обробляє під час навчання. ChatGPT не «копіює і вставляє» зі своїх навчальних даних — подібно до вчителя, який після тривалого навчання може пояснювати поняття, розуміючи зв’язки між ідеями, не запам’ятовуючи й не відтворюючи оригінальні матеріали дослівно. Коли модель генерує відповідь на запит користувача, вона використовує ці вивчені ваги, щоб прогнозувати й створювати новий контент.

Який тип інформації використовується для навчання ChatGPT?

Щодо загальнодоступного інтернет-контенту, ми використовуємо лише інформацію, яка є вільно й відкрито доступною в інтернеті. Це можуть бути загальнодоступні вебсторінки, публічні форуми, відкриті блоги, публічні дописи та інший загальнодоступний онлайн-контент. Наприклад, якщо ви берете участь у загальнодоступному онлайн-форумі або публікуєте відкритий блог чи інший допис, ми можемо використовувати цей загальнодоступний контент для навчання моделі. Водночас ми вживаємо заходів, щоб зменшити обробку персональної інформації в нашому процесі навчання. Збираючи загальнодоступний інтернет-контент, ми навмисно не отримуємо дані з джерел, про які відомо, що вони розміщені за платним доступом, або з даркнету. Крім того, ми застосовуємо фільтри, щоб видаляти матеріали, на яких не хочемо навчати наші моделі, як-от мову ворожнечі, контент для дорослих, сайти, що агрегують персональну інформацію, і спам. Після цього решта інформації використовується для навчання наших моделей.

Власники вебсайтів можуть керувати тим, чи може загальнодоступний контент із їхніх сайтів бути доступним для використання в навчанні, застосовуючи стандартні вебзасоби керування, наприклад robots.txt, щоб заборонити GPTBot сканувати загальнодоступний контент, який може використовуватися для навчання наших моделей. Ми надаємо рекомендації, які допомагають власникам вебсайтів керувати взаємодією їхніх сайтів і контенту з нашими системами ШІ.

Ми також використовуємо інформацію від сторонніх партнерів, щоб навчати й удосконалювати наші моделі. Це може включати інформацію в наборах даних, до яких ми отримуємо доступ за угодами з третіми сторонами, а також інформацію, надану або згенеровану тренерами-людьми та дослідниками, якщо це дозволено нашими політиками й угодами. Це допомагає підвищувати якість, безпеку та продуктивність наших моделей. Ці джерела можуть містити текст, зображення, аудіо, відео або інші типи даних залежно від набору даних.

Ми також дедалі частіше використовуємо синтетичні дані в деяких процесах навчання. Наприклад, ми можемо використовувати інформацію та наші моделі для створення синтетичних запитів, багатомовних прикладів або інших навчальних матеріалів. Синтетичні дані можуть допомагати підвищувати продуктивність моделі, зокрема доповнюючи навчальні дані в сферах, де даних мало або вони незбалансовані, а також можуть підтримувати підходи до розроблення моделей, що посилюють захист приватності.

Чи використовується персональна інформація для навчання ChatGPT?

Значна частина онлайн-контенту містить інформацію про людей, тому наші навчальні дані можуть випадково містити персональну інформацію. Водночас ми вживаємо заходів, щоб зменшити обробку персональної інформації в нашому процесі навчання.

Ми використовуємо навчальні дані для розвитку можливостей моделі — як-от прогнозування, міркування та розв’язання проблем, — а не для створення профілів людей, зв’язку з ними чи персоналізації реклами для них.

У деяких випадках моделі можуть навчатися на персональній інформації, щоб розуміти, як у мові функціонують такі елементи, як імена та адреси, або щоб розпізнавати публічних осіб і відомі організації. Це допомагає моделі генерувати точніші та контекстуально доречніші відповіді.

Як захищається персональна інформація під час навчання?

Ми активно вживаємо заходів, щоб обмежити обробку персональної інформації під час навчання. Наприклад, ми виключаємо відомі джерела, що агрегують великі обсяги персональних даних, застосовуємо фільтрацію для зменшення персональної інформації в процесі навчання та вживаємо заходів для виявлення й видалення дубльованого контенту, щоб знизити ризик повторення навчальних даних. Крім того, ми навчаємо наші моделі уникати відповідей на запити про приватну або чутливу інформацію щодо окремих осіб.

Як довго ми зберігаємо інформацію

Ми зберігаємо інформацію в навчальних даних лише стільки, скільки це обґрунтовано необхідно для цілей, описаних у цій статті та нашій Політиці конфіденційності, зокрема для розроблення й удосконалення наших моделей, а також для пов’язаних наукових досліджень. Необхідність зберігання періодично переглядається, щоб переконатися, що вона й надалі існує, а строки зберігання залежать від типу інформації та способу її використання. Визначаючи строки зберігання, ми враховуємо такі чинники, як мета обробки інформації, її обсяг, характер і чутливість, потенційний ризик шкоди від несанкціонованого використання чи розкриття, а також будь-які юридичні зобов’язання, що на нас поширюються.

Як розроблення ChatGPT відповідає законам про конфіденційність?

Ми використовуємо навчальну інформацію законно. Наші базові моделі забезпечують роботу широкого спектра корисних застосувань, зокрема інструментів доступності, підтримки клієнтів, розроблення програмного забезпечення, персоналізованої освіти та наукових досліджень. Ці можливості залежать від навчальних даних у великому масштабі, зокрема загальнодоступної інформації та інформації від сторонніх партнерів. Ми застосовуємо захисні заходи протягом усього процесу навчання, зокрема кроки, спрямовані на зменшення обробки персональної інформації під час навчання та пом’якшення ризиків, як описано в цій статті. Ми спираємося на законні інтереси відповідно до законів про конфіденційність, таких як GDPR, коли збираємо й використовуємо персональну інформацію, що входить до навчальної інформації, зокрема для навчання й удосконалення наших моделей для користувачів і суспільства загалом, відповідно до нашої місії — забезпечити, щоб штучний загальний інтелект приносив користь усім, як докладніше пояснено в нашій Політиці конфіденційності. Ми провели оцінку впливу на захист даних, щоб допомогти забезпечити законне й відповідальне збирання та використання цієї інформації.

Коли інформація може передаватися або переміщуватися

Ми не «продаємо» персональну інформацію й розкриваємо персональну інформацію в навчальних даних лише за обмежених обставин, описаних у нашій Політиці конфіденційності. Наприклад, ми можемо передавати інформацію афілійованим особам, постачальникам і надавачам послуг, які підтримують розроблення, тестування й удосконалення наших моделей. Ми також можемо розкривати інформацію, якщо добросовісно вважаємо, що така дія необхідна для виконання юридичного зобов’язання або для захисту наших прав, безпеки й захищеності, а також прав, безпеки й захищеності наших користувачів, працівників або громадськості, як описано в нашій Політиці конфіденційності.

Оскільки наша інфраструктура є глобальною, персональна інформація в навчальних даних може оброблятися в країнах за межами ЄЕЗ, Швейцарії або Великої Британії (зокрема у Сполучених Штатах). У таких випадках ми застосовуємо належні гарантії, як-от рішення про адекватність або стандартні договірні положення, як описано в нашій Політиці конфіденційності.

Ваші права та як ними скористатися

Ми відповідаємо на запити щодо заперечень і подібні запити про реалізацію прав. Унаслідок вивчення мови відповіді ChatGPT іноді можуть містити персональну інформацію про осіб, чия персональна інформація багаторазово трапляється у відкритому інтернеті (наприклад, про публічних осіб). Особи в певних юрисдикціях можуть заперечити проти обробки їхньої персональної інформації нашими моделями або подати інші запити щодо прав суб’єкта даних через наш Портал конфіденційності. Ви також можете скористатися цими правами, звернувшись на адресу privacy@openai.com.

Щоб допомогти нам оцінити ваш запит і відповісти на нього, надайте достатньо інформації, щоб ми могли зрозуміти, якої персональної інформації він стосується, наприклад ваше ім’я, відповідні URL-адреси, конкретні приклади результатів моделі або інші деталі, що допомагають визначити проблему. У деяких випадках, перш ніж ми зможемо вжити заходів, ми можемо попросити вас підтвердити вашу особу або підтвердити, що інформація стосується вас. Докладніша інформація про те, як подавати такі запити, зокрема найкращі практики та порядок їх розгляду, доступна в нашій статті Довідкового центру про видалення персональних даних із ChatGPT. Ми розглядаємо запити відповідно до застосовних законів про конфіденційність і відповідаємо в межах установлених законом строків.

Зверніть увагу, що відповідно до законів про конфіденційність деякі права можуть бути не абсолютними. Наприклад, ми можемо бути не в змозі виконати запит, якщо не можемо перевірити відповідну інформацію, якщо запит не стосується персональної інформації, яку обробляє OpenAI, якщо застосовується виняток або якщо маємо іншу законну підставу для цього. Запити оцінюються в кожному конкретному випадку й можуть передбачати зважування прав на конфіденційність з іншими важливими міркуваннями, такими як свобода вираження поглядів і суспільний інтерес.

Водночас ми прагнемо надавати пріоритет захисту персональної інформації та дотримуємося всіх застосовних законів про конфіденційність. Якщо ви вважаєте, що ми не вирішили проблему належним чином, ви маєте право подати скаргу до свого місцевого наглядового органу.

Щоб дізнатися більше про практики OpenAI щодо персональної інформації, яку ми збираємо від вас або про вас, коли ви користуєтеся нашим вебсайтом, застосунками та сервісами, ознайомтеся з нашою Політикою конфіденційності.

Як розробляються ChatGPT і наші базові моделі

Що таке ChatGPT і як він працює?

Який тип інформації використовується для навчання ChatGPT?

Чи використовується персональна інформація для навчання ChatGPT?

Як розроблення ChatGPT відповідає законам про конфіденційність?

Чи була ця стаття корисною?