OpenAI пропонує загальнодоступні системи генеративного AI у штаті Каліфорнія. Ми розробляємо ці системи з використанням різноманітних джерел даних, зокрема загальнодоступних даних, даних, доступ до яких ми отримуємо у співпраці з третіми сторонами, а також інформації, яку надають або генерують наші користувачі чи тренери-люди й дослідники. Ми також розробляємо наші системи з використанням синтетичних даних.
Ми використовуємо дані, щоб допомогти нашим системам краще розуміти людську мову та світ. Це, своєю чергою, дає змогу нашим системам посилювати людську творчість, сприяти науковим відкриттям і медичним дослідженням, а також допомагати сотням мільйонів людей покращувати своє повсякденне життя. Наші системи розробляються на наборах даних, що містять трильйони токенів текстового, зображувального, аудіо- та аудіовізуального вмісту.
Для розробки наших систем ми використовуємо різноманітний набір даних, зокрема дані, які можуть бути захищені авторським правом, і дані з суспільного надбання. Хоча ми вживаємо заходів, щоб зменшити обсяг персональної інформації в наших навчальних наборах даних, деякі наші дані можуть містити персональну інформацію та агреговану інформацію про споживачів, як це визначено в розділі 1798.140 Цивільного кодексу Каліфорнії. Наші користувачі мають можливість відмовитися від використання їхнього контенту для навчання, а також подати запит на видалення певної персональної інформації з відповідей ChatGPT за допомогою нашого Порталу конфіденційності. Ми використовуємо різноманітні методи для обробки наших наборів даних, щоб покращити продуктивність і точність наших моделей.
Ми почали збирати дані для розробки наших систем приблизно у 2018 році й продовжуємо збирати дані сьогодні. Ми вперше використали наші набори даних для розробки систем у 2021 році.
Додаткову інформацію про розробку наших систем можна знайти в наших картках системи.
Підсумок даних для навчання відповідно до розділу 3111 Цивільного кодексу Каліфорнії
Оновлено: 2 days ago
