| Примечание. На срок хранения данных для некоторых услуг могут повлиять последние изменения в законодательстве. Ознакомьтесь с публикацией в блоге для получения более подробной информации. |
|---|
Базовые модели OpenAI, в том числе модели, используемые в ChatGPT, разрабатываются с использованием трех основных источников информации: (1) информации, которая находится в открытом доступе в Интернете, (2) информации, которую мы получаем от третьих лиц в рамках партнерских соглашений, и (3) информации, которую предоставляют или генерируют наши пользователи, инструкторы или исследователи.
В этой статье представлен обзор общедоступной информации, которую мы используем для разработки данных моделей, а также рассказывается о том, как мы собираем и используем эту информацию в соответствии с законами о конфиденциальности. Чтобы понять, как мы собираем и используем информацию, полученную от пользователей наших услуг, в том числе как отказаться от использования диалогов в ChatGPT для обучения наших моделей, просьба ознакомиться с нашей Политикой конфиденциальности и этой статьей Справочного центра.
Что такое ChatGPT и как он работает?
ChatGPT — это сервис, основанный на искусственном интеллекте, к которому вы можете получить доступ через интернет. ChatGPT можно использовать для выполнения разнообразных задач, включая упорядочивание или обобщение информации, переводы текстов, анализ или создание изображений, поиск вдохновения для творчества и генерирования идей, а также для выполнения повседневных задач. ChatGPT способен понимать инструкции и вопросы пользователей, а также отвечать на них. Эта способность реализуется путем обучения на паттернах из большого объема данных, включая текст, изображения, аудио и видео. Во время обучения модель анализирует взаимосвязи в этих данных — например, как слова обычно используются вместе в контексте — и использует это понимание для предсказания следующего наиболее вероятного слова, генерируя ответ по одному слову за раз. Аналогично, модели, генерирующие другие формы контента, такие как изображения, изучают паттерны того, как пиксели соотносятся друг с другом и с соответствующими подписями в данных обучения.
Например, в процессе тренировки модели (так называемого «обучения») модель могут попросить завершить предложение: «Вместо того чтобы повернуть налево, она повернула ___». На ранних этапах обучения ее ответы в основном случайны. Однако по мере обработки и изучения моделью больших объемов текста, она улучшает свою способность распознавать паттерны и предсказывать наиболее вероятное следующее слово. Этот процесс повторяется на миллионах предложений для совершенствования понимания и повышения точности.
Поскольку в предложении существует несколько возможных вариантов окончания — например, вместо того чтобы повернуть налево, она повернула «направо», «кругом» или «назад», — в ответе модели возникает неизбежный элемент случайности. В результате на один и тот же вопрос в разных запросах модель может давать разные ответы.
Модели машинного обучения состоят из больших наборов чисел, называемых «весовыми коэффициентами» или «параметрами», и кода, который интерпретирует и использует эти числа. Эти модели не собирают и не хранят копии данных, на которых они обучаются. Вместо этого, по мере обучения модели, значения ее параметров немного изменяются для отражения изученных ею паттернов. В примере выше модель улучшила свою способность предсказывать случайные слова и стала делать это гораздо точнее не за счет запоминания предложений из данных, на которых она обучалась, а за счет обновления своих внутренних параметров. Модель не сохраняет копии предложений, изображений или аудио, которые она обрабатывает во время обучения. ChatGPT не «копирует и вставляет» элементы данных обучения — подобно тому, как учитель после тщательного изучения может объяснять понятия, поняв взаимосвязи между идеями, а не просто запомнив или дословно пересказав исходный материал. Генерируя ответ на запрос пользователя модель использует эти изученные весовые коэффициенты для прогнозирования и создания нового контента.
Какого рода общедоступная информация используется для обучения ChatGPT?
В качестве общедоступного интернет-контента мы используем только информацию, которая находится в свободном и открытом доступе в интернете. Мы не собираем данные из источников, которые ограничены платным доступом или размещены в даркнете. Кроме того, мы применяем фильтры и удаляем материалы, на которых мы не хотим обучать наши модели, например материалы с разжиганием ненависти, контент для взрослых, сайты, которые собирают персональные данные, и спам. Оставшаяся информация затем используется для обучения наших моделей.
Используется ли личная информация для обучения ChatGPT?
Значительная часть контента, размещенная в интернете содержит информацию о людях, поэтому наши данные обучения могут случайно включать личную информацию. Однако мы не собираем личную информацию намеренно с целью обучения наших моделей.
Мы используем данные для обучения, чтобы развивать возможности модели — такие как прогнозирование, рассуждения и решение задач, — а не для создания профилей пользователей, связи с отдельными лицами или использования в рамках нашей рекламной или маркетинговой деятельности.
В некоторых случаях модели могут обучаться на личной информации, чтобы понимать, как такие элементы, как имена и адреса, функционируют в языке, или чтобы распознавать публичных личностей и известные организации. Это помогает модели генерировать более точные и соответствующие контексту ответы.
Мы активно принимаем меры по ограничению обработки личной информации во время обучения. Например, мы исключаем источники, которые собирают большие объемы персональных данных, и обучаем наши модели избегать ответов на запросы на получение частной или конфиденциальной информации о людях.
Как разработка ChatGPT согласуется с законами о конфиденциальности?
Мы используем учебную информацию на законных основаниях. Наши базовые модели обеспечивают работу широкого спектра полезных приложений — от создания контента и поддержки клиентов до разработки программного обеспечения, персонализированного образования и научных исследований. Эти возможности зависят от наличия крупных массивов данных обучения. Информация, используемая для обучения наших моделей, является общедоступной и не предназначена для причинения вреда людям. Мы осуществляем сбор и использование личной информации, включенной в учебную информацию, на основании законных интересов в соответствии с законами о конфиденциальности, такими как Общий регламент ЕС по защите персональных данных (GDPR), что более подробно описано в нашей Политике конфиденциальности. Мы провели оценку воздействия на защиту данных, чтобы убедиться, в том что мы собираем и используем эту информацию законно и ответственно.
Мы отвечаем на запросы о возражениях и об аналогичных правах. В результате изучения языка ответы ChatGPT иногда могут содержать личную информацию о людях, чья личная информация многократно появляется в открытом доступе в интернете (например, о публичных личностях). Люди, находящиеся в определенных юрисдикциях, могут возражать против обработки их личной информации нашими моделями или присылать другие запросы, связанные с правами субъекта данных, посредством нашего Портала конфиденциальности. Вы также можете воспользоваться этими правами, обратившись по адресу dsar@openai.com.
Обратите внимание, что в соответствии с законодательством о защите персональных данных некоторые права могут не быть абсолютными. Мы можем отклонить запрос, если у нас есть для этого законные основания. Тем не менее, мы стремимся уделять первостепенное внимание защите личной информации и соблюдать все применимые законы о конфиденциальности. Если вы считаете, что мы не отреагировали на проблему должным образом, вы имеете право подать жалобу в местный надзорный орган.
Для получения дополнительной информации о действиях OpenAI в отношении личной информации, которую мы собираем от Вас или о Вас, когда Вы пользуетесь нашим веб-сайтом, приложениями и услугами, пожалуйста, ознакомьтесь с нашей Политикой конфиденциальности.
