Узнайте больше о том, как мы разрабатываем наши модели и применяем их в таких продуктах, как ChatGPT

Базовые модели OpenAI, в том числе модели, используемые в ChatGPT, разрабатываются с использованием трех основных источников информации: (1) информации, которая находится в открытом доступе в Интернете, (2) информации, которую мы получаем от третьих лиц в рамках партнерских соглашений, и (3) информации, которую предоставляют или генерируют наши пользователи, инструкторы или исследователи.

Разработка базовых моделей, подобных тем, которые используются в ChatGPT, включает несколько этапов, в том числе подготовку обучающих данных, предварительное обучение и последующее обучение, а также постоянную оценку и улучшение после развертывания. На этих этапах могут использоваться различные типы информации в разных целях, в том числе для повышения производительности, надежности и безопасности модели.

В данной статье представлен обзор информации, которую мы используем для разработки этих моделей, того, как мы собираем и используем эту информацию в соответствии с законодательством о конфиденциальности, а также мер защиты, которые мы применяем на протяжении всего процесса обучения. Чтобы понять, как мы собираем и используем информацию пользователей наших сервисов, а также узнать, как отказаться от использования разговоров с ChatGPT для улучшения наших моделей, ознакомьтесь с нашей Политикой конфиденциальности и этой статьей Справочного центра.

Что такое ChatGPT и как он работает?

ChatGPT — это сервис на базе искусственного интеллекта, доступный через веб-версию или в приложении. Вы можете использовать ChatGPT для широкого круга задач, включая систематизацию и обобщение информации, помощь с переводами, помощь с программированием, исследования и анализ, выполнение многоэтапных задач с использованием разных инструментов, анализ или генерацию изображений, вдохновение для творчества и идей, а также другие повседневные задачи. ChatGPT разработан таким образом, чтобы понимать вопросы и инструкции пользователей и отвечать на них, обучаясь закономерностям на больших объемах информации, включая текст, изображения, аудио и видео.

Во время обучения модель анализирует взаимосвязи в этих данных — например, то, как слова обычно встречаются вместе в контексте, — и использует это понимание, чтобы при формировании ответа предсказывать следующее наиболее вероятное слово, слово за словом. Текст может быть преобразован в более мелкие единицы, иногда называемые «токенами», которые могут представлять собой целые слова, части слов или знаки препинания. Токены — это базовые единицы текста, которые обрабатывает модель. Аналогичным образом модели, которые формируют другие виды контента, например изображения, усваивают закономерности того, как пиксели соотносятся друг с другом и со связанными с ними подписями в обучающих данных.

Например, в процессе тренировки модели (так называемого «обучения») модель могут попросить завершить предложение: «Вместо того чтобы повернуть налево, она повернула ___». На ранних этапах обучения ее ответы в основном случайны. Однако по мере обработки и изучения моделью больших объемов текста, она улучшает свою способность распознавать паттерны и предсказывать наиболее вероятное следующее слово. Этот процесс повторяется на миллионах предложений для совершенствования понимания и повышения точности.

Поскольку в предложении существует несколько возможных вариантов окончания — например, вместо того чтобы повернуть налево, она повернула «направо», «кругом» или «назад», — в ответе модели возникает неизбежный элемент случайности. В результате на один и тот же вопрос в разных запросах модель может давать разные ответы.

Модели машинного обучения состоят из больших наборов чисел, называемых «весовыми коэффициентами» или «параметрами», и кода, который интерпретирует и использует эти числа. Эти модели не собирают и не хранят копии данных, на которых они обучаются. Вместо этого, по мере обучения модели, значения ее параметров немного изменяются для отражения изученных ею паттернов. В примере выше модель улучшила свою способность предсказывать случайные слова и стала делать это гораздо точнее не за счет запоминания предложений из данных, на которых она обучалась, а за счет обновления своих внутренних параметров. Модель не сохраняет копии предложений, изображений или аудио, которые она обрабатывает во время обучения. ChatGPT не «копирует и вставляет» элементы данных обучения — подобно тому, как учитель после тщательного изучения может объяснять понятия, поняв взаимосвязи между идеями, а не просто запомнив или дословно пересказав исходный материал. Генерируя ответ на запрос пользователя модель использует эти изученные весовые коэффициенты для прогнозирования и создания нового контента.

Какая информация используется для обучения ChatGPT?

Что касается общедоступного контента в Интернете, мы используем только информацию, которая находится в свободном и открытом доступе. Сюда могут входить общедоступные веб-страницы, публичные форумы, публичные блоги, публичные публикации и другой общедоступный онлайн-контент. Например, если вы участвуете в общедоступном онлайн-форуме для обсуждений или публикуете общедоступный блог либо другую публикацию, мы можем использовать этот общедоступный контент в целях обучения моделей. Однако мы принимаем меры, чтобы сократить обработку личной информации в процессе обучения. При сборе общедоступного Интернет-контента мы намеренно не собираем данные из источников, требующих оплаты доступа, или из даркнета. Кроме того, мы применяем фильтры для удаления материалов, на которых мы не хотим обучать наши модели, таких как высказывания с разжиганием ненависти, контент для взрослых, сайты, агрегирующие личную информацию, и спам. Оставшаяся информация используется для обучения наших моделей.

Владельцы веб-сайтов могут управлять тем, может ли общедоступный контент с их сайтов быть доступен для использования при обучении, используя стандартные веб-средства управления, такие как robots.txt, чтобы запретить доступ GPTBot, который может сканировать общедоступный контент для помощи в обучении наших моделей. Мы предоставляем рекомендации, которые помогают владельцам веб-сайтов управлять тем, как их сайты и контент взаимодействуют с нашими системами ИИ.

Также для обучения и улучшения наших моделей мы используем информацию, полученную от сторонних партнеров. Это может включать информацию в наборах данных, к которым мы получаем доступ на основании соглашений с третьими сторонами, а также информацию, предоставленную или созданную людьми — тренерами и исследователями, в случаях, когда это разрешено нашими политиками и соглашениями. Это помогает повышать качество, безопасность и производительность наших моделей. Эти источники могут включать текст, изображения, аудио, видео или другие типы данных в зависимости от набора данных.

Кроме того, в некоторых процессах обучения мы всё чаще используем искусственные данные. Например, мы можем использовать информацию и наши модели для создания синтетических подсказок, многоязычных примеров или других обучающих материалов. Искусственные данные могут помочь повысить качество работы модели, в том числе за счет дополнения обучающих данных в областях, где данных мало или они несбалансированы, а также могут способствовать применению подходов к разработке моделей с усиленной защитой конфиденциальности.

Используется ли личная информация для обучения ChatGPT?

Значительная часть онлайн-контента содержит информацию о людях, поэтому наши обучающие данные могут случайно включать личную информацию. Однако мы принимаем меры, чтобы сократить обработку личной информации в процессе обучения.

Мы используем данные для обучения, чтобы развивать возможности модели — такие как прогнозирование, рассуждение и решение задач, — а не для создания профилей отдельных лиц, связи с ними или персонализации рекламы для них.

В некоторых случаях модели могут обучаться на личной информации, чтобы понимать, как такие элементы, как имена и адреса, функционируют в языке, или чтобы распознавать публичных личностей и известные организации. Это помогает модели генерировать более точные и соответствующие контексту ответы.

Как защищаются персональные данные во время обучения?

Мы принимаем активные меры для ограничения обработки личной информации в процессе обучения. Например, мы исключаем известные источники, агрегирующие большие объемы персональных данных, применяем фильтрацию, чтобы сократить объем персональной информации в процессе обучения, и принимаем меры по выявлению и удалению дублирующегося контента, чтобы снизить риск повторения обучающих данных. Кроме того, мы обучаем наши модели избегать ответов на запросы о предоставлении личной или конфиденциальной информации о людях.

Как долго мы храним информацию

Мы сохраняем информацию в обучающих данных исключительно в течение срока, обоснованно необходимого для целей, описанных в этой статье и нашей Политике конфиденциальности, в том числе для разработки и улучшения наших моделей, а также для связанных с этим научно-исследовательских целей. Срок хранения подлежит периодическому пересмотру для подтверждения сохраняющейся необходимости и зависит от типа информации и способа её использования. При определении срока хранения мы учитываем такие факторы, как наша цель обработки информации, объём, характер и чувствительность информации, потенциальный риск причинения вреда в результате несанкционированного использования или раскрытия, а также любые законодательные обязательства, которые на нас распространяются.

Как разработка ChatGPT согласуется с законами о конфиденциальности?

Мы используем информацию для обучения на законных основаниях. Наши базовые модели обеспечивают работу широкого спектра полезных приложений, включая инструменты для специальных возможностей, поддержки клиентов, разработки программного обеспечения, персонализированного обучения и научных исследований. Эти возможности зависят от данных крупномасштабного обучения, включающих общедоступную информацию и информацию от сторонних партнёров. Мы применяем защитные меры на всех этапах процесса обучения, что включает действия, направленные на сокращение обработки персональной информации в процессе обучения и на снижение рисков, как описано в этой статье. Мы осуществляем сбор и использование персональной информации, включенной в информацию для обучения, на основании законных интересов в соответствии с законами о конфиденциальности, такими как GDPR, в том числе для обучения и улучшения наших моделей в интересах пользователей и общества в целом, в соответствии с нашей миссией — сделать так, чтобы общий искусственный интеллект приносил пользу всем, как более подробно объясняется в нашей Политике конфиденциальности. Мы провели оценку воздействия на защиту данных, чтобы помочь обеспечить законный и ответственный сбор и использование этой информации.

Когда информация может быть раскрыта или передана

Мы не «продаём» персональные данные и раскрываем персональные данные, содержащиеся в данных для обучения, только в исключительных обстоятельствах, описанных в нашей Политике конфиденциальности. Например, мы можем передавать информацию аффилированным лицам, партнёрам и поставщикам услуг, которые помогают в разработке, тестировании и улучшении наших моделей. Мы также можем раскрывать информацию, если добросовестно полагаем, что такое действие необходимо для соблюдения юридической обязанности или для защиты наших прав, безопасности, а также прав, безопасности наших пользователей, сотрудников или общественности, как описано в нашей Политике конфиденциальности.

Поскольку наша инфраструктура является глобальной, персональная информация в составе обучающих данных может обрабатываться в странах за пределами ЕЭЗ, Швейцарии или Великобритании (включая США). В таких случаях мы применяем надлежащие меры защиты, такие как решения о достаточности защитных мер или стандартные договорные положения, как описано в нашей Политике конфиденциальности.

Ваши права и способы их реализации

Мы отвечаем на запросы о реализации права на возражение и других аналогичных прав. В процессе обучения языку ответы ChatGPT могут иногда включать персональную информацию о людях, сведения о которых неоднократно встречаются в открытых источниках в Интернете (например, о публичных лицах). Физические лица в некоторых юрисдикциях могут возразить против обработки своей персональной информации нашими моделями или подать другие запросы, связанные с правами субъектов данных, через наш Портал конфиденциальности. Вы также можете реализовать эти права, обратившись по адресу to privacy@openai.com.

Чтобы помочь нам оценить ваш запрос и ответить на него, предоставьте достаточно информации, чтобы мы могли понять, к каким персональным данным относится ваш запрос — например, ваше имя, соответствующие URL-адреса, конкретные примеры ответов модели или другие сведения, которые помогут выявить проблему. В некоторых случаях мы можем попросить вас подтвердить вашу личность или подтвердить, что информация относится к вам, прежде чем мы сможем принять меры. Более подробная информация о том, как отправлять такие запросы, а также рекомендации и сведения о том, как они рассматриваются, доступна в нашей статье справочного центра об удалении персональных данных из ChatGPT. Мы рассматриваем запросы в соответствии с применимым законодательством о защите персональных данных и отвечаем в сроки, предусмотренные применимым законодательством.

Обратите внимание, что в соответствии с законодательством о защите данных некоторые права могут не быть абсолютными. Например, мы можем не иметь возможности удовлетворить запрос, если мы не можем проверить соответствующую информацию, если запрос не относится к персональной информации, обрабатываемой OpenAI, если применяется исключение или если у нас есть иное законное основание для этого. Запросы рассматриваются в индивидуальном порядке и могут предполагать учет баланса между правом на неприкосновенность частной жизни и другими значимыми факторами, такими как свобода выражения мнений и общественный интерес.

Однако мы стремимся уделять первоочередное внимание защите личной информации и соблюдать все применимые законы о защите данных. Если вы считаете, что мы не решили проблему надлежащим образом, вы вправе подать жалобу в местный орган надзора.

Подробнее о порядке обращения OpenAI с личной информацией, которую мы собираем от вас или о вас при использовании вами нашего сайта, приложений и сервисов, можно узнать в нашей Политике конфиденциальности.

Как разрабатываются ChatGPT и наши базовые модели

Что такое ChatGPT и как он работает?

Какая информация используется для обучения ChatGPT?

Используется ли личная информация для обучения ChatGPT?

Как разработка ChatGPT согласуется с законами о конфиденциальности?

Была ли эта статья полезной?