OpenAI

Как разрабатываются ChatGPT и наши базовые модели

Узнайте больше о том, как мы разрабатываем наши модели и применяем их в таких продуктах, как ChatGPT

Обновлено: 23 hours ago

Примечание. На срок хранения данных для некоторых услуг могут повлиять последние изменения в законодательстве. Ознакомьтесь с публикацией в блоге для получения более подробной информации.

Базовые модели OpenAI, включая модели, на которых работает ChatGPT, разрабатываются с использованием трёх основных источников информации: (1) общедоступной информации в Интернете, (2) информации, к которой мы получаем доступ через партнёрские соглашения со сторонними организациями, и (3) информации, которую предоставляют или создают наши пользователи, инструкторы, работающие с ИИ, и исследователи.

В данной статье представлен обзор общедоступной информации, которую мы используем для разработки этих моделей, а также того, как мы собираем и используем эту информацию в соответствии с законодательством о конфиденциальности. Чтобы понять, как мы собираем и используем информацию пользователей наших сервисов, а также узнать, как отказаться от использования разговоров с ChatGPT в обучении наших моделей, ознакомьтесь с нашей Политикой конфиденциальности и этой статьей Справочного центра.

Что такое ChatGPT и как он работает?

ChatGPT — это сервис на базе искусственного интеллекта, доступный через Интернет. Вы можете использовать ChatGPT для широкого круга задач, включая систематизацию и обобщение информации, помощь с переводами, анализ или генерацию изображений, вдохновение для творчества и идей, а также другие повседневные задачи. ChatGPT разработан таким образом, чтобы понимать вопросы и инструкции пользователей и отвечать на них, обучаясь закономерностям на больших объемах информации, включая текст, изображения, аудио и видео. Во время обучения модель анализирует взаимосвязи в этих данных — например, то, как слова обычно встречаются вместе в контексте, — и использует это понимание, чтобы при формировании ответа предсказывать следующее наиболее вероятное слово, слово за словом. Аналогичным образом модели, которые формируют другие виды контента, например изображения, усваивают закономерности того, как пиксели соотносятся друг с другом и со связанными с ними подписями в обучающих данных.

Например, в процессе обучения («тренировки») модели может быть предложено дополнить предложение: «Вместо того чтобы повернуть налево, она повернула ___». На ранних этапах тренировки ответы модели в основном случайны. Однако по мере того как модель обрабатывает большой объем текста и тренируется на нем, она начинает лучше распознавать закономерности и предсказывать наиболее вероятное следующее слово. Этот процесс повторяется на миллионах предложений, чтобы уточнить понимание и повысить точность модели.

Поскольку существует несколько приемлемых способов завершить предложение — например: «Вместо того чтобы повернуть налево, она повернула направо», «в другую сторону» или «назад», — в том, как отвечает модель, присутствует неизбежный элемент случайности. В результате один и тот же вопрос может давать разные ответы в разных запросах.

Модели машинного обучения состоят из больших наборов чисел, называемых «весами» или «параметрами», а также из кода, который интерпретирует и использует эти числа. Эти модели не хранят и не сохраняют копии данных, используемых для их обучения. Вместо этого по мере обучения модели значения её параметров слегка корректируются, чтобы отражать выявленные ею закономерности. В предыдущем примере модель улучшилась: она перешла от предсказания случайных слов к более точным прогнозам — не за счёт сохранения обучающих предложений, а за счёт обновления своих внутренних параметров. Модель не сохраняет копии предложений, изображений или аудио, которые она обрабатывает во время обучения. ChatGPT не «копирует и вставляет» информацию из своих обучающих данных — подобно тому, как учитель после длительного изучения материала может объяснять понятия, понимая взаимосвязи между идеями, а не заучивая или воспроизводя исходные материалы дословно. При формировании ответа на запрос пользователя модель использует эти обученные веса, чтобы прогнозировать и создавать новый контент.

Какая общедоступная информация используется для обучения ChatGPT?

Что касается общедоступного контента в Интернете, мы используем только информацию, которая находится в свободном и открытом доступе. Мы намеренно не собираем данные из источников, требующих оплаты доступа, или из даркнета. Кроме того, мы применяем фильтры для удаления материалов, на которых мы не хотим обучать наши модели, таких как высказывания с разжиганием ненависти, контент для взрослых, сайты, агрегирующие личную информацию, и спам. Оставшаяся информация затем используется для обучения наших моделей.

Используется ли личная информация для обучения ChatGPT?

Значительная часть онлайн-контента содержит информацию о людях, поэтому наши обучающие данные могут случайно включать личную информацию. Однако мы не собираем личную информацию намеренно для целей обучения наших моделей.

Мы используем данные для обучения, чтобы развивать возможности модели — такие как прогнозирование, рассуждения и решение задач, — а не для создания профилей пользователей, связи с отдельными лицами или использования в рамках нашей рекламной или маркетинговой деятельности.

В некоторых случаях модели могут обучаться на персональной информации, чтобы понимать, как такие элементы, как имена и адреса, функционируют в языке, или распознавать публичных лиц и известные понятия. Это помогает модели формировать более точные и соответствующие контексту ответы.

Мы принимаем активные меры для ограничения обработки личной информации в процессе обучения. Например, мы исключаем источники, которые собирают большие объемы личных данных, и обучаем наши модели избегать ответов на запросы о предоставлении личной или конфиденциальной информации о людях.

Как при разработке ChatGPT обеспечивается соблюдение законодательства о конфиденциальности?

Мы используем информацию для обучения на законных основаниях. Наши базовые модели обеспечивают работу широкого спектра полезных приложений — от создания контента и поддержки клиентов до разработки программного обеспечения, персонализированного обучения и научных исследований. Эти возможности зависят от данных крупномасштабного обучения. Информация, используемая для обучения наших моделей, является общедоступной и не направлена на причинение вреда отдельным лицам. Мы осуществляем сбор и использование персональной информации, включенной в информацию для обучения, на основании законных интересов в соответствии с законами о конфиденциальности, такими как GDPR, как более подробно объясняется в нашей Политике конфиденциальности. Мы провели оценку воздействия на защиту данных, чтобы помочь обеспечить законный и ответственный сбор и использование этой информации.


Мы отвечаем на запросы о реализации права на возражение и других аналогичных прав. В процессе обучения языку ответы ChatGPT могут иногда включать персональную информацию о людях, сведения о которых неоднократно встречаются в открытых источниках в Интернете (например, о публичных лицах). Физические лица в некоторых юрисдикциях могут возразить против обработки своей персональной информации нашими моделями или подать другие запросы, связанные с правами субъектов данных, через наш Портал конфиденциальности. Вы также можете реализовать эти права, обратившись по адресу dsar@openai.com.

Обратите внимание, что в соответствии с законодательством о защите данных некоторые права могут не быть абсолютными. Мы можем отклонить запрос при наличии законных оснований. Однако мы стремимся уделять первоочередное внимание защите личной информации и соблюдать все применимые законы о защите данных. Если вы считаете, что мы не решили проблему надлежащим образом, вы вправе подать жалобу в местный орган надзора.


Подробнее о порядке обращения OpenAI с личной информацией, которую мы собираем от вас или о вас при использовании вами нашего сайта, приложений и сервисов, можно узнать в Политике конфиденциальности.

Была ли эта статья полезной?