OpenAI
Тази страница е машинно преведена. Вижте оригиналната статия на английски език.

Как се разработват ChatGPT и нашите базови модели

Научете повече за това как разработваме моделите си и ги прилагаме в продукти като ChatGPT

Актуализирано: 9 hours ago
Забележка
: Задържането на данни за определени услуги може да бъде засегнато от последни правни промени – моля, вижте нашата

публикация в блога
за повече подробности.

Базовите модели на OpenAI, включително моделите, които захранват ChatGPT, се разработват чрез три основни източника на информация: (1) информация, която е публично достъпна в интернет, (2) информация, до която получаваме достъп в партньорство с трети страни, и (3) информация, която нашите потребители, обучители хора и изследователи предоставят или генерират.

Тази статия предоставя общ преглед на публично достъпната информация, която използваме, за да подпомогнем разработването на тези модели, както и как събираме и използваме тази информация в съответствие със законите за поверителност. За да разберете как събираме и използваме информация от потребителите на нашите услуги, включително как да се откажете разговорите ви с ChatGPT да се използват за подпомагане на обучението на нашите модели, моля, вижте нашата Политика за поверителност и тази статия в помощния център.

Какво е ChatGPT и как работи?

ChatGPT е услуга, базирана на изкуствен интелект, до която можете да имате достъп чрез интернет. Можете да използвате ChatGPT за широк набор от задачи, включително организиране и обобщаване на информация, помощ при преводи, анализиране или генериране на изображения, вдъхновяване на креативност и идеи, както и други ежедневни дейности. ChatGPT е проектиран да разбира и да отговаря на въпроси и инструкции от потребители, като научава закономерности от големи обеми информация, включително текст, изображения, аудио и видео. По време на обучението моделът анализира връзките в тези данни — например как думите обикновено се появяват заедно в контекст — и използва това разбиране, за да предвиди следващата най-вероятна дума при генериране на отговор, дума по дума. По подобен начин моделите, които генерират други форми на съдържание, като изображения, научават закономерности в това как пикселите са свързани помежду си и със свързаните с тях надписи в данните за обучение.

Например по време на процеса на учене на модела (известен като „обучение“) на модела може да бъде възложено да довърши изречение като: „Вместо да завие наляво, тя зави ___.“ В началото на обучението отговорите му са до голяма степен случайни. С течение на времето обаче, докато моделът обработва и се учи от голям обем текст, той става по-добър в разпознаването на закономерности и предвиждането на най-вероятната следваща дума. Този процес се повтаря върху милиони изречения, за да се усъвършенства разбирането му и да се подобри точността му.

Тъй като има множество правдоподобни начини да се довърши едно изречение — например „Вместо да завие наляво, тя зави надясно“, „наоколо“ или „назад“ — има присъщ елемент на случайност в начина, по който моделът отговаря. В резултат на това един и същ въпрос може да доведе до различни отговори при различни заявки.

Моделите за машинно обучение се състоят от големи набори от числа, известни като „тегла“ или „параметри“, заедно с код, който интерпретира и използва тези числа. Тези модели не съхраняват и не запазват копия на данните, върху които са обучени. Вместо това, докато моделът се учи, стойностите на неговите параметри се коригират леко, за да отразят закономерностите, които е идентифицирал. В предишния пример моделът се е подобрил от предвиждане на случайни думи до правене на по-точни прогнози — не като съхранява изреченията за обучение, а като актуализира вътрешните си параметри. Моделът не запазва копия на изреченията, изображенията или аудиото, които обработва по време на обучението. ChatGPT не „копира и поставя“ от данните си за обучение — подобно на учител, който след продължително учене може да обяснява понятия, като разбира връзките между идеите, без да запаметява или възпроизвежда оригиналните материали дословно. Когато генерира отговор на заявка от потребител, моделът използва тези научени тегла, за да предвиди и създаде ново съдържание.

Какъв тип публична информация се използва за обучение на ChatGPT?

За публично достъпно интернет съдържание използваме само информация, която е свободно и открито достъпна в интернет. Не събираме умишлено данни от източници, за които е известно, че са зад платени стени, или от тъмната мрежа. Освен това прилагаме филтри за премахване на материали, от които не искаме нашите модели да се учат, като реч на омразата, съдържание за възрастни, сайтове, които агрегира лична информация, и спам. Останалата информация след това се използва за обучение на нашите модели.

Използва ли се лична информация за обучение на ChatGPT?

Значителна част от онлайн съдържанието включва информация за хора, така че нашите данни за обучение може случайно да съдържат лична информация. Ние обаче не събираме умишлено лична информация с цел обучение на нашите модели.

Използваме данни за обучение, за да развиваме възможностите на модела — като прогнозиране, структурирано анализиране и решаване на проблеми — а не за изграждане на потребителски профили, свързване с лица или като част от нашите рекламни или маркетингови усилия.

В някои случаи моделите може да се учат от лична информация, за да разберат как елементи като имена и адреси функционират в езика или за да разпознават публични личности и добре известни субекти. Това помага на модела да генерира по-точни и контекстуално подходящи отговори.

Предприемаме активни стъпки за ограничаване на обработването на лична информация по време на обучението. Например изключваме източници, които агрегира големи количества лични данни, и обучаваме нашите модели да избягват да отговарят на заявки за лична или чувствителна информация за отделни лица.

Как разработването на ChatGPT е в съответствие със законите за поверителност?

Използваме информацията за обучение законосъобразно. Нашите базови модели захранват широк набор от полезни приложения — от създаване на съдържание и клиентска поддръжка до разработване на софтуер, персонализирано образование и научни изследвания. Тези възможности зависят от данни за обучение в голям мащаб. Информацията, използвана за обучение на нашите модели, е публично достъпна и не е предназначена да причинява вреда на отделни лица. Основаваме събирането и използването на лична информация, включена в информацията за обучение, на законни интереси съгласно законите за поверителност като GDPR, както е обяснено по-подробно в нашата Политика за поверителност. Извършихме оценка на въздействието върху защитата на данните, за да помогнем да се гарантира, че събираме и използваме тази информация законно и отговорно.

Отговаряме на искания за възражение и сходни права. В резултат на научаването на езика отговорите на ChatGPT понякога може да включват лична информация за лица, чиято лична информация се появява многократно в публичния интернет (например публични личности). Физическите лица в определени юрисдикции могат да възразят срещу обработването на личната им информация от нашите модели или да отправят други искания, свързани с права на субектите на данни, чрез нашия Портал за поверителност. Можете също да упражните тези права, като се свържете с dsar@openai.com.

Моля, имайте предвид, че съгласно законите за поверителност някои права може да не са абсолютни. Може да откажем искане, ако имаме законно основание за това. Въпреки това се стремим да даваме приоритет на защитата на личната информация и да спазваме всички приложими закони за поверителност. Ако смятате, че не сме разгледали даден проблем по подходящ начин, имате право да подадете жалба до местния надзорен орган.

За повече информация относно практиките на OpenAI по отношение на личната информация, която събираме от вас или за вас, когато използвате нашия уебсайт, приложения и услуги, моля, вижте нашата Политика за поверителност.

Беше ли Ви полезна тази статия?