OpenAI
Тази страница е машинно преведена. Вижте оригиналната статия на английски език.

Как се разработват ChatGPT и нашите базови модели

Научете повече за това как разработваме моделите си и ги прилагаме в продукти като ChatGPT

Актуализирано: 16 hours ago

Забележка: Запазването на данни за определени услуги може да бъде засегнато от скорошни правни развития – моля, вижте нашата публикация в блога за повече подробности.

Базовите модели на OpenAI, включително моделите, които захранват ChatGPT, се разработват чрез три основни източника на информация: (1) информация, която е публично достъпна в интернет, (2) информация, за чийто достъп си партнираме с трети страни, и (3) информация, която нашите потребители, обучаващи хора и изследователи предоставят или генерират.

Тази статия предоставя общ преглед на публично достъпната информация, която използваме, за да помагаме за разработването на тези модели, и как събираме и използваме тази информация в съответствие със законите за поверителност. За да разберете как събираме и използваме информация от потребителите на нашите услуги, включително как да се откажете разговорите с ChatGPT да се използват за подпомагане на обучението на нашите модели, моля, вижте нашата Политика за поверителност и тази статия в помощния център.

Какво представлява ChatGPT и как работи?

ChatGPT е услуга, базирана на изкуствен интелект, до която можете да получите достъп чрез интернет. Можете да използвате ChatGPT за широк набор от задачи, включително организиране и обобщаване на информация, помощ при преводи, анализиране или генериране на изображения, вдъхновение за творчество и идеи, както и други ежедневни дейности. ChatGPT е проектиран да разбира и да отговаря на въпроси и инструкции от потребители, като научава модели от големи количества информация, включително текст, изображения, аудио и видео. По време на обучението моделът анализира връзките в тези данни — например как думите обикновено се появяват заедно в контекст — и използва това разбиране, за да предвиди следващата най-вероятна дума при генериране на отговор, дума по дума. По подобен начин моделите, които генерират други форми на съдържание, като изображения, научават модели в това как пикселите са свързани помежду си и със съответните надписи в данните за обучение.

Например по време на процеса на учене на модела (известен като „обучение“) моделът може да получи задача да довърши изречение като: „Вместо да завие наляво, тя зави ___.“ В началото на обучението отговорите му са до голяма степен случайни. С течение на времето обаче, докато моделът обработва и се учи от голям обем текст, той става по-добър в разпознаването на модели и предвиждането на най-вероятната следваща дума. Този процес се повтаря върху милиони изречения, за да се усъвършенства разбирането му и да се подобри точността му.

Тъй като има множество правдоподобни начини да се довърши изречение — например „Вместо да завие наляво, тя зави надясно“, „зави обратно“ или „се върна“ — има присъщ елемент на случайност в начина, по който моделът отговаря. В резултат на това един и същ въпрос може да доведе до различни отговори при различни запитвания.

Моделите за машинно обучение се състоят от големи набори от числа, известни като „тегла“ или „параметри“, заедно с код, който интерпретира и използва тези числа. Тези модели не съхраняват и не запазват копия на данните, върху които са обучени. Вместо това, докато моделът се учи, стойностите на параметрите му се коригират леко, за да отразят моделите, които е идентифицирал. В предишния пример моделът се подобри от предвиждане на случайни думи до по-точни предвиждания — не чрез съхраняване на изреченията от обучението, а чрез актуализиране на вътрешните си параметри. Моделът не запазва копия на изреченията, изображенията или аудиото, които обработва по време на обучението. ChatGPT не „копира и поставя“ от данните си за обучение — подобно на учител, който след задълбочено обучение може да обяснява понятия, като разбира връзките между идеите, без да запаметява или възпроизвежда дословно оригиналните материали. Когато генерира отговор на потребителска заявка, моделът използва тези научени тегла, за да предвижда и създава ново съдържание.

Какъв тип публична информация се използва за обучение на ChatGPT?

За публично достъпно интернет съдържание използваме само информация, която е свободно и открито достъпна в интернет. Не събираме умишлено данни от източници, за които е известно, че са зад платени стени, или от тъмната мрежа. Освен това прилагаме филтри за премахване на материали, от които не искаме нашите модели да се учат, като език на омразата, съдържание за възрастни, сайтове, които събират лична информация, и спам. Останалата информация след това се използва за обучение на нашите модели.

Използва ли се лична информация за обучение на ChatGPT?

Значителна част от онлайн съдържанието включва информация за хора, така че нашите данни за обучение може случайно да включват лична информация. Ние обаче не събираме умишлено лична информация с цел обучение на нашите модели.

Използваме данни за обучение, за да развиваме възможностите на модела — като предвиждане, структурирано анализиране и решаване на проблеми — а не за изграждане на потребителски профили, свързване с лица или като част от нашите рекламни или маркетингови усилия.

В някои случаи моделите може да се учат от лична информация, за да разберат как елементи като имена и адреси функционират в езика или да разпознават публични личности и добре известни субекти. Това помага на модела да генерира по-точни и контекстуално подходящи отговори.

Предприемаме активни стъпки за ограничаване на обработването на лична информация по време на обучението. Например изключваме източници, които събират големи количества лични данни, и обучаваме нашите модели да избягват да отговарят на искания за лична или чувствителна информация за отделни лица.

Как разработването на ChatGPT спазва законите за поверителност?

Използваме информация за обучение законосъобразно. Нашите базови модели захранват широк набор от полезни приложения — от създаване на съдържание и обслужване на клиенти до разработване на софтуер, персонализирано образование и научни изследвания. Тези възможности зависят от данни за обучение в голям мащаб. Информацията, използвана за обучение на нашите модели, е публично достъпна и не е предназначена да причинява вреда на отделни лица. Основаваме събирането и използването на лична информация, включена в информацията за обучение, на легитимни интереси съгласно законите за поверителност като GDPR, както е обяснено по-подробно в нашата Политика за поверителност. Завършихме оценка на въздействието върху защитата на данните, за да помогнем да гарантираме, че събираме и използваме тази информация законно и отговорно.


Отговаряме на искания за възражение и сходни права. В резултат на изучаването на езика отговорите на ChatGPT понякога може да включват лична информация за лица, чиято лична информация се появява многократно в публичния интернет (например публични личности). Лицата в определени юрисдикции могат да възразят срещу обработването на личната им информация от нашите модели или да направят други искания за права на субекти на данни чрез нашия Портал за поверителност. Можете също да упражните тези права, като се свържете с dsar@openai.com.

Моля, имайте предвид, че съгласно законите за поверителност някои права може да не са абсолютни. Може да откажем искане, ако имаме законна причина за това. Въпреки това се стремим да поставяме защитата на личната информация като приоритет и да спазваме всички приложими закони за поверителност. Ако смятате, че не сме разгледали даден проблем адекватно, имате право да подадете жалба до местния си надзорен орган.


За повече информация относно практиките на OpenAI по отношение на личната информация, която събираме от вас или за вас, когато използвате нашия уебсайт, приложения и услуги, моля, вижте нашата Политика за поверителност.

Беше ли Ви полезна тази статия?