Научете повече за това как разработваме моделите си и ги прилагаме в продукти като ChatGPT

Базовите модели на OpenAI, включително моделите, които захранват ChatGPT, се разработват чрез три основни източника на информация: (1) информация, която е публично достъпна в интернет, (2) информация, до която получаваме достъп чрез партньорства с трети страни, и (3) информация, която нашите потребители, обучители и изследователи предоставят или генерират.

Разработването на базови модели като използваните в ChatGPT включва няколко етапа, сред които подготовка на данни за обучение, предварително обучение и последващо обучение, както и текущо оценяване и подобряване след внедряване. На тези етапи може да се използват различни видове информация за различни цели, включително за подобряване на производителността, надеждността и безопасността на моделите.

Тази статия дава общ преглед на информацията, която използваме, за да подпомагаме разработването на тези модели, как събираме и използваме тази информация в съответствие със законите за поверителност и какви защитни мерки прилагаме през целия процес на обучение. За да разберете как събираме и използваме информация от потребителите на нашите услуги, включително как да се откажете разговорите ви с ChatGPT да се използват за подобряване на нашите модели, вижте нашата Политика за поверителност и тази статия в помощния център.

Какво е ChatGPT и как работи?

ChatGPT е услуга, базирана на изкуствен интелект, до която имате достъп през интернет или чрез приложение. Можете да използвате ChatGPT за широк кръг задачи, включително организиране и обобщаване на информация, помощ с преводи, програмиране, проучвания и анализи, изпълнение на многоетапни задачи в различни инструменти, анализиране или генериране на изображения, вдъхновение за творчество и идеи, както и други ежедневни дейности. ChatGPT е проектиран да разбира и отговаря на въпроси и инструкции на потребителите, като научава закономерности от големи обеми информация, включително текст, изображения, аудио и видео.

По време на обучението моделът анализира връзките в тези данни — например как думите обикновено се появяват заедно в контекст — и използва това разбиране, за да предвижда най-вероятната следваща дума, когато генерира отговор, дума по дума. Текстът може да бъде преобразуван в по-малки единици, понякога наричани „токени“, които може да представляват цели думи, части от думи или препинателни знаци. Токените са градивните елементи на текста, които моделът обработва. По сходен начин моделите, които генерират други форми на съдържание, например изображения, научават закономерности в това как пикселите са свързани помежду си и със свързаните с тях описания в данните за обучение.

Например по време на процеса на учене на модела (известен като „обучение“) моделът може да получи задача да довърши изречение като: „Вместо да завие наляво, тя зави ___“. В началото на обучението отговорите му са до голяма степен случайни. С обработването и ученето от голям обем текст обаче моделът става по-добър в разпознаването на закономерности и предвиждането на най-вероятната следваща дума. Този процес се повтаря върху милиони изречения, за да се усъвършенства разбирането на модела и да се подобри точността му.

Тъй като има няколко правдоподобни начина да се довърши едно изречение — например „Вместо да завие наляво, тя зави надясно“, „обратно“ или „назад“ — в начина, по който моделът отговаря, има присъщ елемент на случайност. В резултат на това един и същ въпрос може да доведе до различни отговори при различни заявки.

Моделите за машинно обучение се състоят от големи набори от числа, известни като „тегла“ или „параметри“, заедно с код, който интерпретира и използва тези числа. Тези модели не съхраняват и не запазват копия на данните, върху които са обучени. Вместо това, докато моделът се учи, стойностите на параметрите му се коригират леко, за да отразят закономерностите, които е открил. В предишния пример моделът се подобрява — от предвиждане на случайни думи към по-точни предвиждания — не като съхранява изреченията за обучение, а като актуализира вътрешните си параметри. Моделът не запазва копия на изреченията, изображенията или аудиото, които обработва по време на обучението. ChatGPT не „копира и поставя“ от данните си за обучение — подобно на учител, който след задълбочено изучаване може да обяснява понятия, като разбира връзките между идеите, без да запаметява или възпроизвежда дословно оригиналните материали. Когато генерира отговор на потребителска заявка, моделът използва тези научени тегла, за да предвиди и създаде ново съдържание.

Какъв тип информация се използва за обучението на ChatGPT?

За публично достъпно интернет съдържание използваме само информация, която е свободно и открито достъпна в интернет. Това може да включва публично достъпни уеб страници, публични форуми, публични блогове, публични публикации и друго публично достъпно онлайн съдържание. Например, ако участвате в публично достъпен онлайн дискусионен форум или публикувате публичен блог или друга публикация, може да използваме това публично достъпно съдържание за целите на обучението на модели. Ние обаче предприемаме мерки за намаляване на обработването на лична информация в процеса на обучение. Когато събираме публично достъпно интернет съдържание, не събираме умишлено данни от източници, за които е известно, че са зад платени стени, или от тъмната мрежа. Освен това прилагаме филтри за премахване на материали, от които не искаме нашите модели да се учат, като реч на омразата, съдържание за възрастни, сайтове, които агрегира лична информация, и спам. Останалата информация след това се използва за обучение на нашите модели.

Собствениците на уебсайтове могат да управляват дали публично достъпното съдържание от техните сайтове може да бъде достъпвано за използване в обучение, като използват стандартни уеб контроли като robots.txt, за да забранят GPTBot, който може да обхожда публично достъпно съдържание, за да подпомага обучението на нашите модели. Предоставяме насоки, които помагат на собствениците на уебсайтове да управляват как техните сайтове и съдържание взаимодействат с нашите системи с изкуствен интелект.

Използваме и информация от партньори трети страни, за да подпомагаме обучението и подобряването на нашите модели. Това може да включва информация в набори от данни, до които получаваме достъп чрез споразумения с трети страни, както и информация, предоставена или генерирана от обучители и изследователи, когато това е позволено от нашите политики и споразумения. Това помага за подобряване на качеството, безопасността и производителността на нашите модели. Тези източници може да включват текст, изображения, аудио, видео или други типове данни в зависимост от набора от данни.

Все по-често използваме и синтетични данни в някои процеси на обучение. Например може да използваме информация и нашите модели, за да генерираме синтетични подкани, многоезични примери или други материали за обучение. Синтетичните данни могат да помогнат за подобряване на производителността на модела, включително като допълват данните за обучение в области, където данните са оскъдни или небалансирани, и може също да подпомагат подходи за разработване на модели, които засилват поверителността.

Използва ли се лична информация за обучението на ChatGPT?

Значителна част от онлайн съдържанието включва информация за хора, затова нашите данни за обучение може случайно да съдържат лична информация. Ние обаче предприемаме мерки за намаляване на обработването на лична информация в процеса на обучение.

Използваме данни за обучение, за да развиваме способностите на модела — например предвиждане, структурирано анализиране и решаване на проблеми — а не за да изграждаме профили на отделни лица, да се свързваме с тях или да персонализираме реклами за тях.

В някои случаи моделите може да се учат от лична информация, за да разберат как елементи като имена и адреси функционират в езика или за да разпознават публични личности и широко известни организации. Това помага на модела да генерира по-точни и контекстуално подходящи отговори.

Как се защитава личната информация по време на обучение?

Предприемаме активни мерки за ограничаване на обработването на лична информация по време на обучение. Например изключваме известни източници, които агрегира големи количества лични данни, прилагаме филтриране за намаляване на личната информация в процеса на обучение и предприемаме мерки за идентифициране и премахване на дублирано съдържание, за да намалим риска от повтаряне на данни за обучение. Освен това обучаваме нашите модели да избягват да отговарят на искания за лична или чувствителна информация за отделни лица.

Колко дълго съхраняваме информация

Съхраняваме информация в данните за обучение само докато това е разумно необходимо за целите, описани в тази статия и в нашата Политика за поверителност, включително за разработване и подобряване на нашите модели и за свързани цели на научни изследвания. Съхранението подлежи на периодичен преглед, за да се гарантира, че продължава да е необходимо, и варира според типа информация и начина, по който се използва. При определяне на срока на съхранение вземаме предвид фактори като целта, за която обработваме информацията, количеството, естеството и чувствителността на информацията, потенциалния риск от вреда при неразрешено използване или разкриване, както и всички правни задължения, които се отнасят за нас.

Как разработването на ChatGPT спазва законите за поверителност?

Използваме информация за обучение законосъобразно. Нашите базови модели захранват широк кръг полезни приложения — включително инструменти за достъпност, клиентска поддръжка, разработване на софтуер, персонализирано образование и научни изследвания. Тези способности зависят от данни за обучение в голям мащаб, включително публично достъпна информация и информация от партньори трети страни. Прилагаме защитни мерки през целия процес на обучение, включително стъпки, предназначени да намалят обработването на лична информация в процеса на обучение и да ограничат рисковете, както е описано в тази статия. Основаваме събирането и използването на лична информация, включена в информацията за обучение, на законни интереси съгласно законите за поверителност като GDPR, включително за обучение и подобряване на нашите модели за потребителите и обществото като цяло, в съответствие с мисията ни да гарантираме, че изкуственият общ интелект е от полза за всички, както е обяснено по-подробно в нашата Политика за поверителност. Извършихме оценка на въздействието върху защитата на данните, за да помогнем да се гарантира, че събираме и използваме тази информация законосъобразно и отговорно.

Кога информацията може да бъде споделяна или прехвърляна

Ние не „продаваме“ лична информация и разкриваме лична информация в данните за обучение само при ограничените обстоятелства, описани в нашата Политика за поверителност. Например може да споделяме информация със свързани дружества, доставчици и доставчици на услуги, които подпомагат разработването, тестването и подобряването на нашите модели. Може също да разкриваме информация, когато добросъвестно считаме, че такова действие е необходимо за спазване на правно задължение или за защита на нашите права, безопасност и сигурност, както и тези на нашите потребители, служители или обществеността, както е описано в нашата Политика за поверителност.

Тъй като инфраструктурата ни е глобална, личната информация в данните за обучение може да се обработва в държави извън ЕИП, Швейцария или Обединеното кралство (включително в Съединените щати). Когато това се случва, прилагаме подходящи защитни мерки, като решения за адекватност или стандартни договорни клаузи, както е описано в нашата Политика за поверителност.

Вашите права и как да ги упражните

Отговаряме на искания за възражение и сходни искания за упражняване на права. В резултат на усвояването на езика отговорите на ChatGPT понякога може да включват лична информация за лица, чиято лична информация се появява многократно в публичния интернет (например публични личности). Лицата в определени юрисдикции могат да възразят срещу обработването на личната им информация от нашите модели или да отправят други искания за упражняване на права на субектите на данни чрез нашия Портал за поверителност. Можете също да упражните тези права, като се свържете с нас на privacy@openai.com.

За да ни помогнете да оценим искането ви и да отговорим, предоставете достатъчно информация, за да разберем за каква лична информация се отнася искането ви, например вашето име, съответни URL адреси, конкретни примери за изходни данни от модела или други подробности, които помагат да се идентифицира проблемът. В някои случаи може да поискаме да потвърдите самоличността си или да потвърдите, че информацията се отнася до вас, преди да можем да предприемем действие. Повече информация за това как да подадете такива искания, включително най-добри практики и как се преглеждат исканията, е налична в нашата статия в Помощния център относно премахването на лични данни от ChatGPT. Преглеждаме исканията в съответствие с приложимите закони за поверителност и отговаряме в приложимите законови срокове.

Имайте предвид, че съгласно законите за поверителност някои права може да не са абсолютни. Например може да не сме в състояние да изпълним искане, когато не можем да проверим съответната информация, когато искането не се отнася до лична информация, обработвана от OpenAI, когато се прилага изключение или когато имаме друга законосъобразна причина да го направим. Исканията се оценяват за всеки отделен случай и може да включват балансиране на правата на поверителност спрямо други важни съображения, като свободата на изразяване и обществения интерес.

Въпреки това се стремим да даваме приоритет на защитата на личната информация и спазваме всички приложими закони за поверителност. Ако смятате, че не сме разгледали даден въпрос по подходящ начин, имате право да подадете жалба до местния си надзорен орган.

За повече информация относно практиките на OpenAI по отношение на личната информация, която събираме от вас или за вас, когато използвате нашия уебсайт, приложения и услуги, вижте нашата Политика за поверителност.

Как се разработват ChatGPT и нашите базови модели

Какво е ChatGPT и как работи?

Какъв тип информация се използва за обучението на ChatGPT?

Използва ли се лична информация за обучението на ChatGPT?

Как разработването на ChatGPT спазва законите за поверителност?

Беше ли Ви полезна тази статия?