| 참고: 일부 서비스의 데이터 보관 정책은 최근 법령 개정의 영향을 받을 수 있습니다. 자세한 내용은 블로그 포스트에서 확인하세요. |
|---|
ChatGPT를 구동하는 모델을 포함해 OpenAI의 파운데이션 모델은 세 가지 주요 정보 출처를 사용해 개발됩니다. (1) 인터넷에서 공개적으로 이용 가능한 정보, (2) 타사와의 파트너십을 통해 접근하는 정보, (3) 사용자, 인간 트레이너, 연구자가 제공하거나 생성하는 정보입니다.
본 문서는 OpenAI가 이러한 모델을 개발하는 데 도움을 주기 위해 사용하는 공개적으로 이용 가능한 정보 및 개인정보 보호법을 준수하며 해당 정보를 수집하고 사용하는 방법에 대한 개요를 제공합니다. 서비스 이용자로부터 정보를 수집하고 사용하는 방식, 그리고 ChatGPT 대화가 모델 학습에 활용되지 않도록 옵트아웃하는 방법을 이해하려면 개인정보 보호 정책과 해당 지원 센터 문서를 참조하세요.
ChatGPT란 무엇이고 어떻게 작동하나요?
ChatGPT는 인터넷을 통해 액세스할 수 있는 인공 지능 기반 서비스입니다. ChatGPT는 정보 정리 및 요약, 번역 지원, 이미지 분석 또는 생성, 창의적 아이디어 도출 등 다양한 작업에 활용할 수 있습니다. ChatGPT는 텍스트, 이미지, 오디오, 비디오를 포함한 방대한 정보에서 패턴을 학습해 사용자 질문과 지시에 응답하도록 설계되었습니다. 훈련 과정에서 모델은 단어가 문맥에서 함께 나타나는 방식 등 데이터 내 관계를 분석하며, 이러한 이해를 바탕으로 응답 생성 시 다음에 올 가능성이 가장 높은 단어를 순차적으로 예측합니다. 마찬가지로, 이미지와 같은 다른 형태의 콘텐츠를 생성하는 모델 역시 훈련 데이터에서 픽셀 간 관계와 캡션 간 패턴을 학습합니다.
예를 들어 모델의 학습 과정("훈련"이라고 함) 중에는 “왼쪽으로 도는 대신, 그녀는 ___.”과 같은 문장을 완성하는 작업이 주어질 수 있습니다. 훈련 초기에는 모델의 응답이 대부분 무작위적입니다. 그러나 많은 텍스트를 처리하고 학습함에 따라 패턴을 더 잘 인식하고 다음에 올 가능성이 높은 단어를 예측하는 능력이 향상됩니다. 이 과정은 수백만 개의 문장에서 반복되며 모델의 이해도와 정확도를 높입니다.
문장을 완성할 수 있는 방식이 “왼쪽으로 도는 대신 오른쪽으로 돌았다,” “주위를 돌았다,” “뒤로 돌았다”처럼 여러 가지로 타당하게 존재하기 때문에, 모델이 응답하는 방식에는 본질적으로 어느 정도의 무작위성이 포함됩니다. 따라서 동일한 질문에 대해 다른 요청에서 서로 다른 답변이 생성될 수 있습니다.
머신 러닝 모델은 “가중치” 또는 “파라미터”라고 불리는 방대한 숫자 집합과 해당 숫자를 해석하고 사용하는 코드로 구성됩니다. 이 모델들은 훈련 데이터의 사본을 저장하거나 보유하지 않습니다. 대신 모델은 학습 과정에서 파라미터 값을 조정하여 학습한 패턴을 반영합니다. 앞선 예시에서 모델은 훈련 문장을 저장함으로써가 아니라 내부 파라미터를 업데이트함으로써 무작위 단어를 예측하던 단계에서 더 정확한 예측을 수행하는 단계로 향상되었습니다. 모델은 훈련 중 처리한 문장, 이미지, 오디오의 사본을 보관하지 않습니다. ChatGPT는 학습 데이터에서 “복사하여 붙여넣기”를 하지 않으며, 이는 교사가 오랜 기간 학습한 후 원본 자료를 문자 그대로 암기하거나 재현하지 않고도 개념 간의 관계를 이해해 설명할 수 있는 것과 유사합니다. 모델은 사용자 요청에 대한 응답을 생성할 때 학습된 가중치를 사용하여 새로운 콘텐츠를 예측하고 생성합니다.
ChatGPT를 학습시키는 데 사용되는 공개 정보에는 어떤 종류가 있나요?
공개적으로 이용 가능한 인터넷 콘텐츠의 경우, 당사는 인터넷에서 자유롭고 공개적으로 접근할 수 있는 정보만 사용합니다. 당사는 페이월이나 다크웹으로 알려진 출처에서 의도적으로 데이터를 수집하지 않습니다. 또한 혐오 발언, 성인 콘텐츠, 개인정보를 집약하는 사이트, 스팸과 같이 모델이 학습하지 않기를 원하는 자료를 제거하기 위한 필터를 적용합니다. 그런 다음 나머지 정보를 사용하여 모델을 학습시킵니다.
ChatGPT를 학습시키는 데 개인정보가 사용되나요?
온라인 콘텐츠의 상당 부분이 사람에 대한 정보를 포함하고 있으므로 교육 데이터에는 부수적으로 개인정보가 포함될 수 있습니다. 그러나 모델 훈련을 목적으로 개인정보를 고의적으로 수집하지는 않습니다.
학습 데이터는 예측, 추론, 문제 해결과 같은 모델의 기능을 개발하는 데 사용되며, 사용자 프로필을 구축하거나 개인에게 연락하거나 광고 및 마케팅 목적으로 사용되지 않습니다.
일부 경우 모델은 언어에서 이름이나 주소 같은 요소가 어떻게 기능하는지 이해하거나 공인 및 잘 알려진 엔티티를 인식하기 위해 개인정보로부터 학습할 수 있습니다. 이는 모델이 더 정확하고 문맥에 맞는 응답을 생성하도록 돕습니다.
OpenAI는 훈련 과정에서 개인정보 처리 범위를 제한하기 위해 적극적인 조치를 취합니다. 예를 들어, 대량의 개인정보를 집약한 출처는 배제하며, 개인에 대한 사적이거나 민감한 정보 요청에 응답하지 않도록 모델을 훈련합니다.
ChatGPT 개발은 어떻게 개인정보 보호법을 준수하나요?
OpenAI는 훈련 정보를 합법적으로 사용합니다. OpenAI의 파운데이션 모델은 콘텐츠 생성, 고객 지원, 소프트웨어 개발, 개인화 교육, 과학 연구 등 광범위한 유익한 애플리케이션을 지원합니다. 이러한 기능은 대규모 학습 데이터에 의존합니다. 모델 훈련에 사용되는 정보는 공개적으로 이용 가능하며 개인에게 해를 끼칠 의도가 없습니다. OpenAI는 GDPR과 같은 개인정보 보호법에 따른 정당한 이익에 근거하여 훈련 정보에 포함된 개인정보를 수집 및 이용하며, 이는 개인정보 보호 정책에 보다 자세히 설명되어 있습니다. OpenAI는 이 정보를 적법하고 책임감 있게 수집 및 사용하고 있음을 보장하기 위해 데이터 보호 영향 평가를 완료했습니다.
OpenAI는 이의 신청 및 이와 유사한 권리에 대응합니다. 언어 학습의 결과, ChatGPT 응답에는 공개 인터넷에 여러 번 표시되는 개인(예: 공인)에 대한 개인 정보가 포함되기도 합니다. 특정 관할권의 개인은 개인정보 보호 포털을 통해 OpenAI 모델의 개인 정보 처리에 이의를 제기하거나 기타 데이터 주체 권리 요청을 할 수 있습니다. 이러한 권리는 dsar@openai.com으로 연락하여 행사할 수도 있습니다.
개인정보 보호법에 따라 일부 권리는 절대적이지 않을 수 있다는 점 유의하시기 바랍니다. OpenAI는 적법한 사유가 있는 경우 요청을 거부할 수 있습니다. 다만, OpenAI는 개인정보 보호를 최우선으로 하고 모든 관련 개인정보 보호법을 준수하기 위해 노력하고 있습니다. 문제가 적절히 해결되지 않았다고 느낀다면, 사용자는 거주 지역의 감독 기관에 불만을 제기할 권리가 있습니다.
웹사이트, 애플리케이션 및 서비스를 사용할 때 사용자로부터 또는 사용자에 대해 OpenAI가 수집하는 개인정보 처리 방식에 대한 자세한 내용은 개인정보 보호 정책을 참고하세요.
