캘리포니아 민법 제3111조에 따른 학습 데이터 요약

OpenAI는 캘리포니아주에서 공개적으로 이용 가능한 생성형 AI 시스템을 제공합니다. OpenAI는 공개적으로 이용 가능한 데이터, 타사와의 협력을 통해 접근하는 데이터, 그리고 사용자 또는 인간 트레이너 및 연구자가 제공하거나 생성한 정보를 포함한 다양한 데이터 소스를 사용하여 이러한 시스템을 개발합니다. OpenAI는 합성 데이터를 활용하여 시스템을 개발하기도 합니다.

OpenAI는 데이터 활용을 통해 시스템이 인간의 언어와 세상을 더 잘 이해하도록 합니다. 이를 통해 OpenAI의 시스템은 인간의 창의성을 향상시키고, 과학적 발견과 의학 연구를 발전시키며, 수억 명의 사람들이 일상 생활을 개선할 수 있도록 지원합니다. OpenAI의 시스템은 텍스트, 이미지, 오디오 및 시청각 콘텐츠로 구성된 수조 개의 토큰을 포함하는 데이터 세트를 기반으로 개발됩니다.

OpenAI는 저작권 보호를 받을 수 있는 데이터와 퍼블릭 도메인 데이터를 포함하여 다양한 데이터를 활용해 시스템을 개발합니다. OpenAI는 학습 데이터 세트에 포함된 개인정보를 줄이기 위한 조치를 취하고 있지만, 일부 데이터에는 캘리포니아 민법 제1798.140조에서 정의된 개인정보 및 소비자 집계 정보가 포함될 수 있습니다. 사용자는 프라이버시 포털을 통해 자신의 콘텐츠가 학습에 사용되지 않도록 옵트아웃할 수 있으며, ChatGPT 응답에서 특정 개인정보의 삭제를 요청할 수 있습니다. OpenAI는 데이터 세트를 처리하기 위해 다양한 기법을 활용하여 모델의 성능과 정확도를 향상시킵니다.

OpenAI는 약 2018년부터 시스템 개발을 위한 데이터 수집을 시작했으며 현재까지도 이를 계속하고 있습니다. OpenAI는 2021년에 처음으로 해당 데이터 세트를 시스템 개발에 활용했습니다.

시스템 개발에 대한 추가 정보는 OpenAI의 시스템 카드에서 확인할 수 있습니다.

캘리포니아 민법 제3111조에 따른 학습 데이터 요약

이 문서가 도움이 되었나요?