OpenAI는 캘리포니아주에서 공개적으로 이용 가능한 생성형 AI 시스템을 제공합니다. OpenAI는 공개적으로 이용 가능한 데이터, 타사와의 협력을 통해 접근하는 데이터, 그리고 사용자 또는 인간 트레이너 및 연구자가 제공하거나 생성한 정보를 포함한 다양한 데이터 소스를 사용하여 이러한 시스템을 개발합니다. OpenAI는 합성 데이터를 활용하여 시스템을 개발하기도 합니다.
OpenAI는 데이터 활용을 통해 시스템이 인간의 언어와 세상을 더 잘 이해하도록 합니다. 이를 통해 OpenAI의 시스템은 인간의 창의성을 향상시키고, 과학적 발견과 의학 연구를 발전시키며, 수억 명의 사람들이 일상 생활을 개선할 수 있도록 지원합니다. OpenAI의 시스템은 텍스트, 이미지, 오디오 및 시청각 콘텐츠로 구성된 수조 개의 토큰을 포함하는 데이터 세트를 기반으로 개발됩니다.
OpenAI는 저작권 보호를 받을 수 있는 데이터와 퍼블릭 도메인 데이터를 포함하여 다양한 데이터를 활용해 시스템을 개발합니다. OpenAI는 학습 데이터 세트에 포함된 개인정보를 줄이기 위한 조치를 취하고 있지만, 일부 데이터에는 캘리포니아 민법 제1798.140조에서 정의된 개인정보 및 소비자 집계 정보가 포함될 수 있습니다. 사용자는 프라이버시 포털을 통해 자신의 콘텐츠가 학습에 사용되지 않도록 옵트아웃할 수 있으며, ChatGPT 응답에서 특정 개인정보의 삭제를 요청할 수 있습니다. OpenAI는 데이터 세트를 처리하기 위해 다양한 기법을 활용하여 모델의 성능과 정확도를 향상시킵니다.
OpenAI는 약 2018년부터 시스템 개발을 위한 데이터 수집을 시작했으며 현재까지도 이를 계속하고 있습니다. OpenAI는 2021년에 처음으로 해당 데이터 세트를 시스템 개발에 활용했습니다.
시스템 개발에 대한 추가 정보는 OpenAI의 시스템 카드에서 확인할 수 있습니다.
캘리포니아 민법 제3111조에 따른 학습 데이터 요약
마지막 수정: 19 hours ago
