Los modelos fundacionales de OpenAI, incluidos los modelos en los que se basa ChatGPT, se desarrollan utilizando tres fuentes de información principales: (1) información disponible públicamente en Internet, (2) información a la cual tenemos acceso por medio de terceros con quienes nos asociamos y (3) información que proporcionan o generan nuestros usuarios o entrenadores e investigadores humanos.
Este artículo proporciona una visión general de la información disponible públicamente que utilizamos para desarrollar nuestros modelos y sobre cómo recabamos y utilizamos esa información en cumplimiento con la legislación sobre privacidad. Para entender cómo recabamos y utilizamos la información de los usuarios de nuestros servicios, incluida la opción de no utilizar las conversaciones de ChatGPT para el entrenamiento de nuestros modelos, consulte nuestra Política de privacidad y este artículo del centro de ayuda.
¿Qué es ChatGPT y cómo funciona?
ChatGPT es un servicio basado en inteligencia artificial al que puede acceder a través de Internet. ChatGPT puede utilizarse para varias tareas, como organizar o resumir información, ayudar con traducciones, analizar o generar una imagen, motivar la creatividad e inspirar ideas, y asistir con tareas cotidianas. ChatGPT ha sido desarrollado para que pueda entender y responder a las preguntas e instrucciones de los usuarios. Esto lo hace revisando una gran cantidad de información existente (como texto, imágenes, audio o video) y aprendiendo de las relaciones que se dan dentro de esa información. Por ejemplo, el modelo aprende cómo suelen aparecer las palabras en contexto con otras palabras. A continuación, utiliza lo aprendido para predecir la siguiente palabra que, con mayor probabilidad, podría aparecer en respuesta a una petición del usuario, y cada palabra posterior a esta. Estos modelos también pueden aprender a generar otros tipos de información, como imágenes, aprendiendo cómo los píxeles que las conforman en los datos de entrenamiento se relacionan entre sí y con las leyendas que describen esas imágenes.
Por ejemplo, durante el proceso de aprendizaje del modelo (llamado el "entrenamiento"), podríamos hacer que un modelo intentara completar la frase "en lugar de girar a la izquierda, giró ___". Antes del entrenamiento, el modelo respondería con palabras aleatorias, pero a medida que lee y aprende de muchas líneas de texto, entiende mejor este tipo de frase y puede predecir la siguiente palabra con mayor precisión. Después repite este proceso con un gran número de frases.
Como hay muchas posibles palabras que podrían continuar esta frase (por ejemplo, en lugar de girar a la izquierda, giró "a la derecha", "completamente" o "hacia atrás"), hay un elemento de aleatoriedad en la forma en que un modelo puede responder y en muchos casos nuestros modelos responderán a la misma pregunta de diferentes maneras.
Los modelos de aprendizaje automático (machine learning) se componen de grandes cadenas de números, llamados "pesos" (weights) o "parámetros", y de código que interpreta y ejecuta esos números. Los modelos no contienen ni almacenan copias de la información de la que aprenden. En cambio, a medida que un modelo aprende, algunos de los números que componen el modelo cambian ligeramente para reflejar lo que ha aprendido. En el ejemplo anterior, el modelo revisó información que le ayudó a pasar de predecir palabras incorrectas al azar a predecir palabras más precisas, pero lo único que en realidad ocurrió en el propio modelo fue que los números cambiaron ligeramente. El modelo no almacenó ni copió las frases, imágenes o audios que revisó.
¿Qué tipo de información se utiliza para enseñar a ChatGPT?
Como se ha indicado arriba, ChatGPT y nuestros otros servicios se desarrollan utilizando (1) información disponible públicamente en Internet, (2) información a la cual tenemos acceso por medio de terceros con quienes nos asociamos y (3) información que proporcionan o generan nuestros usuarios o entrenadores e investigadores humanos. Este artículo se centra en el primer grupo: la información disponible públicamente en Internet.
Para este grupo de información, solo utilizamos la información pública que es gratuita y está abiertamente disponible en Internet - por ejemplo, no buscamos información que sabemos que está detrás de paywalls (muros de pago) o en la "dark web" (internet oscura). Aplicamos filtros y eliminamos la información de la que no queremos que nuestros modelos aprendan o produzcan resultados, como discursos de odio, contenido para adultos, páginas web que principalmente agregan información personal y spam. Tras ello, utilizamos la información para enseñar a nuestros modelos.
Como se ha mencionado en la sección anterior, ChatGPT no copia ni almacena información de entrenamiento en una base de datos. En su lugar, aprende sobre las asociaciones entre palabras y conceptos, y esos aprendizajes ayudan al modelo a actualizar sus números/pesos. A continuación, el modelo utiliza esos pesos para predecir y generar nuevo contenido en respuesta a la petición de un usuario. No “copia y pega” información de entrenamiento; es similar a un docente que aprendió a partir de mucho estudio previo y puede explicar las cosas porque ha comprendido las relaciones entre los conceptos, pero no almacena copias de los materiales en su cabeza.
¿Se utiliza información personal para enseñar a ChatGPT?
Una gran cantidad de datos en Internet se refieren a personas, por lo que nuestra información de entrenamiento incluye incidentalmente información personal. No buscamos proactivamente información personal para entrenar a nuestros modelos.
Utilizamos información de entrenamiento solo para enseñarles a nuestros modelos inteligencia, como la habilidad de predecir, razonar y resolver problemas. No utilizamos ni utilizaremos ninguna información personal incluida en la información de entrenamiento para elaborar perfiles de personas, ponernos en contacto con ellas, hacerles publicidad, intentar venderles nada ni vender la propia información.
Nuestros modelos pueden aprender de la información personal para comprender cómo encajan elementos como nombres y direcciones en el lenguaje y las frases, o para aprender sobre personas famosas y personajes públicos. Esto hace que nuestros modelos sean mejores a la hora de ofrecer respuestas pertinentes.
También tomamos medidas para reducir el tratamiento de información personal al entrenar nuestros modelos. Por ejemplo, eliminamos los sitios web que agrupan grandes volúmenes de información personal y entrenamos a nuestros modelos para que rechacen las solicitudes de información privada o sensible sobre las personas.
¿Cómo cumple el desarrollo de ChatGPT la legislación sobre privacidad?
Utilizamos la información de entrenamiento de forma lícita. Nuestros modelos fundacionales tienen muchas aplicaciones que proporcionan importantes beneficios y ya están ayudando a la gente a crear contenido, mejorar la atención al cliente, desarrollar software, personalizar la educación, apoyar la investigación científica y mucho más. Estos beneficios no pueden alcanzarse sin una gran cantidad de información para enseñar a los modelos. Además, nuestro uso de la información de entrenamiento no pretende afectar negativamente a las personas, y las fuentes principales de esta información de entrenamiento ya están disponibles al público. Por estas razones, basamos nuestra obtención y uso de la información personal que se incluye en la información de entrenamiento en intereses legítimos de acuerdo con leyes de privacidad como el RGPD, como se explica en detalle en nuestra Política de privacidad. También hemos llevado a cabo una evaluación de impacto de protección de datos para ayudar a garantizar que estamos recabando y utilizando esta información de manera legal y responsable.
Respondemos a solicitudes de oposición y derechos similares. Como resultado del aprendizaje del lenguaje, las respuestas de ChatGPT a veces pueden incluir información personal sobre individuos cuya información personal aparece en múltiples ocasiones en la Internet pública (por ejemplo, figuras o personajes públicos). En determinadas jurisdicciones, los interesados pueden oponerse al procesamiento de su información personal por parte de nuestros modelos o hacer otras solicitudes de derechos del titular de los datos a través de nuestro Centro de Privacidad. También podrá ejercer estos derechos dirigiéndose a dsar@openai.com.
Tenga en cuenta que, de conformidad con la legislación sobre privacidad, algunos derechos pueden no ser absolutos. Podremos rechazar una solicitud si tenemos un motivo legal para hacerlo. No obstante, nos esforzamos por dar prioridad a la protección de la información personal y cumplir todas las leyes de privacidad aplicables. Si considera que no hemos abordado adecuadamente un problema, tiene derecho a presentar una reclamación ante su autoridad supervisora local.
Para más información sobre las prácticas de OpenAI en relación con la información personal que recabamos de o sobre usted al utilizar nuestro sitio web, aplicaciones y servicios, acuda a nuestra Política de privacidad.