Nota: La retención de datos en ciertos servicios puede verse afectada por recientes desarrollos legales; consulta nuestra entrada del blog para obtener más información.
Los modelos fundamentales de OpenAI, incluidos los modelos que alimentan ChatGPT, se desarrollan utilizando tres fuentes principales de información: (1) información disponible públicamente en internet, (2) información a la que accedemos mediante colaboraciones con terceros y (3) información que nuestros usuarios, formadores humanos e investigadores proporcionan o generan.
Este artículo proporciona una descripción general de la información disponible públicamente que usamos para ayudar a desarrollar estos modelos y de cómo recopilamos y usamos esa información en cumplimiento de las leyes de privacidad. Para comprender cómo recopilamos y usamos la información de los usuarios de nuestros servicios, incluida la forma de excluirte del uso de las conversaciones de ChatGPT para ayudar a entrenar nuestros modelos, consulta nuestra Política de privacidad y este artículo del Centro de ayuda.
¿Qué es ChatGPT y cómo funciona?
ChatGPT es un servicio basado en inteligencia artificial al que puedes acceder por internet. Puedes usar ChatGPT para una amplia gama de tareas, como organizar y resumir información, ayudar con traducciones, analizar o generar imágenes, inspirar creatividad e ideas, y otras actividades cotidianas. ChatGPT está diseñado para comprender y responder preguntas e instrucciones de los usuarios mediante el aprendizaje de patrones a partir de grandes cantidades de información, incluidos texto, imágenes, audio y video. Durante el entrenamiento, el modelo analiza las relaciones dentro de estos datos, como cómo las palabras suelen aparecer juntas en contexto, y utiliza esa comprensión para predecir la siguiente palabra más probable al generar una respuesta, una palabra a la vez. De manera similar, los modelos que generan otras formas de contenido, como imágenes, aprenden patrones sobre cómo los píxeles se relacionan entre sí y con las descripciones asociadas en los datos de entrenamiento.
Por ejemplo, durante el proceso de aprendizaje del modelo (conocido como “entrenamiento”), se le podría pedir al modelo que complete una oración como: “En lugar de girar a la izquierda, ella giró a la ___.” Al principio del entrenamiento, sus respuestas son en gran medida aleatorias. Sin embargo, a medida que el modelo procesa y aprende de un gran volumen de texto, mejora su capacidad para reconocer patrones y predecir la siguiente palabra más probable. Este proceso se repite en millones de oraciones para perfeccionar su comprensión y mejorar su precisión.
Debido a que hay múltiples formas plausibles de completar una oración —como “en lugar de girar a la izquierda, ella giró a la derecha”, “dio la vuelta” o “volvió”—, existe un elemento inherente de aleatoriedad en la forma en que responde el modelo. Como resultado, la misma pregunta puede producir respuestas diferentes en distintas consultas.
Los modelos de aprendizaje automático consisten en grandes conjuntos de números, conocidos como "pesos" o "parámetros", junto con código que interpreta y utiliza esos números. Estos modelos no almacenan ni conservan copias de los datos con los que se entrenan. En cambio, a medida que un modelo aprende, los valores de sus parámetros se ajustan ligeramente para reflejar los patrones que ha identificado. En el ejemplo anterior, el modelo pasó de predecir palabras aleatorias a realizar predicciones más precisas, no almacenando las oraciones de entrenamiento, sino actualizando sus parámetros internos. El modelo no conserva copias de las oraciones, imágenes ni del audio que procesa durante el entrenamiento. ChatGPT no “copia y pega” contenido de sus datos de entrenamiento; del mismo modo que un docente, después de estudiar a fondo, puede explicar conceptos al comprender las relaciones entre ideas sin memorizar ni reproducir textualmente los materiales originales. Al generar una respuesta a la solicitud de un usuario, el modelo utiliza estos pesos aprendidos para predecir y crear nuevo contenido.
¿Qué tipo de información pública se usa para entrenar a ChatGPT?
En el caso del contenido de Internet disponible al público, usamos únicamente información que es accesible de forma libre y abierta en Internet. No recopilamos intencionalmente datos de fuentes que se sabe que están detrás de muros de pago o de la web oscura. Además, aplicamos filtros para eliminar material del que no queremos que aprendan nuestros modelos, como discurso de odio, contenido para adultos, sitios que agregan información personal y spam. Luego, la información restante se utiliza para entrenar nuestros modelos.
¿Se usa información personal para entrenar a ChatGPT?
Una parte significativa del contenido en línea incluye información sobre personas, por lo que nuestros datos de entrenamiento podrían incluir información personal de manera incidental. Sin embargo, no recopilamos intencionalmente información personal con el fin de entrenar nuestros modelos.
Usamos datos de entrenamiento para desarrollar las capacidades del modelo, como la predicción, el razonamiento y la resolución de problemas. No los usamos para crear perfiles de usuarios, contactar a personas ni como parte de nuestras campañas publicitarias o de marketing.
En algunos casos, los modelos pueden aprender a partir de información personal para comprender cómo funcionan en el lenguaje elementos como los nombres y las direcciones, o para reconocer figuras públicas y entidades conocidas. Esto ayuda al modelo a generar respuestas más precisas y contextualmente adecuadas.
Tomamos medidas activas para limitar el procesamiento de información personal durante el entrenamiento. Por ejemplo, excluimos las fuentes que recopilan grandes cantidades de datos personales y entrenamos nuestros modelos para evitar responder a solicitudes de información privada o confidencial sobre personas.
¿Cómo cumple el desarrollo de ChatGPT con las leyes de privacidad?
Usamos la información de entrenamiento de manera lícita. Nuestros modelos fundamentales impulsan una amplia gama de aplicaciones beneficiosas, desde la creación de contenido y la atención al cliente hasta el desarrollo de software, la educación personalizada y la investigación científica. Estas capacidades dependen de datos de entrenamiento a gran escala. La información utilizada para entrenar nuestros modelos está disponible públicamente y no tiene la intención de causar daño a las personas. Basamos nuestra recopilación y uso de la información personal incluida en los datos de entrenamiento en intereses legítimos conforme a leyes de privacidad como el RGPD, como se explica con más detalle en nuestra Política de privacidad. Hemos completado una evaluación de impacto en la protección de datos para garantizar que recopilamos y usamos esta información de manera legal y responsable.
Respondemos a solicitudes de objeción y derechos similares. Como resultado del aprendizaje del lenguaje, las respuestas de ChatGPT pueden incluir ocasionalmente información personal sobre personas cuya información aparece repetidamente en internet pública (por ejemplo, figuras públicas). En ciertas jurisdicciones, las personas pueden oponerse al tratamiento de su información personal por parte de nuestros modelos o presentar otras solicitudes relacionadas con sus derechos como titulares de datos a través de nuestro Portal de privacidad. También puedes ejercer estos derechos comunicándote con dsar@openai.com.
Ten en cuenta que, de conformidad con las leyes de privacidad, algunos derechos pueden no ser absolutos. Podemos rechazar una solicitud si tenemos una razón legal para hacerlo. Sin embargo, nos esforzamos por priorizar la protección de la información personal y por cumplir con todas las leyes de privacidad aplicables. Si consideras que no hemos atendido adecuadamente un problema, tienes derecho a presentar una queja ante la autoridad supervisora local.
Para obtener más información sobre las prácticas de OpenAI con respecto a la información personal que recopilamos de ti o sobre ti cuando usas nuestro sitio web, aplicaciones y servicios, consulta nuestra Política de privacidad.
