| Nota : la conservación de datos de ciertos servicios puede verse afectada por novedades legales recientes; consulta nuestra publicación del blog para obtener más detalles. |
|---|
Los modelos fundacionales de OpenAI, incluidos los modelos que impulsan ChatGPT, se desarrollan utilizando tres fuentes principales de información: (1) información disponible públicamente en internet, (2) información a la que accedemos en colaboración con terceros, y (3) información que nuestros usuarios, formadores humanos e investigadores proporcionan o generan.
Este artículo ofrece una descripción general de la información disponible públicamente que utilizamos para ayudar a desarrollar estos modelos y de cómo recopilamos y usamos esa información de conformidad con las leyes de privacidad. Para entender cómo recopilamos y usamos información de los usuarios de nuestros servicios, incluido cómo excluir las conversaciones de ChatGPT para que no se utilicen para ayudar a enseñar a nuestros modelos, consulta nuestra Política de privacidad y este artículo del centro de ayuda.
¿Qué es ChatGPT y cómo funciona?
ChatGPT es un servicio basado en inteligencia artificial al que puedes acceder a través de internet. Puedes usar ChatGPT para una amplia variedad de tareas, como organizar y resumir información, ayudar con traducciones, analizar o generar imágenes, inspirar la creatividad y las ideas, y otras actividades cotidianas. ChatGPT está diseñado para comprender y responder a las preguntas e instrucciones de los usuarios aprendiendo patrones a partir de grandes cantidades de información, incluidos texto, imágenes, audio y vídeo. Durante el entrenamiento, el modelo analiza las relaciones dentro de estos datos —por ejemplo, cómo suelen aparecer juntas las palabras en contexto— y usa esa comprensión para predecir la siguiente palabra más probable al generar una respuesta, palabra por palabra. Del mismo modo, los modelos que generan otras formas de contenido, como imágenes, aprenden patrones sobre cómo se relacionan los píxeles entre sí y con los pies de foto asociados en los datos de entrenamiento.
Por ejemplo, durante el proceso de aprendizaje del modelo (conocido como «entrenamiento»), se podría pedir al modelo que completara una frase como: «En lugar de girar a la izquierda, ella giró ___». Al principio del entrenamiento, sus respuestas son en gran medida aleatorias. Sin embargo, a medida que el modelo procesa y aprende de un gran volumen de texto, mejora su capacidad para reconocer patrones y predecir la siguiente palabra más probable. Este proceso se repite en millones de frases para perfeccionar su comprensión y mejorar su precisión.
Como hay varias formas plausibles de completar una frase —por ejemplo, «En lugar de girar a la izquierda, ella giró a la derecha», «dio media vuelta» o «volvió atrás»—, existe un elemento inherente de aleatoriedad en la forma en que responde el modelo. Como resultado, la misma pregunta puede producir respuestas distintas en diferentes consultas.
Los modelos de aprendizaje automático constan de grandes conjuntos de números, conocidos como «pesos» o «parámetros», junto con código que interpreta y utiliza esos números. Estos modelos no almacenan ni conservan copias de los datos con los que se entrenan. En su lugar, a medida que un modelo aprende, los valores de sus parámetros se ajustan ligeramente para reflejar los patrones que ha identificado. En el ejemplo anterior, el modelo pasó de predecir palabras aleatorias a hacer predicciones más precisas, no almacenando las frases de entrenamiento, sino actualizando sus parámetros internos. El modelo no conserva copias de las frases, imágenes o audios que procesa durante el entrenamiento. ChatGPT no «copia y pega» de sus datos de entrenamiento, de forma similar a como un profesor, tras un estudio exhaustivo, puede explicar conceptos comprendiendo las relaciones entre ideas sin memorizar ni reproducir literalmente los materiales originales. Al generar una respuesta a una solicitud de un usuario, el modelo utiliza estos pesos aprendidos para predecir y crear contenido nuevo.
¿Qué tipo de información pública se utiliza para enseñar a ChatGPT?
En cuanto al contenido de internet disponible públicamente, utilizamos solo información que es accesible libre y abiertamente en internet. No recopilamos intencionadamente datos de fuentes que sepamos que están detrás de muros de pago ni de la dark web. Además, aplicamos filtros para eliminar material del que no queremos que aprendan nuestros modelos, como discursos de odio, contenido para adultos, sitios que agregan información personal y spam. La información restante se utiliza entonces para entrenar nuestros modelos.
¿Se utiliza información personal para enseñar a ChatGPT?
Una parte significativa del contenido en línea implica información sobre personas, por lo que nuestros datos de entrenamiento pueden incluir incidentalmente información personal. Sin embargo, no recopilamos intencionadamente información personal con el fin de entrenar nuestros modelos.
Utilizamos datos de entrenamiento para desarrollar las capacidades del modelo —como la predicción, el razonamiento y la resolución de problemas—, no para crear perfiles de usuario, contactar con personas ni como parte de nuestras iniciativas publicitarias o de marketing.
En algunos casos, los modelos pueden aprender de información personal para comprender cómo funcionan en el lenguaje elementos como nombres y direcciones, o para reconocer figuras públicas y entidades conocidas. Esto ayuda al modelo a generar respuestas más precisas y adecuadas al contexto.
Tomamos medidas activas para limitar el tratamiento de información personal durante el entrenamiento. Por ejemplo, excluimos fuentes que agregan grandes cantidades de datos personales y entrenamos nuestros modelos para que eviten responder a solicitudes de información privada o sensible sobre personas.
¿Cómo cumple el desarrollo de ChatGPT las leyes de privacidad?
Utilizamos información de entrenamiento de forma lícita. Nuestros modelos fundacionales impulsan una amplia variedad de aplicaciones beneficiosas, desde la creación de contenido y la atención al cliente hasta el desarrollo de software, la educación personalizada y la investigación científica. Estas capacidades dependen de datos de entrenamiento a gran escala. La información utilizada para entrenar nuestros modelos está disponible públicamente y no tiene como objetivo causar daño a las personas. Basamos nuestra recopilación y uso de la información personal incluida en la información de entrenamiento en intereses legítimos conforme a leyes de privacidad como el RGPD, tal como se explica con más detalle en nuestra Política de privacidad. Hemos completado una evaluación de impacto relativa a la protección de datos para ayudar a garantizar que recopilamos y utilizamos esta información de forma legal y responsable.
Respondemos a las solicitudes de oposición y a derechos similares. Como resultado del aprendizaje del lenguaje, las respuestas de ChatGPT pueden incluir a veces información personal sobre personas cuya información personal aparece varias veces en el internet público (por ejemplo, figuras públicas). Las personas de determinadas jurisdicciones pueden oponerse al tratamiento de su información personal por parte de nuestros modelos o presentar otras solicitudes relativas a los derechos de los interesados a través de nuestro Portal de privacidad. También puedes ejercer estos derechos poniéndote en contacto con dsar@openai.com.
Ten en cuenta que, de conformidad con las leyes de privacidad, algunos derechos pueden no ser absolutos. Podemos rechazar una solicitud si tenemos una razón lícita para hacerlo. No obstante, nos esforzamos por priorizar la protección de la información personal y cumplimos todas las leyes de privacidad aplicables. Si consideras que no hemos abordado adecuadamente un problema, tienes derecho a presentar una reclamación ante tu autoridad de control local.
Para obtener más información sobre las prácticas de OpenAI con respecto a la información personal que recopilamos de ti o sobre ti cuando utilizas nuestro sitio web, aplicaciones y servicios, consulta nuestra Política de privacidad.
