Más información sobre cómo desarrollamos nuestros modelos y los aplicamos en productos como ChatGPT

Nota: la conservación de datos de determinados servicios puede verse afectada por novedades legales recientes; consulta nuestra entrada del blog para obtener más detalles.

Los modelos base de OpenAI, incluidos los modelos que impulsan ChatGPT, se desarrollan usando tres fuentes principales de información: (1) información disponible públicamente en internet, (2) información a la que accedemos en colaboración con terceros y (3) información que proporcionan o generan nuestros usuarios, formadores humanos e investigadores.

Este artículo ofrece una visión general de la información disponible públicamente que usamos para ayudar a desarrollar estos modelos y de cómo recopilamos y usamos esa información de conformidad con las leyes de privacidad. Para entender cómo recopilamos y usamos información de los usuarios de nuestros servicios, incluida la forma de oponerte a que se usen conversaciones de ChatGPT para ayudar a enseñar a nuestros modelos, consulta nuestra Política de privacidad y este artículo del centro de ayuda.

¿Qué es ChatGPT y cómo funciona?

ChatGPT es un servicio basado en inteligencia artificial al que puedes acceder a través de internet. Puedes usar ChatGPT para una amplia variedad de tareas, como organizar y resumir información, ayudar con traducciones, analizar o generar imágenes, inspirar creatividad e ideas, y otras actividades cotidianas. ChatGPT está diseñado para comprender y responder a las preguntas e instrucciones de los usuarios aprendiendo patrones a partir de grandes cantidades de información, incluidos texto, imágenes, audio y vídeo. Durante el entrenamiento, el modelo analiza las relaciones dentro de estos datos —por ejemplo, cómo suelen aparecer juntas las palabras en contexto— y usa esa comprensión para predecir la siguiente palabra más probable al generar una respuesta, palabra por palabra. De forma similar, los modelos que generan otros tipos de contenido, como imágenes, aprenden patrones sobre cómo se relacionan los píxeles entre sí y con los pies de foto asociados en los datos de entrenamiento.

Por ejemplo, durante el proceso de aprendizaje del modelo (conocido como «entrenamiento»), se podría pedir al modelo que completara una frase como: «En lugar de girar a la izquierda, ella giró ___». Al principio del entrenamiento, sus respuestas son en gran medida aleatorias. Sin embargo, a medida que el modelo procesa y aprende de un gran volumen de texto, mejora su capacidad para reconocer patrones y predecir la siguiente palabra más probable. Este proceso se repite en millones de frases para perfeccionar su comprensión y mejorar su precisión.

Como hay varias formas plausibles de completar una frase —por ejemplo, «En lugar de girar a la izquierda, ella giró a la derecha», «se dio la vuelta» o «volvió»—, existe un elemento inherente de aleatoriedad en la forma en que responde el modelo. Como resultado, la misma pregunta puede producir respuestas diferentes en distintas consultas.

Los modelos de aprendizaje automático consisten en grandes conjuntos de números, conocidos como «pesos» o «parámetros», junto con código que interpreta y utiliza esos números. Estos modelos no almacenan ni conservan copias de los datos con los que se entrenan. En cambio, a medida que un modelo aprende, los valores de sus parámetros se ajustan ligeramente para reflejar los patrones que ha identificado. En el ejemplo anterior, el modelo pasó de predecir palabras aleatorias a hacer predicciones más precisas, no almacenando las frases de entrenamiento, sino actualizando sus parámetros internos. El modelo no conserva copias de las frases, imágenes o audio que procesa durante el entrenamiento. ChatGPT no «copia y pega» de sus datos de entrenamiento, de forma similar a como un profesor, tras estudiar ampliamente, puede explicar conceptos entendiendo las relaciones entre ideas sin memorizar ni reproducir literalmente los materiales originales. Al generar una respuesta a una solicitud de un usuario, el modelo usa estos pesos aprendidos para predecir y crear contenido nuevo.

¿Qué tipo de información pública se usa para enseñar a ChatGPT?

En el caso del contenido de internet disponible públicamente, usamos solo información a la que se puede acceder libre y abiertamente en internet. No recopilamos intencionadamente datos de fuentes que se sabe que están tras muros de pago ni de la web oscura. Además, aplicamos filtros para eliminar material del que no queremos que aprendan nuestros modelos, como discursos de odio, contenido para adultos, sitios que agregan información personal y spam. La información restante se usa después para entrenar nuestros modelos.

¿Se usa información personal para enseñar a ChatGPT?

Una parte significativa del contenido en línea incluye información sobre personas, por lo que nuestros datos de entrenamiento pueden incluir incidentalmente información personal. Sin embargo, no recopilamos intencionadamente información personal con el fin de entrenar nuestros modelos.

Usamos datos de entrenamiento para desarrollar las capacidades del modelo, como la predicción, el razonamiento y la resolución de problemas, no para crear perfiles de usuarios, contactar con personas ni como parte de nuestras actividades de publicidad o marketing.

En algunos casos, los modelos pueden aprender de información personal para comprender cómo funcionan en el lenguaje elementos como nombres y direcciones, o para reconocer figuras públicas y entidades conocidas. Esto ayuda al modelo a generar respuestas más precisas y adecuadas al contexto.

Tomamos medidas activas para limitar el tratamiento de información personal durante el entrenamiento. Por ejemplo, excluimos fuentes que agregan grandes cantidades de datos personales y entrenamos nuestros modelos para que eviten responder a solicitudes de información privada o sensible sobre personas.

¿Cómo cumple el desarrollo de ChatGPT las leyes de privacidad?

Usamos la información de entrenamiento de forma lícita. Nuestros modelos base impulsan una amplia variedad de aplicaciones beneficiosas, desde la creación de contenido y la atención al cliente hasta el desarrollo de software, la educación personalizada y la investigación científica. Estas capacidades dependen de datos de entrenamiento a gran escala. La información utilizada para entrenar nuestros modelos está disponible públicamente y no tiene por objeto causar daño a las personas. Basamos nuestra recopilación y uso de información personal incluida en la información de entrenamiento en intereses legítimos conforme a leyes de privacidad como el RGPD, tal como se explica con más detalle en nuestra Política de privacidad. Hemos completado una evaluación de impacto relativa a la protección de datos para ayudar a garantizar que recopilamos y usamos esta información de forma legal y responsable.

Respondemos a solicitudes de oposición y derechos similares. Como resultado del aprendizaje del lenguaje, las respuestas de ChatGPT pueden incluir a veces información personal sobre personas cuya información personal aparece varias veces en internet público (por ejemplo, figuras públicas). Las personas de determinadas jurisdicciones pueden oponerse al tratamiento de su información personal por parte de nuestros modelos o ejercer otros derechos de los interesados a través de nuestro Portal de privacidad. También puedes ejercer estos derechos poniéndote en contacto con dsar@openai.com.

Ten en cuenta que, de conformidad con las leyes de privacidad, algunos derechos pueden no ser absolutos. Podemos rechazar una solicitud si tenemos un motivo lícito para hacerlo. No obstante, nos esforzamos por dar prioridad a la protección de la información personal y cumplir todas las leyes de privacidad aplicables. Si consideras que no hemos abordado adecuadamente un problema, tienes derecho a presentar una reclamación ante tu autoridad de control local.

Para obtener más información sobre las prácticas de OpenAI con respecto a la información personal que recopilamos de ti o sobre ti cuando usas nuestro sitio web, aplicaciones y servicios, consulta nuestra Política de privacidad.

Cómo se desarrollan ChatGPT y nuestros modelos fundacionales

¿Qué es ChatGPT y cómo funciona?

¿Qué tipo de información pública se usa para enseñar a ChatGPT?

¿Se usa información personal para enseñar a ChatGPT?

¿Cómo cumple el desarrollo de ChatGPT las leyes de privacidad?

¿Te ha resultado útil este artículo?