OpenAI

Cómo se desarrollan ChatGPT y nuestros modelos fundamentales

Descubre más sobre cómo desarrollamos nuestros modelos y los aplicamos en productos como ChatGPT.

Última actualización: 3 days ago
Nota
: La retención de datos en ciertos servicios puede verse afectada por recientes desarrollos legales; por favor, consulta nuestra

entrada del blog
para obtener más información.

Los modelos fundacionales de OpenAI, incluidos los modelos que impulsan ChatGPT, se desarrollan utilizando tres fuentes principales de información: (1) información disponible públicamente en internet, (2) información a la que accedemos en colaboración con terceros, y (3) información que nuestros usuarios, entrenadores humanos e investigadores proporcionan o generan.

Este artículo ofrece un resumen de la información disponible públicamente que usamos para desarrollar estos modelos y cómo recopilamos y utilizamos esa información en conformidad con las leyes de privacidad. Para entender cómo recopilamos y utilizamos la información de los usuarios de nuestros servicios, incluyendo cómo optar por no usar las conversaciones de ChatGPT para ayudar a entrenar nuestros modelos, por favor consulta nuestra Política de privacidad y este artículo del centro de ayuda.

¿Qué es ChatGPT y cómo funciona?

ChatGPT es un servicio basado en inteligencia artificial al que puedes acceder a través de internet. Puedes usar ChatGPT para una amplia gama de tareas, como organizar y resumir información, ayudar con traducciones, analizar o generar imágenes, inspirar creatividad e ideas, y otras actividades cotidianas. ChatGPT está diseñado para comprender y responder a las preguntas e instrucciones de los usuarios aprendiendo patrones a partir de grandes cantidades de información, incluyendo texto, imágenes, audio y video. Durante el entrenamiento, el modelo analiza las relaciones dentro de estos datos, como la forma en que las palabras suelen aparecer juntas en contexto, y utiliza ese entendimiento para predecir la siguiente palabra más probable al generar una respuesta, una palabra a la vez. De manera similar, los modelos que generan otras formas de contenido, como imágenes, aprenden patrones sobre cómo los píxeles se relacionan entre sí y con los subtítulos asociados en los datos de entrenamiento.

Por ejemplo, durante el proceso de aprendizaje del modelo (conocido como "entrenamiento"), el modelo podría tener la tarea de completar una oración como: "En lugar de girar a la izquierda, ella giró ___." Al inicio del entrenamiento, sus respuestas son mayormente aleatorias. Sin embargo, a medida que el modelo procesa y aprende de un gran volumen de texto, mejora en reconocer patrones y predecir la palabra siguiente más probable. Este proceso se repite en millones de oraciones para refinar su comprensión y mejorar su exactitud.

Debido a que hay múltiples formas plausibles de completar una oración, como "En lugar de girar a la izquierda, giró a la derecha", "alrededor" o "atrás", hay un elemento inherente de aleatoriedad en cómo responde el modelo. Como resultado, la misma pregunta puede dar respuestas diferentes en distintas consultas.

Los modelos de aprendizaje automático consisten en grandes conjuntos de números, conocidos como "pesos" o "parámetros", junto con el código que interpreta y utiliza esos números. Estos modelos no almacenan ni retienen copias de los datos con los que se entrenan. En lugar de eso, a medida que un modelo aprende, los valores de sus parámetros se ajustan ligeramente para reflejar los patrones que ha identificado. En el ejemplo anterior, el modelo mejoró de predecir palabras al azar a hacer predicciones más precisas, no al almacenar las oraciones de entrenamiento, sino al actualizar sus parámetros internos. El modelo no retiene copias de las oraciones, imágenes o audios que procesa durante el entrenamiento. ChatGPT no “copia y pega” de sus datos de entrenamiento, al igual que un profesor, después de estudiar mucho, puede explicar conceptos al comprender las relaciones entre las ideas sin memorizar ni reproducir los materiales originales de manera literal. Al generar una respuesta a una solicitud de usuario, el modelo utiliza estos pesos aprendidos para predecir y crear contenido nuevo.

¿Qué tipo de información pública se usa para enseñar a ChatGPT?

Para el contenido de internet disponible públicamente, solo usamos información que es libre y abiertamente accesible en internet. No recopilamos intencionalmente datos de fuentes que sabemos están detrás de muros de pago o de la web oscura. Además, aplicamos filtros para eliminar material del que no queremos que nuestros modelos aprendan, como discursos de odio, contenido para adultos, sitios que recopilan información personal y spam. La información restante se utiliza para entrenar nuestros modelos.

¿Se usa información personal para entrenar a ChatGPT?

Una parte significativa del contenido en línea incluye información sobre personas, por lo que nuestros datos de entrenamiento pueden incluir información personal de manera incidental. Sin embargo, no recopilamos intencionalmente información personal con el propósito de el entrenamiento de nuestros modelos.

Usamos datos de entrenamiento para desarrollar las capacidades del modelo, como la predicción, el razonamiento y la resolución de problemas. No los usamos para crear perfiles de usuarios, contactar a personas ni como parte de nuestras campañas publicitarias o de marketing.

En algunos casos, los modelos pueden aprender de información personal para comprender cómo funcionan elementos como nombres y direcciones en el idioma, o para identificar figuras públicas y entidades conocidas. Esto ayuda al modelo a generar respuestas más precisas y adecuadas al contexto.

Tomamos medidas activas para limitar el procesamiento de información personal durante el entrenamiento. Por ejemplo, excluimos fuentes que recopilan grandes cantidades de datos personales y entrenamos a nuestros modelos para evitar responder a solicitudes de información privada o sensible sobre personas.

¿Cómo se asegura el desarrollo de ChatGPT de cumplir con las leyes de privacidad?

Usamos la información de entrenamiento de manera legal. Nuestros modelos fundacionales impulsan una amplia gama de aplicaciones beneficiosas, desde la creación de contenido y el soporte al cliente hasta el desarrollo de software, la educación personalizada y la investigación científica. Estas capacidades dependen de datos de entrenamiento a gran escala. La información utilizada para entrenar nuestros modelos es de acceso público y no tiene la intención de causar daño a las personas. Basamos nuestra recopilación y uso de información personal incluida en la información de entrenamiento en intereses legítimos según las leyes de privacidad como el RGPD, tal como se explica con más detalle en nuestra Política de privacidad. Hemos completado una evaluación de impacto sobre la protección de datos para garantizar que recabamos y utilizamos esta información de manera legal y responsable.

Respondemos a las solicitudes de oposición y a derechos similares. Como resultado del aprendizaje del lenguaje, las respuestas de ChatGPT a veces pueden incluir información personal sobre personas cuya información personal aparece repetidamente en internet (por ejemplo, figuras públicas). En ciertas jurisdicciones, las personas pueden oponerse al procesamiento de su información personal por nuestros modelos o realizar otras solicitudes de derechos del titular de los datos a través de nuestro Portal de privacidad. También puedes ejercer estos derechos contactando a dsar@openai.com.

Ten en cuenta que, de acuerdo con las leyes de privacidad, algunos derechos pueden no ser absolutos. Podemos rechazar una solicitud si tenemos un Analizar legal para hacerlo. Sin embargo, nos esforzamos por priorizar la protección de la información personal y cumplir con todas las leyes de privacidad aplicables. Si sientes que no hemos abordado adecuadamente un problema, tienes derecho a presentar una queja ante tu autoridad supervisora local.

Para más información sobre las prácticas de OpenAI con respecto a la información personal que recopilamos de ti o sobre ti al usar nuestro sitio web, aplicaciones y servicios, consulta nuestra Política de privacidad.

¿Este artículo te fue útil?