Saiba mais sobre como desenvolvemos os nossos modelos e os aplicamos em produtos como o ChatGPT

Nota: A retenção de dados para determinados serviços pode ser afetada por desenvolvimentos jurídicos recentes — consulte a nossa publicação no blogue para obter mais detalhes.

Os modelos de base da OpenAI, incluindo os modelos que suportam o ChatGPT, são desenvolvidos utilizando três fontes principais de informação: (1) informações disponíveis publicamente na internet, (2) informações a que acedemos em parceria com terceiros e (3) informações que os nossos utilizadores, formadores humanos e investigadores fornecem ou geram.

Este artigo apresenta uma visão geral das informações disponíveis publicamente que utilizamos para ajudar a desenvolver estes modelos e da forma como recolhemos e utilizamos essas informações em conformidade com as leis de privacidade. Para compreender como recolhemos e utilizamos informações dos utilizadores dos nossos serviços, incluindo como optar por não permitir que as conversas do ChatGPT sejam utilizadas para ajudar a treinar os nossos modelos, consulte a nossa Política de Privacidade e este artigo do centro de ajuda.

O que é o ChatGPT e como funciona?

O ChatGPT é um serviço baseado em inteligência artificial ao qual pode aceder através da internet. Pode utilizar o ChatGPT para uma grande variedade de tarefas, incluindo organizar e resumir informações, ajudar com traduções, analisar ou gerar imagens, inspirar criatividade e ideias, e outras atividades do dia a dia. O ChatGPT foi concebido para compreender e responder a perguntas e instruções dos utilizadores, aprendendo padrões a partir de grandes quantidades de informação, incluindo texto, imagens, áudio e vídeo. Durante o treino, o modelo analisa relações nesses dados — por exemplo, a forma como as palavras costumam aparecer juntas em contexto — e utiliza essa compreensão para prever a palavra seguinte mais provável ao gerar uma resposta, uma palavra de cada vez. Da mesma forma, os modelos que geram outras formas de conteúdo, como imagens, aprendem padrões sobre a forma como os píxeis se relacionam entre si e com as legendas associadas nos dados de treino.

Por exemplo, durante o processo de aprendizagem do modelo (conhecido como «treino»), pode ser pedido ao modelo que complete uma frase como: «Em vez de virar à esquerda, ela virou ___.» No início do treino, as suas respostas são em grande medida aleatórias. No entanto, à medida que o modelo processa e aprende a partir de um grande volume de texto, torna-se melhor a reconhecer padrões e a prever a palavra seguinte mais provável. Este processo é repetido em milhões de frases para aperfeiçoar a sua compreensão e melhorar a sua precisão.

Como existem várias formas plausíveis de completar uma frase — como «Em vez de virar à esquerda, ela virou à direita», «para trás» ou «deu a volta» — há um elemento inerente de aleatoriedade na forma como o modelo responde. Como resultado, a mesma pergunta pode gerar respostas diferentes em consultas diferentes.

Os modelos de aprendizagem automática consistem em grandes conjuntos de números, conhecidos como «pesos» ou «parâmetros», juntamente com código que interpreta e utiliza esses números. Estes modelos não armazenam nem retêm cópias dos dados com que são treinados. Em vez disso, à medida que um modelo aprende, os valores dos seus parâmetros são ligeiramente ajustados para refletir padrões que identificou. No exemplo anterior, o modelo melhorou, passando de prever palavras aleatórias para fazer previsões mais precisas — não por armazenar as frases de treino, mas por atualizar os seus parâmetros internos. O modelo não retém cópias das frases, imagens ou áudio que processa durante o treino. O ChatGPT não «copia e cola» a partir dos seus dados de treino — de forma semelhante a um professor que, após um estudo aprofundado, consegue explicar conceitos compreendendo as relações entre ideias, sem memorizar nem reproduzir literalmente os materiais originais. Ao gerar uma resposta a um pedido de um utilizador, o modelo utiliza estes pesos aprendidos para prever e criar novo conteúdo.

Que tipo de informação pública é utilizado para treinar o ChatGPT?

No caso de conteúdos da internet disponíveis publicamente, utilizamos apenas informações que estejam acessíveis na internet de forma livre e aberta. Não recolhemos intencionalmente dados de fontes conhecidas por estarem atrás de paywalls nem da dark web. Além disso, aplicamos filtros para remover material a partir do qual não queremos que os nossos modelos aprendam, como discurso de ódio, conteúdo para adultos, sites que agregam informações pessoais e spam. As informações restantes são então utilizadas para treinar os nossos modelos.

São utilizadas informações pessoais para treinar o ChatGPT?

Uma parte significativa dos conteúdos online envolve informações sobre pessoas, pelo que os nossos dados de treino podem incluir incidentalmente informações pessoais. No entanto, não recolhemos intencionalmente informações pessoais com a finalidade de treinar os nossos modelos.

Utilizamos dados de treino para desenvolver as capacidades do modelo — como previsão, raciocínio e resolução de problemas — e não para criar perfis de utilizadores, contactar indivíduos ou como parte dos nossos esforços de publicidade ou marketing.

Em alguns casos, os modelos podem aprender a partir de informações pessoais para compreender como elementos como nomes e moradas funcionam na linguagem, ou para reconhecer figuras públicas e entidades conhecidas. Isto ajuda o modelo a gerar respostas mais precisas e adequadas ao contexto.

Tomamos medidas ativas para limitar o tratamento de informações pessoais durante o treino. Por exemplo, excluímos fontes que agregam grandes quantidades de dados pessoais e treinamos os nossos modelos para evitar responder a pedidos de informações privadas ou sensíveis sobre indivíduos.

Como é que o desenvolvimento do ChatGPT cumpre as leis de privacidade?

Utilizamos informações de treino de forma lícita. Os nossos modelos de base suportam uma vasta gama de aplicações benéficas — desde a criação de conteúdos e o apoio ao cliente até ao desenvolvimento de software, à educação personalizada e à investigação científica. Estas capacidades dependem de dados de treino em larga escala. As informações utilizadas para treinar os nossos modelos estão disponíveis publicamente e não se destinam a causar danos a indivíduos. Baseamos a nossa recolha e utilização de informações pessoais incluídas em informações de treino em interesses legítimos ao abrigo de leis de privacidade como o RGPD, conforme explicado em mais detalhe na nossa Política de Privacidade. Concluímos uma avaliação de impacto sobre a proteção de dados para ajudar a garantir que recolhemos e utilizamos estas informações de forma legal e responsável.

Respondemos a pedidos de oposição e a direitos semelhantes. Como resultado da aprendizagem da linguagem, as respostas do ChatGPT podem, por vezes, incluir informações pessoais sobre indivíduos cujas informações pessoais aparecem várias vezes na internet pública (por exemplo, figuras públicas). Indivíduos em determinadas jurisdições podem opor-se ao tratamento das suas informações pessoais pelos nossos modelos ou apresentar outros pedidos relativos a direitos dos titulares dos dados através do nosso Portal de Privacidade. Também pode exercer estes direitos contactando dsar@openai.com.

Tenha em atenção que, de acordo com as leis de privacidade, alguns direitos podem não ser absolutos. Podemos recusar um pedido se tivermos um motivo lícito para o fazer. No entanto, esforçamo-nos por dar prioridade à proteção das informações pessoais e por cumprir todas as leis de privacidade aplicáveis. Se considerar que não abordámos adequadamente uma questão, tem o direito de apresentar uma reclamação junto da sua autoridade de controlo local.

Para obter mais informações sobre as práticas da OpenAI relativamente às informações pessoais que recolhemos de si ou sobre si quando utiliza o nosso website, aplicações e serviços, consulte a nossa Política de Privacidade.

Como o ChatGPT e os nossos modelos fundacionais são desenvolvidos

O que é o ChatGPT e como funciona?

Que tipo de informação pública é utilizado para treinar o ChatGPT?

São utilizadas informações pessoais para treinar o ChatGPT?

Como é que o desenvolvimento do ChatGPT cumpre as leis de privacidade?

Este artigo foi útil?