OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

Como o ChatGPT e os nossos modelos fundacionais são desenvolvidos

Saiba mais sobre como desenvolvemos os nossos modelos e os aplicamos em produtos como o ChatGPT

Atualizado: 2 days ago
Nota
: A conservação de dados de determinados serviços pode ser afetada por desenvolvimentos jurídicos recentes – consulte a nossa

publicação no blogue
para obter mais detalhes.

Os modelos de base da OpenAI, incluindo os modelos que suportam o ChatGPT, são desenvolvidos com recurso a três fontes principais de informação: (1) informação disponível publicamente na Internet, (2) informação a que acedemos em parceria com terceiros e (3) informação que os nossos utilizadores, formadores humanos e investigadores fornecem ou geram.

Este artigo apresenta uma visão geral da informação disponível publicamente que utilizamos para ajudar a desenvolver estes modelos e da forma como recolhemos e utilizamos essa informação em conformidade com a legislação em matéria de privacidade. Para compreender como recolhemos e utilizamos informações dos utilizadores dos nossos serviços, incluindo como optar por não permitir que as conversas do ChatGPT sejam utilizadas para ajudar a ensinar os nossos modelos, consulte a nossa Política de Privacidade e este artigo do centro de ajuda.

O que é o ChatGPT e como funciona?

O ChatGPT é um serviço baseado em inteligência artificial ao qual pode aceder através da Internet. Pode utilizar o ChatGPT para uma vasta gama de tarefas, incluindo organizar e resumir informações, ajudar com traduções, analisar ou gerar imagens, inspirar criatividade e ideias, e outras atividades do dia a dia. O ChatGPT foi concebido para compreender e responder a perguntas e instruções dos utilizadores, aprendendo padrões a partir de grandes volumes de informação, incluindo texto, imagens, áudio e vídeo. Durante o treino, o modelo analisa relações nestes dados — por exemplo, a forma como as palavras surgem normalmente juntas em contexto — e utiliza essa compreensão para prever a palavra mais provável a seguir ao gerar uma resposta, uma palavra de cada vez. De forma semelhante, os modelos que geram outras formas de conteúdo, como imagens, aprendem padrões na forma como os píxeis se relacionam entre si e com as legendas associadas nos dados de treino.

Por exemplo, durante o processo de aprendizagem do modelo (conhecido como «treino»), pode ser pedido ao modelo que complete uma frase como: «Em vez de virar à esquerda, ela virou ___.» No início do treino, as suas respostas são, em grande medida, aleatórias. No entanto, à medida que o modelo processa e aprende a partir de um grande volume de texto, torna-se melhor a reconhecer padrões e a prever a palavra seguinte mais provável. Este processo é repetido em milhões de frases para aperfeiçoar a sua compreensão e melhorar a sua precisão.

Uma vez que existem várias formas plausíveis de completar uma frase — como «Em vez de virar à esquerda, ela virou à direita», «deu meia-volta» ou «para trás» — existe um elemento inerente de aleatoriedade na forma como o modelo responde. Por conseguinte, a mesma pergunta pode produzir respostas diferentes em consultas diferentes.

Os modelos de aprendizagem automática consistem em grandes conjuntos de números, conhecidos como «pesos» ou «parâmetros», juntamente com código que interpreta e utiliza esses números. Estes modelos não armazenam nem conservam cópias dos dados com que são treinados. Em vez disso, à medida que um modelo aprende, os valores dos seus parâmetros são ligeiramente ajustados para refletir padrões que identificou. No exemplo anterior, o modelo evoluiu de prever palavras aleatórias para fazer previsões mais precisas — não armazenando as frases de treino, mas atualizando os seus parâmetros internos. O modelo não conserva cópias das frases, imagens ou áudio que processa durante o treino. O ChatGPT não «copia e cola» a partir dos seus dados de treino — de forma semelhante a um professor que, após um estudo aprofundado, consegue explicar conceitos ao compreender as relações entre ideias, sem memorizar nem reproduzir os materiais originais palavra por palavra. Ao gerar uma resposta a um pedido de um utilizador, o modelo utiliza estes pesos aprendidos para prever e criar novo conteúdo.

Que tipo de informação pública é utilizado para ensinar o ChatGPT?

No caso de conteúdos da Internet disponíveis publicamente, utilizamos apenas informação de acesso livre e aberto na Internet. Não recolhemos intencionalmente dados de fontes que se saiba estarem por detrás de barreiras de pagamento nem da dark web. Além disso, aplicamos filtros para remover material com o qual não queremos que os nossos modelos aprendam, como discurso de ódio, conteúdo para adultos, sites que agregam informações pessoais e spam. A informação restante é então utilizada para treinar os nossos modelos.

São utilizadas informações pessoais para ensinar o ChatGPT?

Uma parte significativa dos conteúdos online envolve informações sobre pessoas, pelo que os nossos dados de treino podem incluir incidentalmente informações pessoais. No entanto, não recolhemos intencionalmente informações pessoais com a finalidade de treinar os nossos modelos.

Utilizamos dados de treino para desenvolver as capacidades do modelo — como previsão, raciocínio e resolução de problemas — e não para criar perfis de utilizadores, contactar pessoas ou no âmbito dos nossos esforços de publicidade ou marketing.

Em alguns casos, os modelos podem aprender a partir de informações pessoais para compreender como elementos como nomes e moradas funcionam na linguagem, ou para reconhecer figuras públicas e entidades conhecidas. Isto ajuda o modelo a gerar respostas mais precisas e adequadas ao contexto.

Tomamos medidas ativas para limitar o tratamento de informações pessoais durante o treino. Por exemplo, excluímos fontes que agregam grandes quantidades de dados pessoais e treinamos os nossos modelos para evitar responder a pedidos de informações privadas ou sensíveis sobre pessoas.

Como é que o desenvolvimento do ChatGPT cumpre a legislação em matéria de privacidade?

Utilizamos informações de treino de forma lícita. Os nossos modelos de base suportam uma vasta gama de aplicações benéficas — desde a criação de conteúdos e o apoio ao cliente até ao desenvolvimento de software, à educação personalizada e à investigação científica. Estas capacidades dependem de dados de treino em larga escala. A informação utilizada para treinar os nossos modelos está disponível publicamente e não se destina a causar danos a pessoas. Baseamos a nossa recolha e utilização de informações pessoais incluídas nas informações de treino em interesses legítimos ao abrigo da legislação em matéria de privacidade, como o RGPD, conforme explicado em maior detalhe na nossa Política de Privacidade. Concluímos uma avaliação de impacto sobre a proteção de dados para ajudar a garantir que recolhemos e utilizamos estas informações de forma legal e responsável.

Respondemos a pedidos de oposição e a direitos semelhantes. Como resultado da aprendizagem da linguagem, as respostas do ChatGPT podem, por vezes, incluir informações pessoais sobre pessoas cujas informações pessoais aparecem várias vezes na Internet pública (por exemplo, figuras públicas). As pessoas em determinadas jurisdições podem opor-se ao tratamento das suas informações pessoais pelos nossos modelos ou apresentar outros pedidos relativos aos direitos dos titulares dos dados através do nosso Portal de Privacidade. Também pode exercer estes direitos contactando dsar@openai.com.

Tenha em atenção que, de acordo com a legislação em matéria de privacidade, alguns direitos podem não ser absolutos. Podemos recusar um pedido se tivermos um motivo lícito para o fazer. No entanto, esforçamo-nos por dar prioridade à proteção das informações pessoais e por cumprir toda a legislação aplicável em matéria de privacidade. Se considerar que não abordámos adequadamente uma questão, tem o direito de apresentar uma reclamação junto da sua autoridade de controlo local.

Para obter mais informações sobre as práticas da OpenAI relativamente às informações pessoais que recolhemos junto de si ou sobre si quando utiliza o nosso site, aplicações e serviços, consulte a nossa Política de Privacidade.

Este artigo foi útil?