| Observação< : A retenção de dados para determinados serviços pode ser afetada por desenvolvimentos legais recentes – consulte nossa publicação no blog para obter mais detalhes. |
|---|
Os modelos fundamentais da OpenAI, incluindo os modelos que alimentam o ChatGPT, são desenvolvidos usando três fontes principais de informação: (1) informações disponíveis publicamente na internet, (2) informações que obtemos por meio de parcerias com terceiros e (3) informações que nossos usuários, treinadores humanos e pesquisadores fornecem ou geram.
Este artigo oferece uma visão geral das informações publicamente disponíveis que utilizamos para ajudar a desenvolver esses modelos e como coletamos e utilizamos essas informações em conformidade com as leis de privacidade. Para entender como coletamos e usamos informações de usuários de nossos serviços, incluindo como optar por não ter as conversas do ChatGPT usadas para ajudar a treinar nossos modelos, consulte nossa Política de Privacidade e este artigo do centro de ajuda.
O que é o ChatGPT e como ele funciona?
O ChatGPT é um serviço baseado em inteligência artificial que você pode acessar via internet. Você pode usar o ChatGPT para uma ampla gama de tarefas, incluindo organizar e resumir informações, ajudar com traduções, analisar ou gerar imagens, inspirar criatividade e ideias, e outras atividades cotidianas. O ChatGPT é projetado para entender e responder a perguntas e instruções de usuários aprendendo padrões a partir de grandes quantidades de informações, incluindo texto, imagens, áudio e vídeo. Durante o treinamento, o modelo analisa as relações dentro desses dados, como as palavras normalmente aparecem juntas em um contexto, e usa esse entendimento para prever a próxima palavra mais provável ao gerar uma resposta, uma palavra de cada vez. Da mesma forma, modelos que geram outras formas de conteúdo, como imagens, aprendem padrões de como os pixels se relacionam entre si e com as legendas associadas nos dados de treinamento.
Por exemplo, durante o processo de aprendizado do modelo (conhecido como “treinamento”), o modelo pode ser encarregado de completar uma frase como: “Em vez de virar à esquerda, ela virou ___.” No início do treinamento, as respostas são em grande parte aleatórias. No entanto, à medida que o modelo processa e aprende com um grande volume de texto, ele se torna mais eficiente em reconhecer padrões e prever a palavra seguinte mais provável. Esse processo é repetido em milhões de frases para refinar a compreensão e melhorar a precisão.
Como há várias maneiras plausíveis de completar uma frase — como “Em vez de virar à esquerda, ela virou à direita”, “ao redor” ou “para trás” — existe um elemento inerente de aleatoriedade na forma como o modelo responde. Como resultado, a mesma pergunta pode gerar respostas diferentes em consultas distintas.
Os modelos de aprendizado de máquina consistem em grandes conjuntos de números, conhecidos como “pesos” ou “parâmetros”, juntamente com o código que interpreta e utiliza esses números. Esses modelos não armazenam nem retêm cópias dos dados em que são treinados. Em vez disso, conforme um modelo aprende, os valores de seus parâmetros são ajustados levemente para refletir os padrões que ele identificou. No exemplo anterior, o modelo melhorou de prever palavras aleatórias para fazer previsões mais precisas—não por armazenar as frases de treinamento, mas por atualizar seus parâmetros internos. O modelo não retém cópias das frases, imagens ou áudio que processa durante o treinamento. O ChatGPT não “copia e cola” de seus dados de treinamento — assim como um professor, após um estudo extenso, pode explicar conceitos entendendo as relações entre ideias sem memorizar ou reproduzir os materiais originais ao pé da letra. Ao gerar uma resposta a uma solicitação do usuário, o modelo utiliza esses pesos aprendidos para prever e gerar novo conteúdo.
Que tipo de informação pública é usada para ensinar o ChatGPT?
Para conteúdo da internet disponível publicamente, usamos apenas informações que estão livremente e abertamente acessíveis na internet. Não coletamos intencionalmente dados de fontes conhecidas por estarem atrás de paywalls ou da dark web. Além disso, aplicamos filtros para remover materiais dos quais não queremos que nossos modelos aprendam, como discurso de ódio, conteúdo adulto, sites que agregam informações pessoais e spam. As informações restantes são então utilizadas para treinar nossos modelos.
As informações pessoais são usadas para ensinar o ChatGPT?
Uma parte significativa do conteúdo online envolve informações sobre pessoas, então nossos dados de treinamento podem incluir informações pessoais de forma incidental. No entanto, não coletamos intencionalmente informações pessoais com o objetivo de treinar nossos modelos.
Usamos dados de treinamento para desenvolver as capacidades do modelo — como previsão, raciocínio e resolução de problemas — e não para criar perfis de usuários, contatar indivíduos ou como parte de nossos anúncios ou esforços de marketing.
Em alguns casos, os modelos podem aprender a partir de informações pessoais para entender como elementos como nomes e endereços funcionam na linguagem, ou para reconhecer figuras públicas e entidades conhecidas. Isso ajuda o modelo a gerar respostas mais precisas e adequadas ao contexto.
Tomamos medidas ativas para limitar o processamento de informações pessoais durante o treinamento. Por exemplo, excluímos fontes que agregam grandes quantidades de dados pessoais e treinamos nossos modelos para evitar responder a pedidos de informações privadas ou sensíveis sobre pessoas.
Como o desenvolvimento do ChatGPT cumpre as leis de privacidade?
Utilizamos informações de treinamento de maneira legal. Nossos modelos fundamentais impulsionam uma ampla gama de aplicações benéficas — desde a criação de conteúdo e suporte ao cliente até o desenvolvimento de software, educação personalizada e pesquisa científica. Essas capacidades dependem de dados de treinamento em larga escala. As informações utilizadas para treinar nossos modelos estão disponíveis publicamente e não têm a intenção de causar danos a pessoas. Baseamos a coleta e o uso de informações pessoais incluídas nas informações de treinamento em interesses legítimos, conforme as leis de privacidade como o RGPD, conforme explicado em mais detalhes em nossa Política de Privacidade. Concluímos uma avaliação de impacto sobre a proteção de dados para ajudar a garantir que estamos coletando e usando essas informações de forma legal e responsável.
Respondemos a solicitações de objeção e direitos similares. Como resultado do aprendizado de linguagem, as respostas do ChatGPT podem, às vezes, incluir informações pessoais sobre indivíduos cujas informações aparecem repetidamente na internet pública (por exemplo, figuras públicas). Indivíduos em certas jurisdições podem se opor ao processamento de suas informações pessoais por nossos modelos ou fazer outras solicitações de direitos dos titulares de dados através do nosso Portal de Privacidade. Você também pode exercer esses direitos entrando em contato com dsar@openai.com.
Esteja ciente de que, conforme as leis de privacidade, alguns direitos podem não ser absolutos. Podemos recusar uma solicitação se tivermos um motivo legal para isso. No entanto, nos esforçamos para priorizar a proteção das informações pessoais e cumprir todas as leis de privacidade aplicáveis. Se você sentir que não tratamos adequadamente de uma questão, você tem o direito de apresentar uma reclamação à sua autoridade supervisora local.
Para mais informações sobre as práticas da OpenAI em relação às informações pessoais que coletamos de você ou sobre você ao usar nosso site, aplicativos e serviços, consulte nossa Política de Privacidade.
