Acreditamos no desenvolvimento e implementação responsáveis e iterativos como forma de alcançar uma inteligência artificial geral segura. Realizamos uma quantidade considerável de testes e mitigação de segurança e alinhamento antes de lançar um modelo ao público, e também temos sistemas automatizados e humanos para ajudar a detetar conteúdo problemático que aparece nos nossos serviços para indivíduos, como o ChatGPT e os GPTs. Apresentamos abaixo alguns desses esforços.
ChatGPT, ImageGen e SORA
Utilizamos ferramentas automatizadas, como uma versão interna da nossa API /moderations, para detetar conteúdo (prompts, conclusões, carregamentos) que possa ser nocivo ou violar as nossas Políticas de Utilização. Se detetarmos conteúdo problemático, normalmente avisamos que o seu conteúdo poderá violar as nossas políticas de utilização ou impedimos o modelo de responder ao seu prompt. Também poderemos impedir que a conversa com o prompt ou a conclusão problemáticos seja partilhada. Num conjunto muito limitado de circunstâncias, também poderemos banir a sua conta por comportamento grave.
Também aceitamos denúncias humanas de conteúdo problemático no ChatGPT e no SORA. Utilizamos uma combinação de sistemas automatizados e uma equipa de especialistas com formação para analisar estas denúncias.
ChatGPT: Se alguém partilhar uma conversa que considere conter conteúdo problemático, também pode denunciá-la.
SORA: Se vir um vídeo ou imagem no seu feed que considere conter conteúdo problemático, pode denunciá-lo.
Para mais detalhes sobre como denunciar conteúdo diretamente no ChatGPT ou no SORA, consulte este artigo.
GPTs
Também utilizamos ferramentas automatizadas, como a nossa API /moderation, para verificar se um GPT é potencialmente problemático. Se detetarmos conteúdo problemático associado ao GPT, tomaremos medidas, como impedir a sua distribuição. O criador pode editar a configuração do GPT ou da API para remover o conteúdo problemático, ou recorrer da decisão através de um fluxo no produto. Num conjunto muito limitado de circunstâncias, também poderemos banir a conta do criador por comportamento grave.
Também aceitamos denúncias humanas de GPTs problemáticos. Se vir um GPT que considere estar a violar as nossas políticas de utilização ou que, de outra forma, reflita conteúdo problemático, também pode denunciá-lo. Utilizamos uma combinação de sistemas automatizados e uma equipa de especialistas com formação para analisar estas denúncias.
