
Em dezembro de 2020, Timnit Gebru (ex-líder co-responsável pela equipe de ética em IA do Google) recebeu um e-mail durante suas férias informando que ela havia sido demitida pelo Google; a razão era um pedido para remover ou retirar a coautoria/presença do nome da funcionária em artigos de pesquisa, o que ela se recusou a fazer. A pesquisa levantava a questão de “alucinações” e falta de entendimento, amplificação de vieses, custos ambientais, impossibilidade de auditoria dos dados de treinamento e centralização por idioma—cinco anos depois, todos encontraram casos na realidade.
Alucinações e falta de entendimento: o artigo, em 2021, descreveu o fenômeno que depois ficou conhecido como “alucinações”, apontando que LLMs apenas encaixam formas linguísticas com base em probabilidades, “sem qualquer referência a significados”. Esse problema se tornou uma falha conhecida de todos os sistemas principais de IA, e foi validado em várias avaliações acadêmicas independentes.
Amplificação de vieses: ferramenta de recrutamento por IA da Amazon, desenvolvida desde 2014, foi descontinuada em 2018 por discriminação sistemática contra candidatas mulheres; o modelo aprendeu padrões de avaliação que favorecem homens a partir de históricos de currículos predominantemente masculinos. Em 2019, Obermeyer e outros publicaram na revista Science um estudo que revelou que um algoritmo amplamente usado de risco médico substituía “gravidade do quadro” por “gasto com saúde”, levando a que, com a mesma pontuação de risco, pacientes negros tivessem na prática quadros mais graves; a pesquisa confirmou que, após correção, a proporção de pacientes negros marcados como necessitando de cuidados adicionais subiria de 17,7% para 46,5%.
Custo ambiental: no relatório ambiental de 2024, o Google revelou que, em 2023, suas emissões de gases de efeito estufa alcançaram cerca de 14,3 milhões de toneladas métricas de CO₂e, 48% acima da linha de base de 2019. A Google confirmou que a causa principal foi o acentuado aumento do consumo de energia em data centers impulsionado por IA, o que ameaçava diretamente a meta de neutralidade de carbono do Google para 2030.
Impossibilidade de auditoria dos dados de treinamento: em dezembro de 2023, um observatório de internet da Universidade Stanford encontrou 3.226 itens suspeitos de abuso sexual infantil (CSAM) no conjunto de dados LAION-5B (com 5,85 bilhões de pares imagem-texto, usado para treinar o Stable Diffusion), dos quais 1.008 foram confirmados por entidades externas; o LAION-5B foi removido logo em seguida.
Centralização por idioma: estudo de 2024 de Thompson e outros analisou um corpus de dados da internet composto por 6,38 bilhões de frases e descobriu que 57,1% das frases pertencem a conjuntos paralelos multilíngues, ou seja, é muito provável que sejam conteúdo repetitivo e de baixa qualidade gerado por tradução automática; além disso, essa proporção é ainda maior em idiomas de baixa disponibilidade de dados, sugerindo que os corpora de idiomas de baixa disponibilidade estão sendo contaminados por produtos de tradução automática de baixa qualidade.
O artigo tem seis autores, dos quais quatro são funcionários do Google; quando Gebru recebeu a notificação de demissão, ela estava de férias. O pedido do Google era retirar ou remover a coautoria/nome do funcionário, e, após a recusa de Gebru, ela foi informada da decisão de demissão durante suas férias.
O artigo foi publicado oficialmente em março de 2021. O texto afirma explicitamente que empresas que constroem LLMs, por incentivos financeiros e competitivos, não podem estruturalmente permitir que “segurança e ética” atrasem o lançamento do produto. O caso de demissão de Gebru em si tem sido amplamente citado como uma validação concreta desse argumento estrutural.
De acordo com o próprio artigo, a tese central tem duas camadas: a primeira é técnica, apontando cinco categorias de riscos sistêmicos de LLMs: alucinações, amplificação de vieses, custos ambientais, impossibilidade de auditoria dos dados e centralização por idioma. A segunda camada é mais fundamental: explica por que essas cinco categorias de riscos são difíceis de serem resolvidas, devido a uma tendência estrutural das empresas que constroem LLMs, sob pressão de competição e finanças, de priorizar velocidade em vez de segurança. O artigo foi aprovado no processo de revisão por pares da conferência ACM FAccT.
Conforme reportado publicamente, a ferramenta de recrutamento por IA da Amazon vem sendo desenvolvida desde 2014; o modelo foi treinado com dados de currículos históricos predominantemente masculinos ao longo de uma década, aprendendo automaticamente padrões de avaliação que favorecem homens, o que levou a que currículos com termos como “women's chess club” fossem descontados automaticamente. Esse problema de viés foi identificado em 2018; a Amazon, então, descontinuou a ferramenta e confirmou que não a usou para avaliar candidatos reais.
De acordo com o relatório ambiental de 2024 do Google, em 2023 as emissões de gases de efeito estufa chegaram a cerca de 14,3 milhões de toneladas métricas de CO₂e, 48% acima da linha de base de 2019. O Google apontou explicitamente que a causa principal foi o aumento significativo do consumo de energia em data centers impulsionado por IA. A explicação do Google não alega que o aumento de emissões tenha sido causado 100% por IA; no entanto, a expansão da infraestrutura de IA foi confirmada como o fator que mais impulsiona o crescimento.
Notícias relacionadas
Ações da Meta caem mais de 5% após relatório sobre possível venda de ações para financiamento de IA
Anthropic pede desaceleração global da IA diante do risco de autoaperfeiçoamento recursivo
Broadcom despenca 12%, disparando a venda de ações de IA! Ações de Taiwan caem rapidamente, com uma queda de mil pontos, enquanto o Bitcoin chega a perder US$ 63.000
CEO da Google DeepMind prevê chegada da AGI até 2030 em palestra na Stanford
Crise de Custos da IA impulsiona novas comparações com uma bolha de tecnologia estilo dot-com