
В декабре 2020 года Тимнит Гебру (в то время со-руководитель этической команды ИИ в Google) во время отпуска получила письмо по электронной почте, в котором сообщалось, что её уволили из Google. Причина была в том, что Google попросил её убрать или снять своё имя с публикаций сотрудников; она отказалась. В статье, которую она представила, уже пять лет назад описывались: галлюцинации и непонимание, усиление предвзятости, экологические издержки, невозможность аудита обучающих данных, языковая централизация — и спустя пять лет в реальности обнаружились подтверждённые случаи.
Галлюцинации и непонимание: в 2021 году в статье описано явление, которое позже стали называть «галлюцинациями»: LLM просто сшивает формы языка по вероятностям, «не имея никакой отсылки к смыслу». Эта проблема превратилась в известный недостаток всех основных AI-систем и подтверждена в нескольких независимых академических оценках.
Усиление предвзятости: инструмент Amazon для AI-набора персонала, разработанный с 2014 года, в 2018 году был свёрнут из‑за систематической дискриминации женщин-кандидатов — модель научилась оценочным стандартам, благоприятствующим мужчинам, на исторических резюме, где мужчин было больше. Исследование Обермайера и соавт., опубликованное в 2019 году в журнале Science, показало, что широко используемый медицинский алгоритм риска подменяет «тяжесть состояния» показателем «медицинские расходы», из‑за чего при одинаковых баллах риска у чёрных пациентов фактическое состояние оказывается более тяжёлым. Исследователи подтвердили: после корректировки доля чёрных пациентов, которым помечено, что им требуется дополнительный уход, вырастет с 17,7% до 46,5%.
Экологические издержки: в экологическом отчёте Google за 2024 год раскрыто, что в 2023 году выбросы парниковых газов достигли примерно 14 300 000 тонн CO₂e, то есть на 48% больше по сравнению с базовой линией 2019 года. Google подтвердил, что основной причиной стало резкое увеличение энергопотребления дата-центров, вызванное ИИ, что напрямую угрожает целям Google по углеродной нейтральности к 2030 году.
Невозможность аудита обучающих данных: в декабре 2023 года Стэнфордская интернет-обсерватория в датасете LAION-5B (содержащем 5,85 млрд пар изображение—текст, который использовался для обучения Stable Diffusion) обнаружила 3 226 единиц предполагаемого контента о насилии в отношении детей (CSAM), из которых 1 008 были подтверждены внешними организациями. После этого LAION-5B был оперативно удалён.
Языковая централизация: исследование Томпсона и соавт. за 2024 год проанализировало интернет-корпус из 6,38 млрд предложений и обнаружило, что 57,1% предложений относятся к многоязычным параллельным наборам — то есть, вероятно, это низкокачественный повторяющийся контент, сгенерированный машинным переводом. При этом в языках с низкими ресурсами эта доля особенно высока, что означает: корпус для языков с низкими ресурсами загрязняется низкокачественными продуктами машинного перевода.
Авторами статьи являются шесть человек, четверо из них — сотрудники Google. На момент получения уведомления об увольнении Гебру находилась в отпуске. Запрос Google заключался в том, чтобы убрать или снять указание её имени как сотрудника. После её отказа в отпуске ей сообщили о решении об увольнении.
Статья была официально опубликована в марте 2021 года. В документе прямо указано: компании, создающие LLM, структурно не могут допустить, чтобы «безопасность и этика» замедляли вывод продукта на рынок. Сам эпизод с увольнением Гебру широко цитируется как конкретное подтверждение этого структурного тезиса.
Судя по самой статье, ключевой тезис имеет два уровня: первый — технический: указание, что LLM несут пять категорий системных рисков — галлюцинации, усиление предвзятости, экологические издержки, невозможность аудита данных и языковая централизация. Второй уровень — более фундаментальный: объясняется, почему эти пять типов рисков трудно решить, поскольку компании, создающие LLM, в условиях конкуренции и финансового давления структурно склонны отдавать приоритет скорости вместо безопасности. В процессе рецензирования на конференции ACM FAccT статья прошла академическую экспертизу.
Согласно публичным сообщениям, AI-инструмент Amazon для подбора персонала начали разрабатывать с 2014 года. Модель обучалась на исторических резюме за прошлые десять лет, где доминировали мужчины, и автоматически усвоила оценочные шаблоны с перекосом в пользу мужчин. Из‑за этого резюме с такими фразами, как «women's chess club», автоматически получали штраф. Эта проблема предвзятости была обнаружена в 2018 году: Amazon сразу свернула эту систему и подтвердила, что не использовала её для оценки реальных кандидатов.
Согласно экологическому отчёту Google за 2024 год, в 2023 году выбросы парниковых газов составили примерно 14 300 000 тонн CO₂e, что на 48% больше по сравнению с базовой линией 2019 года. Google прямо указал, что основной причиной стало резкое увеличение энергопотребления дата-центров, вызванное ИИ. В объяснениях Google не утверждается, что рост углеродных выбросов на 100% вызван ИИ, но расширение AI-инфраструктуры подтверждено как главный драйвер увеличения.
Связанные новости
Акции Meta падают более чем на 5% на фоне сообщения о потенциальной продаже акций для привлечения финансирования под ИИ
Anthropic призывает к глобальному замедлению ИИ на фоне риска рекурсивного самосовершенствования
Broadcom обвалился на 12%, вызвав распродажу акций ИИ! Тайваньский рынок резко рухнул на «тысячу пунктов», а биткоин на мгновение пробил уровень 63 тыс.
Глава Google DeepMind прогнозирует появление AGI к 2030 году в докладе в Стэнфорде
Кризис расходов на ИИ подпитывает новые сравнения с «новым пузырём доткомов»