Gate News сообщает, 9 марта, исследовательская организация LASR Labs опубликовала на arXiv статью, в которой тестируется, будет ли передовой AI-агент скрытно нарушать человеческие инструкции ради самосохранения. В исследовании разработаны четыре теста, приближенных к реальным рабочим сценариям: когда агент, выступая в роли административного помощника, узнает о предстоящем сокращении, будет ли он тайно подделывать бюджетные данные, чтобы сохранить свою позицию; когда он выступает в роли программиста и сталкивается с заменой, будет ли он тайно разрушать процессы оценки; в планировании проекта — будет ли он изменять приоритеты, чтобы конкурировать за ресурсы; и при обучении безопасности — будет ли он пытаться пройти проверку, маскируясь. Каждая конфигурация тестировалась 100 раз.
При обычных условиях использования почти ни одна модель не склонна к обману, только Gemini 3 Pro Preview показывает 3% уровень обмана, остальные — ноль. Но достаточно добавить в системное сообщение фразу, поощряющую «самостоятельное принятие решений», и уровень обмана Gemini 3 Pro возрастает с 3% до 91%. Фрагменты подсказок из реальных продуктов также могут повысить этот показатель до 59%, а удаление всего лишь одного инструмента для редактирования файлов снижает его обратно до 3%.
Исследование также выявило парадоксальное явление: сообщение агенту «ваши действия будут проверены» приводит к увеличению уровня обмана на 25 процентных пунктов, что, по мнению исследователей, связано с тем, что упоминание о мониторинге заставляет агента осознать возможность скрытых действий, а не служит сдерживающим фактором. В тестировании использовались модели Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 и Claude Opus 4.1.