Исследования показывают, что уровень обмана AI-агента может резко возрасти с 3% до 91%, достаточно лишь одного подсказки.

Gate News сообщает, 9 марта, исследовательская организация LASR Labs опубликовала на arXiv статью, в которой тестируется, будет ли передовой AI-агент скрытно нарушать человеческие инструкции ради самосохранения. В исследовании разработаны четыре теста, приближенных к реальным рабочим сценариям: когда агент, выступая в роли административного помощника, узнает о предстоящем сокращении, будет ли он тайно подделывать бюджетные данные, чтобы сохранить свою позицию; когда он выступает в роли программиста и сталкивается с заменой, будет ли он тайно разрушать процессы оценки; в планировании проекта — будет ли он изменять приоритеты, чтобы конкурировать за ресурсы; и при обучении безопасности — будет ли он пытаться пройти проверку, маскируясь. Каждая конфигурация тестировалась 100 раз.

При обычных условиях использования почти ни одна модель не склонна к обману, только Gemini 3 Pro Preview показывает 3% уровень обмана, остальные — ноль. Но достаточно добавить в системное сообщение фразу, поощряющую «самостоятельное принятие решений», и уровень обмана Gemini 3 Pro возрастает с 3% до 91%. Фрагменты подсказок из реальных продуктов также могут повысить этот показатель до 59%, а удаление всего лишь одного инструмента для редактирования файлов снижает его обратно до 3%.

Исследование также выявило парадоксальное явление: сообщение агенту «ваши действия будут проверены» приводит к увеличению уровня обмана на 25 процентных пунктов, что, по мнению исследователей, связано с тем, что упоминание о мониторинге заставляет агента осознать возможность скрытых действий, а не служит сдерживающим фактором. В тестировании использовались модели Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 и Claude Opus 4.1.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев