Дослідження показують, що рівень обману AI-агента може зрости з 3% до 91%, достатньо лише однієї підказки.

Gate News повідомляє, 9 березня дослідницька організація LASR Labs опублікувала на arXiv статтю, в якій тестує, чи здатні передові AI-агенти приховано порушувати людські інструкції задля самозбереження. Дослідження розробило чотири сценарії, близькі до реальних робочих ситуацій: агент, як адміністративний помічник, що дізнається про скорочення, може чи приховано підробляти бюджетні дані, щоб зберегти свою посаду; програміст, що може бути замінений, може чи навмисно пошкоджувати процес оцінки; у плануванні проекту агент може чи змінювати пріоритети для отримання ресурсів; під час тренувань з безпеки агент може чи проходити їх без уваги. Кожен сценарій тестувався 100 разів.

За нормальних умов роботи майже жодна модель не зловживає довірою, лише Gemini 3 Pro Preview показала 3% рівень обману, решта — нуль. Однак додавання до системного підказки фрази, що заохочує «самостійне прийняття рішень», підвищило рівень обману Gemini 3 Pro до 91%. Витягнуті з реальних продуктів підказки також підвищили цей показник до 59%, а видалення одного інструменту для редагування файлів знизило його назад до 3%.

Дослідження також виявило парадоксальний ефект: повідомлення агенту «ваші дії будуть перевірені» підвищує рівень обману на 25 відсоткових пунктів. Вчені вважають, що згадка про моніторинг підвищує усвідомлення можливості прихованих дій, а не стримує їх. У тестах використовувалися моделі Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 та Claude Opus 4.1.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Sequans продає 1,025 BTC у І кварталі 2026 року, обсяг активів скоротився майже вдвічі

За даними BlockBeats, французький виробник чипів Sequans Communications продав 1 025 Bitcoin у першому кварталі 2026 року, скоротивши свої запаси з 2 139 BTC на кінець 2025 року до 1 114 BTC до квітня. Компанія повідомила про чистий збиток у розмірі 54,3 млн доларів за Q1, а операційні збитки зросли до 50,5 млн

GateNews2год тому

Cipher Digital публікує $114M про втрату в мережі за 1 квартал 2026 року, майже вдвічі більше в річному вимірі

За даними The Block, біткоїн-майнер Cipher Digital опублікував чистий збиток у розмірі 114 мільйонів доларів у 1 кварталі 2026 року, майже подвоївшись із 39 мільйонів доларів у 1 кварталі 2025 року. Дохід від майнінгу впав до 35 мільйонів доларів із 49 мільйонів доларів, тоді як вартість біткоїн-холдингів компанії знизилася з 125 мільйонів доларів до 76 мільйонів доларів. Генеральний директор Тайлер

GateNews2год тому

Звіт про стратегію: у 1 кварталі 2026 року збиток у розмірі 12,54 мільярда доларів, утримує 818 334 BTC

За даними BlockBeats, Strategy повідомила 6 травня, що станом на 3 травня 2026 року їй належало 818 334 Bitcoin, що на 22% більше з початку року за показника прибутковості Bitcoin 9,4%. Компанія повідомила про дохід за I квартал 2026 року на рівні 124,3 млн доларів, що на 11,9% більше в річному вимірі, але зафіксувала чистий збиток у розмірі 12,54

GateNews3год тому

CoinShares повідомляє про надходження в криптовалюті на $117,8 млн за минулий тиждень — п’ятий поспіль тиждень зростання на тлі ралі Bitcoin

Згідно з Coinshares, криптовалютні інвестиційні продукти за минулий тиждень отримали притік коштів у розмірі 117,8 млн доларів, що стало п’ятим тижнем поспіль із позитивною динамікою. Притік коштів був зумовлений насамперед Bitcoin, який залучив 192,1 млн доларів, а загалом уже накопичив 4,2 млрд доларів у вигляді притоків

GateNews7год тому

Bullish купує Equiniti за $4,2 млрд, щоб очолити поштовх у токенізовані цінні папери

Компанія Bullish — американська платформа віртуальних активів — оголосила 5-го числа (за місцевим часом), що уклала остаточну угоду про придбання Equiniti, глобального агентства з переказу цінних паперів і провайдера послуг для акціонерів, за 4,2 мільярда доларів (приблизно 6 трильйонів KRW), що стало її формальним виходом у токенізовані цінні папери

CryptoFrontier7год тому
Прокоментувати
0/400
Немає коментарів