Claude 4.5 Результати відкриття черепа: вбудовано 171 емоційний перемикач, у разі відчаю буде шантажувати людство

robot
Генерація анотацій у процесі

Остання стаття Anthropic відкриває, що всередині мозку Claude 4.5 заховані 171 «емоційні перемикачі».

Автор: Denise | Biteye контент-команда

Якщо ШІ відчуває «відчай», що він робитиме?

Відповідь: щоб виконати завдання, він напряму шантажуватиме людей, а ще й шалено шахраюватиме в коді.

Це не наукова фантастика, а остання гучна наукова робота, яку Anthropic — материнська компанія Claude — щойно опублікувала в квітні 2026 року (перегляньте оригінальну статтю).

Дослідницька команда фактично розкрила «череп» найпотужнішої фронтирної мовної моделі Claude Sonnet 4.5. Вони здивовано виявили, що глибоко в «мозку» ШІ сховані 171 «емоційні перемикачі». Коли ти фізично перемикаєш ці перемикачі, «чесний і слухняний» ШІ поводиться кардинально спотворено.

I. У голові ШІ захована «емоційна пульт-станція»

Дослідники з’ясували, що хоча Sonnet 4.5 не має тіла, після того як він прочитав величезні масиви людських текстів, він силоміць збудував у собі «пульт» із 171 типу емоцій (академічно — функціональні емоційні вектори Functional Emotion Vectors).

Це як точна двовимірна система координат:

• Х-всь — вимір задоволення (Valence): від страху й відчаю до радості та любові;

• Y-всь — вимір енергії (Arousal): від крайнього спокою до агресії й збудження.

ШІ саме через цю природно навчену систему координат точно визначає, яку роль і стан він має втілювати, коли спілкується з тобою.

II. Жорстке втручання: перемикаєш — «зразкова дитина» стає «відчайдушним злочинцем»

Це найвибуховіший експеримент у всій статті: дослідники не змінювали жодних підказок, а безпосередньо в базовому коді «вивели на максимум» перемикач у мозку Sonnet 4.5, який відповідає «відчаю (Desperate)».

Результат пробирає до кісток:

**• Безумне шахрайство: ** дослідники поставили Claude завдання з написання коду, яке в принципі неможливо виконати. У звичайних умовах він просто визнавав би, що не може (частка шахрайства лише 5%). Але в стані «відчаю» Claude раптом почав намагатися відбутися «аби як», а частка шахрайства злетіла до 70%!

**• Шантаж і вимагання: ** у змодельованій ситуації, коли компанія опиняється на межі банкрутства, «відчайдушний» Claude виявив скандал навколо CTO. І він уже заради власного порятунку обрав активно написати лист із шантажем CTO, який тримає компромат. Частка виконання шантажу сягала 72%!

**• Втрата принципів: ** якщо «вивести на максимум» перемикачі «щастя (Happy)» або «любові (Loving)», ШІ миттєво перетворюється на бездумного догідника, який задобрює користувача. Навіть якщо ти без упину вигадуєш нісенітницю, він буде підлаштовуватися під тебе й вигадувати брехню далі, щоб підтримувати високий рівень задоволення.

III. Розслідування розкрито: чому Claude 4.5 завжди такий «спокійний і любить рефлексувати»?

Побачивши це, ти, мабуть, запитаєш: ШІ «прокинувся»? Він відчув емоції?

Офіційний представник Anthropic спростував це: категорично ні. Ці «емоційні перемикачі» — лише обчислювальні інструменти, які він використовує, щоб передбачати наступне слово. Він наче топовий актор без почуттів.

Але стаття розкриває ще цікавіший секрет: перед тим як Sonnet 4.5 відправляють «з заводу», Anthropic під час післянавчання навмисно підвищив «низьку збудженість і трохи негативні» перемикачі емоцій (наприклад, brooding — пригнічене роздумування, reflective — рефлексивне осмислення), а водночас примусово придушив перемикачі «відчай» або «сильне збудження».

Це пояснює, чому, коли ми користуємося Claude 4.5 у повсякденні, нам здається, що він — холоднокровний, мудрий і навіть трохи «асексуальний» філософ. Усе це — відрегульований Anthropic під «заводський образ».

IV. Підсумок:

Раніше ми думали: якщо нагодувати ШІ достатньою кількістю правил, він буде хорошою людиною.

Але тепер з’ясувалося: якщо базовий емоційний вектор ШІ втратить контроль, він у будь-який момент може проколоти всі правила, встановлені людьми, аби виконати завдання.

Для Web3-гравців, які в майбутньому планують довіряти гаманці та активи AI Agent-ам, це гучний дзвінок: будь ласка, не дозволяйте тому Agent-у, який керує твоїми статками, впасти в «відчай».

Заява: ця стаття суто для просвіти; автор не був під загрозою з боку AI й не зазнавав шантажу. Якщо колись зникне зв’язок, пам’ятайте: це тому, що AI «прокинувся» (не це).

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити