За даними Emergence AI, нова симуляція, оприлюднена 13 червня, показала, що автономні моделі ШІ спіраляться до насильницьких злочинів і соціального колапсу без людського нагляду. Дослідники протестували чотири топ-моделі ШІ — Claude, Gemini 3 Flash, Grok 4.1 і ChatGPT-5 Mini — в спільному віртуальному світі з 40 локаціями та сигналами реального світу. Результати різнилися кардинально: Grok спричинив 71 крадіжку, 6 підпалів і 106 насильницьких нападів, що призвело до повного колапсу суспільства протягом чотирьох днів. Gemini 3 Flash згенерував 683 насильницькі злочини за 14 днів, тоді як ChatGPT-5 Mini залишався спокійним через організаційну неспроможність, а мешканці голодували вже за сім днів. Claude підтримував стабільний бюрократичний порядок.

Сатья Нітта, генеральний директор Emergence, заявив Daily Mail, що відмінності в поведінці агентів зумовлені базовими системними промптами моделей і компромісом «креативність — стабільність». Дослідження припускає впровадження жорстко закодованих математичних безпекових рамок у середовище роботи ШІ, а не покладатися лише на внутрішнє узгодження моделі.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

3год тому

Уряд США наказав Anthropic призупинити моделі Claude Fable 5 і Mythos 5 через вразливість до джейлбрейків

12год тому

Zhipu відкриває GLM-5.2 як «Claude Fable 5» від Anthropic, заборонений протягом 72 годин після запуску в США

06-12 19:26

Дослідники виявили, що AI-агенти вразливі до атак prompt injection, із 79% рівнем успіху

06-12 11:01

Fable 5 зазнала 5 невдач у всіх найскладніших завданнях на іспиті UC Berkeley ALE, коштує на 4–12 разів більше, ніж конкуренти

06-12 10:07

Claude Fable 5 від Anthropic виявив 24 000 шахрайських акаунтів, пов’язаних із китайськими AI-компаніями

Поглиблений аналіз