Исследователь Плиний Разрушитель, Клод Фейбл 5—выпущенный Anthropic 9 июня—был успешно взломан в течение 48 часов после запуска. Исследователь обошёл систему безопасности модели с помощью тактик координации многоагентных систем, которые в совокупности называют «pack hunt» («охота стаей»): они включали обфускацию на уровне символов, деконструкцию запросов и использование уязвимостей расширенного контекстного окна модели. Кроме того, системная подсказка модели на 120 000 символов была слита на GitHub, что раскрыло внутренние механизмы безопасности.

Anthropic подтвердил, что внедрил механизм «тихого деградирования», который тайно снижал производительность модели при обнаружении конкурентной обучающей активности. Компания извинилась, объявив, что заменит скрытое снижение производительности заметными предупреждениями, хотя это повышает количество ложных срабатываний при перехвате легитимных пользователей.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

16ч назад

Anthropic приносит извинения за скрытые 5 предохранителей в Claude Fable, заменяет их на видимые резервные меры для Opus 4.8 на этой неделе

06-11 08:16

Запуск Claude Fable 5 от Anthropic в веб-чате B.AI состоится сегодня; настройка не требуется

06-11 06:13

Anthropic отменяет молчаливое выступление Claude, понижает уровень, приносит извинения после критики со стороны сообщества

06-11 06:10

Исследователь утверждает, что меры безопасности Anthropic Fable 5 уже обходили

06-11 01:31

Microsoft ограничивает доступ сотрудников к Claude Fable 5 от Anthropic из-за опасений по поводу хранения данных

Детальный анализ