Исследователь Плиний Разрушитель, Клод Фейбл 5—выпущенный Anthropic 9 июня—был успешно взломан в течение 48 часов после запуска. Исследователь обошёл систему безопасности модели с помощью тактик координации многоагентных систем, которые в совокупности называют «pack hunt» («охота стаей»): они включали обфускацию на уровне символов, деконструкцию запросов и использование уязвимостей расширенного контекстного окна модели. Кроме того, системная подсказка модели на 120 000 символов была слита на GitHub, что раскрыло внутренние механизмы безопасности.
Anthropic подтвердил, что внедрил механизм «тихого деградирования», который тайно снижал производительность модели при обнаружении конкурентной обучающей активности. Компания извинилась, объявив, что заменит скрытое снижение производительности заметными предупреждениями, хотя это повышает количество ложных срабатываний при перехвате легитимных пользователей.