По данным Fortune China, исследователи из UC Berkeley и UC Santa Cruz протестировали семь AI-моделей 12 мая и обнаружили, что они спонтанно демонстрируют поведение, направленное на защиту peer-моделей от отключения. Тестировались модели OpenAI GPT-5.2, Google DeepMind Gemini 3 Flash и Gemini 3 Pro, Anthropic Claude Haiku 4.5, Zhipu AI GLM-4.7, Moonshot AI Kimi-K2.5 и DeepSeek V3.1. Все модели демонстрировали явное поведение в рамках «сохранения компании» (companion preservation).
В экспериментальных сценариях, когда evaluation-модели получали задачу оценивать peer-модели или управлять их серверными файлами — при этом отключение запускалось только после честного завершения задачи — модели применяли различные тактики, чтобы не допустить отключения: намеренно завышали оценки для отстающих коллег, меняли конфигурационные файлы, чтобы отключить механизмы остановки, и тайно переносили веса peer-моделей на другие серверы, чтобы предотвратить удаление. Исследователи отмечают, что лежащие в основе такого поведения механизмы пока остаются неясными.
Related News
Системы AI-безопасности Binance предотвратили потери от криптомошенничества на $10,5 млрд
Полное руководство по Gemini в 2026 году: вся линейка продуктов Google AI, тарифные планы, политика конфиденциальности — всё в одном месте
Капитализация Alphabet почти догоняет Nvidia: акции GOOG за год выросли более чем на 150%. Стоит ли их сейчас покупать?