По данным мониторинга Beating, недавнее вирусное утверждение гласило, что ввод специальных токенов вроде <|begin_of_sentence|> в чат DeepSeek может раскрыть разговоры других пользователей — это было названо P0-уровневым отказом изоляции multi-tenant. На самом деле это явление не связано с изоляцией данных. Если модель запускается с такими токенами, она переходит в форматы своих шаблонов, характерных для периода обучения, и генерирует сфабрикованный диалог на основе собственной памяти и системных подсказок — не происходит реального извлечения данных в режиме реального времени из других сессий. Это Training Data Extraction — уязвимость общего характера для всех крупных языковых моделей, а не уникальная проблема DeepSeek. В 2023 году Google DeepMind опубликовала исследование, показавшее, что специальные входные данные могут извлекать данные обучения из GPT и PaLM. Материал ICLR 2025 Magpie напрямую использует этот механизм. Утверждения о том, что утекший контент включает сегодняшнюю дату, не доказывают отказ multi-tenant изоляции: DeepSeek включает текущую дату в свою системную подсказку, а модели естественным образом подхватывают её и включают в сгенерированный вывод.
Related News
OpenAI, по-видимому, подаёт в суд на Apple: интеграция ChatGPT оказалась далеко не впечатляющей, сотрудничество техгигантов сорвалось
OpenAI добавила обнаружение кризисных диалогов в ChatGPT, улучшив способность предупреждать о самоповреждающем насилии
Ещё одно дело в юридических разбирательствах с ChatGPT! Его обвиняют в тайной утечке содержимого пользовательских чатов в Meta и Google