По данным мониторинга Beating, недавнее вирусное утверждение гласило, что ввод специальных токенов вроде <|begin_of_sentence|> в чат DeepSeek может раскрыть разговоры других пользователей — это было названо P0-уровневым отказом изоляции multi-tenant. На самом деле это явление не связано с изоляцией данных. Если модель запускается с такими токенами, она переходит в форматы своих шаблонов, характерных для периода обучения, и генерирует сфабрикованный диалог на основе собственной памяти и системных подсказок — не происходит реального извлечения данных в режиме реального времени из других сессий. Это Training Data Extraction — уязвимость общего характера для всех крупных языковых моделей, а не уникальная проблема DeepSeek. В 2023 году Google DeepMind опубликовала исследование, показавшее, что специальные входные данные могут извлекать данные обучения из GPT и PaLM. Материал ICLR 2025 Magpie напрямую использует этот механизм. Утверждения о том, что утекший контент включает сегодняшнюю дату, не доказывают отказ multi-tenant изоляции: DeepSeek включает текущую дату в свою системную подсказку, а модели естественным образом подхватывают её и включают в сгенерированный вывод.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.