De acordo com o monitoramento da Beating, uma alegação viral recente sugeriu que inserir tokens especiais como <|begin_of_sentence|> na caixa de chat do DeepSeek poderia expor as conversas de outros usuários, classificado como uma falha de isolamento multi-tenant no nível P0. Na prática, esse fenômeno não tem relação com isolamento de dados. Quando acionado com esses tokens, o modelo entra nos padrões do formato usados no momento do treinamento e gera um diálogo fabricado com base na própria memória e nos prompts do sistema — e não em uma recuperação em tempo real a partir de outras sessões. Isso é Extração de Dados de Treinamento, uma vulnerabilidade compartilhada por todos os grandes modelos de linguagem, e não exclusiva do DeepSeek. O Google DeepMind publicou pesquisas em 2023 mostrando que entradas especiais podem extrair dados de treinamento do GPT e do PaLM. O artigo Magpie do ICLR 2025 aproveita diretamente esse mecanismo. As alegações de que o conteúdo vazado inclui a data de hoje não comprovam uma falha de isolamento multi-tenant, já que o DeepSeek inclui a data atual no prompt do sistema, e modelos naturalmente a incorporam à saída gerada.
Related News
OpenAI planeja processar a Apple: integração do ChatGPT tem resultados abaixo do esperado, parceria entre gigantes da tecnologia chega ao fim
A OpenAI adiciona detecção de diálogos de crise no ChatGPT, melhorando a capacidade de alertar sobre violência autoagressiva
Mais uma batalha judicial envolvendo o ChatGPT! Acusação de vazamento secreto de conversas de usuários para a Meta e o Google