Según la supervisión de Beating, una afirmación viral reciente sugirió que introducir tokens especiales como <|begin_of_sentence|> en el cuadro de chat de DeepSeek podría exponer las conversaciones de otros usuarios, catalogado como un fallo de aislamiento multiusuario a nivel P0. En realidad, este fenómeno no está relacionado con el aislamiento de datos. Cuando se activa con esos tokens, el modelo entra en los patrones de formato de su entrenamiento y genera diálogos fabricados basándose en su propia memoria y en los prompts del sistema, no en una recuperación en tiempo real a partir de otras sesiones. Esto es Extracción de Datos de Entrenamiento, una vulnerabilidad compartida entre todos los modelos de lenguaje grandes, no exclusiva de DeepSeek. Google DeepMind publicó en 2023 una investigación que demuestra que las entradas especiales pueden extraer datos de entrenamiento de GPT y PaLM. El trabajo Magpie de ICLR 2025 aprovecha directamente este mecanismo. Las afirmaciones de que el contenido filtrado incluye la fecha de hoy no demuestran un fallo de aislamiento multiusuario, ya que DeepSeek incluye la fecha actual en su prompt del sistema, y los modelos la incorporan de forma natural en la salida generada.
Related News
OpenAI planea demandar a Apple: la integración de ChatGPT no ha dado los resultados esperados; la colaboración entre gigantes tecnológicos se rompe
OpenAI agrega la detección de conversaciones de crisis de ChatGPT, mejorando la capacidad de alertas tempranas sobre violencia autoinfligida
¡Otra demanda legal para ChatGPT! Se acusa que filtró en secreto los contenidos de los chats de los usuarios a Meta y Google