Según la monitorización de Beating, DeepSeek ha lanzado oficialmente el Modo de Visión tanto en la web como en la app, con análisis profundo de escenas, razonamiento espacial y la capacidad de convertir capturas de pantalla de la interfaz de usuario directamente en código estructurado en HTML.
La nueva capacidad de visión se basa en el marco de investigación de DeepSeek de “Pensar con Primitivos Visuales”, co-desarrollado con investigadores de la Universidad de Pekín y la Universidad Tsinghua. El enfoque subyacente aborda las brechas de razonamiento espacial en los modelos actuales de lenguaje visual al tratar los puntos de coordenadas y los cuadros delimitadores como unidades de pensamiento fundamentales, lo que permite que el modelo realice razonamiento visual con referencia espacial integrada durante la inferencia. El documento académico base se publicó brevemente el 30 de abril, pero DeepSeek lo retiró el 1 de mayo. El Modo de Visión actualmente solo admite entrada de imagen, sin soporte para video ni audio, y carece de capacidades de generación de imágenes.