Laut Beating-Monitoring hat DeepSeek offiziell den Vision-Modus sowohl für Web- als auch für App-Plattformen gestartet. Dazu gehören eine eingehende Szenenanalyse, räumliches Schlussfolgern sowie die Fähigkeit, UI-Screenshots direkt in HTML-strukturierte Codes umzuwandeln.
Die neue Vision-Funktion basiert auf dem Forschungs-Framework von DeepSeek „Thinking with Visual Primitives“, das gemeinsam mit Forschern der Peking University und der Tsinghua University entwickelt wurde. Der zugrunde liegende Ansatz schließt Lücken beim räumlichen Schlussfolgern in bestehenden visuellen Sprachmodellen, indem Koordinatenpunkte und Bounding Boxes als zentrale Denkbausteine behandelt werden. So kann das Modell während der Inferenz eine visuelle Schlussfolgerung mit integrierter räumlicher Referenz durchführen. Die grundlegende wissenschaftliche Arbeit wurde am 30. April kurzzeitig veröffentlicht, aber von DeepSeek am 1. Mai wieder zurückgezogen. Der Vision-Modus unterstützt derzeit nur Bild-Inputs, ohne Video- oder Audio-Unterstützung, und bietet keine Bildgenerierungsfähigkeiten.