DeepSeek bringt den Vision-Modus mit einem Visual-Primitives-Framework für räumliches Reasoning auf den Markt

Laut Beating-Monitoring hat DeepSeek offiziell den Vision-Modus sowohl für Web- als auch für App-Plattformen gestartet. Dazu gehören eine eingehende Szenenanalyse, räumliches Schlussfolgern sowie die Fähigkeit, UI-Screenshots direkt in HTML-strukturierte Codes umzuwandeln.

Die neue Vision-Funktion basiert auf dem Forschungs-Framework von DeepSeek „Thinking with Visual Primitives“, das gemeinsam mit Forschern der Peking University und der Tsinghua University entwickelt wurde. Der zugrunde liegende Ansatz schließt Lücken beim räumlichen Schlussfolgern in bestehenden visuellen Sprachmodellen, indem Koordinatenpunkte und Bounding Boxes als zentrale Denkbausteine behandelt werden. So kann das Modell während der Inferenz eine visuelle Schlussfolgerung mit integrierter räumlicher Referenz durchführen. Die grundlegende wissenschaftliche Arbeit wurde am 30. April kurzzeitig veröffentlicht, aber von DeepSeek am 1. Mai wieder zurückgezogen. Der Vision-Modus unterstützt derzeit nur Bild-Inputs, ohne Video- oder Audio-Unterstützung, und bietet keine Bildgenerierungsfähigkeiten.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare