DeepSeek lance un mode Vision avec le framework Visual Primitives pour le raisonnement spatial

D’après le suivi Beating, DeepSeek a officiellement lancé le mode Vision sur les plateformes web et appli, avec une analyse approfondie des scènes, un raisonnement spatial et la capacité de convertir directement des captures d’écran d’interface utilisateur en code structuré en HTML.

La nouvelle capacité de vision s’appuie sur le cadre de recherche de DeepSeek, « Thinking with Visual Primitives », co-développé avec des chercheurs de l’université de Pékin et de l’université Tsinghua. L’approche sous-jacente répond aux lacunes de raisonnement spatial des modèles de langage visuels existants en traitant les points de coordonnées et les boîtes englobantes comme unités de pensée essentielles, permettant au modèle d’effectuer un raisonnement visuel avec une référence spatiale intégrée pendant l’inférence. L’article scientifique fondamental a été brièvement publié le 30 avril, mais a été retiré par DeepSeek le 1er mai. Le mode Vision prend actuellement uniquement en charge l’entrée d’images, sans support vidéo ni audio, et ne dispose pas de capacités de génération d’images.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire