DeepSeek Introduit une méthode de primitives visuelles pour améliorer le raisonnement multimodal le 30 avril

D’après le rapport technique de DeepSeek, le 30 avril, l’entreprise a introduit Visual Primitives, une méthode qui intègre des unités visuelles de base comme des points et des boîtes englobantes dans des chaînes de raisonnement afin de résoudre le problème d’écart de référence dans les tâches multimodales. La méthode réduit la consommation de jetons d’image grâce à la compression du cache KV.

Sur les benchmarks de comptage et de raisonnement spatial, l’approche affiche des performances comparables à celles de GPT-5.4, Claude-Sonnet-4.6 et Gemini-3-Flash sur plusieurs dimensions sélectionnées. DeepSeek a déclaré qu’elle mettra en open-source des parties des benchmarks et des ensembles de données, les poids des modèles devant être publiés après l’intégration.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

La Maison-Blanche rédige un mémo de politique sur l’IA ordonnant aux agences américaines d’utiliser plusieurs fournisseurs d’IA le 30 avril

D’après des sources citées par PANews le 30 avril, des responsables de la Maison-Blanche rédigent une note d’orientation générale sur les politiques en matière d’intelligence artificielle qui ordonne aux agences du gouvernement américain d’adopter plusieurs fournisseurs de services d’IA et d’éviter de dépendre d’un seul prestataire. La note exige également que toutes les entreprises d’IA sous contrat

GateNewsIl y a 32m

L’Administration chinoise de la cybersécurité lance une campagne de 4 mois pour endiguer le chaos lié aux applications d’IA le 30 avril

Selon CCTV News, l’Administration chinoise du cyberspace a lancé une campagne nationale de quatre mois le 30 avril afin de remédier au chaos lié aux applications d’IA. L’initiative, déployée en deux phases, vise notamment des problèmes tels que l’absence d’enregistrements de modèles, des capacités insuffisantes en matière de sécurité et de revue des plateformes,

GateNewsIl y a 43m

Forefront Tech finalise la tarification de l’$100M IPO, une cotation au Nasdaq sous le code FTHAU

D’après ChainCatcher, la société d’acquisition à vocation spécifique Forefront Tech a finalisé la tarification de son introduction en bourse (IPO) de 100 millions de dollars le 30 avril et sera cotée au Nasdaq sous le symbole boursier FTHAU. La société prévoit d’utiliser le produit de l’opération pour saisir des opportunités de fusions-acquisitions dans le secteur de la blockchain, de la fintech, de l’intelligence artificielle et

GateNewsIl y a 1h

Anthropic Claude facture à un utilisateur 200,98 dollars en trop en raison d’un bug de facturation, et le remboursement a d’abord été refusé avant une compensation intégrale

D’après la surveillance de Beating, un bug de facturation dans le service Anthropic Claude Code a entraîné une surfacturation de Max 20x à hauteur de 200,98 dollars de frais d’utilisation supplémentaires, alors que le client n’utilisait que 13% de son quota mensuel. Le bug a été déclenché lorsque l’historique des commits du dépôt git d’un utilisateur contenait le caractère en majuscule

GateNewsIl y a 2h

NVIDIA publie les poids du modèle phare Cosmos-Reason2-32B et étend la fenêtre de contexte à 256 000 jetons

D’après Beating, NVIDIA a publié les poids de Cosmos-Reason2-32B, la version phare de son modèle de vision-langage (VLM) de raisonnement par IA physique, conçu pour aider les robots et les systèmes de conduite autonome à comprendre les principes spatiaux, temporels et physiques. Le modèle de 32 milliards de paramètres,

GateNewsIl y a 2h

OpenAI révèle pourquoi Codex interdit de parler de « gobelins » : la récompense de personnalité « nerd » a dérapé

OpenAI explique dans son blog officiel que Codex interdit de parler de gobelins et autres créatures, à cause d’un signal de récompense favorisant des métaphores de créatures lors de l’entraînement des traits « nerd », ce qui a entraîné une contamination entre personnalités et une dérive du RLHF. L’incident a été révélé par Barron Roth après la fuite des instructions système, et OpenAI a alors adopté deux stratégies : un codage dur à court terme et une suppression à long terme des signaux de récompense. Cela met en garde contre la fragilité de la conception des récompenses, et souligne que les audits post-entraînement doivent être plus précis.

ChainNewsAbmediaIl y a 3h
Commentaire
0/400
Aucun commentaire