Message de Gate News, 23 avril — Des chercheurs de Google, dont He Kaiming et Xie Saining, ont publié un article présentant Vision Banana, un modèle polyvalent de compréhension visuelle créé grâce à un réglage fin par instruction léger du modèle de génération d’images Nano Banana Pro (Gemini 3 Pro Image) de l’entreprise. L’innovation clé unifie les sorties de toutes les tâches de vision sous forme d’images RGB, permettant la segmentation, l’estimation de profondeur et la prédiction des normales de surface via la génération d’images, sans architectures ou fonctions de perte spécifiques aux tâches.
En segmentation sémantique, Vision Banana a surpassé le modèle spécialisé SAM 3 de 4,7 points de pourcentage sur Cityscapes ; en segmentation par expressions de référence, il a dépassé SAM 3 Agent. En revanche, il a pris du retard sur SAM 3 en segmentation d’instances. Pour les tâches 3D, l’estimation de profondeur métrique a atteint 0,929 de précision moyenne sur quatre ensembles de données standards, dépassant les 0,918 de Depth Anything V3, en n’utilisant que des données synthétiques sans informations de profondeur réelles ni paramètres de caméra lors de l’inférence. L’estimation des normales de surface a obtenu des résultats à l’état de l’art sur trois bancs d’essai en intérieur.
Le réglage fin a impliqué une quantité minimale de données de tâches visuelles mélangées à l’entraînement initial de génération d’images, préservant les capacités de génération du modèle — les performances étaient conformes au Nano Banana Pro original lors de tests de qualité de génération. L’article propose que le préentraînement à la génération d’images en vision soit analogue au préentraînement de la génération de texte en langage : les modèles apprennent les représentations internes nécessaires à la compréhension d’images pendant la génération, et le réglage fin par instruction ne fait que libérer cette capacité.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Des toilettes aux fabricants d’assaisonnements : le débordement de la valeur des chaînes d’approvisionnement alimentées par l’IA a favorisé quelles entreprises ?
La vague de dividendes de l’IA continue de se propager, de Nvidia aux géants de la technologie comme TSMC. Désormais, des entreprises japonaises qui fabriquent des toilettes et un groupe agroalimentaire lancé par la production de glutamate monosodique deviennent, en silence, des gagnants invisibles de cette ruée vers les infrastructures d’IA. Leur essor met en lumière une tendance clé : l’effet de débordement de la valeur tout au long de la chaîne d’approvisionnement de l’IA s’est depuis longtemps infiltré dans l’industrie manufacturière traditionnelle, faisant émerger davantage d’opportunités de transformation diversifiées.
Fabricant de toilettes TOTO : sa technologie de céramique trouve inopinément un besoin dans la production de plaquettes
Le géant japonais de l’équipement de salle de bain TOTO, connu dans le monde entier pour ses couvercles de toilettes de haute qualité, se spécialise dans la fabrication de céramique depuis plus de 40 ans. Pourtant, cette tradition artisanale qui semblait n’avoir aucun lien avec la technologie a permis à l’entreprise de trouver un nouveau terrain dans les procédés de semi-conducteurs.
TOTO a récemment annoncé qu’elle allait exploiter son expertise en technologie céramique pour produire des chucks électrostatiques (Electrostatic Chuck) utilisés dans la fabrication de puces. À peine l’information révélée, le cours de l’action a commencé à…
ChainNewsAbmediaIl y a 1h
MediaTek embauche un ancien cadre de TSMC pour étendre ses puces d’IA
Le concepteur taïwanais de puces MediaTek a nommé, le 4 mai, l’ancien dirigeant de Taiwan Semiconductor Manufacturing Co (TSMC) Douglas Yu comme conseiller à temps partiel, selon Reuters. Cette décision soutient l’expansion de MediaTek sur le marché des puces pour l’IA et ses progrès en matière de technologie d’emballage.
Advanced
CryptoFrontierIl y a 1h
OpenAI s’associe à Yubico pour proposer des clés de sécurité matérielles personnalisées
D’après Yubico, OpenAI s’est associé au fabricant de clés de sécurité basé à Stockholm pour proposer des YubiKeys personnalisées via son programme d’Advanced Account Security. Le programme vise des utilisateurs présentant un risque plus élevé d’attaques par hameçonnage et de prise de contrôle de compte.
Le pack comprend une YubiKey C NFC pour les appareils mobiles et une Y
GateNewsIl y a 1h
L’Inde met en garde contre les risques cybernétiques alors que l’IA Mythos d’Anthropic contourne les défenses dans 83 cas d’essai sur 100
D’après The Economic Times, l’agence indienne de cybersécurité a récemment publié une alerte d’une sévérité élevée après que l’IA Mythos d’Anthropic a démontré sa capacité à repérer des dizaines de milliers de vulnérabilités et à transformer des bogues logiciels en attaques exploitables en quelques minutes.
Palo Alto Networks' Unit 42 et
GateNewsIl y a 3h
Un investisseur passant de 1 action à 480 actions : est-ce le moment idéal pour entrer avant la prochaine opération de fractionnement d’actions de Nvidia ?
Cet article revient sur les multiples fractionnements d’actions de Nvidia depuis son introduction en bourse en 1999, qui ont permis aux détenteurs d’actions précoces de voir leur participation passer à 480 actions via ces opérations. En 2024, la société a ajusté le cours à environ 120 dollars avec un split de 10 pour 1. Porté par la demande mondiale en infrastructures d’IA, Nvidia s’est imposé comme un fournisseur central pour les centres de données. Sa capitalisation boursière approche les 5 billions de dollars et son élan de croissance demeure solide. Les analystes estiment que le prochain fractionnement dépendra du cours de l’action et de la performance de la croissance ; l’action se situe actuellement autour de 198 dollars. Si la croissance se poursuit, ou si une nouvelle opportunité d’entrée se présente, cela pourrait jouer en faveur des investisseurs, mais il s’agit seulement d’une observation de marché, et non d’une recommandation d’investissement.
ChainNewsAbmediaIl y a 3h
Google, VNG lancent un laboratoire d’IA appliquée au Vietnam le 4 mai
D’après VNG Corporation, Google, VNG et l’Université nationale du Vietnam à Hô Chi Minh-Ville, ont lancé un Applied AI Lab au Vietnam via Saigon AI Hub le 4 mai. Google Labs et AI Future Funds fourniront aux équipes sélectionnées un accès anticipé aux technologies de Google, un support technique de Google et
GateNewsIl y a 3h