Google a mis à jour son AI médical open-source MedGemma avec des capacités d’interprétation de scans comme les CT et IRM, tout en lançant un outil open MedASR de reconnaissance vocale en texte.
La société technologique Google a annoncé une mise à jour de son modèle AI MedGemma, améliorant le support pour les applications d’imagerie médicale.
Le nouveau modèle MedGemma 1.5 4B intègre les retours de la communauté de développeurs pour mieux supporter plusieurs modalités d’imagerie médicale, y compris les scans haute dimension comme les CT et IRM, les images d’histopathologie, l’imagerie longitudinale comme les séries temporelles de radiographies thoraciques, et les tâches de localisation anatomique.
Il améliore également la compréhension des documents médicaux, permettant l’extraction de données structurées à partir de rapports de laboratoire. Comparé à la version précédente MedGemma 1 4B, la mise à jour 1.5 4B offre une précision accrue pour le texte, les dossiers médicaux et l’imagerie 2D, tout en restant suffisamment compacte pour fonctionner hors ligne.
Pour des applications textuelles plus complexes, les développeurs peuvent continuer à utiliser le modèle MedGemma avec 27 milliards de paramètres. Tous les détails et benchmarks sont disponibles dans la fiche technique du modèle MedGemma 1.5.
MedGemma a été initialement conçu comme un système multimodal pour refléter l’environnement complexe des données en médecine, avec des versions précoces supportant l’interprétation d’images médicales bidimensionnelles telles que les radiographies thoraciques, images dermatologiques, scans rétiniens et échantillons d’histopathologie. La dernière version, MedGemma 1.5, étend ces capacités pour inclure l’imagerie médicale haute dimension, intégrant des données CT et IRM en trois dimensions ainsi que l’histopathologie à l’ensemble de la lame. Les développeurs peuvent désormais créer des applications traitant plusieurs tranches ou patches d’images avec des prompts spécifiques à la tâche, permettant des cas d’utilisation diagnostique et analytique plus avancés.
Selon des évaluations internes, MedGemma 1.5 montre des améliorations notables de performance dans plusieurs domaines, notamment la classification des résultats de CT et IRM, l’analyse d’histopathologie, la localisation anatomique dans les radiographies thoraciques, la revue d’images longitudinales, et l’extraction de données structurées à partir de rapports de laboratoire. Le modèle affiche également des gains substantiels dans la compréhension du texte médical et la réponse aux questions sur les dossiers de santé électroniques, reflétant des avancées plus larges en vision et en langage.
Cette fonctionnalité étendue s’appuie sur les outils de base CT précédents de Google et représente l’un des premiers modèles multimodaux open accessibles capables de gérer des données médicales haute dimension en parallèle avec le texte traditionnel et l’imagerie 2D. Bien que ces fonctionnalités soient encore en évolution, la société prévoit que les développeurs pourront atteindre de nouvelles améliorations via un ajustement spécifique au domaine, soutenu par de nouveaux tutoriels et ressources pour les applications CT et histopathologie sur Hugging Face et Model Garden.
Google présente MedASR pour améliorer la reconnaissance vocale médicale et les flux de travail AI cliniques
De plus, Google a lancé MedASR, un modèle open de reconnaissance vocale automatisée finement ajusté pour la dictée médicale, qui convertit la parole en texte et s’associe à MedGemma pour des tâches de raisonnement avancé.
Alors que le texte reste l’interface dominante pour les grands modèles de langage, la communication orale continue de jouer un rôle central en pratique clinique, de la dictée du médecin aux consultations en temps réel avec les patients, rendant la reconnaissance vocale précise une capacité essentielle.
MedASR est conçu spécifiquement pour le langage médical, permettant une transcription plus fiable de la terminologie spécifique au domaine et servant de méthode d’entrée naturelle pour MedGemma. Lors de tests comparatifs avec le modèle Whisper large-v3 à usage général, MedASR a démontré une précision nettement supérieure, produisant beaucoup moins d’erreurs de transcription aussi bien pour les dictées de radiographies thoraciques que pour un benchmark interne couvrant plusieurs spécialités médicales et profils de locuteurs.
Tous les modèles HAI-DEF, y compris MedGemma 1.5, MedASR, et l’encodeur d’images MedSigLIP, restent gratuits pour la recherche et l’usage commercial, et peuvent être accessibles sur Hugging Face ou intégrés dans des applications évolutives sur Vertex AI.
MedGemma gagne en traction mondiale alors que les systèmes de santé et chercheurs étendent l’adoption de l’IA
Selon Google, l’adoption de MedGemma s’étend parmi les startups en technologie de santé et les équipes de recherche dans le monde entier, le modèle étant de plus en plus utilisé pour accélérer le développement dans une large gamme d’applications médicales.
En Malaisie, Qmed Asia a intégré MedGemma dans askCPG, un système conversationnel conçu pour fournir un accès à plus de 150 directives cliniques nationales. Selon le ministère de la Santé de Malaisie, l’interface a amélioré l’utilisabilité de ces directives dans la prise de décision clinique de routine, tandis que des programmes pilotes précoces ont rapporté des retours particulièrement positifs sur les fonctionnalités d’imagerie médicale multimodale alimentées par MedGemma.
À Taïwan, l’Administration nationale d’assurance maladie a appliqué MedGemma pour analyser les évaluations préopératoires pour la chirurgie du cancer du poumon. En extrayant des insights structurés de dizaines de milliers de rapports de pathologie et d’autres données cliniques non structurées, cette initiative soutient une analyse statistique à grande échelle destinée à éclairer les décisions politiques et à améliorer la planification chirurgicale et les résultats pour les patients.
Depuis sa sortie plus tôt cette année, MedGemma a également été largement référencé dans la recherche académique en IA médicale, où il a démontré de solides performances en tant que modèle de base pour des tâches telles que la compréhension du texte médical, le support décisionnel clinique multidisciplinaire, et la rédaction de rapports de mammographie.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Des scans à la parole : comment Google redéfinit l'IA en santé
En Bref
Google a mis à jour son AI médical open-source MedGemma avec des capacités d’interprétation de scans comme les CT et IRM, tout en lançant un outil open MedASR de reconnaissance vocale en texte.
La société technologique Google a annoncé une mise à jour de son modèle AI MedGemma, améliorant le support pour les applications d’imagerie médicale.
Le nouveau modèle MedGemma 1.5 4B intègre les retours de la communauté de développeurs pour mieux supporter plusieurs modalités d’imagerie médicale, y compris les scans haute dimension comme les CT et IRM, les images d’histopathologie, l’imagerie longitudinale comme les séries temporelles de radiographies thoraciques, et les tâches de localisation anatomique.
Il améliore également la compréhension des documents médicaux, permettant l’extraction de données structurées à partir de rapports de laboratoire. Comparé à la version précédente MedGemma 1 4B, la mise à jour 1.5 4B offre une précision accrue pour le texte, les dossiers médicaux et l’imagerie 2D, tout en restant suffisamment compacte pour fonctionner hors ligne.
Pour des applications textuelles plus complexes, les développeurs peuvent continuer à utiliser le modèle MedGemma avec 27 milliards de paramètres. Tous les détails et benchmarks sont disponibles dans la fiche technique du modèle MedGemma 1.5.
MedGemma a été initialement conçu comme un système multimodal pour refléter l’environnement complexe des données en médecine, avec des versions précoces supportant l’interprétation d’images médicales bidimensionnelles telles que les radiographies thoraciques, images dermatologiques, scans rétiniens et échantillons d’histopathologie. La dernière version, MedGemma 1.5, étend ces capacités pour inclure l’imagerie médicale haute dimension, intégrant des données CT et IRM en trois dimensions ainsi que l’histopathologie à l’ensemble de la lame. Les développeurs peuvent désormais créer des applications traitant plusieurs tranches ou patches d’images avec des prompts spécifiques à la tâche, permettant des cas d’utilisation diagnostique et analytique plus avancés.
Selon des évaluations internes, MedGemma 1.5 montre des améliorations notables de performance dans plusieurs domaines, notamment la classification des résultats de CT et IRM, l’analyse d’histopathologie, la localisation anatomique dans les radiographies thoraciques, la revue d’images longitudinales, et l’extraction de données structurées à partir de rapports de laboratoire. Le modèle affiche également des gains substantiels dans la compréhension du texte médical et la réponse aux questions sur les dossiers de santé électroniques, reflétant des avancées plus larges en vision et en langage.
Cette fonctionnalité étendue s’appuie sur les outils de base CT précédents de Google et représente l’un des premiers modèles multimodaux open accessibles capables de gérer des données médicales haute dimension en parallèle avec le texte traditionnel et l’imagerie 2D. Bien que ces fonctionnalités soient encore en évolution, la société prévoit que les développeurs pourront atteindre de nouvelles améliorations via un ajustement spécifique au domaine, soutenu par de nouveaux tutoriels et ressources pour les applications CT et histopathologie sur Hugging Face et Model Garden.
Google présente MedASR pour améliorer la reconnaissance vocale médicale et les flux de travail AI cliniques
De plus, Google a lancé MedASR, un modèle open de reconnaissance vocale automatisée finement ajusté pour la dictée médicale, qui convertit la parole en texte et s’associe à MedGemma pour des tâches de raisonnement avancé.
Alors que le texte reste l’interface dominante pour les grands modèles de langage, la communication orale continue de jouer un rôle central en pratique clinique, de la dictée du médecin aux consultations en temps réel avec les patients, rendant la reconnaissance vocale précise une capacité essentielle.
MedASR est conçu spécifiquement pour le langage médical, permettant une transcription plus fiable de la terminologie spécifique au domaine et servant de méthode d’entrée naturelle pour MedGemma. Lors de tests comparatifs avec le modèle Whisper large-v3 à usage général, MedASR a démontré une précision nettement supérieure, produisant beaucoup moins d’erreurs de transcription aussi bien pour les dictées de radiographies thoraciques que pour un benchmark interne couvrant plusieurs spécialités médicales et profils de locuteurs.
Tous les modèles HAI-DEF, y compris MedGemma 1.5, MedASR, et l’encodeur d’images MedSigLIP, restent gratuits pour la recherche et l’usage commercial, et peuvent être accessibles sur Hugging Face ou intégrés dans des applications évolutives sur Vertex AI.
MedGemma gagne en traction mondiale alors que les systèmes de santé et chercheurs étendent l’adoption de l’IA
Selon Google, l’adoption de MedGemma s’étend parmi les startups en technologie de santé et les équipes de recherche dans le monde entier, le modèle étant de plus en plus utilisé pour accélérer le développement dans une large gamme d’applications médicales.
En Malaisie, Qmed Asia a intégré MedGemma dans askCPG, un système conversationnel conçu pour fournir un accès à plus de 150 directives cliniques nationales. Selon le ministère de la Santé de Malaisie, l’interface a amélioré l’utilisabilité de ces directives dans la prise de décision clinique de routine, tandis que des programmes pilotes précoces ont rapporté des retours particulièrement positifs sur les fonctionnalités d’imagerie médicale multimodale alimentées par MedGemma.
À Taïwan, l’Administration nationale d’assurance maladie a appliqué MedGemma pour analyser les évaluations préopératoires pour la chirurgie du cancer du poumon. En extrayant des insights structurés de dizaines de milliers de rapports de pathologie et d’autres données cliniques non structurées, cette initiative soutient une analyse statistique à grande échelle destinée à éclairer les décisions politiques et à améliorer la planification chirurgicale et les résultats pour les patients.
Depuis sa sortie plus tôt cette année, MedGemma a également été largement référencé dans la recherche académique en IA médicale, où il a démontré de solides performances en tant que modèle de base pour des tâches telles que la compréhension du texte médical, le support décisionnel clinique multidisciplinaire, et la rédaction de rapports de mammographie.