De escaneos a voz: cómo Google está redefiniendo la IA en la atención médica

En Resumen

Google actualizó su AI médica de código abierto MedGemma con capacidades para interpretar escaneos como tomografías computarizadas (TC) y resonancias magnéticas (RM), además de lanzar una herramienta de reconocimiento de voz a texto open MedASR.

Google’s MedGemma Upgrade Signals New Era For AI-Driven Medical Diagnosis

La empresa tecnológica Google anunció una actualización de su modelo AI MedGemma, mejorando el soporte para aplicaciones de imágenes médicas

El nuevo modelo MedGemma 1.5 4B incorpora retroalimentación de la comunidad de desarrolladores para soportar mejor múltiples modalidades de imágenes médicas, incluyendo escaneos de alta dimensión como TC y RM, imágenes de histopatología, imágenes longitudinales como series temporales de radiografías de tórax y tareas de localización anatómica

También mejora la comprensión de documentos médicos, permitiendo la extracción de datos estructurados de informes de laboratorio. En comparación con la versión anterior MedGemma 1 4B, la actualización 1.5 4B ofrece mayor precisión en texto, registros médicos y imágenes 2D, manteniéndose lo suficientemente compacto para funcionar sin conexión

Para aplicaciones más complejas basadas en texto, los desarrolladores pueden seguir usando el modelo MedGemma de 27B de parámetros más grande. Los detalles completos y las referencias están disponibles en la tarjeta del modelo MedGemma 1.5.

MedGemma fue originalmente construido como un sistema multimodal para reflejar el entorno de datos complejo de la medicina, con versiones tempranas que soportaban la interpretación de imágenes médicas bidimensionales como radiografías de tórax, imágenes dermatológicas, escaneos retinianos y muestras de histopatología. La última versión, MedGemma 1.5, amplía estas capacidades para incluir imágenes médicas de alta dimensión, incorporando datos de TC y RM en 3D, así como histopatología de diapositivas completas. Los desarrolladores ahora pueden crear aplicaciones que procesen múltiples cortes o parches de imágenes junto con indicaciones específicas para tareas, permitiendo casos de uso diagnósticos y analíticos más avanzados.

Según evaluaciones internas, MedGemma 1.5 demuestra mejoras notables en varias áreas, incluyendo clasificación de hallazgos en TC y RM, análisis de histopatología, localización anatómica en radiografías de tórax, revisión de imágenes longitudinales y extracción estructurada de datos de informes de laboratorio. El modelo también muestra avances sustanciales en la comprensión de texto médico y en la respuesta a preguntas en registros electrónicos de salud, reflejando avances más amplios en rendimiento tanto en visión como en lenguaje.

Esta funcionalidad ampliada se basa en las herramientas anteriores de Google para TC y representa uno de los primeros modelos multimodales abiertos disponibles públicamente capaces de manejar datos médicos de alta dimensión junto con texto e imágenes 2D tradicionales. Aunque estas funciones aún están en desarrollo, la compañía espera que los desarrolladores logren mejoras adicionales mediante ajuste fino específico del dominio, apoyados por tutoriales y recursos recién lanzados para aplicaciones de TC y histopatología en Hugging Face y Model Garden.

Google presenta MedASR para mejorar el reconocimiento de voz médico y los flujos de trabajo clínicos con IA

Además, Google ha lanzado MedASR, un modelo abierto de reconocimiento automático de voz ajustado para dictado médico, que convierte voz en texto y se combina con MedGemma para tareas de razonamiento avanzado

Mientras que el texto sigue siendo la interfaz dominante para los grandes modelos de lenguaje, la comunicación hablada continúa desempeñando un papel central en la práctica clínica, desde el dictado del médico hasta consultas en tiempo real con pacientes, haciendo que el reconocimiento de voz preciso sea una capacidad esencial.

MedASR está diseñado específicamente para el lenguaje médico, permitiendo transcripciones más confiables de terminología específica del dominio y sirviendo como método de entrada natural para MedGemma. En pruebas comparativas contra el modelo Whisper large-v3 de propósito general, MedASR demostró una precisión significativamente mayor, produciendo errores de transcripción sustancialmente menores tanto en dictados de radiografías de tórax como en una referencia interna amplia que cubre múltiples especialidades médicas y perfiles de hablantes.

Todos los modelos HAI-DEF, incluyendo MedGemma 1.5, MedASR y el codificador de imágenes MedSigLIP, permanecen gratuitos para uso en investigación y comercial y pueden accederse en Hugging Face o integrarse en aplicaciones escalables en Vertex AI.

MedGemma gana tracción global a medida que los sistemas de salud e investigadores expanden la adopción de IA

Según Google, la adopción de MedGemma se está expandiendo entre startups de tecnología sanitaria y equipos de investigación en todo el mundo, con el modelo siendo cada vez más utilizado para acelerar el desarrollo en una amplia gama de aplicaciones médicas

En Malasia, Qmed Asia ha integrado MedGemma en askCPG, un sistema conversacional diseñado para proporcionar acceso a más de 150 guías clínicas nacionales. Según el Ministerio de Salud de Malasia, la interfaz ha mejorado la usabilidad de estas guías en la toma de decisiones clínicas rutinarias, mientras que los programas piloto iniciales han reportado comentarios particularmente positivos sobre las funciones de imágenes médicas multimodales impulsadas por MedGemma.

En Taiwán, la Administración de Seguros de Salud Nacional ha aplicado MedGemma para analizar evaluaciones preoperatorias de cirugía de cáncer de pulmón. Al extraer conocimientos estructurados de decenas de miles de informes de patología y otros datos clínicos no estructurados, la iniciativa apoya análisis estadísticos a gran escala destinados a informar decisiones políticas y mejorar la planificación quirúrgica y los resultados para los pacientes.

Desde su lanzamiento a principios de este año, MedGemma también ha sido ampliamente referenciada en investigaciones académicas de IA médica, donde ha demostrado un rendimiento sólido como modelo base para tareas como comprensión de texto médico, soporte de decisiones clínicas multidisciplinarias y reportes de mamografías.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)