Google обновила свою открытое медицинское ИИ MedGemma с возможностями интерпретации сканов, таких как КТ и МРТ, а также выпустила открытый инструмент MedASR для преобразования речи в текст.
Технологическая компания Google объявила об обновлении своей модели ИИ MedGemma, улучшая поддержку медицинских изображений
Новая модель MedGemma 1.5 4B включает отзывы сообщества разработчиков для лучшей поддержки различных видов медицинских изображений, включая высокоразмерные сканы, такие как КТ и МРТ, гистопатологические изображения, продольную визуализацию, например, серии рентгенов грудной клетки, и задачи локализации анатомических структур
Она также улучшает понимание медицинских документов, позволяя извлекать структурированные данные из лабораторных отчетов. По сравнению с предыдущей MedGemma 1 4B, обновление 1.5 4B обеспечивает повышенную точность для текста, медицинских записей и 2D изображений, при этом оставаясь достаточно компактной для работы в офлайн-режиме
Для более сложных текстовых приложений разработчики могут продолжать использовать модель MedGemma с 27B параметрами. Полные детали и бенчмарки доступны в карточке модели MedGemma 1.5.
Изначально MedGemma создавалась как мультимодальная система, отражающая сложную среду данных в медицине, с ранними версиями, поддерживающими интерпретацию двумерных медицинских изображений, таких как рентгеновские снимки грудной клетки, дерматологические изображения, сканы сетчатки и образцы гистопатологии. Последний релиз, MedGemma 1.5, расширяет эти возможности за счет включения высокоразмерных медицинских изображений, включая трехмерные данные КТ и МРТ, а также гистопатологию полного слайда. Разработчики теперь могут создавать приложения, обрабатывающие несколько срезов или участков изображений вместе с задачными подсказками, что позволяет более продвинутые диагностические и аналитические сценарии.
Согласно внутренним оценкам, MedGemma 1.5 демонстрирует заметные улучшения в нескольких областях, включая классификацию находок КТ и МРТ, анализ гистопатологии, локализацию анатомических структур на рентгенах грудной клетки, продольный просмотр изображений и структурированное извлечение данных из лабораторных отчетов. Модель также показывает существенный прогресс в понимании медицинского текста и вопросах-ответах по электронным медицинским записям, что отражает более широкие достижения в области зрения и языка.
Эта расширенная функциональность основывается на более ранних инструментах Google для КТ и представляет собой одну из первых публичных открытых мультимодальных моделей, способных обрабатывать высокоразмерные медицинские данные наряду с традиционным текстом и 2D изображениями. Хотя эти функции все еще развиваются, компания ожидает, что разработчики достигнут дальнейших улучшений с помощью доменно-специфической донастройки, поддерживаемой новыми учебными материалами и ресурсами для приложений КТ и гистопатологии на Hugging Face и Model Garden.
Google представляет MedASR для улучшения медицинского распознавания речи и ИИ-клинических рабочих процессов
Кроме того, Google выпустила MedASR — открытую модель автоматического распознавания речи, донастроенную для медицинской диктовки, которая преобразует речь в текст и работает в паре с MedGemma для сложных рассуждений
Хотя текст остается доминирующим интерфейсом для больших языковых моделей, устное общение продолжает играть центральную роль в клинической практике — от диктовки врачей до консультаций с пациентами в реальном времени, что делает точное распознавание речи важной функцией.
MedASR разработана специально для медицинского языка, обеспечивая более надежную транскрипцию доменно-специфической терминологии и служит естественным способом ввода для MedGemma. В сравнительном тестировании с универсальной моделью Whisper large-v3 MedASR показала значительно более высокую точность, значительно реже допускает ошибки при диктовке рентгенов грудной клетки и в широком внутреннем бенчмарке, охватывающем несколько медицинских специальностей и профилей говорящих.
Все модели HAI-DEF, включая MedGemma 1.5, MedASR и кодировщик изображений MedSigLIP, остаются бесплатными для исследований и коммерческого использования и доступны на Hugging Face или могут быть интегрированы в масштабируемые приложения на Vertex AI.
MedGemma приобретает глобальное распространение по мере расширения внедрения ИИ в системы здравоохранения и исследовательские группы
По данным Google, внедрение MedGemma расширяется среди стартапов в области медицинских технологий и исследовательских команд по всему миру, и модель все чаще используется для ускорения разработки в широком спектре медицинских приложений
В Малайзии Qmed Asia интегрировала MedGemma в askCPG — разговорную систему, предназначенную для предоставления доступа к более чем 150 национальным клиническим руководствам. По данным Министерства здравоохранения Малайзии, интерфейс улучшил удобство использования этих руководств в рутинных клинических решениях, а ранние пилотные программы сообщили о особенно положительном отзыве о мультимодальных возможностях медицинских изображений, поддерживаемых MedGemma.
В Тайване Национальное управление медицинского страхования применило MedGemma для анализа предоперационных оценок при хирургии рака легких. Извлекая структурированные инсайты из десятков тысяч патологических отчетов и других неструктурированных клинических данных, инициатива поддерживает крупномасштабный статистический анализ, предназначенный для информирования политических решений и улучшения планирования операций и исходов для пациентов.
С момента своего выпуска в начале этого года MedGemma также широко цитируется в академических исследованиях в области медицинского ИИ, где она показала хорошие результаты в качестве базовой модели для задач таких как понимание медицинского текста, междисциплинарная клиническая поддержка решений и отчетность маммографии.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
От сканов к речи: как Google переопределяет ИИ в здравоохранении
Кратко
Google обновила свою открытое медицинское ИИ MedGemma с возможностями интерпретации сканов, таких как КТ и МРТ, а также выпустила открытый инструмент MedASR для преобразования речи в текст.
Технологическая компания Google объявила об обновлении своей модели ИИ MedGemma, улучшая поддержку медицинских изображений
Новая модель MedGemma 1.5 4B включает отзывы сообщества разработчиков для лучшей поддержки различных видов медицинских изображений, включая высокоразмерные сканы, такие как КТ и МРТ, гистопатологические изображения, продольную визуализацию, например, серии рентгенов грудной клетки, и задачи локализации анатомических структур
Она также улучшает понимание медицинских документов, позволяя извлекать структурированные данные из лабораторных отчетов. По сравнению с предыдущей MedGemma 1 4B, обновление 1.5 4B обеспечивает повышенную точность для текста, медицинских записей и 2D изображений, при этом оставаясь достаточно компактной для работы в офлайн-режиме
Для более сложных текстовых приложений разработчики могут продолжать использовать модель MedGemma с 27B параметрами. Полные детали и бенчмарки доступны в карточке модели MedGemma 1.5.
Изначально MedGemma создавалась как мультимодальная система, отражающая сложную среду данных в медицине, с ранними версиями, поддерживающими интерпретацию двумерных медицинских изображений, таких как рентгеновские снимки грудной клетки, дерматологические изображения, сканы сетчатки и образцы гистопатологии. Последний релиз, MedGemma 1.5, расширяет эти возможности за счет включения высокоразмерных медицинских изображений, включая трехмерные данные КТ и МРТ, а также гистопатологию полного слайда. Разработчики теперь могут создавать приложения, обрабатывающие несколько срезов или участков изображений вместе с задачными подсказками, что позволяет более продвинутые диагностические и аналитические сценарии.
Согласно внутренним оценкам, MedGemma 1.5 демонстрирует заметные улучшения в нескольких областях, включая классификацию находок КТ и МРТ, анализ гистопатологии, локализацию анатомических структур на рентгенах грудной клетки, продольный просмотр изображений и структурированное извлечение данных из лабораторных отчетов. Модель также показывает существенный прогресс в понимании медицинского текста и вопросах-ответах по электронным медицинским записям, что отражает более широкие достижения в области зрения и языка.
Эта расширенная функциональность основывается на более ранних инструментах Google для КТ и представляет собой одну из первых публичных открытых мультимодальных моделей, способных обрабатывать высокоразмерные медицинские данные наряду с традиционным текстом и 2D изображениями. Хотя эти функции все еще развиваются, компания ожидает, что разработчики достигнут дальнейших улучшений с помощью доменно-специфической донастройки, поддерживаемой новыми учебными материалами и ресурсами для приложений КТ и гистопатологии на Hugging Face и Model Garden.
Google представляет MedASR для улучшения медицинского распознавания речи и ИИ-клинических рабочих процессов
Кроме того, Google выпустила MedASR — открытую модель автоматического распознавания речи, донастроенную для медицинской диктовки, которая преобразует речь в текст и работает в паре с MedGemma для сложных рассуждений
Хотя текст остается доминирующим интерфейсом для больших языковых моделей, устное общение продолжает играть центральную роль в клинической практике — от диктовки врачей до консультаций с пациентами в реальном времени, что делает точное распознавание речи важной функцией.
MedASR разработана специально для медицинского языка, обеспечивая более надежную транскрипцию доменно-специфической терминологии и служит естественным способом ввода для MedGemma. В сравнительном тестировании с универсальной моделью Whisper large-v3 MedASR показала значительно более высокую точность, значительно реже допускает ошибки при диктовке рентгенов грудной клетки и в широком внутреннем бенчмарке, охватывающем несколько медицинских специальностей и профилей говорящих.
Все модели HAI-DEF, включая MedGemma 1.5, MedASR и кодировщик изображений MedSigLIP, остаются бесплатными для исследований и коммерческого использования и доступны на Hugging Face или могут быть интегрированы в масштабируемые приложения на Vertex AI.
MedGemma приобретает глобальное распространение по мере расширения внедрения ИИ в системы здравоохранения и исследовательские группы
По данным Google, внедрение MedGemma расширяется среди стартапов в области медицинских технологий и исследовательских команд по всему миру, и модель все чаще используется для ускорения разработки в широком спектре медицинских приложений
В Малайзии Qmed Asia интегрировала MedGemma в askCPG — разговорную систему, предназначенную для предоставления доступа к более чем 150 национальным клиническим руководствам. По данным Министерства здравоохранения Малайзии, интерфейс улучшил удобство использования этих руководств в рутинных клинических решениях, а ранние пилотные программы сообщили о особенно положительном отзыве о мультимодальных возможностях медицинских изображений, поддерживаемых MedGemma.
В Тайване Национальное управление медицинского страхования применило MedGemma для анализа предоперационных оценок при хирургии рака легких. Извлекая структурированные инсайты из десятков тысяч патологических отчетов и других неструктурированных клинических данных, инициатива поддерживает крупномасштабный статистический анализ, предназначенный для информирования политических решений и улучшения планирования операций и исходов для пациентов.
С момента своего выпуска в начале этого года MedGemma также широко цитируется в академических исследованиях в области медицинского ИИ, где она показала хорошие результаты в качестве базовой модели для задач таких как понимание медицинского текста, междисциплинарная клиническая поддержка решений и отчетность маммографии.