Google оновила свою відкриту медичну AI-модель MedGemma з можливістю інтерпретації сканів, таких як КТ та МРТ, а також випустила відкритий інструмент MedASR для розпізнавання мови у текст.
Технологічна компанія Google оголосила про оновлення своєї AI-моделі MedGemma, яке покращує підтримку медичних зображень
Нова модель MedGemma 1.5 4B враховує відгуки спільноти розробників для кращої підтримки кількох модальностей медичних зображень, включаючи високорозмірні скани, такі як КТ і МРТ, гістопатологічні зображення, довгострокове зображення, наприклад, серії рентгенів грудної клітки, та задачі локалізації анатомічних структур
Вона також покращує розуміння медичних документів, дозволяючи витягувати структуровані дані з лабораторних звітів. У порівнянні з попередньою моделлю MedGemma 1 4B, оновлення 1.5 4B забезпечує підвищену точність для тексту, медичних записів і 2D-зображень, при цьому залишаючись досить компактною для роботи офлайн
Для більш складних текстових застосувань розробники можуть продовжувати використовувати модель MedGemma з 27B параметрами. Повна інформація та бенчмарки доступні у картці моделі MedGemma 1.5.
MedGemma спочатку була створена як мультимодальна система, щоб відобразити складне середовище даних у медицині, з ранніми версіями, що підтримували інтерпретацію двовимірних медичних зображень, таких як рентгени грудної клітки, дерматологічні зображення, сітківкові скани та гістопатологічні зразки. Останній реліз, MedGemma 1.5, розширює ці можливості, включаючи високорозмірні медичні зображення, що містять тривимірні дані КТ і МРТ, а також гістопатологію цілого слайду. Розробники тепер можуть створювати застосунки, що обробляють кілька зображень або патчів разом із завданнями, що вимагають конкретних підказок, що дозволяє більш просунуті діагностичні та аналітичні сценарії.
Згідно з внутрішніми оцінками, MedGemma 1.5 демонструє значне покращення продуктивності у кількох сферах, включаючи класифікацію результатів КТ і МРТ, аналіз гістопатології, локалізацію анатомічних структур у рентгенах грудної клітки, довгостроковий перегляд зображень та структурований витяг даних з лабораторних звітів. Модель також показує суттєві покращення у розумінні медичного тексту та відповіді на запитання з електронних медичних записів, що відображає ширші досягнення у галузі зору та мови.
Ця розширена функціональність базується на попередніх інструментах Google для КТ і є однією з перших публічно доступних відкритих мультимодальних моделей, здатних обробляти високорозмірні медичні дані поряд із традиційним текстом і 2D-зображеннями. Хоча ці функції ще розвиваються, компанія очікує, що розробники досягнуть подальших покращень через доменне тонке налаштування, підтримане новими навчальними матеріалами та ресурсами для застосувань КТ і гістопатології на Hugging Face і Model Garden.
Google представляє MedASR для покращення медичного розпізнавання мови та AI-клінічних робочих процесів
Крім того, Google випустила MedASR, відкриту автоматизовану модель розпізнавання мови, налаштовану для медичної диктовки, яка перетворює мову у текст і працює разом із MedGemma для складних логічних задач
Хоча текст залишається домінуючим інтерфейсом для великих мовних моделей, усне спілкування продовжує відігравати центральну роль у клінічній практиці — від диктовки лікаря до консультацій у реальному часі, тому точне розпізнавання мови є важливою здатністю.
MedASR розроблена спеціально для медичної мови, що дозволяє більш надійно транскрибувати терміни, специфічні для галузі, і служить природним способом введення для MedGemma. У порівняльних тестах із універсальною моделлю Whisper large-v3, MedASR показала значно вищу точність, суттєво зменшивши кількість помилок транскрипції як у диктовках рентгенів грудної клітки, так і у широкому внутрішньому бенчмарку, що охоплює кілька медичних спеціальностей і профілів мовців.
Усі моделі HAI-DEF, включаючи MedGemma 1.5, MedASR і кодер зображень MedSigLIP, залишаються безкоштовними для досліджень і комерційного використання і доступні на Hugging Face або для інтеграції у масштабовані застосунки на Vertex AI.
MedGemma здобуває глобальну популярність у зв’язку з розширенням впровадження AI у системах охорони здоров’я та дослідницьких командах
Згідно з даними Google, впровадження MedGemma зростає серед стартапів у галузі медичних технологій і дослідницьких команд по всьому світу, і модель все частіше використовується для прискорення розробки у широкому спектрі медичних застосувань
У Малайзії Qmed Asia інтегрувала MedGemma у askCPG, розмовну систему, створену для доступу до понад 150 національних клінічних рекомендацій. За даними Міністерства охорони здоров’я Малайзії, цей інтерфейс покращив зручність використання цих рекомендацій у щоденних клінічних рішеннях, а ранні пілотні програми отримали особливо позитивний відгук щодо мультимодальних функцій медичних зображень, підтримуваних MedGemma.
У Тайвані Національна адміністрація медичного страхування застосувала MedGemma для аналізу передопераційних оцінок для хірургії легень. Витягуючи структуровані інсайти з десятків тисяч гістопатологічних звітів та інших неструктурованих клінічних даних, ініціатива підтримує масштабний статистичний аналіз, спрямований на інформування політики та покращення планування операцій і результатів для пацієнтів.
З моменту випуску на початку цього року MedGemma також широко цитувалася у академічних дослідженнях у галузі медичного AI, де вона продемонструвала сильну продуктивність як базова модель для завдань, таких як розуміння медичного тексту, багатопрофільна клінічна підтримка прийняття рішень і звітування мамографії.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Від сканів до мови: як Google переосмислює штучний інтелект у сфері охорони здоров'я
Коротко
Google оновила свою відкриту медичну AI-модель MedGemma з можливістю інтерпретації сканів, таких як КТ та МРТ, а також випустила відкритий інструмент MedASR для розпізнавання мови у текст.
Технологічна компанія Google оголосила про оновлення своєї AI-моделі MedGemma, яке покращує підтримку медичних зображень
Нова модель MedGemma 1.5 4B враховує відгуки спільноти розробників для кращої підтримки кількох модальностей медичних зображень, включаючи високорозмірні скани, такі як КТ і МРТ, гістопатологічні зображення, довгострокове зображення, наприклад, серії рентгенів грудної клітки, та задачі локалізації анатомічних структур
Вона також покращує розуміння медичних документів, дозволяючи витягувати структуровані дані з лабораторних звітів. У порівнянні з попередньою моделлю MedGemma 1 4B, оновлення 1.5 4B забезпечує підвищену точність для тексту, медичних записів і 2D-зображень, при цьому залишаючись досить компактною для роботи офлайн
Для більш складних текстових застосувань розробники можуть продовжувати використовувати модель MedGemma з 27B параметрами. Повна інформація та бенчмарки доступні у картці моделі MedGemma 1.5.
MedGemma спочатку була створена як мультимодальна система, щоб відобразити складне середовище даних у медицині, з ранніми версіями, що підтримували інтерпретацію двовимірних медичних зображень, таких як рентгени грудної клітки, дерматологічні зображення, сітківкові скани та гістопатологічні зразки. Останній реліз, MedGemma 1.5, розширює ці можливості, включаючи високорозмірні медичні зображення, що містять тривимірні дані КТ і МРТ, а також гістопатологію цілого слайду. Розробники тепер можуть створювати застосунки, що обробляють кілька зображень або патчів разом із завданнями, що вимагають конкретних підказок, що дозволяє більш просунуті діагностичні та аналітичні сценарії.
Згідно з внутрішніми оцінками, MedGemma 1.5 демонструє значне покращення продуктивності у кількох сферах, включаючи класифікацію результатів КТ і МРТ, аналіз гістопатології, локалізацію анатомічних структур у рентгенах грудної клітки, довгостроковий перегляд зображень та структурований витяг даних з лабораторних звітів. Модель також показує суттєві покращення у розумінні медичного тексту та відповіді на запитання з електронних медичних записів, що відображає ширші досягнення у галузі зору та мови.
Ця розширена функціональність базується на попередніх інструментах Google для КТ і є однією з перших публічно доступних відкритих мультимодальних моделей, здатних обробляти високорозмірні медичні дані поряд із традиційним текстом і 2D-зображеннями. Хоча ці функції ще розвиваються, компанія очікує, що розробники досягнуть подальших покращень через доменне тонке налаштування, підтримане новими навчальними матеріалами та ресурсами для застосувань КТ і гістопатології на Hugging Face і Model Garden.
Google представляє MedASR для покращення медичного розпізнавання мови та AI-клінічних робочих процесів
Крім того, Google випустила MedASR, відкриту автоматизовану модель розпізнавання мови, налаштовану для медичної диктовки, яка перетворює мову у текст і працює разом із MedGemma для складних логічних задач
Хоча текст залишається домінуючим інтерфейсом для великих мовних моделей, усне спілкування продовжує відігравати центральну роль у клінічній практиці — від диктовки лікаря до консультацій у реальному часі, тому точне розпізнавання мови є важливою здатністю.
MedASR розроблена спеціально для медичної мови, що дозволяє більш надійно транскрибувати терміни, специфічні для галузі, і служить природним способом введення для MedGemma. У порівняльних тестах із універсальною моделлю Whisper large-v3, MedASR показала значно вищу точність, суттєво зменшивши кількість помилок транскрипції як у диктовках рентгенів грудної клітки, так і у широкому внутрішньому бенчмарку, що охоплює кілька медичних спеціальностей і профілів мовців.
Усі моделі HAI-DEF, включаючи MedGemma 1.5, MedASR і кодер зображень MedSigLIP, залишаються безкоштовними для досліджень і комерційного використання і доступні на Hugging Face або для інтеграції у масштабовані застосунки на Vertex AI.
MedGemma здобуває глобальну популярність у зв’язку з розширенням впровадження AI у системах охорони здоров’я та дослідницьких командах
Згідно з даними Google, впровадження MedGemma зростає серед стартапів у галузі медичних технологій і дослідницьких команд по всьому світу, і модель все частіше використовується для прискорення розробки у широкому спектрі медичних застосувань
У Малайзії Qmed Asia інтегрувала MedGemma у askCPG, розмовну систему, створену для доступу до понад 150 національних клінічних рекомендацій. За даними Міністерства охорони здоров’я Малайзії, цей інтерфейс покращив зручність використання цих рекомендацій у щоденних клінічних рішеннях, а ранні пілотні програми отримали особливо позитивний відгук щодо мультимодальних функцій медичних зображень, підтримуваних MedGemma.
У Тайвані Національна адміністрація медичного страхування застосувала MedGemma для аналізу передопераційних оцінок для хірургії легень. Витягуючи структуровані інсайти з десятків тисяч гістопатологічних звітів та інших неструктурованих клінічних даних, ініціатива підтримує масштабний статистичний аналіз, спрямований на інформування політики та покращення планування операцій і результатів для пацієнтів.
З моменту випуску на початку цього року MedGemma також широко цитувалася у академічних дослідженнях у галузі медичного AI, де вона продемонструвала сильну продуктивність як базова модель для завдань, таких як розуміння медичного тексту, багатопрофільна клінічна підтримка прийняття рішень і звітування мамографії.