概要Googleは、CTやMRIなどのスキャンの解釈能力を備えたオープンソースの医療AI「MedGemma」を更新し、またオープンな音声認識ツール「MedASR」をリリースしました。テクノロジー企業Googleは、MedGemma AIモデルのアップデートを発表し、医療画像処理アプリケーションのサポートを強化しました。新しいMedGemma 1.5 4Bモデルは、開発者コミュニティからのフィードバックを取り入れ、CTやMRIなどの高次元スキャン、組織病理画像、胸部X線の時系列などの縦断的画像、解剖学的局在タスクなど、複数の医療画像モダリティをより良くサポートします。また、医療文書の理解も向上し、検査報告書から構造化データを抽出できるようになっています。従来のMedGemma 1 4Bと比較して、1.5 4Bアップデートは、テキスト、医療記録、2D画像の精度を向上させつつ、オフラインでの実行に十分なコンパクトさを維持しています。より複雑なテキストベースのアプリケーションには、開発者は引き続き27Bパラメータの大規模なMedGemmaモデルを使用できます。詳細とベンチマークは、MedGemma 1.5モデルカードで確認できます。MedGemmaは、医療の複雑なデータ環境を反映するためにマルチモーダルシステムとして最初に構築され、初期バージョンでは胸部X線、皮膚科画像、網膜スキャン、組織病理サンプルなどの2次元医療画像の解釈をサポートしていました。最新のリリースであるMedGemma 1.5は、これらの機能を拡張し、3次元のCTやMRIデータ、全スライドの組織病理も含めた高次元医療画像を取り込んでいます。開発者は、複数の画像スライスやパッチをタスク固有のプロンプトとともに処理するアプリケーションを作成でき、より高度な診断や分析のユースケースを実現します。内部評価によると、MedGemma 1.5は、CTやMRI所見の分類、組織病理分析、胸部X線の解剖学的局在、縦断的画像レビュー、検査報告書からの構造化データ抽出など、いくつかの分野で顕著な性能向上を示しています。また、医療テキストの理解や電子カルテの質問応答においても大きな進歩を見せており、視覚と言語の両面での広範な進展を反映しています。この拡張機能は、Googleの以前のCT基盤ツールを土台とし、高次元医療データと従来のテキストや2D画像を扱える最初の公開マルチモーダルモデルの一つとなっています。これらの機能はまだ進化中ですが、同社は、Hugging FaceやModel Gardenで提供されるチュートリアルやリソースを活用し、ドメイン固有の微調整を通じてさらなる改善を期待しています。## Google、MedASRを導入し医療音声認識とAI臨床ワークフローを強化さらに、GoogleはMedASRをリリースしました。これは医療用の音声認識モデルで、医療の書き起こしに特化して微調整されており、音声をテキストに変換し、MedGemmaと連携して高度な推論タスクを実行します。大規模言語モデルの主要なインターフェースは依然としてテキストですが、臨床現場では医師の書き起こしやリアルタイムの患者相談など、音声によるコミュニケーションが中心的な役割を果たしており、正確な音声認識は不可欠な能力です。MedASRは医療用言語に特化して設計されており、ドメイン固有の専門用語のより信頼性の高い文字起こしを可能にし、MedGemmaの自然な入力手段としても機能します。一般的なWhisper large-v3モデルとの比較テストでは、MedASRははるかに高い精度を示し、胸部X線の書き起こしや複数の医療分野と話者プロフィールをカバーする内部ベンチマークにおいても、著しい誤認識の少なさを実現しました。MedGemma 1.5、MedASR、MedSigLIP画像エンコーダを含むすべてのHAI-DEFモデルは、研究および商用利用が無料で、Hugging Faceからアクセスできるほか、Vertex AIのスケーラブルなアプリケーションに統合可能です。## MedGemma、医療システムと研究者によるAI採用拡大で世界的に注目Googleによると、MedGemmaの採用は世界中のヘルステクノロジースタートアップや研究チームの間で拡大しており、さまざまな医療アプリケーションの開発を加速しています。マレーシアのQmed Asiaは、MedGemmaをaskCPGに統合しました。これは150以上の国の臨床ガイドラインにアクセスできる対話型システムです。マレーシア保健省によると、このインターフェースは日常の臨床意思決定におけるガイドラインの使いやすさを向上させており、早期パイロットプログラムでは、MedGemmaが強化したマルチモーダル医療画像機能に対して特に好意的なフィードバックが寄せられています。台湾の国民健康保険署は、MedGemmaを肺癌手術の術前評価の分析に適用しています。何万件もの病理報告やその他の非構造化臨床データから構造化された洞察を抽出し、政策決定や手術計画、患者の結果改善を目的とした大規模な統計分析を支援しています。今年初めのリリース以来、MedGemmaは学術医療AI研究でも広く引用されており、医療テキスト理解、多職種臨床意思決定支援、マンモグラフィー報告などのタスクの基盤モデルとして高い性能を示しています。
スキャンから音声へ:Googleが医療AIを再定義する方法
概要
Googleは、CTやMRIなどのスキャンの解釈能力を備えたオープンソースの医療AI「MedGemma」を更新し、またオープンな音声認識ツール「MedASR」をリリースしました。
テクノロジー企業Googleは、MedGemma AIモデルのアップデートを発表し、医療画像処理アプリケーションのサポートを強化しました。
新しいMedGemma 1.5 4Bモデルは、開発者コミュニティからのフィードバックを取り入れ、CTやMRIなどの高次元スキャン、組織病理画像、胸部X線の時系列などの縦断的画像、解剖学的局在タスクなど、複数の医療画像モダリティをより良くサポートします。
また、医療文書の理解も向上し、検査報告書から構造化データを抽出できるようになっています。従来のMedGemma 1 4Bと比較して、1.5 4Bアップデートは、テキスト、医療記録、2D画像の精度を向上させつつ、オフラインでの実行に十分なコンパクトさを維持しています。
より複雑なテキストベースのアプリケーションには、開発者は引き続き27Bパラメータの大規模なMedGemmaモデルを使用できます。詳細とベンチマークは、MedGemma 1.5モデルカードで確認できます。
MedGemmaは、医療の複雑なデータ環境を反映するためにマルチモーダルシステムとして最初に構築され、初期バージョンでは胸部X線、皮膚科画像、網膜スキャン、組織病理サンプルなどの2次元医療画像の解釈をサポートしていました。最新のリリースであるMedGemma 1.5は、これらの機能を拡張し、3次元のCTやMRIデータ、全スライドの組織病理も含めた高次元医療画像を取り込んでいます。開発者は、複数の画像スライスやパッチをタスク固有のプロンプトとともに処理するアプリケーションを作成でき、より高度な診断や分析のユースケースを実現します。
内部評価によると、MedGemma 1.5は、CTやMRI所見の分類、組織病理分析、胸部X線の解剖学的局在、縦断的画像レビュー、検査報告書からの構造化データ抽出など、いくつかの分野で顕著な性能向上を示しています。また、医療テキストの理解や電子カルテの質問応答においても大きな進歩を見せており、視覚と言語の両面での広範な進展を反映しています。
この拡張機能は、Googleの以前のCT基盤ツールを土台とし、高次元医療データと従来のテキストや2D画像を扱える最初の公開マルチモーダルモデルの一つとなっています。これらの機能はまだ進化中ですが、同社は、Hugging FaceやModel Gardenで提供されるチュートリアルやリソースを活用し、ドメイン固有の微調整を通じてさらなる改善を期待しています。
Google、MedASRを導入し医療音声認識とAI臨床ワークフローを強化
さらに、GoogleはMedASRをリリースしました。これは医療用の音声認識モデルで、医療の書き起こしに特化して微調整されており、音声をテキストに変換し、MedGemmaと連携して高度な推論タスクを実行します。
大規模言語モデルの主要なインターフェースは依然としてテキストですが、臨床現場では医師の書き起こしやリアルタイムの患者相談など、音声によるコミュニケーションが中心的な役割を果たしており、正確な音声認識は不可欠な能力です。
MedASRは医療用言語に特化して設計されており、ドメイン固有の専門用語のより信頼性の高い文字起こしを可能にし、MedGemmaの自然な入力手段としても機能します。一般的なWhisper large-v3モデルとの比較テストでは、MedASRははるかに高い精度を示し、胸部X線の書き起こしや複数の医療分野と話者プロフィールをカバーする内部ベンチマークにおいても、著しい誤認識の少なさを実現しました。
MedGemma 1.5、MedASR、MedSigLIP画像エンコーダを含むすべてのHAI-DEFモデルは、研究および商用利用が無料で、Hugging Faceからアクセスできるほか、Vertex AIのスケーラブルなアプリケーションに統合可能です。
MedGemma、医療システムと研究者によるAI採用拡大で世界的に注目
Googleによると、MedGemmaの採用は世界中のヘルステクノロジースタートアップや研究チームの間で拡大しており、さまざまな医療アプリケーションの開発を加速しています。
マレーシアのQmed Asiaは、MedGemmaをaskCPGに統合しました。これは150以上の国の臨床ガイドラインにアクセスできる対話型システムです。マレーシア保健省によると、このインターフェースは日常の臨床意思決定におけるガイドラインの使いやすさを向上させており、早期パイロットプログラムでは、MedGemmaが強化したマルチモーダル医療画像機能に対して特に好意的なフィードバックが寄せられています。
台湾の国民健康保険署は、MedGemmaを肺癌手術の術前評価の分析に適用しています。何万件もの病理報告やその他の非構造化臨床データから構造化された洞察を抽出し、政策決定や手術計画、患者の結果改善を目的とした大規模な統計分析を支援しています。
今年初めのリリース以来、MedGemmaは学術医療AI研究でも広く引用されており、医療テキスト理解、多職種臨床意思決定支援、マンモグラフィー報告などのタスクの基盤モデルとして高い性能を示しています。