Google đã cập nhật mô hình AI y tế mã nguồn mở MedGemma với khả năng diễn giải các hình ảnh chẩn đoán như CT và MRI, đồng thời phát hành công cụ chuyển đổi giọng nói thành văn bản MedASR mã nguồn mở.
Công ty công nghệ Google thông báo cập nhật mô hình AI MedGemma, nâng cao hỗ trợ cho các ứng dụng hình ảnh y tế
Mô hình MedGemma 1.5 4B mới tích hợp phản hồi từ cộng đồng nhà phát triển để hỗ trợ tốt hơn nhiều loại hình ảnh y tế, bao gồm các hình ảnh có chiều cao chiều rộng cao như CT và MRI, hình ảnh mô học, hình ảnh quang tuyến liên tục như chuỗi hình X-quang ngực, và các nhiệm vụ định vị giải phẫu
Nó cũng cải thiện khả năng hiểu tài liệu y tế, cho phép trích xuất dữ liệu có cấu trúc từ báo cáo xét nghiệm. So với MedGemma 1 4B trước đó, bản cập nhật 1.5 4B cung cấp độ chính xác cao hơn cho văn bản, hồ sơ y tế và hình ảnh 2D, đồng thời vẫn đủ nhỏ gọn để chạy offline
Đối với các ứng dụng dựa trên văn bản phức tạp hơn, các nhà phát triển có thể tiếp tục sử dụng mô hình MedGemma lớn hơn với 27B tham số. Chi tiết đầy đủ và các benchmark có trong thẻ mô hình MedGemma 1.5.
MedGemma ban đầu được xây dựng như một hệ thống đa phương thức phản ánh môi trường dữ liệu phức tạp của y học, với các phiên bản đầu hỗ trợ diễn giải các hình ảnh y tế hai chiều như X-quang ngực, hình ảnh da liễu, quét võng mạc và mẫu mô học. Phiên bản mới nhất, MedGemma 1.5, mở rộng khả năng này để bao gồm hình ảnh y tế có chiều cao chiều rộng cao, tích hợp dữ liệu CT và MRI 3 chiều cũng như mô học toàn slide. Các nhà phát triển hiện có thể tạo ra các ứng dụng xử lý nhiều lát cắt hoặc mảnh hình ảnh cùng với các lệnh nhiệm vụ cụ thể, cho phép các trường hợp chẩn đoán và phân tích nâng cao hơn.
Theo đánh giá nội bộ, MedGemma 1.5 thể hiện sự cải thiện đáng kể về hiệu suất trong nhiều lĩnh vực, bao gồm phân loại kết quả CT và MRI, phân tích mô học, định vị giải phẫu trong X-quang ngực, xem xét hình ảnh theo chiều dài và trích xuất dữ liệu có cấu trúc từ báo cáo xét nghiệm. Mô hình cũng cho thấy tiến bộ đáng kể trong hiểu văn bản y tế và trả lời câu hỏi hồ sơ sức khỏe điện tử, phản ánh những tiến bộ rộng hơn trong cả khả năng thị giác và ngôn ngữ.
Chức năng mở rộng này dựa trên các công cụ nền tảng CT trước đó của Google và là một trong những mô hình đa phương thức mã nguồn mở công khai đầu tiên có khả năng xử lý dữ liệu y tế có chiều cao chiều rộng cao cùng với văn bản truyền thống và hình ảnh 2D. Trong khi các tính năng này vẫn đang phát triển, công ty kỳ vọng các nhà phát triển sẽ đạt được những cải tiến hơn nữa thông qua tinh chỉnh theo lĩnh vực, được hỗ trợ bởi các hướng dẫn và tài nguyên mới phát hành cho các ứng dụng CT và mô học trên Hugging Face và Model Garden.
Google giới thiệu MedASR để nâng cao nhận dạng giọng nói y tế và quy trình làm việc AI lâm sàng
Ngoài ra, Google đã phát hành MedASR, một mô hình nhận dạng giọng nói tự động mã nguồn mở được tinh chỉnh cho lĩnh vực y tế, chuyển đổi giọng nói thành văn bản và kết hợp với MedGemma để thực hiện các nhiệm vụ suy luận nâng cao
Trong khi văn bản vẫn là giao diện chủ đạo cho các mô hình ngôn ngữ lớn, giao tiếp bằng lời nói vẫn đóng vai trò trung tâm trong thực hành lâm sàng, từ ghi chú của bác sĩ đến tư vấn trực tiếp với bệnh nhân, khiến việc nhận dạng giọng nói chính xác trở thành khả năng thiết yếu.
MedASR được thiết kế đặc biệt cho ngôn ngữ y tế, cho phép phiên dịch các thuật ngữ chuyên ngành đáng tin cậy hơn và là phương thức nhập liệu tự nhiên cho MedGemma. Trong các thử nghiệm so sánh với mô hình Whisper lớn-v3 dùng chung, MedASR thể hiện độ chính xác cao hơn rõ rệt, tạo ra ít lỗi phiên dịch hơn đáng kể trên cả các ghi chú X-quang ngực và trong một bộ kiểm thử nội bộ rộng bao gồm nhiều chuyên ngành y tế và hồ sơ người nói.
Tất cả các mô hình HAI-DEF, bao gồm MedGemma 1.5, MedASR và bộ mã hóa hình ảnh MedSigLIP, vẫn miễn phí cho mục đích nghiên cứu và thương mại và có thể truy cập trên Hugging Face hoặc tích hợp vào các ứng dụng mở rộng quy mô trên Vertex AI.
MedGemma ngày càng phổ biến toàn cầu khi các hệ thống y tế và nhà nghiên cứu mở rộng việc áp dụng AI
Theo Google, việc áp dụng MedGemma đang mở rộng trong các startup công nghệ y tế và nhóm nghiên cứu trên toàn thế giới, với mô hình ngày càng được sử dụng để thúc đẩy phát triển trong nhiều lĩnh vực y tế khác nhau
Tại Malaysia, Qmed Asia đã tích hợp MedGemma vào askCPG, một hệ thống hội thoại được thiết kế để cung cấp quyền truy cập vào hơn 150 hướng dẫn thực hành lâm sàng quốc gia. Theo Bộ Y tế Malaysia, giao diện này đã cải thiện khả năng sử dụng các hướng dẫn này trong quyết định lâm sàng hàng ngày, trong khi các chương trình thử nghiệm ban đầu đã nhận được phản hồi đặc biệt tích cực về các tính năng hình ảnh y tế đa phương thức của nền tảng được hỗ trợ bởi MedGemma.
Tại Đài Loan, Cơ quan Bảo hiểm Y tế Quốc gia đã ứng dụng MedGemma để phân tích các đánh giá tiền phẫu cho phẫu thuật ung thư phổi. Bằng cách trích xuất các hiểu biết có cấu trúc từ hàng chục nghìn báo cáo mô học và dữ liệu lâm sàng không có cấu trúc khác, sáng kiến này hỗ trợ phân tích thống kê quy mô lớn nhằm mục đích định hướng chính sách và cải thiện kế hoạch phẫu thuật cũng như kết quả cho bệnh nhân.
Kể từ khi ra mắt đầu năm nay, MedGemma cũng đã được tham khảo rộng rãi trong các nghiên cứu AI y học học thuật, nơi nó đã thể hiện hiệu suất mạnh mẽ như một mô hình nền tảng cho các nhiệm vụ như hiểu văn bản y tế, hỗ trợ quyết định lâm sàng đa ngành và báo cáo mammography.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Từ quét hình đến giọng nói: Cách Google đang định hình lại trí tuệ nhân tạo trong chăm sóc sức khỏe
Tóm tắt ngắn gọn
Google đã cập nhật mô hình AI y tế mã nguồn mở MedGemma với khả năng diễn giải các hình ảnh chẩn đoán như CT và MRI, đồng thời phát hành công cụ chuyển đổi giọng nói thành văn bản MedASR mã nguồn mở.
Công ty công nghệ Google thông báo cập nhật mô hình AI MedGemma, nâng cao hỗ trợ cho các ứng dụng hình ảnh y tế
Mô hình MedGemma 1.5 4B mới tích hợp phản hồi từ cộng đồng nhà phát triển để hỗ trợ tốt hơn nhiều loại hình ảnh y tế, bao gồm các hình ảnh có chiều cao chiều rộng cao như CT và MRI, hình ảnh mô học, hình ảnh quang tuyến liên tục như chuỗi hình X-quang ngực, và các nhiệm vụ định vị giải phẫu
Nó cũng cải thiện khả năng hiểu tài liệu y tế, cho phép trích xuất dữ liệu có cấu trúc từ báo cáo xét nghiệm. So với MedGemma 1 4B trước đó, bản cập nhật 1.5 4B cung cấp độ chính xác cao hơn cho văn bản, hồ sơ y tế và hình ảnh 2D, đồng thời vẫn đủ nhỏ gọn để chạy offline
Đối với các ứng dụng dựa trên văn bản phức tạp hơn, các nhà phát triển có thể tiếp tục sử dụng mô hình MedGemma lớn hơn với 27B tham số. Chi tiết đầy đủ và các benchmark có trong thẻ mô hình MedGemma 1.5.
MedGemma ban đầu được xây dựng như một hệ thống đa phương thức phản ánh môi trường dữ liệu phức tạp của y học, với các phiên bản đầu hỗ trợ diễn giải các hình ảnh y tế hai chiều như X-quang ngực, hình ảnh da liễu, quét võng mạc và mẫu mô học. Phiên bản mới nhất, MedGemma 1.5, mở rộng khả năng này để bao gồm hình ảnh y tế có chiều cao chiều rộng cao, tích hợp dữ liệu CT và MRI 3 chiều cũng như mô học toàn slide. Các nhà phát triển hiện có thể tạo ra các ứng dụng xử lý nhiều lát cắt hoặc mảnh hình ảnh cùng với các lệnh nhiệm vụ cụ thể, cho phép các trường hợp chẩn đoán và phân tích nâng cao hơn.
Theo đánh giá nội bộ, MedGemma 1.5 thể hiện sự cải thiện đáng kể về hiệu suất trong nhiều lĩnh vực, bao gồm phân loại kết quả CT và MRI, phân tích mô học, định vị giải phẫu trong X-quang ngực, xem xét hình ảnh theo chiều dài và trích xuất dữ liệu có cấu trúc từ báo cáo xét nghiệm. Mô hình cũng cho thấy tiến bộ đáng kể trong hiểu văn bản y tế và trả lời câu hỏi hồ sơ sức khỏe điện tử, phản ánh những tiến bộ rộng hơn trong cả khả năng thị giác và ngôn ngữ.
Chức năng mở rộng này dựa trên các công cụ nền tảng CT trước đó của Google và là một trong những mô hình đa phương thức mã nguồn mở công khai đầu tiên có khả năng xử lý dữ liệu y tế có chiều cao chiều rộng cao cùng với văn bản truyền thống và hình ảnh 2D. Trong khi các tính năng này vẫn đang phát triển, công ty kỳ vọng các nhà phát triển sẽ đạt được những cải tiến hơn nữa thông qua tinh chỉnh theo lĩnh vực, được hỗ trợ bởi các hướng dẫn và tài nguyên mới phát hành cho các ứng dụng CT và mô học trên Hugging Face và Model Garden.
Google giới thiệu MedASR để nâng cao nhận dạng giọng nói y tế và quy trình làm việc AI lâm sàng
Ngoài ra, Google đã phát hành MedASR, một mô hình nhận dạng giọng nói tự động mã nguồn mở được tinh chỉnh cho lĩnh vực y tế, chuyển đổi giọng nói thành văn bản và kết hợp với MedGemma để thực hiện các nhiệm vụ suy luận nâng cao
Trong khi văn bản vẫn là giao diện chủ đạo cho các mô hình ngôn ngữ lớn, giao tiếp bằng lời nói vẫn đóng vai trò trung tâm trong thực hành lâm sàng, từ ghi chú của bác sĩ đến tư vấn trực tiếp với bệnh nhân, khiến việc nhận dạng giọng nói chính xác trở thành khả năng thiết yếu.
MedASR được thiết kế đặc biệt cho ngôn ngữ y tế, cho phép phiên dịch các thuật ngữ chuyên ngành đáng tin cậy hơn và là phương thức nhập liệu tự nhiên cho MedGemma. Trong các thử nghiệm so sánh với mô hình Whisper lớn-v3 dùng chung, MedASR thể hiện độ chính xác cao hơn rõ rệt, tạo ra ít lỗi phiên dịch hơn đáng kể trên cả các ghi chú X-quang ngực và trong một bộ kiểm thử nội bộ rộng bao gồm nhiều chuyên ngành y tế và hồ sơ người nói.
Tất cả các mô hình HAI-DEF, bao gồm MedGemma 1.5, MedASR và bộ mã hóa hình ảnh MedSigLIP, vẫn miễn phí cho mục đích nghiên cứu và thương mại và có thể truy cập trên Hugging Face hoặc tích hợp vào các ứng dụng mở rộng quy mô trên Vertex AI.
MedGemma ngày càng phổ biến toàn cầu khi các hệ thống y tế và nhà nghiên cứu mở rộng việc áp dụng AI
Theo Google, việc áp dụng MedGemma đang mở rộng trong các startup công nghệ y tế và nhóm nghiên cứu trên toàn thế giới, với mô hình ngày càng được sử dụng để thúc đẩy phát triển trong nhiều lĩnh vực y tế khác nhau
Tại Malaysia, Qmed Asia đã tích hợp MedGemma vào askCPG, một hệ thống hội thoại được thiết kế để cung cấp quyền truy cập vào hơn 150 hướng dẫn thực hành lâm sàng quốc gia. Theo Bộ Y tế Malaysia, giao diện này đã cải thiện khả năng sử dụng các hướng dẫn này trong quyết định lâm sàng hàng ngày, trong khi các chương trình thử nghiệm ban đầu đã nhận được phản hồi đặc biệt tích cực về các tính năng hình ảnh y tế đa phương thức của nền tảng được hỗ trợ bởi MedGemma.
Tại Đài Loan, Cơ quan Bảo hiểm Y tế Quốc gia đã ứng dụng MedGemma để phân tích các đánh giá tiền phẫu cho phẫu thuật ung thư phổi. Bằng cách trích xuất các hiểu biết có cấu trúc từ hàng chục nghìn báo cáo mô học và dữ liệu lâm sàng không có cấu trúc khác, sáng kiến này hỗ trợ phân tích thống kê quy mô lớn nhằm mục đích định hướng chính sách và cải thiện kế hoạch phẫu thuật cũng như kết quả cho bệnh nhân.
Kể từ khi ra mắt đầu năm nay, MedGemma cũng đã được tham khảo rộng rãi trong các nghiên cứu AI y học học thuật, nơi nó đã thể hiện hiệu suất mạnh mẽ như một mô hình nền tảng cho các nhiệm vụ như hiểu văn bản y tế, hỗ trợ quyết định lâm sàng đa ngành và báo cáo mammography.