谷歌发布医疗 AI 模型 MedGemma 1.5 4B 可本地部署并支持 CT、MRI 多模态处理

IT之家 2026-01-24 08:05:55
A+ A-

近日,谷歌正式推出新一代开源医疗人工智能模型 MEdgemma 1.5 4B,以及配套的专用医疗语音识别模型 MedASR,主打轻量化与本地部署能力,可同时处理文本、X 光、CT、MRI 等多种医疗数据形态,为医疗机构与开发者提供更灵活、更安全的 AI 辅助工具。该模型的发布标志着谷歌在医疗 AI 领域进一步深化多模态分析与场景落地,引发医疗信息化与人工智能行业的广泛关注。

MedGemma 1.5 4B 在继承前代模型对文本与二维医学影像(如 X 光片、病理切片)分析能力的基础上,首次实现对 CT 与 MRI 三维医学影像的兼容与解析,可进行病灶检测、结构分割与辅助报告生成等任务。基准测试数据显示,该模型在综合性能上超越前代 4B 版本,并在部分专项任务中的表现优于参数规模更大的 27B 版本,且在运算效率方面更具优势,因而更适用于本地部署与边缘计算场景,能够在保障数据隐私的前提下完成高质量推理。

为配合多模态数据处理,谷歌同步推出医疗语音识别模型 MedASR,针对查房口述、影像描述等医疗场景进行优化。在实际测试中,以胸部 X 光片相关对话为例,MedASR 的词错误率低至 5.2%,显著优于 OpenAI Whisper lARge-v3 的 12.5%。该模型可与 MedGemma 形成闭环工作流——语音经 MedASR 转写为文本后,直接输入 MedGemma 进行影像与文本综合分析,从而实现“语音→文本→影像分析→报告生成”的自动化链路,有效提升临床记录与诊断辅助的效率。

在生态与部署方面,MedGemma 系列已在 Google Cloud Vertex AI、Hugging Face 等平台免费开源,支持科研与商业用途,并提供 Colab 示例与微调教程,方便开发者快速上手。模型既可在云端进行大规模调用,也支持在本地服务器或私有化环境部署,满足医疗机构在数据敏感性、合规性与网络安全上的高要求。基于初代 MedGemma 衍生的定制化模型已超过 500 个,新版本的推出预计将进一步激发专科化、场景化的应用创新。

MedGemma 1.5 4B 的应用场景覆盖放射科、病理科、基层门诊等多个医疗环节,可在病灶识别、影像报告撰写、病历结构化整理等方面为医生提供辅助,有助于缓解医疗资源分布不均、减轻医护人员的文书与初筛负担。谷歌强调,该模型定位为“辅助工具”,旨在提升工作效率与诊断质量,并不取代医生的专业判断与临床决策。未来,MedGemma 有望成为医院信息系统、远程医疗平台以及各类医学影像 AI 应用的核心基础模型之一,为智慧医疗的深度发展提供可靠的技术支撑。

责任编辑:Diy92
点击查看全文(剩余0%)

热点新闻

精彩推荐