News

DeepMind医疗AI助理盲测胜GPT-5.4,仍逊人类专家

DeepMind医疗AI助理盲测胜GPT-5.4,仍逊人类专家

谷歌DeepMind正在开发一款名为“AI医疗助理”(AI co-clinician)的系统,旨在辅助医生为患者提供护理。该系统在模拟研究中已展现出显著潜力,但在全面临床能力上仍落后于经验丰富的医生。值得注意的是,研究也暗示了目前聊天机器人(如ChatGPT语音模式)尚未准备好承担严肃的医疗咨询任务。

“AI医疗助理”的核心理念是“三方护理”(triadic care):AI智能体在医生的临床权威和监督下,协助患者完成治疗过程。该系统的设计目标是成为医疗团队的一员,在临床医生的指导下为患者提供支持。

为从临床医生的视角评估系统,DeepMind团队与学术界医生合作,调整了NOHARM框架,以检查两类错误:执行错误(errors of commission)和遗漏错误(errors of omission)。

在针对98个真实初级护理问题的盲测对比中,医生普遍更倾向于“AI医疗助理”的回答,而非主流的证据合成工具。与现有的临床AI系统相比,“AI医疗助理”以67比26的优势胜出;面对结合了搜索功能的GPT-5.4,“AI医疗助理”也以63比30获胜。客观分析显示,该系统在98个案例中仅出现一次关键性错误。

在药物咨询方面,“AI医疗助理”的表现更是突出。RxQA基准测试包含600个关于活性成分、药物相互作用和剂量的问题,这些问题源自两国国家药品目录,并经执业药师核实。对于初级护理医生而言,这些问题难度较高:查阅参考书的正确率为61.3%,不查阅则仅为48.3%。

“AI医疗助理”在此测试中取得了73.3%的正确率,略高于结合搜索功能的GPT-5.4的72.7%。当问题以医生实际工作中查询的开放式形式而非多选题形式提出时,差距进一步拉大。“AI医疗助理”的质量得分高达95.0%,而OpenAI的模型为90.9%。

除了基于文本的支持,谷歌DeepMind还在探索“AI医疗助理”如何在远程医疗中处理实时音视频。该团队与哈佛大学和斯坦福大学的医生合作,进行了一项随机模拟研究,涵盖20个合成临床场景、10名扮演患者的医生演员,共计120次假设性远程医疗访问。

“AI医疗助理”展示了超越纯文本系统的能力。例如,它能纠正患者吸入器使用技巧,并指导患者进行肩部检查以发现肩袖损伤。

针对患者的对话,“AI医疗助理”采用双智能体设置:一个“规划器”(Planner)模块负责监控对话,确保“对话者”(Talker)智能体遵守安全的临床限制。当医生使用该系统时,它优先考虑可靠的临床证据,并运行验证和引用检查。

↗ 阅读原文