DeepMind医疗AI助理盲测胜GPT-5.4，仍逊人类专家

谷歌DeepMind正在开发一款名为“AI医疗助理”（AI co-clinician）的系统，旨在辅助医生为患者提供护理。该系统在模拟研究中已展现出显著潜力，但在全面临床能力上仍落后于经验丰富的医生。值得注意的是，研究也暗示了目前聊天机器人（如ChatGPT语音模式）尚未准备好承担严肃的医疗咨询任务。

“AI医疗助理”的核心理念是“三方护理”（triadic care）：AI智能体在医生的临床权威和监督下，协助患者完成治疗过程。该系统的设计目标是成为医疗团队的一员，在临床医生的指导下为患者提供支持。

为从临床医生的视角评估系统，DeepMind团队与学术界医生合作，调整了NOHARM框架，以检查两类错误：执行错误（errors of commission）和遗漏错误（errors of omission）。

在针对98个真实初级护理问题的盲测对比中，医生普遍更倾向于“AI医疗助理”的回答，而非主流的证据合成工具。与现有的临床AI系统相比，“AI医疗助理”以67比26的优势胜出；面对结合了搜索功能的GPT-5.4，“AI医疗助理”也以63比30获胜。客观分析显示，该系统在98个案例中仅出现一次关键性错误。

在药物咨询方面，“AI医疗助理”的表现更是突出。RxQA基准测试包含600个关于活性成分、药物相互作用和剂量的问题，这些问题源自两国国家药品目录，并经执业药师核实。对于初级护理医生而言，这些问题难度较高：查阅参考书的正确率为61.3%，不查阅则仅为48.3%。

“AI医疗助理”在此测试中取得了73.3%的正确率，略高于结合搜索功能的GPT-5.4的72.7%。当问题以医生实际工作中查询的开放式形式而非多选题形式提出时，差距进一步拉大。“AI医疗助理”的质量得分高达95.0%，而OpenAI的模型为90.9%。

除了基于文本的支持，谷歌DeepMind还在探索“AI医疗助理”如何在远程医疗中处理实时音视频。该团队与哈佛大学和斯坦福大学的医生合作，进行了一项随机模拟研究，涵盖20个合成临床场景、10名扮演患者的医生演员，共计120次假设性远程医疗访问。

“AI医疗助理”展示了超越纯文本系统的能力。例如，它能纠正患者吸入器使用技巧，并指导患者进行肩部检查以发现肩袖损伤。

针对患者的对话，“AI医疗助理”采用双智能体设置：一个“规划器”（Planner）模块负责监控对话，确保“对话者”（Talker）智能体遵守安全的临床限制。当医生使用该系统时，它优先考虑可靠的临床证据，并运行验证和引用检查。

DeepMind医疗AI助理盲测胜GPT-5.4，仍逊人类专家

相关工具与资源推荐

相关技能市场

Matt Pocock's AI Skills

关联产品

OpenMythos