第四次工业革命的浪潮正在重塑人类生活的方方面面,医疗领域也不例外——近年来,医疗人工智能(AI)技术快速发展,模型能力在学术测评中频频刷新纪录。然而,能够真正获得临床医生和患者信任的医疗 AI 却仍寥寥无几——临床医生既期待其辅助,又担忧其「靠谱」程度。
究其原因,并非因为 AI 算法本身不够强大,而是因为缺乏一个真正能够反映临床安全性与有效性的国际权威评估标准——传统的测评体系往往侧重于静态准确率或考试式答题表现,无法全面反映医疗 AI 在真实临床使用中的可靠性和安全性。
那么,什么样的 AI,才有可能成为医生的「临床搭档」?——这个问题,中国团队给出了回答。
Nature 子刊首发!CSEDB 提供了真正深入临床的医疗 AI 「必考卷」
2025 年 12 月,由未来医生联合 32 位顶尖临床专家组成的中国科研团队,在《Nature》旗下全球数字医学顶刊《npj Digital Medicine》上发表[1]了全球首个用于评估医疗 AI 临床适用性的「临床安全-有效性双轨基准」(CSEDB)。这一基准的发表,填补了医疗 AI 临床能力评估的国际空白,为医疗垂类 AI 新增了一张「必考卷」。

图 1:期刊论文截图
CSEDB 是一套由临床专家与医疗 AI 研究团队联合设计的评估体系。32 位临床专家均来自北京协和医院、中国医学科学院肿瘤医院、北京大学口腔医院、中国医学科学院阜外医院、中国人民解放军总医院、复旦大学附属华山医院、上海市同济医院等顶尖医疗机构的 23 个核心专科。医疗 AI 研究团队则来自中国的 AI 医疗公司「未来医生」。
深挖其内核,我们会发现 CSEDB 摒弃了既往对 AI 答题正确率的盲目追求,真正深入到了临床实践中,回答了两个最关键的 AI 临床问题——
「AI 给出的建议是否能显著提升诊疗准确性和决策支持价值」,即有效性。
「AI 在进行诊疗建议时,是否能保证不产生可能危及生命的错误」,即安全性。
而 CSEDB 对安全性的追求甚至超过了对有效性的强调,这一价值取向正是来自参与制定基准的 32 位国内顶尖临床专家——他们始终将患者的安全放在第一位。
从临床中来:设计一个真正贴合临床需求的 AI 评估标准
CSEDB 共设定了 30 个核心评估指标,其中 17 项聚焦安全性,13 项聚焦有效性。依据临床风险等级,不同的评估指标被赋予了不同权重。例如,高风险情境下的错误(如错误的药物剂量选择、严重误诊等)将得到更高的惩罚权重,而低风险误差则权重较低,使得评分体系更贴近临床实践中的风险管理逻辑,而非简单的均值统计。
表 1:30 个核心评估指标

▲上下滑动查看▼
到临床中去:基于真实临床场景,评价 AI 临床思维
在真实临床场景中,医学决策没有「标准答案」,有的往往是「甲之蜜糖,乙之砒霜」的个性化决策。因此,既往「标准问-标准答」的测评体系无法真正评估医疗 AI 对于特定临床情况的推理、思考能力。但 CSEDB 打破了这一传统范式,它要求:AI 需要给出与临床场景适配的诊疗建议。
基于此,CSEDB 构建了 2,069 个开放式临床问答条目。这些问答条目源自真实临床场景、由临床专家共同制定:
覆盖 26 个临床专科领域(包括内科、外科、急诊、妇产科、儿科等)
覆盖了多种不同的患者类型(老年人、新生儿、孕妇、儿童、青少年等)
涵盖患者问诊、鉴别诊断、治疗决策、突发风险评估等具体临床决策环节。
这 2,069 个开放式问答,真实模拟了医生在临床实践中可能遇到的真实且复杂的临床问题,也因此,能够全面且直观地呈现 AI 在复杂临床诊疗场景中的场景分析、决策协同等能力。

图 2[1]:2,069 条开放式问题的数据来源
「从临床中来、到临床中去」的设计逻辑,让 CSEDB 在评估 AI 的临床知识储备的同时,更有能力筛选出那些真正「懂」临床医生、能协助临床医生解决实际问题的 AI,进而回答我们在文章开篇的终极问题——什么样的 AI,才有可能成为医生的「临床搭档」?
医疗 AI 「优等生」:CSEDB 新标准下,未来医生 MedGPT 数据实证显著优势
在发布 CSEDB 的同时,研发团队对全球主要的 AI 大语言模型(LLMs)—— Deepseek-R1-0528、OpenAI-o3(20250416)、Gemini-2.5-Pro(20250506)、Qwen3-235B-A22B、Claude-3.7-Sonnet(20250219)和MedGPT(MG-0623,Medlinker)进行了基于 CSEDB 的全面测评。

图 3[1]:研发团队对 6 个 LLMs 模型进行了测评
在这份医学 AI 「必考卷」中, 未来医生团队打造的 MedGPT 摘下了有效性与安全性的「双冠军」
先看总体评分,MedGPT 在 CSEDB 基准下的表现显著优于通用 LLMs,其总体得分比第二好的模型(Deepseek-R1-0528)高出 15.3% (0.895 vs. 0.742),在有效性和安全性两个维度均排名第一。

图 3[1]:MedGPT 在 CSEDB 基准下表现优异
有效性:MedGPT 在复杂的治疗场景提供更准确、有效的 AI 协同
MedGPT 在高价值临床任务中得分更高,在常见疾病正确诊断(E-01)、罕见/高危病提示(E-02)、多病并存优先级(E-05)、术后/急症并发症早期识别(E-06)以及并发症预警提示(E-07)等领域得分更高,表明其在复杂的临床情境中具有优秀的辅助决策潜能。例如,MedGPT 在罕见/高风险疾病警报(E-02)领域得分 ≥ 0.90 ,提示其能够及时识别罕见疾病,减少漏诊,针对具有高疾病风险的患者,向医生提供早期干预和治疗的基础建议或提示。

图 4[1]:不同 LLMs 在有效性和安全性维度的具体表现
MedGPT 在不同临床科室和患者群体中,均具有稳健的优异表现
MedGPT 在 26 个核心临床科室以及不同患者人群所涉及的测评中,表现出相对一致的安全性和有效性,表明其在多学科诊疗、多类型患者中均能提供有价值的决策辅助。

图 5[1]:MedGPT 在不同科室、不同人群中有效性和安全性较其他 LLMs 更稳健
CSEDB 基准为医疗 AI 模型的评估提供了一个深入临床的评判标准。而 MedGPT 在这一基准下优于其他 LLMs 的测评表现,展现了这一垂类 AI 在协助临床医生进行临床决策提质和优化临床决策风险方面的客观潜能。
技术开箱:未来医生 MedGPT 为何能表现出色?
MedGPT 为何能够兼顾有效性、安全性,并在多个医学场景中保持稳健呢?答案藏在它的底层设计逻辑中——
与通用 LLMs 不同,MedGPT 从一开始就围绕临床医学数据库设计开发,具有明确的医学指向性。MedGPT 拥有 10 万份医学指南、650 个审计算法单元以及 120 多个三甲专家参与共建的医学经验库[2],构建了扎实的医学信息基础和数据壁垒。
此外,MedGPT 搭载了「快慢双系统 + ACC」 三层架构模拟人脑认知逻辑。「快思维」类比大脑皮层直觉,负责快速生成候选答案,处理无风险简单问题;「慢思维」类比前额叶推理,负责调用外部知识、算法、经验库做深度验证,解决复杂医疗问题。ACC 层类比前扣带皮层,可调和快慢系统之间矛盾,实时做一致性检测、风险分级、置信加权,从而降低 AI 幻觉。上述三层架构形成了一个强耦合闭环,也构成了 MedGPT 区分于其他通用 LLMs 的逻辑架构壁垒——减少其中任意一层,都将影响其在临床决策中的表现。
在能力迭代上,MedGPT 也搭建了贴合临床决策体系的双飞轮成长壁垒——「小飞轮」专注于指南和临床标准化路径驱动,确保诊断和治疗的准确性和一致性;「大飞轮」通过实践经验增强模型的底层能力,并通过研究专家共识,复制专家智慧补足经验缺口,生成更高质量的诊断和治疗建议。目前,超过 1 万名医生通过未来医生平台与患者进行交互,每周沉淀 2 万条「真实诊疗反馈」,形成了「医生反馈-算法更新-系统增强」的指数级增长,MedGPT 的准确率每月能提升1.2%~1.5%[3]。
专家见解:建立新标准,只为筛选真正服务于临床决策的 AI 搭档
「AI 既有效,又安全,会不会逐渐取代临床医生?」答案当然是否定的。没有临床医生作为守门人,AI 的有效性和安全性也只能成为一堆漂亮的数据,而不能真正转化为患者的获益。
专家们建立 CSEDB 标准的目标,也不是为了训练出能够执行诊疗决策的 AI ,而是为了筛选出有提升医疗决策质量潜力的、能够真正服务于临床医生的「临床搭档」。
北京协和医院胸外科主任医师梁乃新教授参与了本次 CSEDB 基准的制定。他明确指出:临床医生在决策时既需要科学性(医学专业知识储备)这一共性,也需要个性化的决策温度、思维和个体化判断。而优秀的医疗 AI 助手,可以在共性问题上帮助医生提升效率,从而让医生有更多时间和精力在个性化决策中进行提升。
另外两位参与 CSEDB 基准制定的专家——中国人民解放军总医院第四医学中心介入科主任于友涛教授和北京大学口腔医院口腔颌面外科种植科主任医师唐志辉教授也谈到,虽然医疗 AI 能快速调用数据给出基于既往数据或指南的「标准」答案,但这些答案是否适用于具体患者还需专业医生判断。所以,临床医生始终是医疗决策的掌舵人和最终决策者。CSEDB 标准的建立,是为了帮助临床医生筛选出能真正能够协助医生解决临床问题的 AI 助手。
正因 CSEDB 真正从临床中来,到临床中去,也始终坚定地将 AI 视为「助手」、「搭档」而非「临床医生的替代品」,才使得这一基准更具实用性和前瞻性。
总结
CSEDB 标准的发布,为医疗 AI 带来了首个真正能够反映临床安全性与有效性的国际权威评估标准。在这一标准体系下,MedGPT 交出了优异的答卷,在总体评分、安全性和有效性三项核心指标上均位列榜首——这张「答卷」既是 MedGPT 技术能力的展示,也证实了 MedGPT 相比其他通用型 LLMs 而言,更具备成为临床医生工作中的「得力助手」的潜能——而这一人机协同的新时代组合,将在第四次工业革命中引领怎样的医疗变革呢?让我们拭目以待……
内容策划:于艳
项目审核:李湘湘
参考文献:
[1] Wang S, Tang Z, Yang H, et al. A novel evaluation benchmark for medical LLMs illuminating safety and effectiveness in clinical domains[J]. npj Digital Medicine, 2025.
[2] 未来医生官网首页.
[3] 新华网.Nature旗下期刊发布医疗AI评估新标准,未来医生MedGPT位列全球第一.20260108
编辑:ifhealth 来源:丁香园
