百川开源最新医疗大模型,中国力量领跑医疗AI赛道
发布时间:2025-08-12 20:49 浏览量:2
文|白 鸽
编|王一粟
专注医疗后,百川智能交出第一份答卷!8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。
除gpt-oss-120b外,Baichuan-M2还领先GPT-5以外所有开源与闭源前沿模型,以更小尺寸模型实现医疗能力反超,在所有开源模型中登顶世界第一。
同时,在落地应用浪潮下,大模型所追求的,不再只是效果好,还要能低成本落地。
尤其是在医疗健康领域,模型涉及更多敏感隐私信息,医疗健康机构对私有化部署有着强烈的需求,而私有化部署往往意味着高昂的部署成本。
Baichuan-M2的落地门槛则非常低,其支持RTX4090单卡部署,进一步提升了模型在真实医疗场景中的落地可能性与可扩展性。
这短短5天 “攻防战”,不仅改写了全球医疗大模型的实力排名,更重要的一点在于,在中美通用大模型差距持续扩大的背景下,中国团队可以在AI垂直行业大模型赛道中,实现弯道超车。
当前,医疗是大模型最重要、最有潜力的应用领域之一,正在逐渐成为全球共识。不过,作为应用底座的医疗大模型,现阶段行业中并未有特别突出的产品。
即使是OpenAI最新发布的GPT-5,其数学能力满分,代码、写作、知识能力的成绩也都很高,但医疗领域的得分依旧很低。
这也说明,医疗大模型仍有很长的路要走。
而中美垂直行业大模型的能力差距并不大,作为中国头部大模型企业代表,百川智能此次在医疗大模型上,已实现与OpenAI的并驾齐驱。
那么,作为国内最早全力押注医疗AI赛道的大模型创企,百川智能又是如何做到弯道超车的?
力压全球医疗大模型,拆解Baichuan-M2硬实力长期以来,模型在医学考试(如 USMLE)上的表现被视为衡量其医疗能力的重要指标,但随着相关题库的饱和,这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。
毕竟,医疗AI并不等于“刷题机器”,考试分数再高,也未必意味着在真实医疗场景中好用。
因此,医疗能力的评测需要有系统化的方法,验证模型在推理决策、临床沟通等关键能力上的综合表现。
今年5月,OpenAI发布权威且贴近真实临床场景的HealthBench医疗健康评测集。
该测评集包含了5000个广泛场景覆盖的医患多轮对话,并通过由262个人类医生编写的48562个医疗评价规则来对模型能力进行评估,是全球公认的医疗大模型“能力试金石”。
该数据集主要包含2个版本:
HealthBench:标准版本,包含5000条对话和对应准则。HealthBench Hard:包含1000个特别具有挑战性的案例。在HealthBench中,Baichuan-M2得到60.1高分,反超OpenAI最新开源模型gpt-oss120b(得分57.6),还力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。
同时,Baichuan M2在医疗对话任务中展现出显著优势,如紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。
HealthBench Hard,是一个针对更复杂困难场景的数据集,用于验证模型多维度、全景化解决疑难复杂医学问题的能力。
据悉,此前该测试集发布时,世界上所有顶尖模型得分都没超过32分,许多前沿模型得分甚至为0。
GPT-5发布时,OpenAI也特别强调,其是HealthBench Hard评测全球唯一超过32分的模型。
但现在Baichuan-M2打破了这一纪录,其以34.7分成为全球第二款超过32分的模型,力压世界所有其他顶尖闭源大模型。而Baichuan-M2和GPT-5也是目前全球唯二超过32分的模型。
事实上,尽管HealthBench已收集大量真实医疗场景,但现实情况往往更加复杂多样。
不过,基于其评测,也至少能够证明在多数医疗场景上的问答质量,GPT-5和Baichuan-M2已经超越资深医生,特别是在知识更新速度和全面性上,完全可以给人类医生强大支持。
那么,百川智能的Baichuan-M2医疗大模型,是如何以32B参数,实现以小博大?其核心思路,就是让大模型像医生一样思考、应对真实医患场景。
从技术角度来说,其背后则是百川智能在大型验证系统(Large Verifier System)、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索。
近一年来,大语言模型后训练范式的升级,特别是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大规模强化学习训练,带来了大模型效果的显著提升,尤其是在有明确答案的数学、代码、科学等领域。
但是,强化学习在数学、代码、科学等领域之所以能够显著提升模型能力,是因为这些领域的数据是静态的,由简洁的问题和答案构成。
而医疗问题却是复杂问题,没有标准答案,同一个症状可能存在不同病因,同一病因,患者的体格、病史、用药史、药物耐受程度不一样,治疗方案也会不同。
因此,医疗领域的强化学习不仅要验证诊断结果、治疗方案的准确性,还要验证大模型的问诊对话过程是否符合医生思维,是一个动态验证的形式,也就导致传统强化学习规则在医疗领域表现并不好。
针对这一现状,百川智能则以构建Large Verifier System为核心,在通用Verifier之外,结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。
用通俗的话来理解,如果将大模型比作一位医学实习生,那么这个系统就像是一个要求极高、异常挑剔的医疗专家。它会从医疗正确性、完备性、安全性以及对患者的友好性等多个维度,细致地评估模型的输出,指出其不足并引导模型改正,使其思维方式更贴近专业医生。
但想要让这个系统成为严谨的医疗专家,最大的难点在于,人类医生在听取患者描述病情时,很容易分辨患者描述中的逻辑漏洞、从含混不清的表达中辨别出真实病因。现实中患者几乎无法全面准确表达自己的症状,仅基于静态的病例、指南等医疗数据训练,模型无法掌握人类医生的这一能力。
而为了突破这一瓶颈,百川技术团队升级迭代了今年初首创的“AI患者模拟器”。
今年1月,百川在arXiv上发表AI患者模拟器,用真实数据构造上万个不同年龄性别症状的AI患者,能够模拟千差万别患者的症状和表达,特别是包含错误噪声的表达,最大程度还原真实医疗场景。
7个月后,百川升级患者模拟器并引入模型端到端强化学习,训练的Baichuan-M2在HealthBench等评测上取得更大突破。
这个模拟器的具体作用就是让AI在训练时,不断和这个虚拟病人聊天,而在聊天的过程中,“考官” 会实时根据聊天情况,动态调整打分标准,帮AI练出“随机应变”的能力,即就算病人说的信息乱、不全,也能重新判断病情,以及会看病人说的信息够不够,决定是继续问还是直接给结论。
而为了AI能够更好的学习医学知识,百川智能还采用了多阶段强化学习策略(Multi- Stage RL),将复杂的强化学习任务分解为几个易于管理的、分层的训练阶段。
就像学车要先练直线、再练转弯、最后上马路,AI学当医生也分阶段练,先练“医学常识”,再练“和病人聊天的技巧”,最后练“复杂病例的诊断”,一步步提升,避免一下子学太难而懵圈。
综合来看,用“智能考官”判断AI表现,用“真实病例 + 虚拟病人”模拟实战,分阶段训练让AI既懂医学知识,又能灵活应对真实医患场景,百川智能最终使大模型具备了一个靠谱医生的能力。
但在当前AI大模型落地应用浪潮中,大模型不仅仅要有能力,更重要的还是能落地,尤其是在垂直行业中,很多时候都面临着大模型效果是很好,但部署运营成本太高,终成demo的情况。
医疗大模型落地,既要效果好还要成本低早在2016年的深度学习浪潮中,AI就已经开始在医疗场景落地,但彼时更多是聚焦在语音语义、图像等方面的应用,以及单点功能(病例录入、智能阅片)的落地。
但这一代医疗大模型开启了全新范式,其能力与上一代医疗AI相比已经产生了质的飞跃,医疗大模型不仅仅是医学知识的问答引擎与效率提升的工具,它能够通过Agent的方式全流程融入到诊中、诊前、诊后的各个环节,为AI落地医疗真实场景打开了更广阔的空间。
百川智能医疗大模型的迭代和落地正是这一颠覆性变化的侧写。
在实践应用中,今年2月,以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩,获得会诊专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。
这背后最关键的一点在于,Baichuan-M2为了更适配中国医疗场景,也从中国医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。
在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,其中部分优势就来源自中国医疗场景的适配性,例如针对临床诊疗的案例,M2更贴合中国医疗场景,更遵循中国权威指南推荐。
以某一个真实的肝癌治疗案例中,针对CNLC IIa期(BCLC B期)的肝细胞肝癌患者,M2首选推荐在具备手术条件的情况下进行解剖性肝右叶切除(或根据肿瘤具体位置,可考虑扩大右半肝切除、右三叶切除等),目标是R0切除。
原因在于,依据国家卫健委发布的《原发性肝癌诊疗指南》(2024版),肝切除术是潜在根治性治疗,可提供最佳的长期生存获益。
同样的案例,gpt-oss-120b建议首选治疗经动脉化疗栓塞术(TACE),理由是符合BCLCB期治疗指南,当前情况下手术切除和移植风险不理想。
临床医学专家认为,类似这样的情况还有很多。
仅就这个案例来说,手术切除或TACE都是可选方案,只是中西方指南不同,不是医学上的高下之分,而是基于本地患者特点、医疗资源与当前医学发展水平权衡之下的最优解。
毕竟,医疗大模型能否将全球医学知识、医学证据转化为符合本地优势特长的临床决策,也是为医生和患者提供切实服务能力的关键。
Baichuan-M2则为此所做的专门优化,让中国临床场景有了专属的顶尖模型。此外,更为重要的一点在于,Baichuan-M2能够让中国万千医疗机构以更低的成本部署使用。
业内皆知,医疗大模型落地面临“两难”,即追求高精度往往意味着高成本,如闭源模型授权费、定制化开发投入,而低成本方案又难以满足临床核心需求,尤其是在复杂场景的推理上。
Baichuan-M2则通过技术优化和开源的方式,降低了医疗机构的部署成本。
百川智能通过多种PTQ量化策略,对Baichuan-M2进行权重4bit量化,量化后模型精度接近无损,可在RTX4090上单卡部署,相比DeepSeek-R1 H20双节点部署方式,成本降低了57倍。
同时,其基于Eagle-3训练了Baichuan-M2-Spec版本,单用户场景下token吞吐可获得74.9%的提升。
另外,开源大模型特性是支持二次开发,可根据具体场景轻量化训练,避免“大而全”的冗余成本,模型权重、训练代码全开放,企业/机构无需支付授权费。
百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径,推动医疗AI技术的普惠应用。它通过“高精度推理 + 开源低成本”的组合,证明医疗大模型落地无需在效果与成本间妥协。
直面全球差距,中国医疗AI的突围之道今年是AI大模型浪潮兴起的第三年,但在全球市场中,中国通用大模型一直处于跟随者地位。
近期在由谷歌Kaggle推出的首届全球AI象棋争霸赛中,一众中国大模型也表现并不佳,首轮比赛中就被淘汰出局。
我们可以看到,在通用大模型上,中美之间始终存在着差距,无论是在能力上,还是在技术创新层面,差距也仍在不断扩大。
但相比较来说,中国更擅长的地方,则在于推动大模型走向落地应用,而这也是我们在AI垂直行业赛道能够弯道超车的关键。
百川智能作为中国大模型创企之一,选择医疗这一“中国有需求、有数据优势” 的领域深耕,用反超OpenAI的成绩证明 “中国可以在垂直赛道做全球第一”。
而通过开源大模型的模式,也可以降低医疗AI技术门槛,让全球研究者、医疗机构可直接复用模型,在细分的医疗领域构建出自己的专属模型,加速医疗AI的落地与创新。
此次发布会后,M2模型将进入全面落地期,百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗的深度应用,真正推动AI医疗从 “实验室” 走向 “临床一线”。未来,随着模型的落地,将为基层医疗、疾病诊断等场景带来革新,推动“AI医疗惠及全民”。