AI抗癌新突破,国内胃癌5年生存率有望从30%升至60%

发布时间:2025-06-25 13:44  浏览量:2

胃癌,一种常见的癌症,死亡率居高不下,在我国恶性肿瘤死亡率排第三。

而现在,AI 有望改写这一局面,我国胃癌 5 年生存率有望翻倍,从 30% 提高到 60% 左右的水平。

6 月 25 日,浙江省肿瘤医院( 浙江省癌症中心 )和阿里达摩院联手发布了全球首个专门用来筛查胃癌的 AI 模型 DAMO GRAPE( 以下简称 GRAPE )。

至于含金量,GRAPE 的相关成果也在昨天登上了医疗顶刊《 Nature Medicine 》( 自然·医学 )。

GRAPE 厉害在它能基于 AI 技术,通过分析你在医院很容易就能拍到的普通平扫 CT 影像来识别早期胃癌。在全新的筛查方式下,可以先用 AI 模型识别腹部平扫 CT 影像初筛,再对初筛中判定的高危人群做胃镜检查。

对于实际没有胃病风险的人,直接就免于胃镜的折磨,解决了大部分人嫌麻烦并不愿意做胃镜,最终耽误了最佳治疗时机的问题。

这意味着我们人类有了一个既高效又便宜的方法来进行大规模的癌症早筛。对于胃癌,如能早发现并干预,患者的理论 5 年生存率可从 30% 以下显著提升至 90% 以上,这些数字背后代表的都是一个个活生生的生命。

接下来,知危将各方位展示多位专业医生的经验和观点,以及知危与达摩院团队深度沟通的内容,带你了解 GRAPE 在医疗行业以及中国乃至全球的影响力,并从 GRAPE 追溯到 PANDA( 2023 年 11 月发布在《 Nature Medicine 》),以及包含这两个模型在内的达摩院更长期的 “ 一扫多筛 ” 规划,发掘达摩院在医疗 AI 影像领域沉淀的研究和落地经验。

提及 GRAPE,论文通讯作者、浙江省肿瘤医院党委书记、中国抗癌协会副理事长程向东医生难掩兴奋地说道,“ 再高精尖的根治手术和创新药,效果都比不上早筛早诊早治。GRAPE 很可能会改变我们国家乃至全球的胃癌筛查模式。”

胃癌是我国最主要的疾病之一,因为人口基数的原因,中国的胃癌病人特别多,全球有将近一半的新发病例是在中国,一半的死亡病例也在中国。除了发病率和死亡率高,中国的胃癌防治还有一个特点是五年生存率低,而这主要是因为早期检出率低。

程向东医生表示,“ 目前胃癌的临床早诊率只有 20% 到 30% 不到。早期检出率低导致胃癌晚期病人特别多,胃癌晚期的治疗效果特别差,于是五年生存率就低。目前中国的胃癌病人的整体五年生存率只有 35.9%。

日本、韩国这两个国家胃癌发病率也很高,但是他们的早诊率特别高,目前已经超过了 60%,将近 70% 。所以他们的胃癌治愈率也很高,日本达到 60.3%,韩国达到 68.9% 。特别是韩国,因为人口相对比较少,经济比较发达,所以能实行全民筛查,政府建议 40 岁以上的所有人群每两年都做一次胃镜检查,目前依从性 ( 指病人按医生规定进行治疗、与医嘱一致的行为 ) 特别好。

“ 我国的肿瘤治疗,特别是消化道肿瘤治疗的效果不如日本、韩国,其实不是因为临床能力不够,不是手术水平太差,不是药物不够先进,或者治疗理念更差。主要差距还是在早诊率上。”

“ 实际上,我国的胃癌手术水平和质量,特别是大中心,绝对不比日本、韩国差,甚至很多中心远远超过他们,包括精准性、安全性、质量质控等方面。这几年我国的创新药物发展非常快,特别是小分子生物药,这些方面的发展也远远要快于或者是领先于日本、韩国。在很多全球性的会议,比如 ESMO 这种肿瘤学的标志性会议上,能够真正展示高层次临床研究结果的,就是中国和美国。”

关于早诊率和治愈率的强因果关系,程向东医生做了进一步的解释。

“《 健康中国 2030 规划纲要 》中写道,到 2030 年,我国所有肿瘤的五年生存率要提高 15%。提高 15% 是非常困难的,要实现这个目标,可行的路径不多。第一个是关口前移,就是提高早诊率。第二个是发展高科技的前沿产品,包括药品、设施、设备等类型,热门的方向包括靶向药物、免疫药物、细胞治疗、重离子、质子治疗等。但光靠好的药物、设备,要提高 5% 或 10% 的五年生存率,是非常困难的。”

“ 我国有 30% 多的胃癌病人,首诊的时候已经晚期了,失去了手术的机会。”

具体而言,胃癌的预后( 指根据经验预测的疾病发展情况 )跟分期是直接相关的。胃癌随着分期增加( 从 T1 一直到 T2、T3、T4 ),肿瘤从里到外逐渐深入到黏膜、肌层、浆膜,到胃癌晚期或者肿瘤侵入到浆膜层的时候,已经无法用手术根治。

“ T1 期的病人有 97% 到 99% 的治愈率,T4 期的病人,用再好的药物,平均生存时间也就 10 到 12 个月左右。”

从卫生经济学角度看,对于非常早期的 T1 胃癌,可以通过内镜治疗,根治费用大概在几千块,而且医保能覆盖。对于晚期肿瘤,目前还没有根治的办法,病人必须持续治疗。而且越是新的、越是疗效好的药,就越贵,动辄一年一二十万。甚至往返医院的交通住宿费用都不是小数目。特别在农村地区,因病返贫的情况并不罕见。

“ 所以,无论从卫生经济学还是病人的预后角度,关口前移一定是更好的。”

可以说,发现一个早期肿瘤就是拯救了一个家庭。

但相比韩国、日本,我国要实现全面的高早诊率,存在两个问题,一个是人口基数特别大,因此要每两年给所有的人做一次胃镜检查显然是不可能的。另一个是医疗资源有限,大部分用于满足临床急诊以及疑难重症病人的需求。

“ 还有,老百姓总体对这方面的防治意识不够,对胃癌不够重视。我们国家现在是推荐 4 到 5 年做一次胃镜,即便如此大部分人也不来做。具体来看,因为中国幅员广阔,整体发展也不平衡。大城市相对好一些,2 到 4 年会做一次检查,有些单位也把胃镜检查作为常规检查手段,但哪怕单位组织,有很多人也不愿意去做。农村总体防治意识更薄弱,有很多人甚至一辈子也没做过胃镜检查。” 程向东医生说道。

“ 对于胃部疾病,在治疗之前,一定要明确诊断。因为胃部肿瘤的症状没有特异性。胃痛、胃胀、反酸、喘气、恶心等症状,胃炎、胃溃疡是这样,胃癌有时候也是这样。所以 40 岁以上的病人( 肿瘤发病率一般跟年龄相关 ),出现这些症状,一定要明确诊断再治疗。”

胃部的疾病明确诊断一定是用胃镜,这是金标准。而这也是胃癌早筛难以普及的另一个原因,胃镜存在大众体验极差、成本高等问题。

除了胃镜以外,现在还没有第二个手段能够做胃部疾病的确诊的工作,包括液体活检等新方法,特异性和敏感性不够高,容易出现假阳性和漏诊。

基于上述各种限制,我国采用了高危人群筛查的方式来落实。具体来说,先做问卷调查,收集大众年龄、性别、生活区域、基础疾病等方面的信息。“ 为什么用问卷法?因为非常便宜,不需要投入设备、药物等等,也特别有效。”

基于问卷调查,可以判断哪些人群患胃癌的可能性更高,这一步可以将从中筛选出 20% 到 25% 的高危人群,并建议其做胃镜检查。

而问卷筛选出的高危人群,依从性依然不高,最后去做胃镜的比例,往往不足60% 。

而最终通过胃镜确诊胃癌的检出率只有1.16%,也就是说,做100个胃镜,大约只能发现1个患者,成本和效率仍需改进。

因此,实行广泛筛查必须满足这几个要素:

首先,成本特别低;其次,可及性特别强,这是指老百姓愿意来做,不痛,无创,类似 B 超、平扫 CT 等,不打针,不吃药,对于老百姓是容易接受的,能极大提高依从性;最后,筛查工具敏感性足够高,这也是业界研究的热点。

对于这三点,GRAPE 都能满足。

“ 机会性筛查最好的条件是什么?就是没有条件。不需要空腹、打针等条件,随时随地能做一个筛查,才是最好的机会性筛查,而 GRAPE 就能做到。”

相比问卷法,GRAPE 的敏感性明显提高。相比问卷法 20% 到 25% 的高危人群占比,GRAPE模型可以更精准地把高危人群占比压缩到 6%,就是说,100个做筛查的人里有 6 个人可能是得了胃癌的。然后,这 6% 的高危人群需要再去做胃镜检查以最终确诊。

研究开展了覆盖 7 万多人的模拟机会性筛查试验,在两家区域性医院由 GRAPE 评估的高风险人群中,分别有 24.5% 和 17.7% 确诊了胃癌。

其中,胃癌 T1、T2 期的检出率分别为 23.2% 和 26.8%,T1期患者将免于高昂的治疗费和绝望的结局,T2 期患者的五年存活率也能达到 50%-80% 。

特别是,确诊的胃癌患者中分别有 40.5% 和 38.3% 的患者没有腹部症状。程向东医生强调,筛查的意义就是在早期没有症状的时候就能发现肿瘤,可以看到这样的案例确实有很多。

论文共同一作、浙江省肿瘤医院胃外科博士胡灿补充道,“ 胃癌的难点就是前期没有症状,没有症状就不会去做相应的检查,很多人都是到最后吃饭时有梗阻了才去做检查。”

程向东医生指出,“ 以我们国家目前的医疗资源,满足 6% 群体的胃镜检查是没有问题的。” 这是 GRAPE 的成本优势。

最后,GRAPE 的敏感性和特异性分别达到 85.1% 和 96.8%,相比起人类放射科医生分别提升 21.8% 和 14.0% 。

三个条件的满足使得平扫 CT 识别早期胃癌首次成为可能。

“ 有了GRAPE模型,相信我们国家有朝一日也能像日本、韩国那样,把早诊率提高到相同的水平。”

在医疗行业层面,GRAPE 也有非常大的突破性意义。论文通讯作者、达摩院资深算法专家张灵向知危介绍道,“ GRAPE 的核心研究问题是:平扫 CT 能不能筛查空腔脏器癌症?”

“ 一直以来,医学界普遍认为,空腔脏器( 如食管、胃、肠 )的病变更适合通过内镜检查来判断,而不是依靠平扫 CT 影像。但我们现在通过 AI 技术证明了,在平扫 CT 上,AI 可以看得非常清楚、准确。”

“ 这篇论文最终被接收,意味着这一观点得到了权威学术界的认可,也代表整个行业开始接受 ‘ 平扫 CT 结合 AI 可以用于多种空腔脏器癌症筛查 ’ 的全新理念。”

在投了《 Nature Medicine 》之后,GRAPE 很快就被外审和录用,整个过程只有四五个月时间。

这项成果还有另一个更重大的意义,达摩院的最终目标是希望落实 “ 一扫多筛 ”,也就是在一次胸部或腹部CT扫描中,同时筛查多个器官的癌症风险和其它疾病风险。

“ 达摩院之前发布的 PANDA 只能检测胰腺癌,如果只能检测胰腺癌或限于实质脏器,就不能叫 ‘ 多筛 ’。而这次作为和 PANDA 相同算法架构的 GRAPE 在空腔脏器上的突破,真正让 ‘ 一扫多筛 ’ 具备了现实基础。这次的成功,也验证了我们的模型在不同类型的器官和病灶上都具备良好的泛化能力。

特别是,胃癌筛查相比实质脏器更难,如果把胃癌筛查都解决了,实质脏器肿瘤筛查理论上都可以去做。

从技术角度看,胰腺、肝脏等是实质脏器,而胃、食管、肠道等是空腔脏器,它们的结构、形态完全不同,这对 AI 识别构成了完全不同的挑战。具体对比下,检测胰腺癌的 PANDA,和检测胃癌的 GRAPE,有着不同的难题。

胰腺作为实质脏器,对人类医生来说检测难度依然很高,主要是因为视觉上的对比度问题。此外,胰腺的病种比较多,这也增加了诊断的难度。

相比之下,胃作为一个空腔器官,其检测难度更大,具体表现在这几个方面:胃的形状不是固定的,会随着内容物( 如食物和水 )的体积( 充盈度 )的变化而变化,胃在消化过程中会有蠕动现象,进一步增加了其形状的不确定性。而且,胃作为一个面积很大的空腔器官,肿瘤可以出现在很多不同的部位,分布非常广泛,形态和位置的变化也非常多样,这进一步增大了胃癌检测的难度。

GRAPE 检测胃癌原理图。图 A:GRAPE 模型架构。图 B:GRAPE 工作原理,模型先在平扫 CT 影像上分割出胃部区域( 黄色区域 ),然后在胃部区域中分析是否有肿瘤( 红色区域 )。

图源: AI-based large-scale screening of gastric cancer from non-contrast CT imaging

这其中,胃部充盈度是最重要的影响因素。

论文共同第一作者、达摩院高级算法专家夏英达补充道,“ 使用相同的数据量, GRAPE 的性能是远低于 PANDA 的,这和胃复杂的充盈程度有很大关系。”

实际上,这也是本次 GRAPE 投稿《 Nature Medicine 》过程中,审稿专家最关心的问题,“ 审稿专家特别问了我们在不同充盈状态下,检出率有没有变化。然后我们就补充了这方面的验证和分析,这对最终的研究结论提升很大。”

除了脏器本身的特点,在检测干扰因素方面,胃癌检测也呈现不同的难度级别,主要源于胸部脏器和腹部脏器的影像特征的区别。

PANDA 模型早期在腹部平扫 CT 影像数据上进行训练,并能成功泛化到胸部 CT 上,但要检测癌症,就必须直接分析腹部( 或胸腹联扫 )平扫 CT。

程向东医生表示,“ 和胸部相比,腹部非常复杂。因为胸部只包含肺,筛查时干扰因素很小。而腹部内的脏器特别多,有实质性脏器,比如肝脏、胰腺和脾脏,有空腔脏器,比如胃、小肠、结肠、胆囊等等,还有腹膜后的脏器,比如前列腺,还有泌尿系统的膀胱等等。”

“ 不仅脏器非常多,而且互相有重叠、有干扰。特别是空腔脏器,空腔脏器里面还有空气,空气对影像干扰特别大,包括X线、超声、平扫CT等。”

所以在腹部的检查当中,包括实质脏器和空腔脏器,通常都会用增强 CT,结合比较特殊的一些条件,才能做出一些诊断。比如做胃部增强 CT,要把胃部撑得很开,患者需要空腹喝 1000 cc 以上的水,才能有效地做检查。

胡灿医生补充道,“ 这其实也限于T2、T3、T4期的胃癌识别,而不能识别T1期的胃癌。”

GRAPE 模型与增强 CT 对胃癌早期患者( T1、T2 期胃癌 )的检测结果对比。

图源: AI-based large-scale screening of gastric cancer from non-contrast CT imaging

程向东医生表示,“ 因此,在过去,通过腹部平扫 CT 做胃癌筛查,业界都会认为基本是不可能的,简直是天方夜谭。胰腺的筛查和诊断比肝脏难一点。但是空腔脏器,哪怕是生了一个肿瘤,你做一个平扫 CT 让医生去看,十个里面九个半是看不出来的。

为了克服以上困难,在 GRAPE 的训练中,研究团队构建了一个比 PANDA 更大的队列,并且包含了更多的中心数据。

“ GRAPE 的数据集包含将近十万的病例,非常注重病例的多样性,不只包含我们医院以及浙江省的病例,还包括国内西北、东北、中原、华南、东部地区的病例,所以具有广泛的代表性。”

GRAPE 模型的构建经历了一个循序渐进的过程,在早期的研究中,训练数据大概在 3000 例左右,就已经取得了很好的效果。

“ 在进行内部验证的时候,我们曾有意识地拿一批早期肿瘤的片子让模型判断,就发现模型准确率已经非常高,能达到 50% 到 60% 的准确率,这增加了团队的信心。”

特别是,GRAPE 的鲁棒性( 系统抵抗干扰的能力 )极高,尽管胃部面积较大,但其检出率与胃部肿瘤位置无关,也与性别或年龄也无关。

而目前胃的充盈程度仍然是一个关键因素,胡灿博士表示,“ 我们发现在 T2期以后,胃的充盈程度对 GRAPE 模型识别胃癌没有影响。但是对于 T1 期的胃癌,充盈越好,识别的准确率越高。” 具体而言,充盈良好的胃的 T1 期胃癌检出率比充盈不良的胃高 10.72% 。

所以在实际应用中,要筛查 T1 期胃癌,GRAPE 的使用也不是完全无条件的,但这个条件并不苛刻,要使得胃部充盈,只需要患者喝足够量的水就行。

在回顾性数据验证中,研究团队分析了 11 例确诊的胃癌病人在胃镜确诊前的平扫 CT 影像。

令胡灿博士印象深刻的一个案例是,2024 年 6 月,一名 45 岁患者因腹部不适做胃镜检查,确诊为局部胃癌晚期。回溯发现,该患者在 6 个月前的 2023 年 10 月为了检查其他疾病做过腹部平扫 CT。胡灿博士将这张旧片子导入 GRAPE 模型,提示存在早期胃癌病灶。也就是说,如果 6 个月前就有 AI 介入,这名患者有机会更早确诊并接受治疗,生存机会大幅提高。

目前在全国范围内,浙江、安徽已有多家医院部署了 GRAPE 模型。在浙江省肿瘤医院胃外科,GRAPE 一天可以筛查完成 1000 例患者的平扫 CT 。

后续,GRAPE 将向全国推广,联合团队也将持续提高模型对早期胃癌的识别灵敏度。

程向东医生表示,“ 我们希望越来越多的中心可以运用这样的模式,为 GRAPE 模型走出国门提供非常好的支撑。我完全相信,GRAPE 模型模型能够为一些肿瘤高发的、人口特别多的、或者经济条件并不好的国家和地区,提供非常大的帮助。”

作为 AI 癌症筛查模型的直接使用者,宁波大学附属人民医院的朱柯磊医生对这种有可能改变患者命运的工具感到非常兴奋。

朱柯磊医生提到一个数据:胰腺癌晚期患者的生存率大概是 8%,基本上就是没得救。对于 5 年生存率指标,朱柯磊医生的回答是:“ 我们能追踪到 5 年就不错了。” 也就是说,胰腺癌晚期能活到五年的屈指可数。这也是胰腺癌被称为 “ 癌症之王 ” 的原因。

胰腺本身没有痛觉神经,胰腺癌患者的标准结局,就是等肿瘤长到压迫肝胆的时候才有感觉,这时为时已晚。朱柯磊医生表示,这给他带来了很多无力感。

导致这一现状的最主要原因是,不仅晚期生存率低,胰腺癌的早诊率也很低。和胃癌检测一样,胰腺癌检测的传统手段不能同时满足低成本、高可及性、高敏感度这几个条件,所以也就无法实现大规模的机会性筛查,导致了早诊率低的现状。

而与 GRAPE 同源的 PANDA,是首个可行的早期胰腺癌大规模筛查方案。

2025 年 3 月,在宁波大学附属人民医院的试验带来了惊喜,PANDA 确实能发现最小到 1.5 厘米大小的肿瘤,这对于之前的手段而言是不可想象的。如此患者的生存率一下子就被拉高了。对此,朱柯磊医生感慨道,用 AI 做这件事就是在积德,能挽救很多活生生的生命。PANDA 还扫描出了原位癌病灶,这个病灶尚未发展成为更严重的胰腺癌,病人不会有任何症状。朱柯磊医生表示,原位癌在过去很难被发现,这是因为通常情况下,没有人会建议没有任何症状的患者去做增强 CT 检查。

从回顾性实验到生产级应用,PANDA( 以及 GRAPE )也在持续克服挑战,积极整合进医生的工作流中。

达摩院团队表示,“ 比如说,我们希望把 AI 系统真正嵌入到医生的工作流里,让它用起来顺手,而不是给医生增加额外的操作负担;再比如,如何与现有的硬件设备做好对接和融合,让整个流程更加自然、高效。”

“ 目前我们还在摸索,但我们的目标很明确:就是希望医生在日常工作中能够自然地使用这套系统,不需要额外的学习成本或操作步骤,真正做到 ‘ 无感集成 ’,从而提升诊断效率和质量。”

PANDA 在宁波大学附属人民医院的大规模应用已经初显效果。在具体工作流程中,门诊、急诊的平扫 CT 出来后,自动输入 PANDA 跑一下就能出结果。自 2024 年 10 月到 2025 年 3 月,PANDA 已经在宁波大学附属人民医院筛查了 4 万多张片子,发现 2 例常规检查未能发现的早期胰腺癌。

PANDA 可以批量处理 CT,且只会对风险病例进行报警,医生只需要每天抽出半小时左右就可以完成核验。PANDA 对胰腺癌会单独报警,而对其它良性病变比如囊肿、胰腺炎也会标注和报警。对于高度疑似胰腺癌或者急性胰腺炎的病例,医生会及时电话召回患者,建议患者做进一步检查。

朱柯磊医生认为,PANDA 的使用对于医生来说是低负担的,学习成本很低,而产生的价值是巨大的。

最后,朱柯磊医生反馈道,希望在宁波更多医院中推动 PANDA 的落地。

PANDA 对胰腺癌早筛的意义不仅是全国性的,更是全球性的。2025 年 4 月,PANDA被美国食品和药物管理局(FDA)认定为“突破性医疗器械 ”(Breakthrough Device Designation,BDD)。

达摩院团队告诉知危,“ 获得 FDA 认证将加快相关开发与审评流程,确保患者和医疗机构能及时享受到最先进的技术。”

总体来看,在 PANDA、GRAPE 等项目的推动中,达摩院可以说充分展现了 “ 知行合一 ” 的研究理念,达摩院团队表示,“ PANDA 不仅仅是一个学术研究项目,而是一个重大的命题,它包括了学术研究、科研试点、公益试点、取证、海外推广等工作,这也是一开始就规划好的。”

PANDA 模型技术路线能达到今天的成就,从技术上根源于极大加强了泛化性,不仅体现在多中心泛化,从腹部 CT 到胸部 CT 的泛化,从胰腺癌到胃癌的泛化,还体现在对更多不同病种的适用性。

目前,达摩院的医疗AI团队正在逐步推进 “ 一扫多筛 ” 技术路线,希望用来做其它高发癌症、慢性病甚至急诊的筛查。

如果能够实现 “ 一扫多筛 ”,其带来的经济收益是巨大的。据测算,如要筛查七大主流癌症,胃肠镜、增强 CT、超声等传统检查成本累计至少 3000 元,而基于平扫 CT+AI 的 “ 一扫多筛 ”,成本仅约 200 元。

这 200 元的成本基本上只是平扫 CT 的成本,夏英达表示,“ 如果原本已经有了平扫 CT,接下来的多癌筛查就是几乎 0 成本,只是消耗了 AI 推理的电费而已。”

达摩院团队表示,“ 为何要推动 ‘ 一扫多筛 ’ ?除了经济的角度,从技术的角度看,这是最能展现 AI 比人类强的地方。其实很多时候,医生并不是看不出来问题,而是关注点受限。

“ 一方面,从技术层面看,平扫 CT 片是通过逐层扫描获得的,所以它是一系列连续的图像。医生在看这些影像的时候,通常就是用鼠标滚轮一张张浏览。在这种高强度、长时间的工作环境下,如果医生疲劳了,确实有可能会忽略掉一些细节。而如果有 AI 提前做了一轮精选和初筛,把可疑区域标记出来,医生就会更关注这部分内容,甚至比原来看得更仔细,也更容易避免漏诊的情况。

“ 另一方面,还有专科带来的限制。比如一个病人是因为咳嗽来看病,医生自然就把注意力聚焦在肺部;如果病人是因为肝痛来做CT,医生的重点也就放在肝上。在这种情况下,医生不太可能、也没有必要去仔细检查每一张 CT 影像里的所有器官,把五脏六腑全都看一遍。而 AI 不会受到这些限制。”

“ 这就弥补了医生因为专科化、工作习惯或时间压力所导致的盲区。”

胡灿博士补充了一个例子,“ 对于平扫 CT,在过去病人确诊了胃癌,假设返回去推,确实能看出来,但是当时是看不出来的,或者说非常难辨认。而且医生事先基本不会真的用肉眼在平扫 CT 找胃部肿瘤。”

在推动的其它高发癌症方面,除了已发表的用于筛查胃癌的 GRAPE,达摩院目前重点关注的另外两个方向是肠癌和食管癌。

肠癌在全球范围内都是发病率排名第二的高发癌症,所以在欧美国家也受到高度重视。但和胃癌类似,肠镜作为肠癌筛查的金标准,很多人也不愿意做,因为相比做胃镜其过程更痛苦,更别提需要提前大量灌肠、服用特殊液体等。

食管也是一个空腔脏器,但它的特点和挑战与其他空腔脏器有所不同。首先,食管癌的病灶通常比较小,一般在 1 到 2 厘米左右。更复杂的是,食管癌的病灶与周围的肌肉组织在影像学表现上非常相似,这使得区分它们变得尤为困难。最后,食管更容易发生变形,尤其是在患者体位变化或吞咽动作时。即使是有经验的医生,在专门查看食管影像时也容易遗漏病灶。

在慢性病和急诊方向上,以心血管疾病为例,达摩院布局了包括冠心病等慢性疾病以及临床上可能突发的心梗情况,特别是在急诊场景中。这两个方向的需求和特点是完全不一样的。

在急诊室里,最大的要求就是 “ 快 ”。比如心梗这种病情非常紧急,可能半小时的延迟就会影响到患者的生命安全。在急诊场景下,还面临一个很现实的挑战,就是如何更好地设计整个工作流程。达摩院团队表示,“ 我们要把这个 AI 系统有效地嵌入到医院现有的集成体系中,所有环节都要围绕 ‘ 抢救病人的黄金时间窗 ’ 的核心目标展开。”

“ 所以,在不同的临床环境中,我们最终提供的功能和关注的数据维度也会有所差异。在急诊环境中,快速准确地判断主动脉夹层或心梗等急性病症至关重要,因此我们的系统需要特别注重速度和准确性。而在慢性病管理中,如冠心病,则可能更强调长期监测和趋势分析。”

目前,在癌症筛查方向上,达摩院主要面向消化系统的五大癌症开展工作,除了胰腺癌之外,还包括食管癌、胃癌、肠癌、肝癌。此外还有一个重点是乳腺癌,这是目前主要在推进的六个癌症方向。

而在整个 “ 一扫多筛 ” 路线上,达摩院已在胰腺癌、食管癌、胃癌、结直肠癌、肝癌等高发癌症,骨质疏松、脂肪肝等慢性病,以及主动脉综合征等急症上取得一系列研究突破。相关成果先后登上国际《 自然·医学 》、《 自然·通讯 》等国际期刊及 CVPR、MICCAI、IPMI 等学术顶会。

经历了 PANDA 和 GRAPE 等项目的积累,达摩院在医疗行业沉淀了一套非常扎实的研究和落地方法论。

首先,对于 AI 技术研发和落地,最重要的自然是数据。

张灵表示,“ 数据的重要性已经超越了算法。多年前我就意识到,AI 语义分割技术当时已经发展得非常成熟了,甚至可以说进入了 ‘ 瓶颈期 ’。所以不应该再停留在改进网络结构、做技术优化的阶段,而应该进入临床转化和落地应用的新阶段。”

PANDA 的数据处理在标注、来源等方面都有非常仔细的考量。

对于 PANDA 项目本身,在技术路线上有一个非常关键的设计:把平扫 CT 和增强 CT 进行配对使用。

达摩院团队表示,“ 具体来说,如果一个人同时做了平扫 CT 和增强 CT,就利用增强 CT 作为 ground truth 来辅助平扫 CT 的标注。因为在现实中存在一个很大的挑战——人类医生在平扫 CT 上几乎看不出来任何明确的问题,根本无法进行准确标注。我们的方法是:医生根据对脏器空间结构的理解,先在增强 CT 上识别出病灶区域,然后把这个区域反向映射到同一患者的平扫 CT 图像中相应的位置上。通过这种方式,我们构建了一组 ‘ 有标注 ’ 的平扫 CT 数据。

“ 在合作策略上,我们也非常注重 ‘ 专科专病 ’ 的原则。因为每个癌症类型背后,其实都有各自对应的强势科室和权威专家 —— 比如胃癌可能由某家医院的消化外科主导,胰腺癌可能是另一家医院的肝胆胰外科更擅长。所以我们通常会选择某个癌种领域内最顶尖的三甲医院进行合作,确保我们不仅获得高质量的数据,也能深入理解该病种的真实临床需求和诊断逻辑。”

我们选择与头部医院合作,一方面是因为这些医院确实能汇集到比较多的高质量病例。像癌症这类疾病,并不符合普通疾病的分级诊疗逻辑 —— 一旦发现,患者通常都会选择去大城市、大三甲医院就诊,不会在当地 ‘ 凑合看 ’。所以,顶尖医院往往积累了最典型、最具代表性的病例数据。”

另一方面,我们也必须对这些病例负责。因为 PANDA 等项目并不是单纯的科研驱动,而是 ‘ 边跑边救人 ’ 的实践过程。在研究过程中,AI 一旦筛查出高风险病例,就有可能需要医院立刻介入进行后续的确诊和治疗。所以我们必须确保:一旦发现问题,合作医院有能力也愿意承担这部分患者的进一步诊疗责任,包括组织随访、穿刺确认、甚至长期追踪等环节。”

“ 总之,一定要实打实地用经过同行评议、特别是医学界能够认可的数据来支撑我们的成果。在后续的技术路线上,我们会采取并行推进以及‘逐个击破’的策略,一个癌症一个癌症地去攻克。”

而从一项技术研究到成为标准化医疗工具,也还有很多道关需要过。

张灵介绍道,“ 以 PANDA 为例,PANDA 先是在三甲医院和级别稍低的医院都进行了临床试验,之后又进一步推进了多中心验证,做了十个中心的队列,一定程度上验证了区域泛化性。”

“我们还做了 reader study,对比 AI 与人类医生的表现,并评估在使用 AI 辅助后医生的工作是否有所提升,这是验证 AI 作为工具价值的关键。”

为进一步提升价值,我们还让 PANDA 实现了对胰腺癌肿瘤亚型的识别,达到了与人类医生在增强 CT 上进行鉴别诊断和精细诊断的水平。”( 注:这不代表 PANDA 能完全取代增强 CT,增强 CT 可以帮助医生看得更加清晰,以进一步判断是否手术和制定具体治疗方案等。)

“ 由于现实中腹部平扫 CT 数量相对有限,限制了 PANDA 的潜在应用范围,而胸部平扫 CT 数量大得多,因此我们也推动实现了 PANDA 从腹部 CT 到胸部 CT 的泛化性。”

“ 我们还克服了训练数据过于干净的局限性,在更多真实的、包含大量噪声的数据中对 PANDA 做了进一步优化。对于胰腺癌筛查来说,很多受检者其实是没有任何症状的。真实健康人群的数据也更加多样化。虽然他们没有胰腺癌,但可能有其它各种疾病,比如胃病、肝病、肠道充气等各种问题。”

“ 在实际应用中,我们给 PANDA 的价值设定了非常严格的评估标准,不是找影像漏诊,而是找临床漏诊。经过医生的复核,我们在连续的 2 万例真实队列中找到了 31 例临床漏诊的病例。这意味着我们的工作实际上改变了患者的诊疗流程,挽救了生命。”

“ 但仅有个例证据也是不够的。最后,我们还需要做大规模前瞻性对照实验研究,证明使用 ' AI+平扫CT ',相比传统方法,在统计意义上能够降低患者死亡率。”

完成了这一步,PANDA 才有望真正改写临床实践,通过推广成为标准化医疗工具。

好了,到这里,知危编辑部想向大家介绍的关于 AI 抗癌前沿技术的内容就结束了。在深入了解了 GRAPE 和 PANDA 后,编辑部认为 AI 以后没准会变成患者们的赛博孙悟空。

患者们在生死簿上的结局,将被 AI 这个赛博孙悟空所改写。