华人科学家联合创办,可将AI细胞模型预测准确率提升一倍
发布时间:2025-08-12 17:39 浏览量:1
近日,Tahoe Therapeutics,一家名不见经传的生物技术初创公司宣布,完成 3000 万美元新一轮融资,将打造全球最大人类细胞 AI 模型训练数据集。
Tahoe Therapeutics 成立于 2022 年底。2 个月前,非营利性研究机构 Arc Institute 刚刚证实,Tahoe Therapeutics 开源的单细胞扰动数据集 Tahoe-100M 可将其新型 AI 细胞模型的预测准确率提升一倍。
这家位于美国加州帕洛阿尔托的生物技术公司表示,本轮融资由 Amplify Partners 领投,Databricks Ventures、Wing Venture Capital、General Catalyst、AIX Ventures 等一众知名投资机构跟投。
此次融资完成后,Tahoe Therapeutics 的估值达到了 1.2 亿美元,迄今为止的总融资额已达到 4200 万美元。
AI 药物研发的瓶颈:数据的缺失
在生物学领域,一个长久以来的目标是利用计算机构建“虚拟细胞”(in silico models),以精确模拟活细胞的复杂行为,从而预测药物在人体内的反应,为新药的临床试验提供更强的信心。
然而,尽管人工智能,特别是大语言模型,在蛋白质结构预测等领域取得了突破,但将其应用于模拟整个细胞的复杂动态时却收效甚微。其根本瓶颈在于缺乏足够规模和足够高质量的生物学数据。
AI 模型的学习能力高度依赖于其所“喂养”的数据。在药物研发领域,一种被称为“扰动数据”(Perturbation data)的信息至关重要。这类数据记录了细胞在受到不同分子(如候选药物)干预后产生的反应,它能帮助算法理解细胞对不同刺激的响应模式,从而提升其对未知药物反应的预测能力。
Tahoe Therapeutics 的核心使命,正是为了解决这一根本性的数据瓶颈。
“我们能够将‘来自许多不同类型的患者、不同器官的细胞放在一起’进行同步实验,而不是像传统技术那样一次只能测试来自单个个体的细胞。”Tahoe Therapeutics 联合创始人兼首席科学官 Johnny Yu 告诉媒体,“因此,我们每运行一次实验,都在生成关于哪些药物对哪些患者有效的大规模单细胞图谱。”
这种规模化生成数据的能力,构筑于该公司的核心技术平台 Mosaic 之上。基于该平台,Tahoe Therapeutics 在 2025 年 2 月公开发布了其关键性成果:Tahoe-100M 数据集。
这一开源数据集在发布后短短数月内,已被下载近 10 万次。
根据其发表的论文,这是迄今为止规模最大的公开的单细胞扰动图谱,包含超过 1 亿个单细胞转录组图谱,详细记录了 1100 多种小分子在 50 种不同癌细胞系中的作用效果。
该数据集的构建旨在解决一个根本性问题:尽管单细胞测序技术发展迅速,但专注于扰动研究的大规模数据集依然稀缺,这限制了 AI 模型学习细胞复杂行为的能力。Tahoe-100M 的设计目标,就是为 AI 模型提供足够丰富的“养料”,使其能够学习细胞功能中的“上下文依赖性”,从而揭示因果性的基因相互作用、反馈回路和代偿通路,最终捕捉基因调控和细胞网络动态的基本原理。
尽管该数据集使用了癌症模型和药物化合物来创建,但其设计初衷是作为一个具有广泛适用性的扰动图谱,以支持对跨越多种组织和背景的细胞生物学的更深入研究。通过公开发布这一资源,Tahoe Therapeutics 希望能加速整个科学界为系统生物学开发更稳健、更具预测能力的 AI 框架。
创始团队与技术力
图 | 公司创始团队(来源:Tahoe Therapeutics)
公开资料显示,首席执行官兼联合创始人 Nima Alidoust 今年 39 岁,博士毕业于美国普林斯顿大学,曾创办过一家计算化学初创公司 Good Chemistry Company,最终被 Sandbox AQ 以 7500 万美元收购。
首席科学官兼联合创始人 Johnny Yu 今年 34 岁,博士毕业于美国加州大学旧金山分校生物医学系。在此期间,他获得了美国国家科学基金会研究生科研奖学金(NSF GFRP Fellow),其核心研究方向正是“开发一种可在体内进行单细胞多重药物筛选的方法”。
这项工作直接构成了 Mosaic 平台的技术基础。他的博士导师,正是后来共同创办公司的 Hani Goodarzi 教授(上图右二)。
图 | Johnny Yu 的工作经历(来源:Johnny Yu 领英)
他还曾在麻省理工学院和哈佛大学联合创办的布罗德研究所(Broad Institute of MIT and Harvard)担任二级研究助理,从事与心房颤动相关的遗传学研究。
除了在博士期间奠定公司核心技术的研究之外,Johnny Yu 在癌症生物学领域也拥有多项学术成果。
其中,他目前引用量最高的一篇论文于 2023 年作为共同作者发表在期刊 Nature Genetics 上。这项研究深入剖析了一种名为 APOBEC3B(A3B)的酶,在由 EGFR 基因突变驱动的非小细胞肺癌中所表现出的上下文依赖性功能(context-dependent function)。
研究团队通过精确的实验设计发现,A3B 的作用并非一成不变:在肿瘤形成的早期阶段,其表达呈现出肿瘤抑制效应(tumor-suppressive effect)。然而,当患者接受靶向治疗后,药物在抑制肿瘤的同时,会激活细胞内的 NF-κB 信号通路,进而诱导 A3B 的表达急剧上升。在这种情况下,高水平的 A3B 通过诱发新的基因突变,成为促进肿瘤产生治疗耐药性的关键因素,最终可能导致治疗失败。
这一发现不仅揭示了癌症治疗中一个此前未被充分认识的耐药性机制,也精准地指出了 A3B 作为一个潜在的治疗靶点的重要性,为开发能够克服或延缓耐药性的新型联合用药策略提供了理论依据。
此外,早在 2020 年,Johnny 在博士期间的一项研究成果发表于肿瘤学细分领域期刊 Cancer Discovery 上。该项工作的核心挑战在于,如何从海量的基因表达数据中,识别出驱动癌症恶性进展的关键“主调节因子”(master regulators)。
图 | Johnny Yu 的谷歌学术首页(来源:谷歌学术)
为解决传统计算方法依赖于已知调控通路的局限性,研究团队开发并应用了一种名为 PRADA 的创新分析框架。通过将 PRADA 应用于结肠癌的临床样本、患者来源的异种移植模型和细胞系模型,他们成功识别出 RNA 结合蛋白 RBMS1 是一个此前未被充分认识的结肠癌转移抑制因子。
研究表明,RBMS1 通过直接结合其靶向的信使 RNA(mRNA),发挥着转录后调控因子的作用,从而增强这些 RNA 的稳定性。在临床层面,RBMS1 的表达水平与患者的生存率呈负相关,这意味着它具有作为风险分层生物标志物的临床应用潜力。这项工作不仅揭示了一个与疾病高度相关的、控制 RNA 稳定性的新调控机制,也验证了如 PRADA 这类不依赖先验知识的发现策略的价值。
创业背景与商业蓝图
Tahoe Therapeutics 的创立源于几位科学家的思想碰撞。公司首席执行官 Nima Alidoust 与加州大学旧金山分校教授 Hani Goodarzi 是普林斯顿大学的同学。两人在 2022 年重聚,开始探讨创立一家公司以构建虚拟细胞模型的想法。
Goodarzi 教授当时便指出,要实现这一宏伟目标,大规模的数据采集能力将是不可或缺的核心部分。因此,他引荐了自己当时正在指导的、在这一领域已取得重要进展的博士生 Johnny Yu。不久后,加州大学旧金山分校的另一位资深研究员 Kevan Shokat 也加入团队。四位联合创始人共同成立了公司,其初创时期的名字是 Vevo Therapeutics。
公司在 2022 年 12 月完成了由 Amplify Partners 领投的 1200 万美元种子轮融资。后因法律方面的挑战,于 2025 年 4 月正式更名为 Tahoe Therapeutics。
对于 Tahoe Therapeutics 的价值,领投方 Amplify Partners 的普通合伙人 Sunil Dhaliwal 表示:“虽然蛋白质结构模型加速了分子设计,但它们很少能转化为临床上的成功——这个问题仍然是药物开发中最大的挑战之一。Tahoe Therapeutics 拥有独特的定位,可以通过生成大规模的药物+患者数据集和训练高维度的、基于细胞的 AI 模型,来推动行业突破这一瓶颈。”
对于新注入的 3000 万美元资金,Nima Alidoust 规划了清晰的路线图。首先,在数据层面,公司的目标是利用新资本将数据集的规模从现有的 1 亿个数据点,扩展至超过 10 亿个。其次,在药物研发层面,公司正在推进一款针对“一个主要的癌症亚型”的候选药物,并进行美国食品药品监督管理局(FDA)所要求的相关研究,以启动人体临床试验。
最后,在商业合作层面,Alidoust 对媒体表示,公司计划从全球大型制药公司或顶尖 AI 公司中,选择一家作为独家战略合作伙伴,共享即将生成的更庞大的数据集。其目的是合作开发新药或新的药物发现 AI 模型,在实际落地中验证 AI 的价值。
参考资料:
https://scholar.google.com/citations?user=08rpLCAAAAAJ&hl=en
运营/排版:何晨龙