Nature Biotechnology | 基因密码的“沉默”革命:被忽视的同义突变,竟是疾病的隐形推手?

发布时间:2025-06-28 20:26  浏览量:2

引言

基因组(Genome),这部由约30亿个DNA碱基字母(A, T, C, G)写成的巨著,通过“中心法则”(Central Dogma)的古老规则,指导着生命的运转。DNA被转录成信使RNA(mRNA),mRNA再被翻译成蛋白质,这些蛋白质就像是构成我们身体、执行各种功能的精密机械。这个翻译过程遵循着一套“密码子”(Codon)表,每三个RNA字母决定一个氨基酸。有趣的是,这套密码系统存在“简并性”(degeneracy),不同的密码子可以编码同一种氨基酸。例如,GGT、GGC、GGA和GGG都编码甘氨酸。

因此,当一个DNA突变发生,使得密码子改变,但编码的氨基酸却保持不变时(比如GGT突变为GGC),这种突变就被称为同义突变(synonymous mutation)。长久以来,它们被认为是“沉默的突变”(silent mutation),就像一本书里的错别字,只要不影响阅读和理解,就被认为无伤大雅。在进化理论中,它们大多被视为“中性”的,对生物体的生存适应性(fitness)没有影响。

然而,科学界对这种“沉默”的看法近年来正经历一场深刻的动摇。2022年,一项在酵母(Saccharomyces cerevisiae)中进行的研究投下了一颗“重磅炸弹”,声称同义突变和那些会改变氨基酸的非同义突变(non-synonymous mutation)一样,普遍对细胞有害。这一颠覆性的结论立刻引发了激烈的学术辩论。酵母的发现能直接推广到人类身上吗?在结构更复杂、基因组更庞大的人类细胞中,这些“沉默”的密码子是否真的隐藏着不为人知的功能?

带着这些疑问,研究团队进行了一项规模宏大且极其精密的探索。他们开发并运用了一套基于基因编辑技术的系统,对人类细胞中近30万个同义突变的功能进行了“地毯式”的筛选和剖析。6月24日,这项里程碑式的研究“Prime editor-based high-throughput screening reveals functional synonymous mutations in human cells”,发表在了《Nature Biotechnology》上。他们的发现不仅为长久以来的科学争论提供了决定性的答案,更揭示了同义突变在人类健康与疾病中扮演的惊人角色,为未来的临床诊断和治疗开辟了全新的视野。

想象一下,要在人类30亿个碱基对的基因组中,精确地测试成千上万个单一碱基突变的功能,这无异于大海捞针。传统的实验方法一次只能研究几个突变,效率极低,无法满足大规模筛选的需求。要破解同义突变之谜,首先需要一把能够高效、精准地在基因组上“动手术”的手术刀。

这把手术刀就是近年来大放异彩的CRISPR-Cas基因编辑技术。然而,传统的CRISPR-Cas9像一把“剪刀”,它会在DNA上造成双链断裂,虽然能实现基因敲除,但修复过程常伴随着不可控的插入或缺失(indels),不适合进行精准的单碱基修改。为了实现更精细的操作,研究人员选择了CRISPR技术的一个重要“升级版”——引导编辑(Prime Editor, PE)

引导编辑器巧妙地将一个经过改造、只会“定位”而不会“剪切”的dCas9蛋白与一个逆转录酶(reverse transcriptase)融合在一起。它就像一个自带“搜索并替换”功能的文本编辑器,通过一个名为引导编辑引导RNA(pegRNA)的向导,不仅能找到基因组中的目标位置,还能利用pegRNA上携带的“模板”(RTT),直接将想要的DNA序列“写入”基因组,从而实现各种类型的精准编辑,且不会造成DNA双链断裂。

为了将这项技术应用于大规模筛选,研究人员构建了一个名为PRESENT(prime editor-based screen technology)的高通量筛选平台。他们设计了一个包含297,900个不同epegRNA(engineered pegRNA)的庞大文库,这些epegRNA靶向了3,644个人类蛋白编码基因,旨在引入94,993个同义突变39,336个非同义突变

这个设计的巧妙之处在于,每个epegRNA不仅携带了引入突变的指令,还在其结构中嵌入了独特的分子条形码(barcode),研究人员称之为eBAR。每个epegRNA都配备了三个独立的eBAR,相当于给每个“突变指令”贴上了三个不同的、可追踪的“身份标签”。

实验在人类结肠癌细胞系HCT116中进行。这种细胞因其一种关键的DNA错配修复基因(MLH1)存在天然缺陷,使得引导编辑的效率更高。研究人员首先将高效的PEmax系统(引导编辑的优化版本)稳定地整合到HCT116细胞中,然后用携带epegRNA文库的慢病毒感染这些细胞,确保每个细胞都随机获得一个或多个“突变指令”。

接下来,这些细胞被置于长达35天的“生存竞赛”中。如果某个突变对细胞有害,携带该突变的细胞就会生长缓慢或死亡,其对应的eBAR在细胞群体中的数量就会减少;反之,如果突变有利,eBAR数量则会增加。在实验的第0天和第35天,研究人员分别提取细胞的基因组DNA,通过高通量测序技术“清点”所有eBAR的数量变化。通过比较前后差异,他们就能精确计算出每个突变对细胞“适应性”(fitness)的影响。这套PRESENT系统,凭借其前所未有的规模和精度,为系统性地破解人类同义突变之谜提供了终极武器。

经过35天的细胞“马拉松”和海量的数据分析,一个核心问题的答案终于浮出水面:在人类细胞中,同义突变到底是不是“沉默”的?

答案是:绝大多数情况下,它们确实是沉默的。

研究人员在对筛选数据进行严格的质量控制和统计分析后发现,在他们测试的近十万个同义突变中,只有0.43%表现出对细胞适应性的可测量影响。与之形成鲜明对比的是,在同一筛选体系下,3.83%的非同义突变(即改变氨基酸的突变)显示出显著功能。这个结果有力地表明,在人类细胞中,同义突变的功能影响远小于非同义突变。

当研究人员将不同类型的突变进行分组比较时,这一趋势变得更加清晰。无论是引入终止密码子的无义突变(nonsense mutation),还是导致后续氨基酸序列大范围改变的移码突变(frameshift mutation),都对细胞生存造成了强烈的负面影响。而同义突变群体的整体影响,与不靶向任何基因的阴性对照组(negative controls)相比,几乎没有统计学上的差异。

这一发现在很大程度上平息了由酵母研究引发的争议。研究人员推测,人类与酵母的差异可能源于两者生物学上的根本不同。人类是二倍体生物(每个基因有两份拷贝),而酵母是单倍体,对单个基因的突变可能更敏感。此外,人类基因组中含有大量复杂的内含子(intron)区域,而酵母基因则相对简单。这些因素都可能导致同义突变在不同物种中产生截然不同的后果。

然而,“绝大多数沉默”并不等于“全部沉默”。那0.43%的“非沉默”同义突变,虽然比例很小,但绝对数量并不少。这些“害群之马”究竟是如何在不改变蛋白质序列的情况下,搅乱细胞的正常生活的呢?这正是这项研究接下来要揭示的更深层次的秘密。

既然已经证实只有一小部分同义突变是“危险分子”,那么下一个挑战就是:我们能否建立一种方法,提前预测出哪些同义突变可能具有功能?如果能做到这一点,对于解读个人基因组、诊断遗传病将具有不可估量的价值。

为此,研究人员开发了一款名为DS Finder(Deleterious Synonymous mutations Finder)机器学习(machine learning)模型。这就像是训练一位AI侦探,让它学会从海量的线索中识别出潜在的“罪犯”。

研究人员将他们在PRESENT筛选中得到的宝贵数据——哪些同义突变有害,哪些是中性的——作为“教材”,用来训练DS Finder。他们从基因、mRNA和核苷酸三个层面提取了23个关键特征(features),作为AI侦探判断的依据。这些特征包括:基因的重要性(这个基因本身对细胞生存有多关键?)、基因的活跃度(这个基因在细胞中表达水平有多高?)、剪接信号的改变(突变是否位于或靠近mRNA剪接(splicing)的关键位点?)、密码子本身的特性(突变前后的密码子使用频率如何?突变是否发生在密码子的第三个位置?)、以及DNA/RNA的物理化学性质(突变是否影响了局部的CpG含量?是否改变了mRNA的折叠稳定性?)等等。

经过训练,DS Finder展现出了卓越的预测能力。研究人员将其与现有的两个知名突变功能预测工具——CADD和SilVA——进行了比较。结果显示,在HCT116细胞的背景下,DS Finder的预测准确性(以AUC值衡量)显著优于这两个通用模型。这证明了使用特定细胞类型的实验数据来训练模型,能够获得更精准的预测效果。

通过分析DS Finder的“思考过程”(利用SHAP值分析),研究人员发现了一些关键的“判案规则”。最重要的预测因子是突变对mRNA剪接的影响。此外,基因本身的表达水平和重要性、密码子第三位是C/G碱基对,以及突变对密码子使用频率的改变,都是模型判断一个同义突变是否有害的重要依据。DS Finder的诞生,意味着研究人员不仅拥有了实验筛选的“火眼金睛”,还拥有了预测未来的“水晶球”。它将带领我们深入探索那些“非沉默”同义突变背后的生物学机制。

DS Finder的分析指出,mRNA剪接(mRNA splicing)的异常是导致同义突变产生危害的首要原因。那么,什么是剪接?它又是如何被一个“沉默”的突变破坏的呢?

在真核生物中,基因被转录成的原始mRNA包含两种序列:外显子(exon)内含子(intron)。外显子是编码蛋白质的有效信息,而内含子是“无效”的间隔序列。在mRNA成熟的过程中,细胞会像剪辑师一样,精确地切除所有内含子,然后将外显子拼接在一起,形成最终的、可被翻译的成熟mRNA。这个过程就叫剪接。剪接的精确性至关重要,哪怕一个碱基的错误都可能导致灾难性的后果。

研究团队在筛选中发现了一个典型的例子:BUB1B基因的R322位突变。BUB1B是细胞周期检查点的关键蛋白,确保细胞分裂时染色体能被正确分配。在筛选中,一个从AGG到AGA的同义突变(两者都编码精氨酸Arginine)显示出强烈的细胞杀伤效应。这个突变恰好位于第7号外显子和第7号内含子的交界处,也就是一个关键的剪接供体位点(splice donor site)

研究人员通过实验验证了这一发现。他们发现,这个看似无害的同义突变,实际上破坏了原始的剪接信号。细胞的剪接机器无法识别这个位点,导致了两种错误的剪接结果:一种是整个第7号内含子被错误地保留在了mRNA中;另一种是在内含子内部启用了一个新的、隐藏的剪接位点,导致部分内含子被保留。无论哪种情况,都使得mRNA中出现了一个提前终止密码子(premature stop codon),导致蛋白质翻译提前中止,产生一个无功能的、截短的BUB1B蛋白。最终,细胞因无法正常完成细胞分裂而走向凋亡。实验数据显示,携带该突变的细胞增殖能力显著下降,其BUB1B的mRNA水平也大幅降低。

更有意思的是,这个BUB1B_R322突变在人类临床数据库ClinVar中早有记录,与一种名为“镶嵌型异倍体综合征”的罕见遗传病相关,但其致病性被标注为“不确定(uncertain significance)”。这项研究的发现,无疑为这个突变的致病性提供了确凿的证据。

另一个例子是EEF2基因的G332位突变。EEF2是蛋白质合成过程中的关键延伸因子。一个从GGC到GGT的同义突变(都编码甘氨酸Glycine)同样表现出强烈的负效应。这个突变并非破坏了原有的剪接位点,而是在外显子内部意外地创造了一个新的剪接供体位点(donor gain)。这导致剪接机器错误地从这个新位点开始剪切,造成部分外显子被切除,引发下游的移码突变,同样产生了无用的蛋白质。

这些生动的案例清晰地揭示了同义突变的第一种“作案手法”:通过破坏或创造剪接信号,对mRNA的“剪辑”过程进行致命的破坏,从而在不改变氨基酸编码的情况下,从根本上摧毁了蛋白质的功能。

除了破坏剪接,同义突变还有更隐蔽的“作案手法”。有时,它们会通过改变mRNA的二级结构(secondary structure)来影响蛋白质的生产。mRNA并非一根僵硬的直线,它会自我折叠成各种复杂的三维形态,就像一张可以玩出各种花样的折纸。这些结构对mRNA的稳定性、转运和翻译效率都至关重要。

研究人员在筛选中发现了一个绝佳的案例:PLK1基因的S2位突变。PLK1是调控细胞周期的关键激酶,是许多抗癌药物的热门靶点。一个位于其编码序列第二个密码子的同义突变,从AGT变为AGC(两者都编码丝氨酸Serine),显著抑制了细胞的生长。

这个突变位于基因的起始密码子(start codon)附近,远离任何已知的剪接位点。那么,它是如何发挥作用的呢?研究人员通过生物信息学预测发现,这个突变显著改变了PLK1 mRNA起始密码子附近的局部结构。原本相对松散的单链区域,在突变后折叠成了一个非常稳定的茎环结构(stem-loop)

这个小小的“结”带来了大麻烦。蛋白质的翻译是由核糖体(ribosome)完成的,它像一个移动的工厂,沿着mRNA链移动,并根据密码子指令组装氨基酸。翻译的起始,需要核糖体精确地识别并结合到mRNA的起始密码子上。PLK1_S2突变形成的那个稳定的茎环结构,恰好成了一个“路障”,阻碍了核糖体的结合和翻译的启动。

为了证实这个“交通堵塞”,研究人员使用了核糖体测序(Ribo-seq)的技术。这项技术可以“捕捉”到在某一瞬间正被核糖体“阅读”的mRNA片段。结果显示,在突变细胞中,起始密码子区域被核糖体覆盖的信号显著低于正常细胞,而整个基因的转录水平(RNA-seq数据)却没有变化。这完美地证明了:mRNA的量没少,但能被成功翻译的变少了

最终的蛋白质水平检测(Western blot)也证实了这一点:突变细胞中的PLK1蛋白含量显著降低。一个“沉默”的突变,通过玩了一场巧妙的“折纸游戏”,成功地扼杀了关键蛋白的生产,从而抑制了细胞的生命活动。

这项研究最激动人心的部分,在于它不仅仅停留在揭示生物学机制,更将目光投向了真实的临床应用。既然我们已经拥有了强大的实验筛选平台PRESENT和精准的预测模型DS Finder,我们能否利用它们,在庞大的临床基因数据库中,找到那些被错误地标记为“良性”或“不确定”的、但实际上却可能致病的同义突变呢?

研究团队将DS Finder应用于一个包含585个与结肠疾病相关的临床同义突变数据库。模型对每个突变进行了“危险”评分。其中,一个名为G6PC3 c.G399A的突变获得了最高的危险评分。这个突变与一种名为“严重先天性中性粒细胞减少症”的罕见血液病有关。然而,在权威的ClinVar数据库中,它的致病性被标注为“可能良性(likely benign)”。

DS Finder的预测结果与临床标注大相径庭。究竟谁对谁错?实践是检验真理的唯一标准。

研究人员在HCT116细胞中引入了这个G6PC3 c.G399A突变,并进行了实验验证。结果令人震惊:这个被认为是“良性”的同义突变,与之前发现的BUB1B突变一样,严重破坏了一个剪接供体位点,导致mRNA的错误剪接。最终,细胞中正常的G6PC3 mRNA水平急剧下降。G6PC3蛋白是维持中性粒细胞功能和存活所必需的,其功能的丧失与疾病的病理机制完全吻合。

这个案例有力地证明,现有的临床数据库可能低估了同义突变的致病风险,而DS Finder有能力识别出这些被“冤枉”的致病突变,为遗传病的诊断提供新的线索。

为了让这一强大工具能服务于更广泛的科学界,研究团队还创建了一个名为“Hearing Silence”的公开网站。研究人员和临床医生可以免费使用DS Finder算法,并查询该研究在三种不同癌细胞系(结肠癌HCT116、肺癌A549、食管癌KYSE-30)中的全部筛选数据。这无疑将极大地推动全球范围内对同义突变的研究和理解。

这项发表在《自然-生物技术》上的研究,如同一道耀眼的光,照亮了基因组中一个曾被长期忽视的“灰色地带”。它以大规模的实验数据,为人类同义突变的功能提供了一个清晰的画像:它们中的绝大多数确实是中性的,但一小部分功能强大的“异类”不容忽视。

这项工作澄清了长久以来关于同义突变功能的科学辩论,明确了酵母中的发现不能简单地外推到人类。更重要的是,它为我们提供了一套革命性的研究工具——PRESENT筛选平台和DS Finder预测模型。这套组合拳不仅能系统性地发掘功能性同义突变,还能揭示其背后的精细生物学机制,无论是通过破坏mRNA剪接,还是通过改变RNA的折叠结构来干扰翻译。

这项研究的意义远远超出了基础科学的范畴。它向我们展示了,在精准医疗的时代,我们必须以更全面、更深入的视角来解读每一个人的基因组。那些曾被我们视为“无意义”的同义突变,可能正是某些疑难杂症的根源,是癌症驱动的关键因素,或是影响药物疗效的隐形密码。

随着基因编辑技术的不断进步和人工智能算法的日益成熟,我们正站在一个解读生命之书新篇章的起点。我们开始意识到,这部书里或许没有真正“沉默”的文字,只有我们尚未完全理解的语言。而这项研究,无疑为我们破译这门复杂的遗传语言,提供了最珍贵的一把钥匙。未来的某一天,当我们能够真正“听见”所有“沉默”的声音时,我们将能更深刻地理解生命的奥秘,并更有力地对抗疾病的挑战。

参考文献

Niu X, Tang W, Liu Y, Mo B, Yu Y, Liu Y, Wei W. Prime editor-based high-throughput screening reveals functional synonymous mutations in human cells. Nat Biotechnol. 2025 Jun 24. doi: 10.1038/s41587-025-02710-z. Epub ahead of print. PMID: 40555761.

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

往期热文:

Nature Medicine

| 你是“米饭星人”还是“面包星人”?研究揭示:你的“升糖人设”暴露了代谢健康水平

Nature

| 致命的合谋:研究揭示Y染色体丢失如何策反免疫T细胞,与癌细胞“联手”恶化癌症

N Engl J Med

| 挑战金标准!MRD指导下,骨髓瘤治疗不再“一刀切”,移植或成“可选项”

Nature Biotechnology

| 效率飙升145倍!新型A-G碱基编辑器精准“修正”线粒体遗传缺陷

Nature Medicine

| 皮肤科的“GPT-4”时刻!200万张图像炼成全能AI,精准诊断128种皮肤病

Nature Biotechnology

| 从“估计”到“精算”:miniQuant革命性提升基因异构体定量精度,解锁细胞密码