中国自建多组学资源体系,给生命造百科
发布时间:2025-08-08 21:39 浏览量:1
基因组、转录组、表观组等多组学数据,因含有丰富的生物分子遗传信息,对生物遗传多样性的研究以及生物多样性的保护具有重要意义,但这些不同层面的组学数据不仅数据量大,而且分散在不同的数据资源网站甚至文献中,对数据的获取、共享、再整合利用等带来很大的挑战。《科技导报》邀请相关领域研究人员撰文,文章以国家基因组科学数据中心(NGDC)为例,分析了生物多样性保护的多组学数据资源体系与进展,这将对生物多样性保护起到重要支撑作用。
中国是世界上生物多样性最为丰富的国家之一,也是最早加入《生物多样性公约》的国家之一。中国在生物多样性编目、自然保护地建设以及生态建设方面取得了很好的进展,构建了生物多样性与生物安全大数据平台、生物多样性检测网络等,实现对生物多样性的动态监测。目前,基于组学大数据的生物多样性研究正迅速崛起,成为该领域的一股新兴力量。
国际上有3个主要生物数据中心,分别是美国国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI),以及日本国立遗传学研究所的日本DNA数据库(DDBJ)。目前,这3个数据中心收录了大量的组学数据。然而,由于国际共享数据存在的网络访问速度限制、格式与存储标准差异等问题,中国的科研人员在数据的获取、共享、再整合利用等方面存在很大的挑战。因此,国家基因组科学数据中心应运而生,并围绕着生物数据的存储与管理、整合与挖掘,以及转化与应用,构建了一系列的组学数据资源。
1 国家基因组科学数据中心的目标与使命
作为国家生物信息中心的重要组成部分,国家基因组科学数据中心(NGDC)的使命是面向中国人口健康和社会可持续发展的重大战略需求,建立生物信息大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,研发大数据前沿交叉与转化应用的新方法和新技术,支撑公益性科学研究和产业创新发展。经过8年的迭代发展,NGDC的数据资源不断扩大,服务能力不断增强,成为具有一定国际影响力的数据中心。
2 面向生物多样性的多组学数据资源体系建设
为了满足生物多样性研究与应用的需求,NGDC构建并形成了集数据汇交、数据整合与知识挖掘的一体化多组学数据体系(图1)。表1列出了NGDC构建的部分数据库系统。
图1 面向生物多样性的多组学资源体系
表1 NGDC已构建的部分数据库系统
在生命科学领域,组学原始数据、基因组数据、核酸序列数据、基因组变异数据、转录组数据以及脱氧核糖核酸(DNA)甲基化数据等不同类型的组学数据覆盖分子遗传信息的不同方面,对诠释复杂的生命调控机制具有重要的研究意义。同时,这些组学数据也是重要的遗传资源数字序列,构建标准规范以及安全共享的汇交存储资源管理体系,将加快促进生物多样性的遗传资源保护。为了管理这些重要的生物数据,NGDC规划并构建了GSA Family、GWH、GenBase、GenBase、GVM、GEN、MethBank、OPIA七个基础数据资源库。
2.2 动植物多组学数据系统动植物的多组学数据可以全方位地解析物种多样性的遗传机制,可为进一步培育优良品种提供理论基础。这些多组学大数据资源库通过使用生物信息领域标准化的组学数据分析与注释流程,确保组学分析结果数据与注释数据的可靠性。同时,将不同的组学注释信息进行关联,可以全方面地了解目标基因或表型在基因组、转录组、表观组等层面上的信息,对于进一步的育种等研究领域具有极大的促进作用。
2.2.1 家养动物多组学资源库
(1)家犬多组学数据资源库
(iDog)
NGDC在2019年构建了家犬多组学数据资源库iDog,并在2024年更新到了iDog 2.0,广泛收集家犬相关的基因组,变异、表达、表观以及表型数据,并以基因为中心,关联了不同的组学数据。
iDog收录了2个从头拼接基因组及其注释数据,即豺(Cuon alpinus)和灰狼(Canis lupus)。由于环境不断变化以及多种因素的影响,目前全球野生豺的数量可能不足2500只,中国的豺也濒临绝迹,目前豺是中国的一级保护野生动物,狼是二级保护野生动物。因此,收录和共享豺和灰狼的基因组和注释数据,对于保护分子遗传资源、研究生物多样性,意义重大。
iDog 2.0全面整合分析了犬类的多组学数据资源。iDog 2.0还提供了13种在线分析工具,包括基于检索增强生成的问答工具(DogRAG)和基于图像的品种分类工具(DogVC)等,为犬类研究者提供便利。
(2)绵羊多组学数据资源库
(iSheep)
作为与人类生活接触最近的动物之一,通过分析绵羊的基因变异模式,有助于揭示人类定居和扩张的历史。NGDC在2019年构建并发布了绵羊多组学数据资源库iSheep。iSheep收录了来自355个全基因组测序样本约7037万个SNPs和1231万个InDels,以及2423个芯片的变异信息。此外,iSheep中还提供用于品种变异数据的比较分析的在线工具。
(ChickenSD)
家鸡是一种重要的经济动物,借助组学技术(如基因组学、转录组学、蛋白组学等)可以为家鸡生长发育机制解析、肉蛋品质性状改良和疾病发生机理研究提供重要的技术支撑和研究思路。2018年,NGDC构建了家鸡变异数据资源库ChickenSD。
ChickenSD收录了来自865个家鸡个体的基因组变异位点信息。同时,ChickenSD还整合了从文献中审编得到的1568条基因型−表型关联信息。此外,ChickenSD还提供在线基因组浏览器用于可视化显示变异位点、基因结构以及相关的注释信息。
2.2.2 植物多组学数据资源库
(1)大豆多组学数据资源库
(SoyOmics)
为加速大豆功能研究和分子育种,2023年,NGDC构建了大豆的多组学资源库SoyOmics,整合了多维度的基因组、变异组、转录组、表型组等数据。SoyOmics收录了27个大豆品系的从头组装基因组数据,并进行了系统的基因组注释。此外,SoyOmics还提供了部分种质资源的全基因组甲基化测序数据,以及Soy40K大豆芯片数据。这些多组学数据的整合为大豆功能基因组研究和分子育种提供了重要的数据支撑和分析平台。
(2)热带作物多组学数据资源库
(TCOD)
NGDC在2023年构建了热带作物的多组学资源平台TCOD,整合了基因组、转录组及表型数据,并支持在线分析工具。TCOD整合了15种热带作物的多组学数据资源。此外,TCOD还构建了不同物种基因组间的同源基因关系,支持研究人员基于基因功能、通路注释、基因组变异和基因表达等多维度数据,深入探索不同物种之间共有的生物学特征,促进跨物种研究开展。
(3)高粱变异数据资源库
(SorgSD)
随着高粱参考基因组(BTx623)的不断完善和高通量测序技术的发展,关于高粱驯化过程及其独特表型遗传机制的研究取得了显著进展,并积累了大量的组学数据。NGDC于2016年构建了首个高粱变异数据库SorgSD,并于2021年完成了版本升级。
SorGSD全面整合了大规模基因组变异和表型信息,并集成了数据挖掘、基因组导航及在线分析工具。该资源库为高粱功能基因组学研究、分子育种及种质资源保护提供了重要数据支撑,对推动高粱遗传改良和品种选育具有重要意义。
(4)水稻多组学数据资源库
(IC4R)
近年来,多组学技术的快速发展,为深入解析水稻重要农艺性状的遗传调控机制、种质资源多样性及驯化过程奠定了重要基础。NGDC于2016年构建并发布了水稻的多组学数据资源库IC4R。
IC4R包含的遗传变异信息将有助于水稻种群的遗传多样性评估,了解不同品种或种群之间的遗传变异和亲缘关系,从而为保护具有独特遗传特性的水稻品种和种群提供科学依据。同时,IC4R中包含的转录表达谱信息,可以用于了解水稻的适应性,有助于培育更适应环境变化的水稻品种。
2.3 面向生物多样性应用的知识库体系2.3.1 表型关联知识库
表型是刻画物种遗传性状和环境相互作用结果的重要指标,NGDC通过文献审编的方式,构建了基因型−表型关联知识库GWAS Atlas,转录−表型关联知识库TWAS Atlas,表观−表型的关联知识库EWAS Atlas,形成覆盖较全面的表型关联知识体系。这些知识信息,对于重要性状的遗传研究保护和育种应用以及人类健康和疾病研究具有重要价值。
2.3.2 异常表型相关联的生物标志物知识库
生物标志物(Biomarker)是具有被客观测量并评价等特点的指标,可用于指示生理/病理过程以及治疗干预的药理反应。2023年,NGDC通过文献审编的方式,构建了生物标志物数据库BioKA,不仅扩充了人类生物标志物信息,更填补了已有的生物标志物数据资源在非人动物疾病和分子育种方面的空缺。
BioKA收录涵盖人和30个动物物种,以及16种家养动物的16296个生物标志物,涉及951个疾病/性状,并提供了经过标准化处理的308个品种及其对应生物标志物信息。这些知识信息被用在了癌症能量代谢、山羊奶产量等研究,为人类疾病机制解析、动物疾病研究及分子育种提供了重要数据支持。
2.3.3 跨物种比较的同源基因知识库
同源基因是指来源于共同祖先的基因,常用于研究基因进化过程以及推断基因的潜在功能,在进化基因组研究以及系统生物学的功能研究中具有重要价值。NGDC于2022年整合了多个高质量的同源基因数据集,构建了同源基因数据库HGD,提供一个综合全面且可对数据来源进行溯源的同源基因整合结果。
HGD整合了人、常见动植物以及微生物共37个物种的同源基因以及相应的注释信息。HGD提供的同源基因信息已被用于单细胞转录组下游功能分析的参考数据,在胃部炎症−癌变转化研究、肾脏异种移植等有相应的研究应用。此外,HGD中所包含的丰富的跨物种同源基因信息,可以助力濒危物种的保护。同时,HGD还可以辅助入侵物种的监测和防控。
2.3.4 植物RNA编辑体知识库
核糖核酸(RNA)编辑在植物的生长、开花、细胞器发育和应激反应等过程中发挥重要作用。NGDC通过文献审编结合植物细胞器基因组注释的方法,构建了植物的RNA编辑体知识库PED。该知识库全面整合了RNA编辑因子及相关数据,为研究人员提供植物RNA编辑领域的最新研究资源。PED知识库的建立将为植物遗传资源的精准保护与利用提供重要依据,能够有效支持关键遗传元件的鉴定工作,包括调控植物生长发育和环境适应的功能基因;同时为评估遗传资源对环境压力、病虫害等的适应性提供数据支撑。
3 结论
多组学数据蕴含丰富的分子遗传信息,是解析生物遗传多样性的重要资源。目前,NGDC通过标准化数据汇交、多组学数据整合分析以及文献审编,构建了覆盖基因组、转录组等维度的100多个数据库系统(截至2024年),共享的组学数据总量达59 PB(截至2024年),形成了一体化多组学数据资源体系。这些资源不仅为物种鉴定、濒危物种保护及分子育种等提供了良好的数据基础,也为中国生物数据库的标准化建设提供了数据质量控制、跨库关联分析等关键技术经验。
NGDC在建设过程中坚持自主创新与国际标准协同推进。通过自主研发构建了GSA、GWH等核心资源库,实现数据本地化存储,提升国内科研人员的访问效率。同时,在数据库的建设过程中,积极对接国际标准,如GSA与INSDC的数据交换,确保数据的互操作性和国际认可度。
然而,在多组学资源体系的建设和发展过程中,也有一些需要改进的地方。首先,NGDC数据汇交共享的动力不足。其次,随着人工智能在生物信息领域的应用,对于数据的存储格式、数据质量等都提出了更高的要求,如何紧跟时代步伐,促进已构建的多组学数据体系在AI for Science生命科学领域的应用,是发展过程中需要思考的问题。此外,在组学数据的整合和知识挖掘中,缺少对多组学数据的深层次整合和应用挖掘。
未来,NGDC将会继续扩大宣传力度,研究数据共享应用机制,提高数据汇交共享动力,以及进一步扩充更多的物种和数据资源,提供更加丰富的数据服务,来促进多组学资源体系在生物多样性领域的应用。同时,NGDC还将围绕数据的汇交、整合分析与挖掘应用,研制自动化以及智能化的审编工具,提高数据汇聚效率和数据质量。NGDC还将构建高质量的AI−ready语料数据集,推动该领域的研究和应用。进一步地,NGDC还将开发基于深度学习以及大语言模型的数据分析挖掘方法,提高知识发现和知识库更新的效率以及智能检索工具,实现语义检索功能。此外,NGDC还将考虑与已有的生物多样性平台进行数据整合和共享,构建全面的从宏观的生物多样性动态检测,到微观的生物多样性遗传信息的数据访问通道,这将对中国生物多样性保护具有重要意义。同时,NGDC还将积极跟进我国发布的DSI相关的管理法律法规体系,提供遗传资源数字序列信息的安全共享,在促进生物遗传资源的互惠互利上发挥积极作用。
数据库资源访问链接
本文作者:唐碧霞、王钇博、张思思、张陌尘、康海龙、王彦青、陈梅丽、田东梅、徐添翼、李茹姣、郝丽丽、肖景发、宋述慧、章张、鲍一明、赵文明作者简介:唐碧霞,国家基因组科学数据中心,国家生物信息中心,高级工程师,研究方向为组学大数据整合挖掘与可视化;赵文明(通信作者),国家基因组科学数据中心,国家生物信息中心,中国科学院大学,正高级工程师,研究方向为生物信息大数据与人工智能。
文章来源:唐碧霞, 王钇博, 张思思, 等. 生物多样性保护的多组学数据资源进展——以国家基因组科学数据中心为例[J]. 科技导报, 2025, 43(13): 52−62.