国家生物信息中心宣布基因序列数据库GenBase
基因的序列和注释信息(包括DNA、RNA和卵白序列信息)是支撑基因功效研究的焦点基础数据之一。陪同生物学的迅猛生长,在已往几十年中,我国生命科学领域产出了海量的基因序列数据。为满足我国科研人员在基因序列数据汇交、治理和共享历程中的现实需求,急需开发相应的基因序列数据库。
近日,国家生物信息中心宣布基因序列数据库GenBase,并以“GenBase: A Nucleotide Sequence Database”为题在学术期刊Genomics Proteomics Bioinformatics?在线宣布。
GenBase对标美国国家生物信息中心NCBI的GenBank数据库,是一个存储、治理、共享所有物种基因序列、注释信息及其编码卵白质序列的公共资源库,可为基因序列数据的汇交、存储、宣布和共享提供一系列Web效劳�;贕enBase的提交系统,用户可凭据详细的操作提示,按办法提交包括提交者信息、参考文献、核苷酸序列、数据来源、数据特征等在内的重要的实体和元数据信息。GenBase严格把控数据质量,包管基因序列数据的准确性、完整性和可用性。GenBase系统遵循国际核酸序列共享联盟(International Nucleotide Sequence Database Collaboration,INSDC)的相关标准,立足中国,效劳全球,可接收来自全球科研人员的数据提交。截止到2024年8月1日,GenBase共接收了来自197个单位、309个用户、2,650个批次的81,929条核酸序列及832,740条卵白序列。其中,76,340 条核酸序列(93%) 与723,863 注释的卵白序列(87%) 已释放,支撑了51篇论文的宣布。特别地,GenBase接收了63,006条新冠病毒序列,其中的 59,913条已释放。同时,为包管全球基因序列数据的外地化治理,GenBase还整合了INSDC宣布的约5.8亿条核酸和卵白序列,提高海内科研人员盘问和获取数据的效率。
国家生物信息中心卜琮凡、郑欣畅、赵学彤、徐添翼、白雪为该文配合第一作者,唐碧霞高级工程师和鲍一明研究员为该文配合通讯作者。本事情获得了球速体育战略性先导专项、国家重点研发计划、“一带一路”国际科学组织联盟国际专题网络、球速体育国际相助项目“国际基因组学数据共享体系研发”和国际生物多样性与健康大数据共享计划的项目支持。
论文链接
GenBase整体架构