近日,由球速体育(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库LncExpDB正式上线。该研究结果以“LncExpDB: an expression database of human long non-coding RNAs”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线宣布。
LncRNA通过庞大多样的分子机制发挥重要调控功效,在多个生物学历程以及疾病爆发生长中均发挥重要作用。目前,人类基因组中已鉴定出十万多个lncRNA基因,但有功效研究的仅有数千条,因此全面注释lncRNA功效是人类基因组研究的重要内容和巨大挑战。近年来,高通量测序技术的迅速生长增进了正常组织、疾病、胚胎发育、器官剖析、病毒侵染、亚细胞区室等多种生物学场景的研究,积累了富厚的组学数据,尤其是转录组测序数据,为从多角度发明和研究lncRNA的生物学功效提供了重要的数据基础与研究思路。
LncExpDB数据库致力于提供多生物学场景的lncRNA表达谱,鉴定具有潜在功效的lncRNA,增进lncRNA的功效实验研究。在LncBook数据库构建的人类lncRNA数据集基础上,研究人员整合CHESS、RefLnc、FANTOM等10余个专业数据库鉴定的lncRNA,基于严格审编标准,获得全面的高质量人类lncRNA参考数据集,包括101,293个基因/33,1244个转录本。LncExpDB数据库进一步整合9种重要生物学场景(正常组织/细胞系、器官发育、植入前胚胎发育、细胞剖析、亚细胞定位、外泌体、癌症细胞系、病毒侵染、昼夜节律)的1,977个样本的转录组数据,通过标准化的转录组数据剖析流程,系统剖析并鉴定每种生物学场景的特征基因(管家基因/组织特异性基因、差别表达基因、节律基因、动态表达基因、亚细胞区室富集基因)荟萃,共计25,191个特征lncRNA基因和28,443,865对相关的lncRNA-mRNA共表达关系。别的,LncExpDB鉴定了具有表达证据支持的92,016个lncRNA基因,评估了lncRNA的表达水平与表达潜力。
LncExpDB数据库具备友好的检索、浏览与可视化功效,便当用户通过差别基因/转录本ID、基因symbol进行检索和浏览,探索特定生物学场景下特征基因与共表达关系,全面比较lncRNA在差别生物学场景中的功效差别,提供FTP下载所有相关注释信息与剖析结果的开放共享功效,为非编码RNA功效研究提供了重要数据基础和共享平台。
北京基因组所(国家生物信息中心)硕士研究生李昭和博士研究生刘琳为本文配合第一作者,马利娜副研究员与章张研究员为配合通讯作者。该研究获得了中科院战略性先导科技专项、国家重点研发计划、中科院青促会等项目资助。
LncExpDB数据审编与剖析流程
文章链接