北京基因组所(国家生物信息中心)相助开发单细胞转录组数据仿真软件SimCH
近十多年来,单细胞RNA测序技术(scRNA-seq)不绝生长和普及,同时数以千计的生物信息学/盘算生物学工具被开发出来,以解决诸如数据获�。ò炕⒈榷浴⑵唇拥龋⑹萸逑矗òㄖ士亍⒐恕⒐橐换⒄系龋⑾赴峙桑òň劾唷⑴判颉⒎掷嗟龋⒒蚴侗穑òɑ蛲纭⒉畋鸨泶铩⒈昙腔虻龋┑�scRNA-seq数据处理和剖析办法。尽管其中大部分软件经过同行评议且在其论文中也彰显了优点,但它们自己的比较可能保存偏好(bias),其可靠性尚未获得系统性检测(benchmark)。
近年来泛起了一些划分针对差别表达、聚类、插补、轨迹推断、基因调控网络推断平剖析的第三方系统性检测,通常使用大宗的实验数据和仿真数据作为基准参考,来评估多个同类型要领在各项指标上的性能优劣。虽然实验数据因其真实性较好,通常作为工具评估的“金标准”,但实验数据的获取和适合性也保存问题。相比较而言,仿真数据具有能快速爆发、经济、扩展性好等优点,可以作为工具评估的“银标准”。近日,中科院北京基因组所(国家生物信息中心)张治华研究团队与扬州大学孙磊副教授联合在生物信息学著名期刊Briefings in Bioinformatics宣布了题为SimCH: simulation of single cell RNA sequencing data by modeling cellular heterogeneity at gene expression level的研究型论文,推出了一款用于爆发scRNA-seq仿真数据的软件--SimCH。SimCH是一种半参数化(semi-parametric)的生成模型,它基于实验数据预计统计学模型参数,并提供应用户修改参数(如细胞数量、基因数量、测序深度、是否零膨胀)的接口,主要模式有SimCH-flex、SimCH-fit、SimCH-copula及扩展模式SimCH-ext。SimCH能通过高斯Copula模型在仿真数据中保存实验数据的基因共表达信息。通过配置合适的参数,SimCH爆发的仿真数据能够很好地拟条约质性/异质性+UMI/非UMI技术的scRNA-seq实验数据。实验结果标明SimCH的整体性能优于现流行的仿真工具Splat和2021年推出的仿真工具scDesign2。
SimCH可应用于评估诸如细胞聚类、差别表达剖析、轨迹推断、插补等差别类型的盘算要领性能。研究人员还发明,基因共表达信息与数据样本的异质性密切相关。SimCH能够有力支持scRNA-seq盘算要领的系统性检测,助力单细胞组学研究。
孙磊副教授为本文第一作者,孙磊和张治华研究员为配合通讯作者,硕士研究生王公铭加入了软件开发。项目获得国家自然科学基金的资助。
论文链接
SIMCH运行框架图