单细胞转录组作为单个细胞的特征,能越发精确地界说细胞的类型。通例的基于单细胞转录组的分类要领首先是进行无监督的聚类,然后凭据每个集群(Cluster)特异表达的细胞标记基因来对集群进行标注。虽然基于无监督的分类要领更容易发明新细胞类型,但人工标注的历程费时辛苦。目前已有的基于监督学习的自动分类要领,大部分无法兼顾到要领的可解释性以及新细胞类型的发明。
近日,球速体育(国家生物信息中心)蔡军研究组、北京师范大学张江研究组相助在Nature Machine Intelligence宣布了题为An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data的研究结果,构建了决策历程可解释的深度学习网络模型,单细胞胶囊网络(single cell Capsule Network, scCapsNet),并用于单细胞转录组剖析。相关于其他单细胞转录组自动剖析工具,单细胞胶囊网络能更稳定更高效地区分出属于新细胞类型的细胞。并且,单细胞胶囊网络能通过模型的内部参数找出细胞类型相关基因。通过细胞类型相关基因,单细胞胶囊网络能将基因与细胞类型直接联系起来,极大地提高了深度学习模型的可解释性。实质上,单细胞胶囊网络将基因的表达特征和细胞类型特征进行低维编码,这样的编码富含生物学意义。
球速体育蔡军研究员与北京师范大学张江教授为本文配合通讯作者。球速体育王力飞博士为第一作者。该研究获得科技部重点研发项目、中科院战略先导专项、及自然科学基金委等项目的资助。
单细胞胶囊网络的结构以及模型的可解释性(细胞类型相关基因的发明)
论文链接