比较基因组学是从进化角度剖析差别物种的基因组数据,解析基因功效和疾病、表型的遗传学机制。通过同源基因编码区序列的进化比较是其中最常见的剖析要领之一,如PAML等要领,都在物种序列比较剖析中被广泛应用。但这些要领仅剖析多个物种的简单序列和不同位点信息。随着二代、三代测序技术的生长,众多物种的基因组测序都已完成,越来越多的物种都在种内水平有了多个样本的群体基因组数据。如果能将多物种群体水平的遗传多态和物种水平的进化相结合进行剖析,将有助于解析物种(尤其是近缘种)爆发历程中适应性进化和特有表型形成的机制。迄今为止,尚且缺乏此类要领。
中科院北京基因组所陈华研究组与昆明动物所相助,首次开发了能够同时剖析多个物种的群体基因组数据的要领HDMKPRF。该要领以Hartl、Bustamante等的泊松随机场模型和McDonald-Kreitman检验为框架,通过多个物种的联合等位基因频谱理论构建群体遗传学模型,有效整合了微进化历程与宏观进化。与现有剖析要领比较,该要领接纳贝叶斯要领,很洪流平提高了对自然选择基因的检测功效;通过多个物种的群体基因组比较剖析,能够有效把自然选择爆发时间定位在多物种进化树的具体某个阶段(分支)上。该要领还提供了对各个物种的群体巨细、物种剖析时间以及自然选择强度等参数的后验概率漫衍。
利用该要领,研究人员对现代人、黑猩猩、大猩猩和猩猩四个灵长类物种基因组数据做了剖析,在各个物种中鉴定了受到自然选择而快速进化的基因。发明在人的特异性进化中,有84个与表达调控相关的基因受到正选择,广泛漫衍在锌指卵白基因家族、小RNA调理通路、TP调控、组卵白修饰基因等差别类型中,印证了进化学家Allan Wilson和Mary-Claire King在1975年提出的看法,即基因调控是人与黑猩猩在99%基因组序列相似基础上表型高度差别的主要因素之一;发明与免疫、代谢等相关的通路受到了正选择。别的,有大宗的现代人与其他大猿不同的基因富集在精神破裂症、神经系统疾病相关的通路上,部分快速进化基因集中在精子生成、生殖相关通路上。该剖析提供了灵长类四类大猿基因进化在时间轴和基因组上的自然选择图谱,为后续的进一步功效解析研究提供了基础。
该研究于3月6日在线宣布在进化生物学期刊《分子生物学与进化》上。研究获得了国家自然科学基金委重大研究计划“微进化历程的多基因作用机制”、中科院院先导专项“动物庞大性状的进化解析与调控”等项目支持。
HDMKPRF要领的模型和和参数示意图
应用电脑仿真对HDMKPRF在检测功效、对不同时间、选择强度等参数推断上进行性能检验
论文链接