在疫情爆发的短短1个月内,我们就将新冠病毒定位到β类冠状病毒,源头是蝙蝠。科学家们是怎么做到的呢?这里就不得不提到一个有力的分析方法——系统发育分析。
医药领域的系统发育分析(Phylogenetic analysis)主要指分子发育分析,通过进化的思想来研究病原、微生物与其宿主的进化关系或类别。而这种进化关系通过系统发育树(Phylogenetic Tree)来呈现。系统发育树又称为系统进化树,是以树枝分枝状的图形来概括物种间的亲缘及进化关系。
主要步骤分为:收集数据、多序列比对、数学建模与分析、检验评估、进化树美化。
// 1. 收集数据
临床科学家已经将病毒DNA序列数据上传到GenBank和GISAID (Global Initiative on Sharing All Influenza Data)开源网站。我们只需注册、登录、下载即可。
来源:https://www.gisaid.org/
// 2. 多序列比对
比较相似性来分析同源性并移除不匹配的序列。
软件 | 优点 | 缺点 |
MEGAX | 最常用的比对建树软件 可视化图形界面 简单方便 | 比对速度慢 输出格式单一 |
Clusterx | 可视化图形界面 可输出多种格式 (如phy) | 比对速度较慢 |
Muscle/phylip | 比对速度快 | 没有可视化界面,需要有一定编程基础去输入代码运用 |
随着SARS-CoV-2的基因不断被上传,数据量增多及医药学对其领域复合型技能人才的要求提高,越来越多的学者选择MUSCLE等软件进行系统发育分析。
// 3.数学建模与分析
基于距离的方法:非加权分组平均法(Unweighted pair group method using arithmetic average,UPGMA)、最小进化法(Minimum evolution,ME)、邻位归并法(Neighbor joining,NJ);
基于特征的方法:最大简约法(Maximum parsimony,MP)、最大似然法(Maximum likelihood,ML);
贝叶斯计算法:随着机器学习(Machine Learning)的发展,非加权分组平均法经历了抛物线式过程,已越来越多被学者们采用。众多数学模型方法,对于寻求近缘关系来讲,最大似然法+Tamura-Nei模型是效果最好也最普适的搭配模型。
// 4.检验评估
完成系统发育分析后,需要对分析的结果进行自我检验,即我们能否找到第一步提供的数据与已有的物种之间具有的高度同源性,从而判定其来源(origin)。类似于统计学中的效应t/z值。系统发育分析中我们用自展值(Bootstrap)来评估结果是否可靠(一般选取500或1000)。严格来讲,我们选择的自展值要使统计学差异显著,即可信度大于95%。但在微生物领域,一般大于50%就认为可信。
// 5.进化树美化
从美学角度对做出来的进化树进行美化。常用图像软件AI、PS或专业软件如上述的MEGAX或者ggtree等。
**系统发育分析不光能对DNA序列进行多序列比对,还能对蛋白(如图所示的Spike蛋白、RdRp等)进行比对。
(来源:https://www.biorxiv.org/)
通过对基因、蛋白序列的比对,短短一周的时间,我们的科学家就能得出此次病毒来源于蝙蝠的结论。复旦大学附属华山医院感染科主任张文宏教授提道,现在我们拥有十分先进的设备和软件,可以快速定位宿主来源,并有针对性得进行传染病的防控。
除了找到病毒宿主、探究病毒传播途径,系统发育分析还可以帮助我们判断病毒在短期内是否有快速变异,为临床医生用药等提供建设性指导。
// 首都医科大学 林发
本文作者独家供稿
相关专题