2、遗传距离的计算
点击Mega操作主界面的“Distances”按钮,会弹出一个下拉菜单。如下图所示:
从上图易知,此菜单包括如下选项:“Choose Model”(选择模型,即选择计算遗传距离的模型)、“Compute Pairwise”(计算遗传配对差异)、“Compute Overall Mean”(计算包括所有样本在内的平均遗传距离)、“Compute With Group Means”(计算组内平均遗传距离)、“Compute Between Groups Means”(计算组间平均遗传距离)、“Compute Net Between Groups Means”(计算组间平均净遗传距离)、“Compute Sequence Diversity”(计算序列分歧度)。
“Compute Sequence Diversity”选项包括四个子菜单:“Mean Diversity Within Subpopulations”(亚群体内部平均序列多态性)、“Mean Diversity for Entire Population”(整个人群平均序列多态性)、“Mean Interpopulaional Diversity”(群体内部平均序列多态性)、“Coefficient of Differentiation”(遗传变异系数)。
点击“Choose Model”选项,会弹出如下操作界面:
从上述操作界面可以看出,通过此对话框可以选择计算遗传距离的模型等。
“Data Type”显示数据的类型:Nucleotide(Coding)(编码蛋白质的DNA序列)、Nucleotide(不编码蛋白质的DNA序列)、Amino Acid(氨基酸序列)。
通过“Model”选项可以选择,计算遗传距离的距离模型。点击“Model”一行末端的按钮会弹出一选择栏。
如上图所示,对于非编码的核苷酸序列Mega程序提供了八种距离模型:“Number of Difference”(核苷酸差异数)、“P-distance”(P距离模型)、“Jukes-Cantor”(Jukes和Cantor距离模型)、“Kimura 2-Parameter”(Kimura双参数模型)、“Tajima-Nei”(Tajima和Nei距离模型)、“Tamura 3-parameter”(Tamura 三参数模型)、“Tamura-Nei”(Tamura和Nei距离模型)、“LogDet(Tamura kumar)”(对数行列式距离模型)。
对于编码的核苷酸序列,其遗传距离模型如下图所示:
如上图所示,对于编码蛋白质的DNA序列,Mega程序提供了一下几种模型:“Nei-Gojobori Method”,“Modified Nei-Gojobori Methoed”、“Li-Wu-Luo Method”、“Pamilo-Bianchi-Li Method”、“Kumar Method”。其中Nei-Gojobori方法和修正的Nei-Gojobori方法都包含三种距离模型:“Number of Differences”、“P-distance”、“Jukes-Cantor”。对于氨基酸序列,Mega所提供的遗传距离模型如下图所示:
如上图所示,对于氨基酸序列,Mega程序提供了一下六种遗传距离模型:“Number of Differences”(氨基酸差异数)、“P-distance”(P距离模型)、“Poisson Correction”(泊松校正距离模型)、“Equal Input”(等量输入距离模型)、“PAM Matrix(Dayhoff)”(PAM距离矩阵模型)、“JTT Matrix(Jones-Taylor-Thornton)”(JTT距离矩阵模型)。
在“Analysis Preference”操作界面中,“Pattern Among Lineages”仅提供了一个选项:“Same”“,也就是说样本之间是有一定同源性的。“Rates among sites”提供了两个选项:“Uniform Rates”和“Different(Gamma Distributed)”。“Uniform Rates”意味着所有序列的所有位点的进化速率是相同的。选择“Different(Gamma Distributed)”,意味着序列位点之间的进化速率是不相同的,可以利用Gamma参数来校正,系统提供了四个数值可供选择:2.0、1.0、0.5、0.25;软件使用者也可以自行决定Gamma参数的大小。设置完毕后,在此界面中点击“OK”按钮,即可返回Mega操作主界面。
选择主操作界面“Distance”中的“Compute Pairwise”选项,可以计算样本之间的遗传距离的大小,其操作界面如下图所示:
“Data Type”显示数据的类型,图中为“Nucleotide”。
“Analysis”显示计算分分析的类型,图中为“Pairwise Distance Calculation”(配对差异距离计算)。
“Compute”显示所要运行的对象,又两个选项:“Distance only”(仅计算遗传距离)和“Distance&Std.Err”(计算遗传距离和其标准误)。
“Include Sites”显示利用哪些位点来计算,如果数据类型是不编码蛋白质的核苷酸序列,则全部参与计算,如果是编码蛋白质的核苷酸序列,则可以选择哪些位点(如密码子的第2位等)来参与运算。
“Substitution Model”是替代的模型 ,在下边“Model”中可以进行选择。
“Substitutions to Inclued”选择哪些替代类型(如下图所示)被用于运算,d选项将转换和颠换全部包括在内,s选项仅包括转换,v选项仅包括颠换,R为转换和颠换的比值,L为所有有效的普通位点的个数。
“Pattern among Lineages”和“Rates among sites”上文已有介绍,不再详述。
未完待续