本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。
一、构建进化树的基本步骤
1、多序列比对. Muscle program.
2、Model 选择. 分别针对蛋白序列和核酸序列的模型选择程序。ProtTest program for protein and ModelTest or Jmodetlest for DNA.
3、算法选择。三种. NJ, ML and BI.
4、软件选择。 MEGA (bootstrap least 1000 replicates), phyML and Mrbayes .
5、进化树修饰. MEGA: view->options and subtree-> draw options. Also can be decorated in word
二、具体步骤
2.1 多序列比对。一般采用muscle。因为 MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that are consistently better than CLUSTALW.
2.2 模型选择。
对于用蛋白序列构建进化树的可以采用下面命令:
java -Xmx250m -classpath path/ProtTest.jar prottest.ProtTest -i alignmfile.phy.
运行结果如下图
注意:
1)“.Phy” format. Only allow ten charaters.注意名字不能重复相同。
2)AIC: Akaike Information Criterion framework.
3)Gamma distribution parameter (G): gamma shape.
3)proportion of invariable sites: I.
2.3 构建进化树
2.3.1 意义:
a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为 MEKK, Raf and ZIK三个亚家族.
b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近
c 基因家族复制分析。研究基因家族复制事件(duplication events),两种复制事件类型常采用的标准:
Tandem duplication: Identity and cover region more than 70% and tightly linked .
Chromosomal segment duplication: Plant Genome Duplication Database (PGDD: http://chibba.agtec.uga.edu/duplication/)
2.3.2 进化树。
一般ML树比较准确,但应结合方法,如NJ树,相互验证。
2.3.3 进化部分分析:KaKs计算
2.3.3.1 简单的方法. 可以使用下面的网页PAL2NAL
2.3.3.2 标准方法:.
a. ParaAT: ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc –f axt –k -o output
b. KaKs_Calculator –m NG(or else) -i test.axt -o test.axt.kaks
c.分歧时间计算:Divergenttime(T) calculation.
T=Ks/2λ. λ : mean 5.1-7.1×10-9 .
d. Ka/Ks意义:
Ka/Ks=1.中性进化。.
Ka/Ks<1.纯化选择。For genes that are subject to functional constraint suchthat non-synonymous amino acid substitutions are deleterious and purged fromthe population.
Ka/Ks>1.正选择。Positively selected genes and produce fitness advantagemutations to evolve new functions.
明天继续,关注公众号输入“基因家族”可以看往期