ClinPred: Prediction Tool to Identify Disease-Relevant Nonsynonymous Single-Nucleotide Variants
ClinPred是2018年发表于The American Journal of Human Genetics的新工具,主要侧重于对非同义单碱基突变的危害性进行预测。下面我们分两部分对该工具进行介绍:1)工具开发;2)工具使用。
![ClinPred一种新的非同义突变危害性预测软件](https://www.yanyin.tech/cms/manage/file/a1c310968be7482d9fb60975f7e81c60)
1)工具开发
ClinPred是整合random forest (cforest)和 gradient boosted decision tree (xgboost) models 机器学习算法的分类器。其训练的数据集来自于ClinVar数据库,作者只选取高置信的变异位点,且为2013年1月之后收录的并剔除掉PolyPhen-2和CADD中已经使用的数据。最终,保留了11,082 variants,其中7059为中性,4023为有害。
作者使用ANNOVAR对训练集的位点进行注释,得到的特征包括:SIFT, PolyPhen-2 HDIV, PolyPhen-2 HVAR, LRT, MutationAssessor, PROVEAN, CADD, GERP, DANN, PhastCons, fitCons, PhyloP和SiPhy等16个工具的评分,同时从gnomAD database提取位点的种群Allele frequencies (AFs),包括African/African American (AFR), Latino/Admixed American (AMR),
Ashkenazi Jewish (ASJ), East Asian (EAS), Finnish (FIN), NonFinnish European (NFE), South Asian (SAS), other (OTH)。随后采用这些特征进行训练。对于训练好的数据作者使用了9种数据集进行评估和比较。结果表明ClinPred比其他工具效果要好,表现为:1)最高的Area Under the Curve (AUC) score,高的敏感度和特异性;2)对不同的疾病类型(罕见病或者肿瘤)和机制(gain or loss of function)均有较好的稳健性。
2)工具使用
该工具的使用十分简单。作者将所有可能的突变的均进行了预测,并将结果保存在网站:http://hubs.hpc.mcgill.ca/~alirezai/ClinPred ,大家可以自由下载直接使用,实际上作者也没有提供可以使用的工具形式。其数据格式如下图:染色体-位置-Refrence-Alt-Score 共5列信息,其中最后一列信息即是ClinPred的预测危害性分值。其中,是否致病以0.5为界,高于0.5表示致病,低于为中性。分值越高表明致病性越强。
总之,在WES分析中,ClinPred可以整合于流程之中,进行实际的项目分析!
参考文献:Alirezaie N, Kernohan K D, Hartley T, et al. ClinPred: Prediction Tool to Identify Disease-Relevant Nonsynonymous Single-Nucleotide Variants[J]. The American Journal of Human Genetics, 2018, 103(4): 474-483.
更多套路分析请联系:13120220117(同微信号)