BLAST的家族有诸多成员,按照比对序列来分,包括最原始的no gapped BLAST(1),到后来支持空位比对的gapped BLAST(2),再到后来旨在搜索远源同源蛋白的位点特异性矩阵PSI-BLAST(2),针对特定模体(motif)的PHI-BLAST(3),以及利用结构域加速搜索的DELTA-BLAST(4)。按照序列来分,包括BLASTN、BLASTP、BLASTX、TBLASTN、TBLAST、TBLASTX,等等等等,总之五花八门。然而不论怎样,这些BLAST都是针对DNA或者蛋白质这些生物序列的。
今天给大家介绍一个BLAST家族中与众不同的成员,专门用来寻找paper里面的homolog——PaperBLAST(5)。
PaperBLAST由来自加州大学伯克利分校的Morgan Price和Adam Arkin共同开发,其目的是:帮助大家找寻你感兴趣的蛋白及其homolog在哪些文献中报道过。
PaperBLAST的使用十分简单:。
1. 登陆其网站:http://papers.genomics.lbl.gov/cgi-bin/litSearch.cgi,
2. 在搜索栏内输入想查询的蛋白。注意,可以输入的形式有:蛋白的序列、蛋白名称、或者其在UniProt/RefSeq/MicrobesOnline里面的ID。蹭一波今年诺贝尔生理学医学奖的热度,我们选摘取PD-1蛋白做例子。如图,在UniProt输入PD-1其中的一个ID(Q15116):
3. 点击Search,
即刻可见结果:PaperBLAST准确地给出了PD-1的全名(如下图)及该条蛋白的来源。
下面跟着的就是提到该蛋白的一众文章了。这也是PaperBLAST一个出色的地方,也就是不单单可以针对该蛋白(ID:Q15116),还可以对其homolog分别给出相关文献:比如下面这一条,来自猴子(NP_001107830):
注意,默认情况下,PaperBLAST只显示部分提到该蛋白的文章列表。如想查询完整list,请在每一个相应ID的文献列表下面点击More:
PaperBLAST的工作原理很简单,就是将前面提到的几个数据库里所收录的蛋白的ID在EuropePMC文献数据库,以及UniProt,BRENDA等十几个蛋白数据库里,进行文本挖掘(text mining),找出文献和基因或蛋白ID之间的对应关系。如果你输入的是一条蛋白序列,那么PaperBLAST会先进行BLASTP搜索,再提取E-value在0.001以下的同源蛋白的ID,与PaperBLAST的数据库里的文章进行匹配。
这里你会问,为何不是PubMed呢?很简单,因为EuropePMC中包含文献的全文。而相反,PubMed数据库中并不收纳文献的全文。如果直接在PubMed中搜索Q15116,除了会被提醒是不是找错了数据库之外,是得不到任何结果的。当然,除非该蛋白的ID就在abstract,或干脆在title里,甚至有位作者所述院校的邮编恰好就是Q15116。
目前,PaperBLAST的数据库内囊括超过38万条蛋白和近100万篇相对应的文献信息,并且会提供经常的更新(上一次更新为九月初)。当然。假如你希望本地化使用其数据库,可以在其网站上下载原始数,以更加随心所欲地对数据进行进一步的挖掘整理。
该数据库也有一定局限,如果相关文章并未被EuropePMC数据库收纳,抑或在文章里没有提及任何ID或者蛋白名,那么目标蛋白很可能在PaperBLAST中逍遥法外了。所以如果找一次搜索没找出结果,绝非意味着该蛋白没有paper报道过。所以最重要还是要在pubmed、谷歌学术等“正规”平台里进行确认。
PS:
上个月我们给大家推送了在线(open access)文献辅助阅读帮手Paper Digest。有不少读者反应访问遇到404。为此,我们向作者进行了咨询。作者表示可能同Paper Digest使用了谷歌搜索有关。因此,希望大家使用时挂上VPN。另据实时数据显示,Paper Digest来自中国的用户已远远地将其他各国抛在了身后。
引文
1.Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic Local Alignment Search Tool. J Mol Biol. 1990;215(3):403-10.
2.Altschul SF, Madden TL, Schaffer AA, Zhang JH, Zhang Z, Miller W, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997;25(17):3389-402.
3.Zhang Z, Schaffer AA, Miller W, Madden TL, Lipman DJ, Koonin EV, et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 1998;26(17):3986-90.
4.Boratyn GM, Schaffer AA, Agarwala R, Altschul SF, Lipman DJ, Madden TL. Domain enhanced lookup time accelerated BLAST. Biol Direct. 2012;7.
5.Price MN, Arkin AP. PaperBLAST: Text Mining Papers for Information about Homologs. Msystems. 2017;2(4).
欢迎关注
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史