有没有一种方法可以由本地化blast数据库里直接提取fasta格式的序列呢?答案就是blastdbcmd,一个blast+里的工具。最近,NCBI通过社交平台介绍了这一操作。
该操作十分简单,只需要几个参数。比如,你想提取NR蛋白质数据库中的下面这条序列。它的GI号是7717464,于是我们将GI号做为entry。
那么只需要输入:
blastdbcmd -db nr -entry 7717464
屏幕上就会出现:
当然,选择accession号AAB319772也可以。
如果你想截取前200个氨基酸,则在上面的命令里加上-range 1-200即可。
其它的一些常用参数包括:
-out:指定输出文件
-outfmt:输出格式
-line_length:输出中每行包括的氨基酸数目(默认为80)
-get_dups:数据库里duplicate的序列都输出
-entry_batch:把序列放在一个文件里批量查找
关于blastdbcmd,去年九月南京农业大学细胞所微信公众号上刊发有一篇很好的介绍文章,感兴趣的读者可以在下方链接找到原文。
引文
1. 张旭,Windows系统下目标区段的序列提取,2018
更多生信分析套路,请加微信13621202201
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史