RefSeq注释下载及加工
引
虽然是科班,但是由于不咋用功,对于UCSC的使用也懵懵懂懂……
![手把手RefSeq注释下载及加工](https://www.yanyin.tech/cms/manage/file/47d6947de2384b109bc8ef30050be87b)
这里是最简单的使用
RefSeq基因下载
这个就不赘述了,直接上图
结果太长,看不出啥,看一下表头吧
#binnamechromstrandtxStarttxEndcdsStartcdsEndexonCountexonStartsexonEndsscorename2cdsStartStat cdsEndStatexonFrames
如何获得RefSeq的gtf文件
当然你可以自己编程从上面的文件提取,但似乎还是挺烦,所以UCSC提供了相应的工具genePredToGtf
1. 下载
64位linux系统下载地址:http://hgdownload.soe.ucsc.edu/admin/exe/external.x86_64/
在一大摞工具中选中genePredToGtf
注意:这是一个编译后的可执行文件,没有后缀,如果下载时带有后缀(比如我下载时有.txt)务必去除后缀
2. 安装
刚才已经说了这是一个可执行文件,所以不需要安装,直接使用
./genePredToGtf
或者加入到环境变量中
vim ~/.bashrc
添加
export PATH=$PATH:/你的目录/genePredToGtf
最后
source ~/.bashrc
3. 使用
假如在UCSC下载的文件是 mm10_ref.genePred ,由于该文件有表头#bin ...,所以要先去除,然后遵循使用说明
即
grep -v "#" mm10_ref.genePred > mm10_ref.genePred
cut -f 2- mm10_ref.genePred | genePredToGtf file stdin mm10_ref.gtf
好了,大功告成!
尾
当然,既然有genePredToGtf,当然也有gtfToGenePred。比如你想要把Ensembl的gtf文件转换一下,也是可以的!
点击以下「关键词」,查看往期内容:
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史