手把手RefSeq注释下载及加工

admin 3 2025-02-08 编辑

RefSeq注释下载及加工

虽然是科班,但是由于不咋用功,对于UCSC的使用也懵懵懂懂……

这里是最简单的使用

RefSeq基因下载

这个就不赘述了,直接上图

结果太长,看不出啥,看一下表头吧

#binnamechromstrandtxStarttxEndcdsStartcdsEndexonCountexonStartsexonEndsscorename2cdsStartStat cdsEndStatexonFrames

如何获得RefSeq的gtf文件

当然你可以自己编程从上面的文件提取,但似乎还是挺烦,所以UCSC提供了相应的工具genePredToGtf

1. 下载

64位linux系统下载地址:http://hgdownload.soe.ucsc.edu/admin/exe/external.x86_64/

在一大摞工具中选中genePredToGtf

注意:这是一个编译后的可执行文件,没有后缀,如果下载时带有后缀(比如我下载时有.txt)务必去除后缀

2. 安装

刚才已经说了这是一个可执行文件,所以不需要安装,直接使用

./genePredToGtf

或者加入到环境变量中

vim ~/.bashrc

添加

export PATH=$PATH:/你的目录/genePredToGtf

最后

source ~/.bashrc

3. 使用

假如在UCSC下载的文件是 mm10_ref.genePred ,由于该文件有表头#bin ...,所以要先去除,然后遵循使用说明

grep -v "#" mm10_ref.genePred > mm10_ref.genePred

cut -f 2- mm10_ref.genePred | genePredToGtf file stdin mm10_ref.gtf

好了,大功告成!

当然,既然有genePredToGtf,当然也有gtfToGenePred。比如你想要把Ensembl的gtf文件转换一下,也是可以的!

点击以下「关键词」,查看往期内容:

TCGA | 小工具 | 数据库 |组装| 注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci | NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史

手把手RefSeq注释下载及加工

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
相关文章