为什么需要探针重注释
有的同学可能认为easyGEO能解决所有预处理的问题了,直到遇到了一些平台根本就没有提供探针与基因的对应关系。以数据GSE156144为例:
GPL16956平台注释文件
可以发现,平台的注释文件没有提供探针与基因的对应关系,但是提供了探针的序列。这种情况就需要根据探针序列把探针转换为基因,这个过程就是我们常说的探针重注释了。

重注释的思路
有了探针的序列,我们可以使用序列比对软件(例如BLAST)将探针序列与基因序列进行比对,即可得到探针对应的基因。具体思路可以这样:
1. 去GENCODE下载对应物种、对应版本的基因序列
2. 运行makeblastdb建立BLAST索引
3. 从探针注释文件中得到探针的FASTA序列文件
4. 运行blastn得到探针与基因的比对结果
5. 处理比对结果(根据阈值过滤,抽取)得到探针与基因的对应关系
得到探针与基因的对应关系即可使用标准的预处理流程得到基因表达谱了。
如何一键重注释+预处理
上述思路至少要求有两个能力:
1. 运行命令行软件的能力
2. 编程能力
这里介绍一个通过点点点就可以完成的方法:easyGEO(easygeo.cn)。
1. 搜索GSE156144
搜索GSE156144
2. 进入到详情页面
GSE156144详情页面
点击数据预处理按钮进入到数据预处理页面
预处理页面
(1) 是否重注释,代表预处理前需要执行重注释步骤,本例中需要选择是
(2) 探针合并方法,即当多个探针对应同一个基因时,探针的合并方法,本例中选择中位数
(3) 探针序列所在列,即上文中提及的哪一列是探针的序列,本例中为SEQUENCE
(4) 参考基因组,即上文中提及的对应的基因组版本,本例中选择CRCh38
点击开始预处理按钮即可一键执行重注释+预处理的步骤,是不是很简单呢!