为什么需要预处理
GEO平台上的数据主要可以分为两大类:
传统的microarray数据

近几年比较流行的高通量测序数据
对于microarray数据,官网上一般给出的是探针的表达值。而我们执行分析时一般需要使用基因的表达值。这就涉及到一个把探针转换为基因的问题,这个过程就是我们平时所说的预处理了。
预处理的思路
预处理的逻辑也非常简单:
找到探针与基因的对应关系
根据对应关系把探针转换为基因
如何找到探针与基因的对应关系
根据GEO官方给出的平台注释文件很容易得到探针与基因的对应关系。以数据GSE42568为例:
从详情页面可得,该数据所使用的平台为GPL570,打开该平台的详情页面:
可得,注释文件的Gene Symbol列为探针与基因的对应关系。
转换时的注意事项
转换时有两点需要注意:
可能会出现多个探针对应同一个基因的情况,这种情况一般取各个探针表达的中位数作为基因的表达。当然,视情况也可以取最大值、最小值、均值等。
可能会出现一个探针对应对多个基因,例如,DDR1 /// MIR4640,这种情况一般是探针设计在两个基因的重叠位置,一般取个基因即可。考虑得更细致些,这其中还涉及了编码基因和非编码基因的选择。
如何一键预处理
看了上面的思路,有的同学觉得可能直接使用Excel处理有点难度,需要写代码处理。这里介绍一个不需要代码的一键处理方法:easyGEO(easygeo.cn)。
搜索GSE42568
进入数据详情页面
点击数据预处理进入数据预处理页面
这里有两个参数需要注意:
(1) 基因名称所在列,即上文所说探针与基因对应关系的列,本例中为Gene Symbol
(2) 探针合并方法,即上文所说多个探针对应同一个基因时采取的合并方法,本例中选择中位数
点击开始预处理按钮即可,是不是很简单呢!
网址:文章 - (biosxr.cn)