用过GEO数据的注意啦,你的数据可能是错的!

admin 26 2025-04-03 10:25:08 编辑

几个月前,我开发了一个GEO一站式分析平台。当时就有用户反馈,他们在做数据预处理时,出现了一个叫9-Mar的基因,用户觉得可能是我的程序出了问题。

我当时吓了一大跳,这个看着像是一个用Excel做表格处理时候一个常见的错误,Excel把表格里面的某些内容当做日期,然后做了转换。但是我转念一想,我处理的时候都是程序处理,根本就没用Excel啊,程序怎么能出这么大的bug呢?

是不是本身就有一个基因叫9-Mar呢?我把平台的注释文件下下来,grep一下:

看到这儿,我笑了。于是十分理直气壮地回复用户:“本身就有一个基因叫9-Mar,程序完全没问题,放心使用吧。”

几个月过去了,有一天我的领导气冲冲的来找我:“你搞的这个easyGEO有个大bug,竟然有9-Mar这样的基因,这明显不对呀。”

听领导这么说我笑了,原来你水平不过如此。“有个基因就叫9-Mar,不信我查给你看。”于是我就一顿操作,果然又在注释文件里面找到了9-Mar。

“不对,肯定不对。”,领导坚定地说。“你把这个探针的序列BLAST一下我看看。”

这个基因果然不是9-Mar,而是MARCHF9(曾用名:MARCH9)。

这下我彻底服了,看来这次错误应该是用户在提交该平台注释文件的时候出的问题。也就是说GEO官网上面提供的注释文件就存在这个问题。

看来以后在做GEO数据预处理时,应该是探针重注释为优先才对啊!

上一篇: 基因设计工具的十大推荐,让你的科研事半功倍
下一篇: 在线基因预测工具介绍-genewise
相关文章