生物信息学,简称生信,这位久仰大名的“朋友”相信每一位奋战在生命科学或医学科研领域的同学们都不陌生,或许你是生信行家(投去崇拜的目光~);或许你同我一样在慢慢走近它,开始了解它(同道中人,握握手~);或许你对生信是雾里看花,水中望月,有需求但不知从哪里下手的小白(说不定我可以帮到你~)。我今天结合个人科研经历和大家分享一下我是怎样熟悉这位“朋友”,以及它是怎样帮助我的,希望能够对你有一点启发,少走弯路就是加快科研进度,对吧~
1,概念
我们先了解一下到底什么是生信,生物信息学是一门利用计算机技术研究生物系统规律的学科,是分子生物学与信息技术的结合体。生物信息学的研究材料和结果就是形式各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选),处理(编辑、整理、管理和显示)及利用(计算、模拟)。
2,缘由
就我自己的经历来讲,从硕博到科研岗位工作整整8年的时间里,眼看着生信迅猛发展,刚开始的时候总觉得与自己关系不大,认为术业有专攻,我与生信的关系是不同学科间科研方法和关注方向不同而已,这一观念在我自己做多组学联合分析时,被狠狠击碎。我至今都记得面对大量数据无从下手的茫然无措,那时生信于我,是云里雾里的一座高山,近在咫尺却找不到攀登的路,对于自己认知里组学做完就发文章万事大吉的想法至今都觉得无地自容。我曾跟同事提起过我的困惑,得到的答案是“公司不是会反馈结果的么?”但相信有过类似经历的同学们会知道,检测公司反馈给我们的初步分析其实远远不够我们发文章所用,技术支持提供的数据是程序式,模板式,而非个性化的。而且我们应该对自己手里的数据有整体的把握和了解,说到底,数据是要深度挖掘分析的,没有人比你更了解你自己的课题细节,由此我开始尝试走近生信。
3,需求
生信是一片新的天地,要在自己原有的知识范围以外开疆拓土,首要任务是要知道自己该从哪里做起,我总结了以下几点我对生信需求:
(1)分析:原始数据和标准化数据,以及后续数据的进一步处理,数据经历了哪些运算,使用什么算法,是否是合理可行,自己完全没头绪。
(2)绘图:目前有很多数据分析平台为迎合使用者的需求,有现成的小程序可分析作图,简便快捷,但仅适用于比较简单的分析,如韦恩图,热图,主成分分析等基础分析,我最初的分析作图多数得益于这些平台工具,但有时图片清晰度受限。
(3)思路:生信不仅仅是统计数据和作图那么简单,思路是灵魂,记得我向同学求助过,他很认真帮我将差异基因整理出来发给我,然后一个问题抛回来,我就又摔了跟头,他说“接下来怎么做就看你想要什么了”原谅我又是一脸懵...好吧,我接着查找文献学习思路,结论是:要学的东西真是太多了...
4,经验
在经历了阅读文献,尝试现有平台,请教专业人士以及多次试错之后,总结经验如下:
(1)阅读文献:
在实验实施初期要大量阅读相关文献,开始学习思路设计,数据整理以及分析方法,因为后续数据整理分析过程需要投入大量的时间和精力,而在实验之初多储备相关知识,利于规划整个课题的架构(体量,深度,关注点),以及把控实验细节(对照,分组,样本量),做到心中有数,有的放矢,文章逻辑就随之而来了。希望你在收到实验数据那一刻起,内心是兴奋又从容的。
(2)准备充分:
①如果你是在读硕博,导师交给你的其他工作任务没有特别繁重,希望你尝试学习R语言和python,从入门开始,然后进阶完成一些数据处理和作图(RNA-seq的表达矩阵、WES的变异结果等),当通过自己努力获得的那份踏踏实实的成就感时,你会发现生信这座大山不再飘渺,你已站在半山腰。当然,学习期间的困难一定不比成就感少,建议多查资料,甚至你可以搜到现成的R包。多请教,你的困惑可能是在专业人士指导下转换下思路、算法,或是修改一个词,一个符号,但对于你必定是受益良多。
②如果你是专职科研人员或在现阶段做科研的临床医生,刚刚涉足组学研究,时间精力都有限的情况下,可以通读典型文献,初期以了解组学知识和研究思路为基础,弄清楚公司给的检测报告,以及用到分析方法的解释说明,这也是很好的学习资料(最好在样本送出前或付款前详细咨询)。做好这些准备,在后续数据分析以及与分析人员沟通需求的时候,会非常有效率。
(3)巧用工具:
①数据库:熟悉并巧用公共数据库(TCGA和GEO等),以我自己的课题为例,在分析了蛋白质组学和代谢组学数据后,需要建立蛋白质和代谢产物之间的调控关系,可以借助PMI-DB网站进行查询预测。为找到更多的证据支持我现有的结论,我通过下载已发表文章中的单细胞测序公开数据进行分析(实验处理方法相似),经分析后弥补了自己多组学分析在基因水平的空白,实验数据更为丰满。
②分析平台:现有很多方便好用的平台可以帮助你完成数据分析和制图,满足基本需求完全没有问题,一些检测公司会帮助你开通账号(如BMKCloud)。更完备一些的工具可能会需要你下载程序,学习简单的教程,可直接链接公共数据库,分析和制图也更加严谨和美观(如TB tools)。总之,在我们不会使用R语言和python的情况下,多了解现成的工具不失为一种捷径,但最好能够做到知其然,知其所以然,因为模式化分析算法,并不是对所有数据都适合,还是要充分了解自己的数据特征,需求和分析要点。工具是服务于我们结论表述和研究意图的,不要只做工具的盲目使用者,若数据分析有误,会直接影响到整个课题的后续研究。
(4)借助外力:
生信入门简单,掌握不易,做好很难。如果你完全没有时间去探索以上的学习内容,但能基本掌握组学研究思路,了解数据处理和作图原理,具备清晰表达需求的能力,也可以交给专业员去做。无论是科研合作形式,或是测试分析加工模式,将分析和绘图的细节沟通好,一定会事半功倍!但专业人士一定要有足够的耐心和责任心,充分了解你的研究意图和分析重点,同时,这也是你学习思路和方法的大好机会,至少在这个过程中会了解到一个专业的分析思路,对于你其他类似的研究,大有裨益。
5,结语:
我作为生信的新朋友且能力一般般,只能帮你到这里了。我见过让人佩服的生信牛人,思路清晰,将各种数据“玩弄于”电脑屏幕之上,妙手生花,输出图真是赏心悦目且清晰明了,这样的牛人在我眼里自带光环!也见过同你我一样的非生信专业医学生通过自学R语言,在他所在研究领域内大放异彩,深受导师赏识。当然,我能理解,这是他们经历无数个日日夜夜学习的结果。生信是一条学无止境的路,要不断学习,不断探索,不断创新。无论是你想把生信学好,学透,还是作为科研锦上添花的工具,愿与你为伴,在生信的海洋里遨游,收获飞跃的羽翼,共勉!