其实妨碍大家进行生物信息学学习的一个比较关键的地方就是编程了。生物信息学是大数据科学,这就要求必须具备一定的编程思想,会采用计算机程序从庞大数据中挖掘有效信息。这就要求我们会基础编程,并且更重要的需要我们精通的是会安装和使用生物信息学软件。
首先计算机编程这一块有时候也是比较重要,毕竟不能手工进行处理庞大的数据吧。其实编程这一块主要是为了结果过滤,毕竟软件出来的往往并不能满足自己想要的结果,这就需要对软件出来数据进一步深挖过滤,拿到真正对自己有用的数据。编程这一块有人推荐学perl,有人推荐Python,无所谓了,关键看你周围的人用什么编程,方便在遇到问题时能够及时的解决。如果你对perl感兴趣,我们前天发过Linux与perl的推送,相信这将是非常有用的资料,快速掌握Linux与perl。
编程虽重要,但小编认为对于初学者软件使用更重要。大家都是生物狗,软件一些参数用法结合一下生物学意义相对来说容易理解,但是可能对大家比较困难的是软件用之前的工作--软件安装。由于不同的软件需要的依赖(包括种类和版本)不同或者使用的是公用计算机集群你根本无权限安装,导致软件安装不成功。稀奇古怪的报错信息,对于生物狗们真好似一头雾水!好不容易有个好软件但是不能用!所以大家需要掌握一些软件安装的技巧与方法。
本处主要讲你没有权限安装方法,即安装到自己目录下面方法(有权限安装通用)
一、perl模块安装
我们运行一些Perl程序时经常出现找不到某个module。对于这种报错,缺哪一个就下载哪一个或者看看软件包有没有此模块直接给路径添加即可。
首先下载所需要的模块,像本处为Keith module,这样我们谷歌或者CPAN()上下载Keith.pm即可。
运行命令:
perl Bin/trf_wrapper.pl
报错信息:
Can't locate Keith.pm in @INC (you may need to install the Keith module) (@INC contains: /share/nas2/genome/biosoft/perl/current/lib//5.20.0/x86_64-linux-thread-multi /share/nas2/genome/biosoft/perl/current/lib//5.20.0 /share/nas2/genome/biosoft/perl/current/lib/)
at Bin/trf_wrapper.pl line 13.
BEGIN failed--compilation aborted at Bin/trf_wrapper.pl line 13.
解决方案:
只需要在trf_wrapper.pl中调用的Keith模块(use Keith;)之前加入下面红色部分即可,其中PATH为模块Keith.pm所在的目录。
BEGIN{
push (@INC,"PATH/");
}
use Keith;
二、R包安装
我们运行一些R语言程序时经常出现找不到某个package。对于这种报错,缺哪一个就下载哪一个。
首先下载所需要的package,像本处为ggplot2,这样我们谷歌或者bioconductor或者CRAN上下载ggplot2即可。
运行命令:
Rscript heatmapV2.R
报错信息:
Error in library(ggplot2) : there is no package called 'ggplot2'
解决方案:
下载到ggplot2_2.2.1.tar.gz,然后用下面命令(针对无管理员权限,安装自己目录下)安装即可。
R CMD INSTALL ggplot2_2.2.1.tar.gz
注意安装log:
installing to /home/xxx/R/x86_64-unknown-linux-gnu-library/3.1/ggplot2_2.2.1/libs
安装完成后添加环境变量:
export LD_LIBRARY_PATH=/share/nas2/genome/biosoft/hdf5/1.8.9/lib/:$LD_LIBRARY_PATH
三、Python包安装
注意使用的python版本,Python2与Python3差别较大,因此安装时注意python版本。
运行命令:
/Python/3.5.2/bin/python suppa.py
报错信息:
Traceback (most recent call last):
File "suppa.py", line 9, in <module>
import fileMerger as joinFiles
File "/share/nas1/SUPPA-master/fileMerger.py", line 11, in <module>
import pandas as pd
ImportError: No module named 'pandas'
解决方案:
找到对应版本的pandas下载即可,文件格式一般为后缀名为.tar.gz:
pandas-0.20.1.tar.gz
安装步骤:
tar zxvf pandas-0.20.1.tar.gzcd pandas-0.20.1python setup.py install --user
安装完成后注意在.bashrc中添加环境变量,
PYTHON_PATH=/home/xxx/.local/lib/python3.5/site-packages/:$PYTHON_PATH
四、C包
无root权限的linux系统上安装软件时候遇到的lib××× not found的问题.
参见此博文:http://blog.shenwei.me/solve-lib-not-found-in-linux/
大家端午节快乐