哈啰大家好!虽然最近挺忙的,但是断更是不可能断更的,任何情况都不可能断更的,所以可爱的我如约而至!~000000000000000000000000000书接上回。上一次我们讲了10X V(D)J测序的原理,还有建库、扩增和测序等过程。今天我们从数据下机的那一刻开始讲起,重点说一下后期对数据的分析处理。10X系统最让人感到开心的地方就是,人家提供前端测序系统和机器的同时,也搭配了一整套完备的后续流程。虽然说是比较基础的分析吧,但简单好上手,使用起来不费劲儿,完成度也非常高。对于无编程和生信分析知识的新手非常友好。对于有生信基础的人来说,更是毫无难度。程序下载页面:https://support.10xgenomics.com/single-cell-vdj/software/downloads/latest 这个页面里包括cellranger V(D)J 分析主程序,可视化工具Loupe V(D)J Browser,还有V(D)J片段用来比对的参考序列,和转录组
基因组测序,需要的参考
基因组类似。这里多说一嘴,没有下载过10X相关软件的同学们会需要填写你的姓名,工作单位(学习机构)和邮箱,然后才能下载。当然了这个没有一个审核机制,全凭自觉。但是人家软件都免费给你用了,骗人家不好,建议还是老老实实填自己姓名邮箱,不定期还能收到官网新流程和产品的推送,我觉得也挺好的。另外,还有安装页面:https://support.10xgenomics.com/single-cell-vdj/software/pipelines/latest/installation 日常关注咱公众号的同学们应该都……能成功安装软件的叭…?会……有那么一些基础的叭……能看懂安装说明,不需要我再手把手讲……的叭……?我不讲,我累了,我不想讲【很倔强】。我相信你们能行。和单细胞数据转录组分析类似,V(D)J数据也是通过Cellranger Pipeline来进行分析的。如果你非常生猛,数据刚一下机就拿过来分析,到手的格式是BCL格式的,那么你需要和转录组数据分析一样,先运行cellranger mkfastq这个步骤,将BCL数据转化为Fastq格式的数据。具体操作详见网址:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/mkfastq (我可真是送佛送到西的典范)如果你的数据是交给公司测序的,或者别的什么原因,到手的数据格式是Fastq数据,那么恭喜你,你就可以省略上面的步骤,直接进入cellranger的核心流程——cellranger vdj该方法,需要在Linux环境下操作。如上图所示,重要【必须有】的参数有四个,分别是:id:为你的这次分析起一个顺眼的名字。【但也不要太花哨了……毕竟之后你的结果都会存在路径下这个名字的文件夹里……】reference:下载步骤让你们下载的那个reference,记得吗?就是它的保存路径。还有需要提醒的就是,你做人相关的,你就下载人的,你做老鼠,就下载鼠的,匹配的时候可千万别搞错了。fastqs:就是你的V(D)J 数据存储的位置【一定得是fastq格式!】sample:这个不能瞎填,和id不一样。这是标识你数据的。说不明白,我来举个栗子。以官网的示例数据为例。如果你的fastq数据是这样的格式:那么这里,你的sample就应该是【vdj_v1_hs_pbmc3_t_26x91】。也就是说,从【S1】开始往后,是10X系统fastq数据通用的命名格式。这前面的部分,就是标识你的样本信息的部分。把这部分填写进sample参数里面。除了上述的必填项之外,还有几个选填参数,这里也稍微交待一下:这两个参数是对计算资源的限定。即选择用多少核还有多少内存来运行程序。这里如果有服务器集群的同学,我推荐20核,100G内存的配置。这也是10X官方给我的建议。最初我对自己的计算资源过于自信,以致于根本没有care这两个参数,但是程序通常跑着跑着就退出了。后面我和10X官方发邮件才知道可能就是内存设置问题。所以这个参数还是建议大家斟酌计算能力,然后填一下。另外这两个参数我也觉得有必要拿出来说一下。不添加denovo参数的时候,序列会以局部比对的方式,比对到10X官网上下载的参考序列上(就是reference),反之,则是先对reads进行组装,然后再比对。如果你在官方reference之外不指定其他的参考序列的情况下,其实这个参数对结果的影响并不大。另一个参数是对扩增
引物的指定。适用于除了人和鼠之外,对其他物种进行V(D)J测序时,可能需要自行设定
引物序列。到这里为止,关于cellranger vdj的运行就基本讲完了。下面就是等待运行结果。结果文件会存储在路径设定下以id参数命名的文件夹里。我们需要关注的结果主要分为三部分。一部分是网页上查看的summary文件,另一部分是一堆表格(统计结果和注释结果),还有一堆fasta和fastq文件(序列结果和打分结果),最后一部分是可视化结果。
关于结果的解读,我们下一期再讲吧……
我发誓我下一次一定把这个系列完结!!!一定!!古德拜!~
【我真的不是为了多骗主编稿费……真的不是……】
欢迎关注转录组 | 甲基化 | 重测序 | 单细胞 | m6A|多组学 cytoscape | limma | WGCNA |水熊虫传奇|linux电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验
基因| 2019-nCoV | 富集分析 | 联合分析 |微环境 瘟疫追凶| 思路汇总| 学者| 科研 | 撤稿 | 读博|
基因