Cibersort基本原理及使用解析

admin 279 2025-01-16 12:14:43 编辑

CIBERSORT作为经典的bulk RNA反卷积工具,自15年由Alizadeh实验室Newman等人开发出来发表在NBT上,就被广泛使用,截至目前为止,引用次数高达1779。为了方便大家更好的使用这个工具,并解读其中的结果,今天跟大家一起学习一下该工具的基本实现原理和使用方法。反卷积模型设m表示bulk RNA基因表达谱(GEP),B表示marker基因的GEP,f表示bulk RNA中各细胞类型未知的细胞组分的向量。那么GEP反褶积的问题可以用m = f x B来表示,前提是B所含的marker基因数目多于细胞类型。CIBERSORT是基于ν的支持向量机(ν-SVR)的方法进行反卷积的,ν-SVR是支持向量机(SVM)关于二元分类问题的优化方法,是一种优于其他基准测试的机器学习方法,关于ν-SVR模型的具体算法,各位有这方面需求的可以再深入学习了解一下。Signature matrix的构建CIBERSORT中的LM22是用于估算bulk RNA中白细胞比例的signature基因表达矩阵。我们都知道,在机器学习当中,合适的特征选择是决定预测模型性能的关键因素,今天我们重点学习一下这个reference的构建,有助于我们后续构建自己的reference(如不同组织的signature基因表达矩阵),达到不同的目的;当然网站也贴心的给出了构建自己reference的方法。1、从HGU133A平台上获得22个白细胞亚群的GEP数据。2、使用双尾方差不相等t检验来确定每两种细胞之间显著差异表达的基因。Adjust-p<< span="">0.3的基因被认为是显著的。3、对于每个白细胞亚群,显著基因按照与其他细胞亚群相比按倍数变化排序,并将每个细胞亚群中的差异倍数最大G基因合并到signature matrix BG中。4、为了防止非造血细胞表达的基因干扰反卷积结果,作者进行了两部过滤。1)使用基因富集分析器(Gene Enrichment Profiler) 鉴定在非造血细胞或组织中高表达的基因。基因富集分析器根据给定细胞或组织的特定基因与其他样本的所有成对比较得到的线性模型系数之和,计算一个富集分数(ES)。对于每个ES值大于0的基因,计算非造血细胞或组织的比例,并将比例大于0.05的基因从签名矩阵中排除。2)在Cancer Cell Line Encyclopedia (CCLE)非造血癌细胞系中,log2(表达值)大于7的所有基因被剔除。5、最终签名矩阵LM22。结果解读使用过CIBERSORT的同学可能知道,输出结果除了给出每个样本不同细胞的预测比例,后面还附带了三个统计量,p-value,R和RMSE。下面具体说一下这三个值的具体含义。CIBERSORT使用Monte Carlo采样对反卷积结果产生一个经验P值。这种方法首先假设给定的bulk RNA m GEP中不存在signature matrix(例如LM22)中的细胞类型,并使用皮尔逊相关分析计算m和f x B之间的统计量R。为了推导经验P值,CIBERSORT必须首先推导一个零分布R*,因为与bulk RNA m GEP相比,签名矩阵signature matrix B只包含一小部分基因g。作者从bulk RNA m GEP中随机抽取g个基因表达值,形成一个随机的bulk RNA m*I  GEP,即|m| = |m*i|;然后使用m*i上运行CIBERSORT,生成估计细胞成分的向量f*i。CIBERSORT然后计算随机bulk RNA m*i与重组混合f*i x B之间的相关系数R*i。此过程重复i次,得到R*。P-value:在所有细胞子集上反褶积结果的统计显著性。Pearson's correlation coefficient (R):是通过将实际bulk RNA GEP与预测的bulk RNA GEP进行比较而得出的,后者是使用估算的细胞比例和来自签名矩阵signature matrix的相应表达谱进行计算出的。值得注意的是,这种相关性仅限于签名矩阵signature matrix标记基因。RMSE:实际bulk RNA m GEP与预测的bulk RNA m GEP的均方根误差,仅限于签名矩阵signature matrix文件中的基因。下面这个使用手册主要是帮助没用过CIBERSORT的同学快速了解一下这个网页版的软件。数据准备:1、Bulk RNA表达数据:包含要分析的样本的基因表达谱。多个样本可以并行分析,列代表样本,行代表基因,如下图所示。2、Reference gene 表达数据1:以LM22为例,列代表不同细胞类型,行代表基因,如图所示。3、Reference gene 表达数据2:如果我们没有像CIBERSORT通过一系列方法构建好的reference signature matrix,该网站也贴心的给出了构建自己的reference的方法。需准备两个表,一个是基因表达矩阵Reference Sample File,如图。行代表不同组织(or细胞),列代表基因名称。在这个数据集中,有4个不同的参考细胞系,每个细胞系有3个重复,在同一平台上测量。另一个表Phenotype Classes File是对上述表的解释,如果每种组织或细胞有多个生物重复(如上图所示,Jurkat,IM-9,Raji,THP-1各有三个重复),则在下表给出他们的分类,如图所示。值“1”表示该行定义的组别,值“2”表示与之比较的分组,值“0”表示将忽略进行比较。数据上传所有数据准备好了之后就上传到CIBERSORT网站,该网站使用之前需要先注册账号,网站给每位用户提供500M上传文件的上限。如图所示是上传的界面,点击Add files会出现添加文件的类型,按照自己上传的文件选择对应的类型。运行CIBERSORT:Menu - Run CIBERSORT。1、有构建好的reference或使用网站的LM22进行细胞/组织成分分析。参数设置:signature matrix file选择LM22或自己上传构建好的reference。Mixture file选择自己要分析的文件。2、如果想重新构建reference,在Custom Signature File下上传之前准备的文件,如图所示。对构建reference有以下参数设置:Kappa-为签名矩阵设置的最大条件数。默认值为999,相当于忽略该参数。如果你不知道这个值的含义,建议不要更改参数。q-value:错误发现率(FDR)的阈值。在创建自定义签名矩阵时,对于表型类文件中定义的每个表型,采用双侧不等方差t检验来查找差异表达显著的基因。每个基因的q值(FDR)被计算出来,这个参数设置了一个阈值,该阈值被认为是显著差异表达的基因,会被包括在后续的signature matrix中。No. barcode genes——在构建signature matrix时,设置每种组织或细胞的最小和最大基因数。Filter non-hematopoietic genes from signature matrix during construction——当构建signature matrix时,将非造血基因去除(可选项)。运行结果如图所示,表格中给出每个样本每种细胞类型预测的比例,并给出p-value,R,RSME统计量的结果。网站允许以不同文件类型将结果导出。如果想查看或导出之前的结果,在Menu-Job results下可以查看。参考网站https://cibersort.stanford.edu/manual.php#reffile欢迎关注转录组 | 甲基化 | 重测序 | 单细胞 | m6A|多组学  cytoscape | limma | WGCNA |水熊虫传奇|linux电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验 基因| 2019-nCoV | 富集分析 | 联合分析 |微环境 瘟疫追凶| 思路汇总| 学者| 科研 | 撤稿 | 读博|基因
上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 爆点锁定:肿瘤的免疫逃逸,究竟谁在捣鬼?
相关文章