大家周末愉快,看了一周的文章了,今天我们不分享文章。分享预后模型用的最多的一种构建方式 :Lasso + Cox一、为什么需要用 Lasso + Cox 生存分析模式一般我们在筛选影响患者预后的变量时,通常先进行单因素Cox分析筛选出关联的变量,然后构建多因素模型进一步确认变量与生存的关联是否独立。但这种做法没有考虑到变量之间多重共线性的影响,有时候我们甚至会发现单因素和多因素Cox
回归得到的风险比是矛盾的,这是变量之间多重共线性导致模型 失真的结果。并且,当变量个数大于样本量时(例如筛选影响预后的
基因或突变位点,候选的变量数可能远超样本个数),此时传统的Cox
回归的逐步回归、前 进法、后退法等变量筛选方法都不再适用。因此,当变量之间存在多重共线性或者变量个数大于样本量时,需要用Lasso(Least absolute shrinkage and selection operator)回归首先进行变量的筛选,然后构建Cox回归模型分析预后影响,这就是Lasso + Cox 生存分析模式。二、什么是 Lasso + Cox 生存分析模式Lasso可以在模型参数估计的同时实现变量的选择,能够较好的解决回归分析中的多重共线性问题,并且能够很好的解释结果。Lasso回归算法使用L1范数进行收缩惩罚,对一些对于因变量贡献不大的变量系数进行罚分矫正,将一些不太重要的变量的系数压缩为0,保留重要变量的系数大于0,以减少Cox回归中协变量的个数。三、R代码实现实例
假设现在要从50个CD8 T cell的marker
基因中筛选具有预后效能的
基因,这些
基因在样本中是高度共表达的,即变量间存在共线性,样本量N = 400,现在进行Lasso Cox 回归。

有生信相关问题联系:18501230653
欢迎关注转录组| 甲基化 | 重测序 | 单细胞 | m6A|多组学 cytoscape | limma | WGCNA |水熊虫传奇|linux电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验 基因| 2019-nCoV | 富集分析 | 联合分析 |微环境 瘟疫追凶| 思路汇总| 学者 | 科研 | 撤稿| 读博|工作