批量计算生存分析工具介绍

admin 2 2025-02-08 编辑

一、说明

生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科,既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。

生存分析不同于其它多因素分析的主要区别点:生存分析考虑了每个观测出现某一结局的时间长短。

本工具提供了便捷的批量计算基因表达的生存分析功能,简单实用,界面如图:

从图中可以看出,只需要四步:

step1:导入表达谱数据(第一列为基因,第二列开始为各样本的表达数据,第一行为样本名称)

step2:导入样本信息数据(第一列为样本,第二列开始为各样本的随访信息,其中包含死亡和生存时间)

step3:右侧选择死亡状态列和生存时间列,同时选择时间单位,还可以进一步筛选随访条件,比如默认(随访时间要大于1个月,生存时间截止日期十年,大于10年的默认为未死亡)

step4:批量运行即可得到每个基因的结果

然后结果展示页主要是对于一些基因的分类之后进行K-M曲线绘制,可以导出pdf和jpg两种格式的数据。

二、示例

以下我们使用GEO的一套数据来演示以下该工具使用

首先我们选择下载GSE25065数据集,下载之后使用GEO芯片数据转换器将数据提取出来,最终我们得到了这两个文件

打开SampleInfo.xls文件找到随访信息列:

去除其中的分号,保存

然后启动本工具,导入样本信息和表达谱数据,如图:

最终得到结果:

然后导出就OK了,结果中包括95%的置信区间,以及风险比,还有p值,使用方法是CoxRegression

我们导出结果:

结果包含两个文件,第一个是每个基因的Cox结果,第二个是样本的表达谱和对应的临床随访信息整合的表格,可以自己导入到R里面去分析

进一步的如果想观察每个基因的K-M曲线,该工具提供了K-M绘制曲线的功能,可以直观的看出分类效果,并提供导出pdf功能

与R语言相比如下:

library(survival) setwd("D:/Work/code/Test/GSE25065_family.xml") data=read.csv('CoxResult.txt.matrix',sep = '\t',row.names = 1) head(data) time=data[,1] status=data[,2] cox1=coxph(Surv(time, status) ~ ACADSB,data) cox2=coxph(Surv(time, status) ~ GATA3,data) cox3=coxph(Surv(time, status) ~ CHMP6,data) cox4=coxph(Surv(time, status) ~ ADCY9,data)

批量计算生存分析工具介绍

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 生信人迎春课程-基因和甲基化
相关文章