一、说明
生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科,既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。
生存分析不同于其它多因素分析的主要区别点:生存分析考虑了每个观测出现某一结局的时间长短。
本工具提供了便捷的批量计算基因表达的生存分析功能,简单实用,界面如图:
从图中可以看出,只需要四步:
step1:导入表达谱数据(第一列为基因,第二列开始为各样本的表达数据,第一行为样本名称)
step2:导入样本信息数据(第一列为样本,第二列开始为各样本的随访信息,其中包含死亡和生存时间)
step3:右侧选择死亡状态列和生存时间列,同时选择时间单位,还可以进一步筛选随访条件,比如默认(随访时间要大于1个月,生存时间截止日期十年,大于10年的默认为未死亡)
step4:批量运行即可得到每个基因的结果
然后结果展示页主要是对于一些基因的分类之后进行K-M曲线绘制,可以导出pdf和jpg两种格式的数据。
二、示例
以下我们使用GEO的一套数据来演示以下该工具使用
首先我们选择下载GSE25065数据集,下载之后使用GEO芯片数据转换器将数据提取出来,最终我们得到了这两个文件
打开SampleInfo.xls文件找到随访信息列:
去除其中的分号,保存
然后启动本工具,导入样本信息和表达谱数据,如图:
最终得到结果:
然后导出就OK了,结果中包括95%的置信区间,以及风险比,还有p值,使用方法是CoxRegression
我们导出结果:
结果包含两个文件,第一个是每个基因的Cox结果,第二个是样本的表达谱和对应的临床随访信息整合的表格,可以自己导入到R里面去分析
进一步的如果想观察每个基因的K-M曲线,该工具提供了K-M绘制曲线的功能,可以直观的看出分类效果,并提供导出pdf功能
与R语言相比如下:
library(survival)
setwd("D:/Work/code/Test/GSE25065_family.xml")
data=read.csv('CoxResult.txt.matrix',sep = '\t',row.names = 1)
head(data)
time=data[,1]
status=data[,2]
cox1=coxph(Surv(time, status) ~ ACADSB,data)
cox2=coxph(Surv(time, status) ~ GATA3,data)
cox3=coxph(Surv(time, status) ~ CHMP6,data)
cox4=coxph(Surv(time, status) ~ ADCY9,data)