生存分析（1）

一、基本概念和名词解释

1.生存分析（survival analysis）

是研究生存现象和响应时间数据及其统计规律的一门学科。
是将事件的结果（终点事件）和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
生存分析与其他多因素分析最大的区别，就是生存分析考虑了观测结果出现的时间长短。

2.生存时间（survival time, failure time）

终点事件 与 起始事件 之间的时间间隔。
终点事件：研究者所关系的 特定结局 。
起始事件：反应研究对象生存过程的 起始特征 的事件。

终点事件与起始事件是相对而言的，都是由特定的研究目的所决定的，是整个研究过程的标尺，需要在设计时明确规定，并在研究期间严格遵守，不能随意改变。

生存时间举例

起始事件		终点事件
服药	—–>	痊愈
手术切除	—–>	死亡
染毒	—–>	死亡
化疗	—–>	缓解
缓解	—–>	复发

3.生存时间的类型（survival time, failure time）

(1) 完全（complete）数据
从起点至死亡（死于所研究疾病）所经历的时间
(2) 删失（censored）数据
指在观察或试验中,由于人力或其他原因未能观察到所感兴趣的事件发生，因而得到的数据。

可见删失数据得到的时间是并不准确的

删失原因： 失访、死于其它疾病、观察结束时病人尚存活

删失分类：

左删失 （left censored）
只知道实际生存时间比观察到的要短
右删失 （right censored）
只知道实际生存时间比观察到的要长
区间删失 （interval censored）
只知道实际生存时间在某个区间范围内

生存时间度量单位可以是年、月、日、小时等，常用符号t表示，右删失数据右上角标记“+”，其他删失数据标记“？”。

注意：删失数据不等于截尾数据

截尾数据 （Truncation）
只有“左截尾”和“右截尾”两种。

左截尾 ：数据都大于某个值
右截尾 ：数据都小于某个值

截尾数据的产生，往往是因为实验设计的要求使得数据天然具有上界或者下界。

如一个实验研究退休职工的生存情况，那么显然这些数据都是左截尾的，因为所有个体的年龄都大于退休年龄（如t≥60）

截尾与删失的区别

产生原因不同
删失数据的产生往往是随机的，不可事先预知的，如失访等
截尾数据在实验设计时往往就可以提前预知
“左右”意义不同
左截尾是数据大于某个值，左删失是数据小于某个值
右截尾是数据小于某个值，右删失是数据大于某个值
描述级别不同
删失数据体现的是个体数据的特点，如某个患者的数据是删失的
截尾数据体现的实验中样本整体的特点，如上面说的都大于60岁

二、统计概念和名词解释

申明：生存时间的分布一般不呈现正态分布

1.条件生存概率（conditional probability of survival）

表示 某时段开始 存活的个体，到该时段结束时仍存活的可能性。

年条件生存概率表示年初尚存人口存活满一年的可能性。

p = 活满一年例数年初观察（存活）例数

2.生存率（survival rate, survival function）

观察对象经历t个单位时间段后仍存活的可能性，如

三年生存率 = 活满三年例数期初观察例数

如期初观察例数为100，术后1、2、3年死亡总数分别为10、20、30，无截尾数据，试求各年条件生存概率及逐年生存率。

可以看出，条件概率是单个时间段的结果，而生存率实质上是条件概率的 累积结果 。例如，3年生存率是第一年、第二年、第三年都存活的可能性。
即

可见生存率的计算根据原理分为：
直接法：直接按概率定义计算
概率乘法定理：用各年条件生存概率相乘

3.描述函数（conditional probability of survival）

生存函数S(t)：
观察对象的生存时间T大于某时刻t的概率称为生存函数(survival function)。

S ( t ) = t 时刻尚存活的例数期初观察例数

死亡函数S(t)：
观察对象的生存时间T不大于某时刻t的概率称为死亡函数(failure function)。

F ( t ) = 1 − S ( t )

死亡密度函数f(t)：
观察对象在某时刻t的瞬时死亡率为死亡密度函数(failure density)

h ( t ) = 观察对象在 [ t , Δ t ] 时间内的死亡人数期初观察例数 ∗ Δ t = Δ 死亡率 Δ t = F ′ ( t )

风险函数h(t)：
生存到时刻t的观察对象在时刻t的瞬时死亡率称为风险函数(hazard function)
可以理解为一种条件死亡密度

S ( t ) = f ( t ) S ( t ) = 观察对象在 [ t , Δ t ] 时间内的死亡人数 t 时刻尚存人数 ∗ Δ t

4.生存曲线（survival curve）

以观察（随访）时间为横轴，以生存率为纵轴，将各个时间点所对应的生存率连接在一起的曲线图。
生存率是一条下降的曲线，分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期，陡峭的生存曲线表示低生存率或较短生存期。

某医师收集20例脑瘤患者甲、乙两疗法治疗的生存时间（周）如下：
甲疗法组 1 3 3 7 10 15 15 23 30
乙疗法组 5 7+ 13 13 23 30 30+ 38 42 42 45+

其生存曲线如下：
这里写图片描述

生存率的具体算法和曲线的画法,在生存分析（2）中将详细介绍

5.中位生存期（median survival time）

又称半数生存期，表示恰有50%的个体尚存活的时间。
中位生存期越长，表示疾病的预后越好，中位生存期越短，预后越差。
估计中位生存期常用图解法或线性内插法。

注：
预后： 指预测疾病的可能病程和结局
线性内插法： 根据一组已知的自变量及其对应的函数值，利用等比关系求解未知函数值的方法。

三、生存资料统计学处理

（一）设计

专业目的：根据专业领域所需而定
统计学目的：
1）估计： 根据样本生存资料估计总体生存率及其它有关指标（如中位生存期等），如根据脑瘤患者治疗后的生存时间资料，估计不同时间的生存率、生存曲线以及中位生存期等。

2）比较： 对不同处理组生存率进行比较，如比较不同疗法治疗脑瘤的生存率，以了解哪种治疗方案较优。

3）影响因素分析： 目的是为了探索和了解影响生存时间长短的因素，或平衡某些因素影响后，研究某个或某些因素对生存率的影响。如为改善脑瘤病人的预后，应了解影响病人预后的主要因素，包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。

4）预测： 具有不同因素水平的个体生存预测，如根据脑瘤病人的年龄、性别、病程、肿瘤分期、治疗方案等预测该病人t年（月）生存率。

前瞻性队列研究：
前瞻性队列研究是队列研究的基本形式。研究对象的分组是根据研究对象现时的暴露状况而定的，此时研究的结果还没有出现，需要前瞻性观察一段时间才能得到。
回顾性队列研究
回顾性队列研究的研究对象是根据其在过去某时点的特征或暴露情况而入选并分组的，然后从已有的记录中追溯从那时开始到其后某一时点或直到研究当时为止这一期间内，每一成员的死亡或发病情况。

回顾性队列研究实际做的是在现在调查过去的 既成事实 ，这时暴露与疾病或死亡均已成事实，而前瞻性队列研究的随访则是查寻在过程中 新出现 的病例或死亡及其死因。

（二）收集资料

1.确定起始事件、终点事件、随访终止日期、生存时间、截尾。

2.确定可能的影响因素、水平以及量化方法。 如：
这里写图片描述

3.设计调查表：
一览表：因素较少时
单一表：因素较多时

调查表中应包括

可能的影响因素
观察起点和终点（年、月、日）
生存时间
生存结局

样本含量： 非截尾例数至少是可能影响因素的 10 倍

（三）整理资料

认真检查、和对原始数据，包括影响因素、生存时间和生存结局
尽量避免缺失值
建立数据库

生存资料基本要求

样本由随机抽样方法获得，要有一定的数量
死亡例数不能太少
结尾比例不能太大
生存时间尽可能准确。因为常用的生存分析方法都在生存时间排序的基础上做统计处理，即便是小小的舍入误差，也可能改变生存时间顺序而影响结果
缺项应尽量补齐

（四）分析资料

估计： Kaplan-Meier法，寿命表法
比较： log-rank检验，Wilcoxon 秩和检验
影响因素分析： Cox比例风险回归模型
预测： Cox回归模型预测生存率

至此，和生存分析相关的基本知识就介绍完了，之后将详细介绍生存分析中各种算法及其使用。

生存分析 （Survival Analysis）是一种统计方法，用于分析和预测特定事件的发生时间，通常用于医疗研究、工程可靠性、金融风险管理等领域。 生存分析 的主要目标是研究时间到事件（如死亡、故障、违约等）发生的时间分布。这些具体事件可以是死亡，也可以是肿瘤转移、复发、病人出院、重新入院等任何可以明确识别的事件，而不同条件即为不同的分组依据，可以是年龄、性别、地域、某个基因表达量的高低、某个突变的携带与否等等。下图是钟南山院士在对欧洲呼吸学会针对 Covid-19 的报告中提到的研究结果，他们对湖北省内和省外的病人从开始症状到入院时间做了分析，从发生症状开始，入院则是我们刚才讲的 event 事件，而湖北省内外则是不同的分组条件。图中还提到，生存描述-描述不同时间的总体生存率，计算中位生存时间，绘制生存函数曲线，一般用Kaplan-Meier方法和寿命表法；生存曲线比较-比较不同处理组的生存率，一般用logrank检验；生存相关因素的分析：回归模型；由于logrank检验仅能分析一个因素，因此两个或者两个以上因素的分析需要使用Cox比例风险模型； 2、 生存分析 使用的方法： Kaplan-Meier plots 生存分析 指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法。常见的有1）癌症患者生存时间分析2）工程中的失败时间分析等等。 1.1 定义给定一个实例 iii，我们用一个三元组来表示 (Xi,δi,Ti)(X_i, \del... 临床试验的病人招募通常是个持续的过程，不同病人的试验一般始于日历上不同的具体时间点，在数据分析时只有采用相对时间，才能有同样的时间轴及零点。对于临床试验的病人群体而言，个体病人的生存时间是一个随机变量，用大写的T表示。而生存曲线横坐标则对应各病人事件发生的时间点，它不是随机变量 (而用做函数的自变量)，用小写的t表示，随机变量T一般不遵从正态分布。其中最为常见的情形称为右删失（right censoring，图1），对这样的病人我们只知道其生存时间要大于从试验开始到删失发生的时间。最近在读一篇医学信息处理相关的论文，由于在医学图像和医学信息相关的计算机处理方面还是个新手，遇到了一个 生存分析 预后的概念，提到KM生存曲线、COX回归模型这样的部分时读的一知半解，索性就上网学习了一下，留个记录吧。什么是 生存分析 ？ 生存分析 是对生存资料的分析。所谓生存资料是指描述寿命或者一个发生时间的数据。通俗来讲，“一个个体能活多久”这个问题扁鹊再世也无法回答，但通过对某一具有相同特质的群体进...