德美论坛丨临床试验中的缺失数据填补方法简介
以随访形式跟踪受试者疗效情况而收集到的纵向数据由基线和多个访视点的测量数据构成,该数据是临床试验中最常见的数据类型之一。在纵向数据的收集过程中,数据的缺失现象普遍存在,有些涉及敏感信息的临床试验数据会有更高的缺失率。
在对一个含有缺失数据的数据集进行填补之前,首先需要了解这个数据集的缺失类型。因为相对于不同类型的数据缺失,填补方法之间的算法差异会得到差别很大的填补效果,甚至有时会得出相反的统计描述结论。
数据的缺失,究其原因可以归为三种机制:
1、完全随机缺失(missing completely at random,MCAR)定义为,假设变量间相互独立,若数据的缺失既不依赖于已观察到的数据,也不依赖于未观察到的数据,则该类缺失称为MCAR。
2、随机缺失(missing at random,MAR)定义为,假设变量间相互独立,若数据的缺失仅依赖于已观察到的数据,而不依赖于未观察到的数据,则该类缺失称为MAR。
2、非随机缺失(missing not at random,MNAR)定义为,假设变量间相互独立,若数据的缺失依赖于未观察到的数据,则该类缺失称为MNAR。
在对一个包含缺失值的数据集进行分析时,通常的做法有两种:一种是先对数据集进行填补,再对填补过后的完整数据集进行统计描述。另一种是不对数据集进行填补,在分析缺失部分变量时,利用未缺失部分结合缺失部分的已观察到部分对缺失变量进行统计描述。以下是目前常用的几种缺失数据填补方法:
末次观测向前结转(Last Observation Carried Forward,LOCF)
这是目前处理缺失值问题使用最多的方法,仅适用于随访资料的纵向数据。其填补方法是针对某次访视的数据缺失,利用其前一次的有效观测值进行直接替代。若病例在某次访视脱落,则用该病例最后一次观察到的有效值将其后全部缺失值填补完全。
使用LOCF方法对缺失数据进行填补,需要考虑数据的缺失满足以下两点重要假设:①数据的缺失机制是MCAR。②病人在失访前一次的观测值直至末次访视保持恒定。若试验药物组的疗效在后期逐渐优于对照组,LOCF在对后期缺失数据按照前期观察值进行填补,则实际上会将两组均差变小,从而降低试验组间的检验效能。另一方面,若试验药物组的疗效与对照组无统计学意义,则LOCF填补会低估组间的变异度,从而降低了标准误,进而带来的后果就是增大Ⅰ类错误。
多重填补(Multiple Imputation)
Rubin于1977年系统介绍了多重填补的思想,现已被广泛应用于临床试验的缺失值填补方面。多重填补是单一填补的延伸,它将缺失数据集的每一个缺失值都构造出m个填补值,在SAS中,默认采用的方法是马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC),进而对填补好的这m个完整的数据集分别进行常规的统计描述,最后再综合校正这m组分析结果,得到最终的结论。
多重填补可以归纳为以下三步:
(1)将缺失数据集填补m次,产生m个填补好的数据集
(2)对每个完整数据集分别用标准的统计方法进行描述
(3)将这m组统计结果进行综合分析,得出最终结论
多重填补相对于单一填补有一个明显的优势,多重填补能够考虑到数据的缺失而带来的不确定性,因而能够更好的估计同一变量观测之间的变异度。和其他填补方法一样,在用多重填补对缺失数据进行填补之前,也要对数据的缺失机制做出假定:多重填补假定数据的缺失机制为MCAR或MAR。
重复测量的混合效应模型(mixed-effect models for repeated measures,MMRM)
MMRM是进年来处理缺失数据的推荐方法,它基于似然估计,利用模型直接分析纵向数据中的所有可利用观测,相对于填补类处理,它不对缺失数据做任何的填补或对数据的缺失机制做任何的假设。每个病例的一系列观测值都被看作是来自一个多元正态分布,这些分布的协方差矩阵描述了不同病例间的相关性,并且通常假定适用于所有的病例。在给定充足样本量的条件下,可以得到非结构化(unstructured)的矩阵。并且,在MMRM的模型中,允许不同的变量在每个时间点响应,或者说,该模型对所有时间点的公共方差都无约束。
MMRM相对多重填补在对纵向数据分析方面较容易操作,只需要一次建模,就可以对每个访视点做出综合推断,因为MMRM纳入所有访视点和处理组别做协方差分析,从最小二乘估计中得到所有访视点关于组间的统计描述结论。在一项MMRM和多重填补关于检验效能的模拟试验中,MMRM能够对两组分别缺失30%和40%的情况下相对于多重填补做出较好判断。
在MMRM中,时间因素被考虑成一个效应变量,而治疗和时间的交互因素则被考虑为一个非结构化(unstructured)的交互效应,而不是考虑成治疗组因为访视时间的进展而产生的梯度差异。将此交互因素考虑为非结构化交互效应的优势在于,这样做可以对研究终点或每个访视点的组间疗效最小二乘均数(least square mean,LSMEAN)差异做出直接估计和统计描述。由于在临床试验中病人被安排在固定的时间点进行随访,故MMRM模型分析临床试验数据时,常常将时间因素考虑在模型中。MMRM分析使用非结构化协方差的优势在于,它不会对个体间变异做任何的假设,这种设定虽然会膨胀Ⅰ类错误率和改变检验效能,不过相对于LOCF等一些填补类方法,MMRM正因为这种非结构化考虑,还是会更好的控制Ⅰ类错误和提高检验效能。
处理缺失值问题除了以LOCF填补为代表的单一填补法外,多重填补是近年来较为常用的方法,它通过对缺失的数据集进行多次的填补,进而对这些填补过后的完整数据集用常规的统计分析方法进行分析,最后再将每次分析得到的结果综合做出推断,由于需要进行多次抽样填补,这种方法能够综合考虑到因不同可利用因素而产生不同缺失值的不确定性,与单纯填补相比,能够更好的控制偏倚,不过相应的缺点一方面是当数据缺失程度较大时需要大量的样本量,另一方面是处理过程较复杂。MMRM是纵向模型中最常用的一种,已有多篇文献通过蒙特卡罗试验模拟证明其对于缺失数据的估计在检验效能或Ⅰ类错误控制方面均有很好表现。
蒙特卡罗试验(仅供参考)
这种方法与多重填补相比有如下优点:首先,MMRM不对缺失数据进行任何的填补,这样相比多重填补它能避免由于填补而造成的偏倚。其次,它对于缺失程度较高的数据分析会优于多重填补,并且当变量缺失程度过高时,多重填补常常会需要大样本的条件支持才能实施,否则会在填补步遇到迭代算法不收敛的问题而得不出结果。第三,MMRM较多重填补更容易操作,MMRM对于含有缺失的纵向数据只需一次建模估计,而多重填补过程一般需要对数据进行预处理,并且对于填补次数一般需要填补10次才能达到较稳定结果。
对缺失数据的处理其实没有一种能被广泛接受的做法,因为实施每种处理方法都需要先对数据的缺失类型做一定的假设,当数据的缺失机制是MNAR时,每种处理方法都会存在不可避免的偏倚。
文章来源:诺和德美