(二)缺失值和离群值 缺失值(临床试验观察指标的数据缺失)是临床试验结果偏倚的潜在来源,在临床试验方案的制定和执行过程中应采取充分的措施尽量减少数据缺失。对于缺失值的处理方法,特别是主要评价指标的缺失值,需根据具体情形,在方案中遵循保守原则规定恰当的处理方法,如末次观察值结转(Last Observation Carried Forward, LOCF)、基线观察值结转(Baseline Observation Carried Forward, BOCF)等。必要时,可考虑采用不同的缺失值处理方法进行敏感性分析。 不建议在统计分析中直接排除有缺失数据的受试者,因为该处理方式可能破坏入组的随机性、破坏受试人群的代表性、降低研究的把握度、增加Ⅰ类错误率。 对于离群值的处理,需要同时从医学和统计学两方面考虑,尤其是医学专业知识的判断。离群值的处理应在盲态审核时进行,如果试验方案中未预先规定处理方法,在实际资料分析时,需要进行敏感性分析,即比较包括和不包括离群值的两种试验结果,评估其对试验结果的影响。 1.统计描述
人口学指标、基线数据一般需选择合适的统计指标(如均数、标准差、中位数等)进行描述以比较组间的均衡性。 主要评价指标在进行统计推断时,需同时进行统计描述。值得注意的是,组间差异无统计学意义不能得出两组等效或非劣效的结论。 次要评价指标通常采用统计描述和差异检验进行统计分析。 2.假设检验和区间估计
在确定的检验水平(通常为双侧0.05)下,按照方案计算假设检验的检验统计量及其相应的P值,做出统计推断,完成假设检验。对于非劣效性试验,若P≤α,则无效假设被拒绝,可推断试验组非劣效于对照组。对于优效性试验,若P≤α,则无效假设被拒绝,可推断试验组临床优效于对照组。对于等效性试验,若P1≤α和P2≤α同时成立,则两个无效假设同时被拒绝,推断试验组与对照组等效。 亦可通过构建主要评价指标组间差异置信区间的方法达到假设检验的目的,将置信区间的上限和/或下限与事先制定的界值进行比较,以做出临床试验结论。按照方案中确定的方法计算主要评价指标组间差异的(1-α)置信区间,α通常选取双侧0.05。对于高优指标的非劣效性试验,若置信区间下限大于-∆(非劣效界值),可做出临床非劣效结论。对于优效性试验,若置信区间下限大于∆(优效界值),可做出临床优效结论。对于等效性试验,若置信区间的下限和上限在(-∆,∆)(等效界值的劣侧和优侧)范围内,可做出临床等效结论。 对试验结果进行统计推断时,建议同时采用假设检验和区间估计方法。 3.基线分析
除试验器械及相应治疗方式外,主要评价指标常常受到受试者基线变量的影响,如疾病的分型和程度、主要评价指标的基线数据等。因此,在试验方案中应识别可能对主要评价指标有重要影响的基线变量,在统计分析中将其作为协变量,采用恰当的方法(如协方差分析方法等),对试验结果进行校正,以修正试验组和对照组间由于协变量不均衡而对试验结果产生的影响。协变量的确定依据以及相应的校正方法的选择理由应在临床试验方案中予以说明。对于没有在临床试验方案中规定的协变量,通常不进行校正,或仅将校正后的结果作为参考。 4.中心效应
在多个中心开展临床试验,可在较短时间内入选所需的病例数,且样本更具有代表性,结果更具有推广性,但对试验结果的影响因素更为复杂。 在多个中心开展临床试验,需要组织制定标准操作规程,组织对参与临床试验的所有研究者进行临床试验方案和试验用医疗器械使用和维护的培训,以确保在临床试验方案执行、试验器械使用方面的一致性。当主要评价指标易受主观影响时,建议采取相关措施(如对研究者开展培训后进行一致性评估,采用独立评价中心,选择背对背评价方式等)以保障评价标准的一致性。尽管采取了相关质量控制措施,在多中心临床试验中,仍可能出现因不同中心在受试者基线特征、临床实践(如手术技术、评价经验)等方面存在差异,导致不同中心间的效应不尽相同。当中心与处理组间可能存在交互作用时,需在临床试验方案中预先规定中心效应的分析策略。当中心数量较多且各中心病例数较少时,一般无需考虑中心效应。 在多个中心开展临床试验,各中心试验组和对照组病例数的比例需与总样本的比例基本相同。当中心数量较少时,建议按中心进行分层设计,使各中心试验组与对照组病例数的比例基本相同。 临床试验设计需考虑偏倚和随机误差。偏倚是偏离真值的系统误差的简称,在试验设计、试验实施和数据分析过程中均可引入偏倚,偏倚可导致错误的试验结论。临床试验设计时应尽量避免或减少偏倚。 统计量的随机误差受临床试验样本量的影响。一方面,较大的样本量可提供更多的数据,使器械性能/安全性评价的随机误差更小。另一方面,更大的样本量可能引入更大的偏倚,导致无临床意义的差异变得具有统计学意义。试验设计应该旨在使试验结果同时具有临床和统计学意义。 |