8916 | 13分钟阅读

诊断药品是指临床用来诊断或诊断性治疗疾病的药品,属于我国《药品管理法》所规定的药品的范畴[1-2]。在实践中,诊断药品一般包括体内诊断药品和按药品管理的体外诊断试剂。目前,我国尚未发布体内诊断药物的临床试验指导原则,已经发布的临床试验指导原则主要针对治疗药物、医疗器械以及体外诊断试剂,如《药物临床试验的一般考虑指导原则》、《医疗器械临床试验设计指导原则》、《体外诊断试剂临床试验技术指导原则》等[3-5]。但是这些临床试验指导原则不能完全适用体内诊断药物。治疗药物和医疗器械的临床试验受试者为确诊患者,主要评价目标是有效性和安全性;体外诊断试剂的临床试验主要是对疑似患者的标本进行检验,主要评价目标是诊断准确性。然而,体内诊断药物的临床试验受试者应该为疑似患者,主要评价目标应该是诊断准确性和安全性。鉴于此,本文以诊断准确性作为主要评价指标对体内诊断药物的临床试验设计和统计分析要点进行了探讨,以促进申办方科学合理地开展该类药物的临床试验。

1 基本概念

1.1 诊断准确性

诊断准确性是指待评价的体内诊断药物(简称待评价品)对本病的诊断结果与金标准(或参考标准)的一致程度[6-7]。诊断准确性可以使用多种指标进行评价,如灵敏度、特异度、似然比、预测值和受试者工作特征(ROC)曲线下面积等[6-8]。

灵敏度 又称真阳性率,是指实际患本病且被正确诊断为患本病的百分比。

特异度 称真阴性率,是指实际未患本病且被正确诊断为未患本病的百分比。

假阴性率 实际患本病却被诊断为未患本病的百分比。

假阳性率 实际未患本病却被诊断为患本病的百分比。

阳性似然比 灵敏度与假阳性率之比。

阴性似然比 假阴性率与特异度之比。

阳性预测值 在诊断为患本病的人中实际患本病的人所占百分比。

阴性预测值 在诊断为未患本病的人中实际未患本病的人所占百分比。

截断值 又称临界值,是指区分定量诊断结果为有病与无病、正常与异常、阳性与阴性、是与否等的判断标准。

ROC曲线 根据一系列不同的二分类方式(截断值),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制成的曲线。曲线下面积越大,诊断准确性越高。

1.2 诊断一致性

诊断一致性是指待评价品对本病的诊断结果与其他诊断方法(非金标准)的一致程度。评价诊断一致性的指标有标准差、变异系数、相关系数、配对t检验、符合率、Kappa值等[9]。

符合率 同一组疑似本病患者中两次诊断结果均为阳性与均为阴性的患者之和占该组人数的百分比。当待评价品与金标准比较时,符合率又称为准确度。

Kappa值 用于评价两种诊断方法对同一组疑似本病患者进行定性诊断时诊断结果的一致程度。Kappa值介于0-1之间,当Kappa值为0时,完全不一致,当Kappa值为1时,完全一致。Kappa值≤0.4,一致性较差;0.4<Kappa值<0.75,一致性一般;Kappa值≥0.75,一致性较好[10]。

1.3 金标准

金标准又称为参考标准,是指当前临床上公认的诊断本病的最可靠的方法,可以是单一方法,也可以是多种方法的组合。如病理诊断、活检、手术发现、微生物培养、特殊的影像学检查、短期内重复检查、长期随访检查、临床综合判断等[5-7,9]。

1.4 诊断结果类型

诊断结果一般分为定性结果和定量结果[7,9,11]。定性诊断结果是指获得的诊断结果直接为分类或等级结果,通常是二分类结果,如有病与无病、正常与异常、阳性与阴性、是与否等。灵敏度、特异度等可用于评价定性结果。定量诊断结果是指获得的诊断结果为连续性检测值,可通过截断值间接转为分类或等级结果,通常转为二分类结果。当截断值发生变化时,分类或等级结果也随之发生变化。ROC曲线下面积可用于评价定量结果。

1.5 体内诊断药品用途

体内诊断药品可用于在临床上筛查某种疾病,对疑似患者进行临床诊断,或者对临床筛查或诊断结果进行验证[8]。通常,用于临床筛查时应该具有较高的灵敏度,用于对疑似患者进行临床诊断时应该具有良好的灵敏度和特异度,用于验证临床筛查或诊断结果时应该具有较高的特异度。

2 临床试验设计要点

对待评价品与对比品的诊断准确性进行比较的临床试验简称为诊断研究,需要使用金标准作为评价基准[7,12]。本文重点阐述了对诊断研究的对比品、金标准、试验类型、评价指标、界值确定、试验假设、样本量、受试者选择、分组与随机化、盲法等的考虑。

2.1 对比品选择

根据待评价品的市场定位选择对比品[5]。当待评价品为新研发药物,市场上无同类产品时,无法选择对比品,只能用金标准对待评价品进行诊断准确性评价。当待评价品已有同品种批准上市的产品时,应该选择临床上公认的诊断准确性较高的产品作为对比品,用金标准分别对待评价品和对比品进行诊断准确性评价[12],然后比较两者的评价结果。

2.2 金标准选择

根据金标准的定义,金标准应该是能够反映真实诊断结果的最佳方法[6-8,13]。如果存在金标准,将是非常理想的状态,但在实践中金标准往往很少或不可用[13-15]。因此,在选择金标准时需要区分以下几种情况:

① 若有金标准,则使用;

② 若有金标准但不实用,则尽可能使用;

③ 若无金标准,则考虑构建金标准[7]。可以通过设定复合参考标准或者达成某种共识等方法构建金标准[7,13,15,16]。无论是既定金标准还是构建金标准,所选择的金标准应该在分类上独立于待评价品和对比品,即至少不能是两者的同类药品[7,13]。

2.3 试验类型选择

根据诊断研究目的选择不同的临床试验类型[17]。当待评价品无对比品时,则选择优效试验,证明待评价品的诊断准确性高于某个预先确定的目标值[4]。当待评价品有对比品时,如果试验目的是证明待评价品的诊断准确性高于对比品,则选择优效试验;如果试验目的是证明待评价品的诊断准确性与对比品相比处在某个预先确定的等效界值范围内,则选择等效试验;如果试验目的是证明待评价品的诊断准确性与对比品相比不低于某个预先确定的非劣效界值,则选择非劣效试验。

2.4 评价指标选择

通常应该选择灵敏度和特异度作为诊断研究的主要评价指标[7],因为灵敏度和特异度不受患病率影响[9]。可根据待评价品的用途进行选择,例如,用于临床筛查时可选择灵敏度作为主要评价指标,用于对疑似患者进行临床诊断时可选择灵敏度和特异度作为共同主要评价指标,用于验证临床筛查或诊断结果时可选择特异度作为主要评价指标。

当诊断结果为定量结果时,可选择ROC曲线下面积作为主要评价指标[11,13]。ROC曲线下面积不受患病率影响,可通过图形直观展示诊断准确性的综合表现,不需要选择一个特定的决策截断值,因为所有可能的决策截断值均已包含在图形中,但缺点是图形不能直接显示出决策截断值和受试者数量的具体数字[13]。

不推荐使用符合率(准确度)和Kappa值作为主要评价指标,因为诊断一致性并不意味着诊断准确性[7]。

评价诊断准确性的其他指标,如似然比、预测值等,可作为诊断研究的次要评价指标。预测值受患病率影响[9]。

2.5 目标值和界值确定

对于无对比品的待评价品,需要预先确定目标值,目标值是专业领域内公认的诊断本病的准确性应该达到的最低标准[4]。对于有对比品的待评价品,当选择优效试验时,优效界值通常默认为0,也可以预先确定大于0的优效界值; 当选择等效或非劣效试验时,需要预先确定等效或非劣效界值。由于待评价品不同于治疗药物,不存在安慰剂对照研究,无法采用治疗药物的等效或非劣效界值确定方法。因此,无论是目标值和大于0的优效界值还是等效或非劣效界值,均需要由国内诊断本病水平较高的多位临床医生与生物统计学家共同讨论确定。

当主要评价指标中包含灵敏度和特异度时,应该分别确定各自的目标值或界值。

2.6 试验假设建立

根据选择的对比品、试验类型和评价指标以及确定的检验界值,建立对应的优效、等效或非劣效试验假设,并应该说明所采用的是单侧还是双侧检验。单侧检验的I类错误概率往往为双侧检验的一半。若采用单侧检验,应该说明理由。

2.7 样本量估算

对于诊断研究的样本量估算,可参考《药物临床试验的生物统计学指导原则》中关于样本量的阐述[18],暂且采用基于率差的样本量估算公式进行优效(含目标值比较)、等效或非劣效试验的样本量估算。估算样本量时应该将受试者脱落的情况考虑在内。

当选择灵敏度和特异度作为多个或共同主要评价指标时,应该使用灵敏度估算待评价品组或对比品组患本病的受试者数量,使用特异度估算待评价品组或对比品组未患本病的受试者数量。待评价品组或对比品组患本病和未患本病的受试者数量之和作为该组的样本量,两组的样本量之和作为诊断研究的总样本量。若只选择灵敏度和特异度的其中之一作为主要评价指标时,则仅使用被选指标所估算的待评价品组或对比品组的样本量作为该组的样本量,两组的样本量之和作为诊断研究的总样本量。当选择ROC曲线下面积作为主要评价指标时,应该使用该指标所估算的样本量作为诊断研究的总样本量。无论是选择灵敏度和特异度还是选择ROC曲线下面积作为主要评价指标时,在样本量构成中患本病和未患本病的受试者数量相当将有利于提高诊断研究的效率[13]。

样本量估算还应该考虑药物安全性评价的要求[3,19]。当按照诊断准确性估算的样本量不低于安全性评价要求的样本量时,以前者为准;当低于安全性评价要求的样本量时,以后者为准。

2.8 受试者选择

当使用灵敏度和/或特异度估算样本量时,纳入的受试者应该包括用金标准诊断为患本病的和/或未患本病的人。患本病的人应该覆盖不同疾病状态,如典型和非典型症状、早中晚期、轻中重度等;未患本病的人应该包括需与本病进行鉴别诊断的病例以及健康人[5]。如果入选的受试者不能充分代表预期待诊断的人群,则对诊断准确性的估计可能会产生偏倚[7]。当使用ROC曲线下面积估算样本量时,纳入的受试者应该是自然状态下前来就诊的疑似本病患者,不应该被事先用金标准诊断为患本病和未患本病[13]。但在自然状态下,受患病率影响,无法确保临床试验过程中用金标准诊断的患本病和未患本病的受试者数量相当。

2.9 受试者分组及随机化

所有受试者均须接受金标准的诊断。除了金标准之外,如果伦理上允许对每个受试者均使用待评价品和对比品进行诊断,则可以采用配对设计[12,17],随机分配每个受试者接受待评价品和对比品诊断的先后次序。两次诊断之间应该有足够的洗脱期,以避免第一次诊断的残留效应[4]。如果伦理上不允许,则采用非配对设计,随机分配每个受试者进入待评价品组或对比品组,即每个受试者仅随机接受其中一次诊断[12]。针对非配对设计,可以采用独立样本率差的样本量估算公式确定样本量;针对配对设计,从保守角度可以使用非配对设计的一半样本量,也可以采用相关样本率差的样本量估算公式确定样本量。如果伦理允许,原则上应该使用配对设计,因为采用非配对设计可能会导致基于抽样误差的错误结论[13,16]。

2.10 盲法

对于诊断研究的盲法操作,可参考《药物临床试验的生物统计学指导原则》中关于盲法的阐述[18]。原则上要求对金标准、待评价品和对比品设盲[13]。在对金标准或其诊断结果设盲的基础上,理想情况是对待评价品和对比品设盲,如果用药方式一致,可通过在外观(剂型、形状、颜色、气味)上的一致性保持盲态,如果用药方式有差异,可采用双模拟技术保持盲态;若无法对待评价品和对比品设盲,则应该对待评价品和对比品的诊断结果设盲,例如采用盲态数据审核或第三方盲态评价[4]。盲态保持程度,即诊断研究参与者(受试者、研究者、评价者、申办方等)对诊断结果的知晓程度,需要根据诊断研究的操作规程进行具体分析。

若对金标准、待评价品和对比品及其诊断结果设盲有相当的困难或根本不可行时,可以采用开放性诊断研究,其理由必须在诊断研究方案中详细说明,并须确保这种信息开放不影响受试者的随机化诊断次序或分组,方案中还须有控制偏倚的具体措施,例如所有的诊断评判标准应该是客观的和可追溯的。

3 统计分析要点

对于诊断研究的统计分析,可参考《药物临床试验的生物统计学指导原则》中关于统计分析的阐述[18]。

3.1 统计分析集

理论上遵循意向性治疗的原则(ITT)需要对所有随机化受试者的诊断结果进行完整记录,但在实际中很难实现,因而也常采用全分析集(FAS)来描述尽可能完整且接近于包括所有随机化受试者的分析集。符合方案集(PPS)是FAS的一个子集,其受试者应该完成事先设定的诊断,可以获得主要评价指标的数据,未对临床试验方案有重大的违背。安全集(SS)通常应该包括所有随机化后至少接受一次待评价品和/或对比品诊断且有安全性评价数据的受试者。

须同时采用FAS和PPS进行统计分析。当两种数据集的分析结论一致时,可以增强临床试验结果的可信性。当不一致时,应该对其差异进行讨论和解释。如果PPS的受试者数量太少,则将影响临床试验结果的可信性。

3.2 统计分析方法

无论采用参数或非参数方法,对主要及次要评价指标的估计应该给出效应大小、置信区间和假设检验结果。一般采用95%置信区间。对主要评价指标的估计除受药物作用之外,常常还有其他因素的影响,如受试者的基线情况、不同治疗中心受试者之间差异等因素,这些因素在统计分析中可作为协变量处理。多中心诊断研究中,不同中心在受试者基线特征、临床实践等方面可能存在差异,导致各中心效应不尽相同,因此对主要评价指标的估计进行统计分析时需要考虑中心效应的影响。

3.3 统计推断

对于无对比品的待评价品与目标值的比较,如果待评价品的诊断准确性的估计值的置信区间下限大于目标值,则仅能认为待评价品的诊断准确性达到了专业领域内公认的最低标准,无法推断出优效、等效或非劣效结论[4]。

对于有对比品的待评价品,如果是优效试验,待评价品相对于对比品的诊断准确性差异的估计值的置信区间下限大于优效界值,则可推断出待评价品优效于对比品的结论;如果是等效试验,待评价品相对于对比品的诊断准确性差异的估计值的置信区间处在等效界值范围内,则可推断出待评价品等效于对比品的结论;如果是非劣效试验,待评价品相对于对比品的诊断准确性差异的估计值的置信区间下限大于非劣效界值,则可推断出待评价品非劣效于对比品的结论。

在使用ROC曲线下面积进行统计推断时,必须先对图形进行目视检查,而不能仅依赖于数字信息进行整体度量的比较[13]。

3.4 亚组分析

可按照年龄、性别、症状、体征等对主要评价指标的估计进行亚组分析,探索具有特殊临床意义的亚组间差异。由于亚组分析通常是小样本,且未按亚组随机化,故对亚组分析的解释应当慎重,通常只能作为探索性研究的参考。

3.5 多重性比较

当有多个主要评价指标时,或者将重要的次要评价指标也纳入到关键性证据中,或者如果宣称的诊断准确性是基于作为主要评价指标的复合指标中某个或某些成分时,需要考虑多重性比较以控制I类错误概率。多重性比较的处理方法有多种,如闭合检验程序、固定顺序检验等。

3.6 安全性分析

对安全性分析通常采用描述性统计分析方法,必要时辅以置信区间进行说明。安全性指标可根据其重要性及与药物的相关性划分为不同的类别,对应地可采用不同的统计分析方法:

① 对于重要性较低且与药物的相关性较弱的安全性指标,可采用描述性分析方法;

② 对于重要性适中且与药物有一定相关性的安全性指标,建议加入置信区间分析;

③ 对于重要性较高且与药物的相关性较强的安全性指标,可提供相应的统计检验P值以供参考。

4 面临的技术挑战

4.1 对比品的使用

开展诊断研究时,有时可能会出现误用对比品进行比较的情况。例如,在不使用金标准的情况下误将待评价品与对比品直接进行比较,计算灵敏度、特异度等。然而,灵敏度和特异度属于诊断准确性指标,只有与金标准进行比较时才能使用;与对比品比较时只能使用符合率、Kappa值等诊断一致性指标[7]。再例如,当与对比品比较时发现符合率和Kappa值较高,误认为待评价品的诊断准确性较高。实际上,诊断一致性高并不意味着诊断准确性高。当两种诊断方法的灵敏度和特异度都很差时,诊断一致性也可能会很高;当两种诊断方法的一致性很低时,并不能说明待评价品的诊断结果是错误的而对比品是正确的[7]。

4.2 金标准的诊断准确性

金标准的诊断准确性是开展诊断研究的基石。无论是既定金标准还是构建金标准,在实践中大多数都不是完美的。如果诊断研究结果显示待评价品的诊断准确性不佳,则或许是由于金标准没有准确地诊断每个受试者的真实患病情况,以致于待评价品的诊断结果可能反映了真实患病情况但与金标准的诊断结果不一致[13]。因此,在诊断研究中,尽最大可能提高金标准的诊断准确性是非常重要的。如果诊断研究没有合适的金标准,诊断结果的准确性更加难以保证,则对待评价品的评估会变得更加复杂,需要采用更多的分析方法以避免产生偏差[16]。

4.3 诊断结果的复杂性

诊断结果的复杂性表现为诊断结果分类的复杂性。诊断结果除了简单的二分类之外,还存在着有序分类,即有次序的两个以上的类别[7,20]。此外,还有部分诊断结果的分类情况“不确定”,即不能被明确分到既定的类别中,如结果无效、结果缺失或结果不可理解等[20]。本文对诊断研究的阐述是基于二分类的诊断结果。对于有序分类结果,尚无公认的针对诊断准确性的统计分析方法,需要更多的专家学者参与讨论[7,17]。对于“不确定”分类结果,将其从统计分析集中剔除必须要慎重,因为这会人为地提高诊断研究中待评价品和对比品的诊断准确性[20]。鉴于此,在诊断研究中,不应该忽视或直接弃掉“不确定”结果,鼓励申办方清楚地报告所有“不确定”结果及其在统计分析阶段的处理方法[7,20]。

4.4 受试者的诊断时机

通过金标准先诊断再纳入受试者的入选方式可以确保患本病和未患本病的受试者数量相当,但无法确保受试者覆盖不同的疾病状态;如果受试者不包含完整的疾病状态,会影响对诊断准确性的估计[7],而且诊断后挑选受试者容易产生高估的灵敏度和特异度[16]。在自然状态下先纳入前来就诊的疑似患者再用金标准进行诊断的入选方式易于操作,且能够覆盖不同疾病状态,但是受患病率影响,无法确保患本病和未患本病的受试者数量相当。若受试者分组采用配对设计,同一受试者需接受待评价品和对比品的诊断,理论上两次诊断应该在同一时点进行,否则会导致诊断结果的偏倚,因为受试者在不同时点的患病情况可能不同[13]。但为了避免残留效应,两次诊断之间需要足够的洗脱期,所以在实践中无法做到[4]。

4.5 样本量的估算

对于诊断研究,确定要选择什么样的的子集(患本病和/或未患本病),子集样本量需要多大,以及如何计算检验效能,这些都是目前生物统计学研究的活跃领域[7]。有部分专家学者讨论了不同情形下诊断研究的样本量估算,例如,LU等[14]利用交叉联合检验原理推导出基于配对设计的非劣效诊断研究的样本量估算公式,HESS等[15]所讨论的样本量估算公式是基于预期的灵敏度和特异度的置信区间的定量精度,HANLEY等[21]提供了配对设计的两条ROC曲线下面积比较的样本量估算方法,OBUCHOWSKI等[22]推导出二元正态ROC曲线参数的方差和协方差的近似大样本估计。但目前在此领域尚未形成共识。为此,本文暂且推荐采用治疗研究中基于率差的样本量估算公式。此外,样本量估算涉及到检验界值的确定,如目标值以及优效、等效或非劣效界值。但对于诊断研究的检验界值确定尚无统一和规范的方法学,仅能依靠临床医生与生物统计学家共同讨论确定,存在一定程度的主观性,会影响样本量估算的准确性。

4.6 适应性设计的应用

适应性设计近年来非常流行,由于试验效率较高,逐渐开始广泛应用于临床试验,主要用于治疗研究中。目前,在诊断研究领域,虽然适应性设计的应用仍不常见,但已有专家学者开始对此进行讨论。例如,CHANG等[23]开发了一个针对配对设计二分类数据的优效和非劣效试验的适应性设计方法,利用该方法可以节省20%的预期样本量;GERKE等[12]比较了治疗研究和诊断研究中适应性设计的异同点,认为适应性设计在诊断研究使用的主要目的是在缺乏样本量估算的先验信息时对估算的样本量进行再调整,有助于减少检验效能不足和过大的研究。虽然适应性设计在诊断研究中有明显的优点,但考虑到诊断研究的样本量估算方法本身还有待进一步探讨,所以在当前诊断研究中应用适应性设计还缺乏足够的理论基础。

与治疗药物相比,体内诊断药物的数量较少,因此这类药物的临床试验很容易被忽视,以致于诊断研究的指导原则非常匮乏。但是,有效治疗的前提是正确诊断,所以体内诊断药物的临床试验也需要被重视。考虑到诊断研究不同于治疗研究,为了使诊断研究的主要特性能被充分理解,本文从诊断准确性的基本概念入手,讨论了临床试验设计和统计分析的要点,并阐述了所面临的技术挑战。由于尚未积累起足够的开展诊断研究的经验,所以本文可能存在遗漏和错误,有待在实践中被检验和指正。本文的目的是为申办方开展诊断研究提供技术参考,但由于文中内容多是原则性描述,缺少可操作性,且开展诊断研究面临较多的技术挑战,因此鼓励申办方在制定临床试验方案和统计分析计划的过程中积极主动与监管机构沟通交流,共同化解技术难题。

[1]孙东风,李卫华,臧照书,等.药品监督管理简明词语手册[M].北京: 中国医药科技出版社,2003: 22.

[2]全国人民代表大会常务委员会. 中华人民共和国药品管理法[J].中华人民共和国全国人民代表大会常务委员会公报,2015,3 : 626-636.

[3]国家食品药品监督管理总局. 药物临床试验的一般考虑指导原则[EB/OL].北京: 国家食品药品监督管理总局,2017-01-20

[2019-07-01].http://samr.cfda.gov.cn/directory/web/WS01/

images/MjAxN8TqtdoxMbrFzai45ri9vP4uZG9jeA==.docx.

[4]国家食品药品监督管理总局. 医疗器械临床试验设计指导原则[EB/OL].北京: 国家食品药品监督管理总局,2018-01-08 [2019 -07-01].http://samr.cfda.gov.cn/directory/web/WS01/images/MjAxOMTqtdo2usXNqLjmuL28i5kb2M=.doc.

[5]国家食品药品监督管理总局. 体外诊断试剂临床试验技术指导原则[EB/OL].北京: 国家食品药品监督管理总局,2014-09-11 [2019-07-01].http://samr.cfda.gov.cn/directory/web/WS01/images/MjAxNMTqtdoxNrrFzai45iC4vbz+LmRvY3g=docx.

[6]BOSSUYT P M,REITSMA J B,BRUNS D E,et al.Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative [J].BMJ,2003,326(7379): 41-44.

[7]U. S. Department of Health and Human Services,U. S. Food and Drug Administration. Statistical Guidance on Reporting Results from Studies Evaluating Diagnostic Tests[EB/OL].Silver Spring,MD,USA: U. S. Food and Drug Administration,2007-03-13

[2019-07-01].https://www.fda.gov/media/71147/download.

[8]NCCLS. User Protocol for Evaluation of Qualitative Test Performance; Approved Guideline [M].Wayne,PA,USA: NCCLS,2002: 1-21.

[9]詹思延,叶冬青,谭红专. 流行病学(第8版)[M].北京: 人民卫生出版社,2017: 120-139.

[10]LANDIS J R,KOCH G G. The measurement of observer agreement for categorical data[J].Biometrics,1977,33(1) : 159-174.

[11]JIN H,LU Y. A non-inferiority test of areas under two parametric ROC curves[J].Contemp Clin Trials,2009,30(4) : 375-379.

[12]GERKE O,HOILUND-CARLSEN P F,POULSEN M H,et al.Interim analyses in diagnostic versus treatment studies: differences and similarities [J].Am J Nucl Med Mol Imaging,2012,2 (3) : 344-352.

[13]NCCLS. Assessment of the Clinical Accuracy of Laboratory Tests Using Receiver Operating Characteristic (ROC) Plots; Approved Guideline[M].Wayne,PA,USA: NCCLS,1995: 1-16.

[14]LU Y,JIN H,GENANT H K. On the non-inferiority of a diagnostic test based on paired observations[J].Stat Med,2003,22(19) : 3029-3044.

[15]HESS A S,SHARDELL M,JOHNSON J K,et al.Methods and recommendations for evaluating and reporting a new diagnostic test[J].Eur J Clin Microbiol Infect Dis,2012,31(9) : 2111-2116.

[16]STRASSLE P,HESS A S,THOM K A,et al.Assessing sensitivity and specificity in new diagnostic tests: the importance and challenges of study populations[J].Infect Control Hosp Epidemiol,2012,33(11) : 1177-1178.

[17]LIU J P,MA M C,WU C Y,et al.Tests of equivalence and non-inferiority for diagnostic accuracy based on the paired areas under ROC curves [J].Stat Med,2006,25(7) : 1219-1238.

[18]国家食品药品监督管理总局. 药物临床试验的生物统计学指导原则[EB/OL].北京: 国家食品药品监督管理总局,2016-06-03[2019-07-01].http://samr.cfda.gov.cn/directory/web/WS01/images/MjAxNsTqtdo5M7rFzai45ri9vP4uZG9jeA==.docx.

[19] 国家食品药品监督管理局. 药品注册管理办法[EB/OL]. 北

京: 国家食品药品监督管理局,2007 - 07 - 10 [2019 - 07 - 01].http://samr.cfda.gov.cn/jl28/fj1.rar.

[20]SHINKINS B,THOMPSON M,MALLETT S,et al.Diagnostic accuracy studies: how to report and analyse inconclusive test results[J].BMJ,2013,346: f2778.

[21]HANLEY J A,MCNEIL B J. A method of comparing the areas under receiver operating characteristic curves derived from the same cases[J].Radiology,1983,148(3) : 839-843.

[22]OBUCHOWSKI N A,MCCLISH D K. Sample size determination for diagnostic accuracy studies involving binormal ROC curve indices[J].Stat Med,1997,16(13) : 1529-1542.

[23]CHANG M,WANG J. Adaptive superiority and noninferiority trial design with paired binary data[J].Am J Biostat,2015,5 (2): 52-60.

作者:李新旭,周军,唐智敏,王骏(国家药品监督管理局药品审评中心)

选自:中国临床药理学杂志 2019年10月 第35卷 第20期 2639-2648

进入金玉良研订阅号(jylydyh),点击“研论”:

点击“ CJCP ”(《中国临床药理学杂志》缩写),即可看到“往期目录”和“精选文章”。

往期目录: 沉淀《中国临床药理学杂志》近两年往期期刊目录,已发表的优质文章清单,一览无余!

精华文章: 淬选《中国临床药理学杂志》临床研究相关精华文章,深度、前沿、权威,人人皆可共享!

尽悉临床研究动态,尽享临床研究新知!

除金玉良研原创文章外,他人通过本平台发布的原创文章及转载文章观点仅代表原作者本人,不代表本平台立场。所发文字、图片仅用于学习交流使用,并在显要位置注明出处来源,如有侵权请联系删除! 返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。