利用借助正则化组合多个微型分类器的分类器生成方法及其应用与流程

文档序号:13674489阅读:234来源:国知局
相关申请的交叉引用本申请依照35U.S.C§119(e)要求递交于2014年4月4日的在先美国临时申请US61/975,259、以及递交于2013年9月16日的在先美国临时申请US61/878,110的优先权,在此以援引方式纳入这些临时申请的内容。技术领域本公开涉及用于生成用于对样本(例如生物样本)进行分类的分类器的方法和系统。本公开的特征在于滤过的(过滤后的)多个微粒子型或“微型的”分类器的组合,这些微型分类器是根据正则化的组合方法组合的,例如通过对分类群组标签进行逻辑训练和丢弃正则化(drop-outregularization),以及在逻辑回归训练和丢弃正则化之后,从上述滤过的微型分类器产生主分类器(masterclassifier)。与在大型训练数据集可用的情况下聚焦于开发分类器的机器学习的标准应用相比,在生物生命科学中大数据挑战的问题设定是不同的。这里,我们的问题在于,通常从临床研究产生的可用样本的数量n是有限的,而与每个样本相关联的属性参数(检测值)p的数量经常超出样本数量。与从许多个实例中获得信息的方式不同的是,在这些深层次数据问题中,人们尝试从各个单独的实例的深度描述中取得信息。正如将在详细说明部分中的多个示例中所论述的那样,本公开的方法在p>>n的情况下的分类问题中效果尤其好

背景技术:
本发明人先前的递交于2013年3月15日的美国专利申请US13/835,909描述了基于血液的样本的质谱数据的分类,用以对受益于基于酵母的免疫疗法的癌症患者进行预测,其包括由肯塔基州Louisville(路易斯维尔市)的GlobeImmune股份有限公司开发的药物GI-4000。在此以援引方式纳入该专利申请‘909’的全部内容。该文献中对深度MALDI质谱方法的描述、连同递交于2013年3月15日的美国专利申请US13/836,436同样在此以援引方式纳入本文。感兴趣的读者可以特别参考专利文献‘909’的这一章节和‘436’的内容。简言之,GI-4000为一种基于酵母的免疫疗法,其针对常见于胰腺癌的RAS突变。GlobeImmune公司已开展了第二阶段的研究,以评估与在辅助疗法(adjuvantsetting)中单独使用吉西他滨(gemcitabine)相对比,这种与吉西他滨结合的疗法的功效。尽管总体结果不够清晰,但有迹象表明某些子群组可通过GI-4000受益。对后续数据的详细分析也显示,对于某些患者,GI-4000确实能够激励酵母特性的免疫反应(免疫应答)。本发明人的受让人Biodesix股份有限公司(肯塔基州Boulder市)已研发出先进的的质谱分析技术,其与复杂数据分析算法和新的学习理论方法相结合,进而能够开发通过血清或血浆样本进行的预测性分析。这些技术已引发了对商业上可行的分析的研发,其在临床上用于通过治疗前样本来预测二线非小细胞肺癌对于埃罗替尼(erlotinib)的抗性。在美国专利US7,736,905中详细描述了这种VeriStrat测试,其内容在此以援引方式被纳入。我们将Biodesix分析开发平台应用于来自GI-4000实验(trial)的样本,以开发用于在胰腺癌辅助治疗中选择将会因在吉西他滨中加入GI-4000而受益的患者的测试。尽管先前在这一问题上的尝试显示是有作用的,但由于可用样本集的规模小,因此性能评估受限于交叉验证结果。我们开发出了一种如本文中所说明的新的分类器生成方法。如下文所说明的,使用新开发的训练算法,我们能够将可用样本划分成合适的训练及测试集。如此极大地增强了我们在开发成果的普遍适用性方面的信心。本文在示例1中描述了在针对受益于GI-4000+吉西他滨的患者的预测性测试的开发中使用的方法以及这种成果,作为这里描述的分类器开发方法的生成和使用的一个示例。还描述了用于预测受益于抗癌药物的患者的另一个分类器及方法的开发的示例。此示例以非小细胞肺癌(NSCLC)、表皮生长因子受体抑制剂(EGFR-Is)和化疗药物为背景。所描述的另一个示例是从基因组数据(genomicdata)生成分类器,在此示例中,信使RNA(mRNA)转录来源于取自患有乳腺癌的人的肿瘤样本的表达水平。此分类器对于乳腺癌患者是否具有早期复发风险进行预测。然而,正如从下文的论述中将看到的,此方法对于分类问题,尤其是p>n的那些情况下是普遍适用的,下文的详细描述是以例举方式给出的,不是用于限制。

技术实现要素:
在第一个方面,下文描述了一种用于生成分类器的方法。该方法包括步骤a):从多个样本(例如血液、组织或其它类型的生物样本)获得用于分类的物理检测数据。用于对每个样本进行分类的数据是由众多的特征值(例如,质谱数据中的处于特定m/Z范围的积分强度值、与mRNA转录关联的荧光强度检测、蛋白质或基因表达水平)以及相关联的分类或群组标签组成的。所述分类或群组标签可采用各种形式(特定的名字并不是特别重要的);该分类或群组标签在分类器的生成中可被迭代地定义,且在一些实施例中可具有某些诊断或治疗的意义或属性。该方法还包括步骤b):利用来自上述样本的达到预选的特征集大小(s,整数)的多组特征值构建大量独立的微型分类器。例如,针对多个独立的特征(s=1)和/或多对特征(s=2)构建多个微型分类器。例如,如果初始的特征集包含100个特征,则对于s=1,微型分类器的数量将为100,而对于s=2该数量则为4950=100×99/2。这些微型分类器执行一分类算法(如k-最近邻居算法),在该算法将一样本实例的一特征或多对特征的数值被与训练集中相同的一个或多个特征的数值相对比,特征空间中的最近邻居(例如k=5)的数值被识别,并且借助过半数投票(majorityvote),由每个微型分类器将一个分类标签分配给该样本实例。还可使用其它的分类方法来替代k-最近邻居算法,例如基于树的分类、线性判别式(lineardiscriminants)、支持向量机等等。应理解的是,可以使用更大的s值,且可能的特征组合的数量将增大,这导致计算机资源需求变得更大。该方法还包括步骤c):测试多个独立的微型分类器的性能,以对众多的生物样本中的至少一些(例如训练集、整个开发集的子集)进行分类,并且仅保留那些分类准确度、预测能力或者任何其它合适的性能指标超过预定义阈值的微型分类器,进而得出滤过的(删减后的)一组微型分类器。该方法还包括步骤d):通过利用正则化的组合方法组合那些滤过的微型分类器来生成主分类器。在一个实施例中,这种正则化的组合方法采用重复地执行从滤过的那组微型分类器到针对样本的分类标签的逻辑训练。这是通过从滤过的那组微型分类器中作为实施极端丢弃法的结果而随机地选择滤过的微型分类器中的一小部分(一种技术,此处称作“丢弃法正则化”),并对如此选定的微型分类器执行逻辑训练来实现的。在该方法的步骤e)中,上述样本是被随机地分成测试集和训练集的一组样本,并且针对将所述样本集分成测试集和训练集的不同划分实现(realization),在编程后的计算机中重复步骤b)到d),从而生成多个主分类器,针对将所述样本集分成训练集和测试集的每一种划分实现生成一个主分类器。该方法还包括步骤f):从上述多个主分类器中的一个、或者从这些主分类器中的多于一个的组合限定一最终分类器。此最终分类器能以各种方式被限定,其中包括通过从上述多个主分类器中选择具有典型的或有代表性的性能的单个主分类器、通过全部主分类器过半数投票、通过改进的过半数投票(下文中说明)、通过加权的过半数投票或者其它方式。该方法实质上可以宽泛地应用到生物科学中的具有不同类型的样本数据的各种可能的分类问题。在本文中,我们描述了从质谱数据生成分类器的生成方法的若干示例及其应用。我们还描述了一个示例,其中从基因组数据生成分类器,在此示例中该基因组数据是来自组织样本的mRNA转录表达水平。由此生成的这些分类器能被用于预测性测试。在一个示例中,该方法生成用以将基于血液的样本分成两类中的一类的分类器,作为用来预测胰腺癌患者是否有可能从药物的组合中获益的测试,在此情况中是基于酵母的免疫疗法药物(GI-4000)+吉西他滨被用于胰腺癌的治疗中。另一个示例生成这样一种分类器,其用于将来自基于血液的样本的质谱分类成三个类中的一个,以指导非小细胞肺癌(NSCLC)患者的治疗,其包括预测患者是否有可能从表皮生长因子受体抑制剂(EGFR-I)获得比化疗药物更大的益处。在该基因组的示例中,该分类器预测乳腺癌患者是否处于乳腺癌早期复发的风险。在另一个方面,描述了一种分类生成系统,其包括一通用计算机,该计算机具有处理单元和存储用于众多样本的分类的数据的存储器,针对每个样本的数据是由众多的特征值和分类标签组成的。存储器存储程序代码用于:1)利用来自这些样本的达到预选特征集数量(s,整数)的多组特征构建大量独立的微型分类器;2)测试这些独立的微型分类器对众多的生物样本中的至少一些样本进行分类的性能,并保留那些分类准确度或其它的性能指标超过预定义阈值的微型分类器以得出一组滤过的微型分类器;3)通过利用正则化组合方法组合上述滤过的微型分类器,生成主分类器;4)针对将样本集分成测试集和训练集的不同划分实现,重复步骤1)至3),从而生成多个主分类器,其中针对将所述样本集分成训练集和测试集的每一种划分实现生成一个主分类器,以及5)从上述多个主分类器中的一个、或者从上述多个主分类器中的多于一个的主分类器的组合限定一最终分类器。在一个实施例中,执行组合步骤3)的程序代码通过随机地选择滤过的微型分类器的一小部分(极端丢弃法)并对如此选定的微型分类器执行逻辑训练,重复地执行那组滤过的微型分类器到用于样本的分类标签的逻辑训练。如下文所进一步详细说明的那样,也可以使用其它的正则化的组合方法。上述最终分类器可通过各种方法被限定,例如被限定为主分类器的集合的加权平均、被限定为显示出“典型”性能的特定的训练/测试集划分而得到的一个主分类器、被限定为来自样本集数据的训练/测试划分的集合的主分类器的过半数投票,或者其他方式。该分类生成系统还可包括用于获得在分类中使用的数据的质谱仪。该分类生成系统可被具现化为对样本(诸如基于血液的样本)进行操作的实验室测试中心,从而关于这些样本是否与有可能受益于一种药物或多种药物的组合的患者相关联做出预测。或者,该分类生成系统可包括基因组或蛋白质微阵列分析平台(例如,诸如由Affymetrix股份有限公司所提供的基因或mRNA表达谱(expressionprofiling)芯片或者等同物),其从一个样本(例如组织或其它生物样本)获得众多的基因、蛋白质或者mRNA表达谱。通常,这种样本数据还与某些临床的数据和群组或分类属性关联,诸如提供该样本的患者患有或未患癌症,对某些治疗有无响应(应答),是早响应者还是晚响应者,癌症的早复发还是晚复发,等等。上述临床的数据由此可包括用于样本的分类标签。一旦根据本发明的方法从检测数据和分类标签生成了上述分类器,则获得待分类的样本,并获得用于样本的检测数据,该数据被供给到分类器。该分类器生成针对患者的分类标签,例如响应者/非响应者,癌症/非癌症,复发的风险高/风险低,等等。在又一个方面,描述了一种实验室测试中心,其包括:一种检测系统,用于对测试样本执行物理试验过程并获得用于分类的数据(例如质谱仪或基因表达分析平台);以及实现如这里所描述的最终分类器的编程后的计算机,其中该编程后的计算机是可操作的以对从该测试样本获得的用于分类的数据进行分类。在另一个方面,公开了一种对生物样本进行分类的方法。该方法包括步骤a):根据上文描述的方法生成分类器(获得分类数据、构建微型分类器、对这些微型分类器进行过滤,并利用正则化的组合方法将它们组合而生成主分类器);步骤b);执行对生物样本的检测,进而获得属于此生物样本的一组特征值,用以在此生物样本的分类中使用;以及步骤c):在编程后的计算机中执行将在步骤a)中生成的分类器应用到在步骤b)中获得的特征值的操作,并产生用于生物样本的分类标签。在又一个方面,公开了一种用于对测试样本进行分类的方法。该方法包括如下步骤:a)使测试样本经历检测过程(例如质谱分析法),并响应性地生成用于众多的特征的一组数值(例如m/z峰值位置);b)使至少一个基准样本经历与步骤a)中相同的检测过程,并响应性地生成一特征值基准集合;c)在编程后的计算机中,通过一个已定义的特征修正函数,修正在步骤a)中生成的对应于该测试样本的这些特征值,该特征值修正函数是从在步骤b)中生成的特征值基准集合获得的;以及d)借助该编程后的计算机,利用该分类器和修正的特征集合执行样本的分类。在又一个方面,公开了一种分类器生成的方法,其包括如下步骤:通过对样本集的物理检测(例如质谱数据、基因组表达数据等等),获得呈众多特征值的形式的数据的开发样本集,此开发样本集包括分配给开发样本集的每个成员的分类标签;借助于计算机,基于该开发样本集生成分类器;评价该分类器的性能;为在评价步骤中被识别为持续地被错误分类的该开发样本集的子集的每个成员分配新的分类标签;借助于计算机,基于包括具有新的分类标签的子集的开发样本集生成新的分类器;以及评价新的分类器的性能。在一个实施例中,上述分类器和上述新的分类器是基于通过利用对从样本的开发集获得的训练集执行的正则化的组合方法(例如逻辑回归训练和丢弃法正则化)对滤过的一组微型分类器进行组合而生成的主分类器。在一个实施例中,上述分类器和新的分类器是从将开发样本集划分成训练集和测试集的众多的划分中获得的。在另一实施例中,上述方法还可包括在开发样本集数据中选择一组新的特征值的步骤。上述生成新的分类器的步骤是利用具有新样本的子集的开发样本集来执行的,该新样本具有新的分类标签和上述一组新的特征值。在利用基因组数据的CMC/D分类器开发的示例4中将会更详细说明此方法,但该方法可被应用于其它类型的数据组。本发明的再一个方面为一种分类器生成的方法,其包括如下步骤:(a)通过对一组样本的物理检测,获得呈多个特征值形式的数据的开发样本集,这组样本中的每一个都具有初始的类标签,其中该初始的类标签具有治疗或诊断属性;(b)将上述数据的开发样本集分成训练集和测试集,(c)借助于计算机,从一组滤过的微型分类器生成一主分类器,这组微型分类器是根据正则化的组合方法组合的;(d)评价该主分类器的性能;(e)将此开发样本集划分成新的训练集和测试集实现;(f)针对训练集和测试集的不同实现,重复地迭代步骤(c)、(d)和(e),从而生成多个主分类器;以及(g)从一个或多个这些主分类器中限定一最终分类器。这一最终分类器可被限定为具有典型的性能的主分类器、被限定为所有的主分类器的过半数投票、通过改进的过半数投票、被限定为加权平均,或者利用其它一些组合方法附图说明图1是GI-4000研究的治疗方案(treatmentarm)中的受试者的TTR(复发时间)的Kaplan-Meier图,其中示出了将受试者分为早复发群组和晚复发群组的划分。图2是示出将受试者划分成多个分类(早复发群组和晚复发群组)及划分训练集和测试集的划分方式的框图。图3示出在由所创建的第一CMC/D分类器生成的GI-4000测试集中被分类为早的概率的累积频率。利用0.5的标准概率界限(standardprobabilitycutoff)而将多个样本分类为“早”或“晚”。图4示出由第一CMC/D分类器生成的测试集分类的TTR的多个Kaplan-Meier图。图5A是在由所创建的第一CMC/D分类器生成的GI-4000方案测试集中被分类为“早”的概率的累积频率的图。图中示出了利用调整后的0.75的概率界限将多个样本分类为晚(早)。图5B是由对应于测试集分类的TTR的多个Kaplan-Meier图组成的,这些测试集分类是由第一CMC/D分类器利用调整后的0.75的概率界限生成的。图6A是示出对应于GI-4000测试集的“早”和“晚”的分类之间的风险比(HR)的分布的直方图。图6B是示出对应于对照测试集的“早”和“晚”分类之间的风险比的分布的直方图。图6A和图6B是对应于60种训练/测试集实现的直方图。图7A和图7B是示出针对具有最初的分类标签(上部)和更新后的分类标签(下部)的60种训练/测试集实现,对应于GI-4000测试集(图7A)和对照测试集(图7B)的“早”和“晚”分类之间的风险比的分布的直方图。图8A和图8B是示出针对具有最初的分类标签(上部)和更新后的类标签(下部)的60种训练/测试集实现,GI-4000测试集相对于对照测试集的“早”和“晚”分类之间的风险比的比率(图8A)的分布的直方图,以及GI-4000测试集的晚群组与的对照测试集之间的中等TTR的差异(图8B)的直方图。图9示出针对四个候选的CMC/D分类器及其关联的性能度量的Kaplan-Meier图。四个分类器中的每一个均是在分类器生成过程中通过将可用的样本分为训练集和测试集的不同划分方式而获得的。图10A至图10D利用最初的结果数据(图面10A和10B)及更新后的结果数据(图面10C和10D)示出对应于选定的CMC/D分类器的TTR和总生存期(OS)的Kaplan-Meier图。对给定的分类器的性能度量是利用更新后的输出数据计算的。图10E至图10I是如图10C和图10D中所示的在GI-4000+吉西他滨研究课题中患者的无复发生存率(RFS)和总生存期(OS)的图,但被成对标绘以便于容易参照。图11是示出用于通过检测数据以及与分类器开发样本集中的样本关联的初始群组/分类标签的多种分配,生成CMC/D分类器的方法的详细流程图。图12是示出利用根据图11的用于示例3的(方法)生成的CMC/D分类器测试生物样本的测试方法的详细流程图。在图12中,在图的右手侧示出了多个附加的步骤,这些步骤是在引入依赖于特征的(feature-dependent)噪声特性以确保分类器的稳定性的情况中使用的。对该方法而言这些步骤并不被认为是必需的。图13是在示例3中所描述的NSCLC/EGFR-ICMC/D分类器中的分类标签的初始分配以及分成训练集和测试集的图示。图14A至图14F是针对在CMC/D分类器生成方法(图11中的步骤1134)中生成的PFS和OS的测试集的“早”和“晚”分类之间的风险比(HR)的分布的图。图14A至图14B对应于针对初始分类标签的PFS和OS,而图14B至图14F对应于在被频繁地错误分类的用于测试样本的类标签一次或两次翻转(flip)之后的PFS和OS。图15是阐示开发集与从相同的基准样本获得并通过方程1的一致性(concordance)准则的多个特征光谱的后续回馈(subsequentback)之间的特征值比率的图。图16A至图16D是示出在具有从开发集光谱分配的标签的NSCLC/EGFR-ICMC/D分类器开发集中的患者的时间事件(time-to-event)结果的Kaplan–Meier曲线。图16A示出针对以吉非替尼治疗的患者的OS;图16B示出针对以吉非替尼治疗的患者的PFS,图16C示出针对化疗的患者的OS,而图16D示出针对化疗的患者的PFS。图17是示出针对应用于PROSE样本集的NSCLC/EGFR-ICMC/D分类器的灵敏度校正的回归曲线的图。图18A和图18B是对以埃罗替尼(图18A)和化疗(图18B)治疗的患者而言,针对“晚”群组和“早/未知”(那些在最初的VeriStrat测试中测试VeriStrat为“良好”的患者)群组的总生存期的Kaplan-Meier的图。图19A和图19B是对以埃罗替尼(图19A)和化疗(图19B)治疗的患者而言,对应于针对“晚”群组和“早/未知”(那些在最初的VeriStrat测试中测试VeriStrat为“良好”的患者)群组的无进展生存率的Kaplan-Meier图。图20是按照用于示例3的治疗方式被分类为VeriStrat“不良”和“晚”的患者的总生存期的Kaplan-Meier图。图21是按照用于示例3的治疗方式的VeriStrat“良好”“早/未知”群组中的OS的Kaplan-Meier图。图22A是按照治疗方式的晚群组中的OS的Kaplan-Meier图;图22B是的按照治疗方式的晚群组中的PFS的Kaplan-Meier图。图23是图12中的平均的工作流程模块1206的图示。图24是图12中的预处理工作流程模块1212的图示。图25是图12中的将主分类器应用到修正的测试样本特征值和噪声特征值实现的模块1228和1234的图示。图26是用于利用根据图11生成的分类器处理测试样本的系统的图示,该系统包括:质谱仪;以及通用计算机,其实现一分类器和一存储器,该分类器被编码为机器可读的指令,而该存储器存储一带分类标签的质谱数据的训练集。图27是示出用于通过基因组检测数据和与分类器开发样本组中的样本关联的初始群组/分类标签的多种分配,生成CMC/D分类器的方法的详细流程图,与图11类似。在图27中,当将修正后的/翻转后的训练标签分配给在之前的方法的迭代中被错误分类的样本之后,以及定义了分类标签的新的定义之后,执行检测数据中的特征的重新选择。图28是阐示在图27的分类器开发方法的初次运行之后并且在特征的重新选择及针对被错误分类的样本的训练标签的翻转之前,基因组示例4中的开发集t-统计与验证集t-统计之间的关系的图。图29是阐示基因组示例4中的开发集t-统计量与验证集t-统计之间的关系的一系列图,示出了随着该方法的逐次迭代,并且借助针对被错误分类的样本的训练标签翻转以及随着该方法的每次迭代而对特征的数据的新选择,t-统计量的收敛。要注意的是,通过改善的分类群组标签分配以及该方法的每次迭代中的新的特征的选择,(如由t-统计图的形状所表示的)表达差异在开发及验证队列中变得相似。图30是对应于患者基因组示例4的Kaplan-Meyer生存率曲线图,示出了当患者的基因组数据被分类为“早”时,示例4的最终CMC/D分类器的预测患者是否可能具有乳腺癌早期复发的风险的能力。图31是针对示例4的mRNA乳腺癌早期复发分类问题,利用平均主分类器(MC)概率产生的受试者工作特征(ROC)曲线。图32A和图32B为SAM图,示出在借助标签翻转及随着每次翻转选择新的特征、分类器开发过程的三次迭代之后,针对示例4中的为了分类选定的特征从初始的一组特征(图32A)到最终的一组特征(图32B)的统计显著性的进展(progression)。具体实施方式在第一个方面,公开了一种用于生成分类器方法。通过该方法生成的分类器被用于将类标签分配给受试的样本。下文将在一组基于血液的样本的质谱数据的背景下以及来自组织样本的基因组数据(例如mRNA转录表达水平)的背景下描述该分类器生成方法。在下文所阐释的两个示例中,为了构建用以预测提供基于血液的样本的患者是否有可能受益于特定药物或药物组合的测试而生成该分类器。下文描述的第一个示例是以生成用于GI-4000+吉西他滨药物组合(用来治疗胰腺癌)的分类器为背景。下文描述的第二个示例是以生成用以预测与化疗相比,NSCLC患者在癌症治疗中是否有可能受益于EGFR-I的分类器为背景。然而,应当清楚,这里描述的该方法通用地适用于分类器开发,而并不局限于这些特定的示例。该分类器生成方法对于生物样本的质谱数据特别有用。然而,该方法对于其它类型的分类问题和其它类型的数据或样本集也同样有用。例如,对来自多组组织样本集的基因组数据(mRNA转录表达水平)执行该分类器生成方法。此分类器随之被用于预测乳腺癌患者早期复发的风险是高还是低。如之前所提到的,与当大型训练数据集为可用时聚焦于开发分类器的机器学习的标准应用相对比,在生物生命科学中大数据挑战的问题设定是不同的。这里,我们的问题在于,通常从临床研究产生的可用样本的数量是有限的,而属性参数的数量经常超出样本的数量。与从许多个实例中获得信息的方式不同,在这些深层次数据问题中,人们尝试从各个单独的实例的深度描述中取得信息。本公开的方法利用了这种思想。尽管理想的是,这些方法适合于那种用于分类器训练的可用样本的数量有限的分类器开发情形,但这些方法并非必须局限于这些情形。该方法包括第一步骤a):从众多的样本获得用于分类的检测数据,亦即,反映样本的某些物理性质或特性的检测数据。用于每个样本的数据是由众多的特征值和类标签组成的。例如,此数据可以是通过使样本经历某些形式的质谱分析(例如MALDI-TOF)而获得的质谱数据,此质谱数据呈多个特征值的形式(处于众多的m/Z范围或峰值上的积分峰值强度值),以及表示样本的某些属性(癌症/非癌症、早响应者/晚响应者,等等)的标签。或者,上述众多的特征值可以是来自特定样本(例如组织或血液)的基因组数据,例如荧光强度检测(其与基因表达水平关联)、mRNA表达水平等,也可以是类标签。此标签可具有诊断或治疗属性,且可由操作者定义。例如,此标签可以呈诊断标签(癌症/非癌症)的形式,表明该样本是否来自受益于某些特定药物或药物组合的患者(受益/非受益),或者呈表明该样本的其它一些性质或特性的标签形式,如该患者的疾病早复发还是晚复发(早/晚),病人的总生存期是良好还是不良(良好/不良),等等。此分类标签可预先以某些自动方式被分配,或者可以在分类器产生之前或产生之时由操作员分配,并且可基于将开发样本集划分为训练集和测试集的不同的划分方式,在主分类器的多次迭代的过程中被反复地定义,或者在初始的、试验性的标签被分配之后,在分类器性能的评价之后被反复地定义,正如从以下的论述中将领会到的那样。该方法还包括步骤b):利用来自样本的达到预选特征集大小s(s=整数1,……,n)的多个特征值集合构建大量独立的微型分类器。例如,可利用单个特征(s=1)、或一对特征(s=2)、或三个特征(s=3)乃至包含多于3个特征的更高阶的组合来构建多个独立的微型或微粒子型分类器。s的值通常选的足够小,以允许执行该方法的代码运行的时间量合理,但在某些可接受更长代码运行时间的情况下s的值可以选的更大一些。s的值的选择还可由数据集中检测数据值(p)的数量来指示,且其中p是几百、几千乃至几万的数值,s通常将是1或2,或者可能为3,这取决于可用的计算资源。上述微型分类器执行一监督式学习分类算法(如k-最近邻算法),在该算法中将针对一样本实例特征或多对特征的数值与训练集中相同的一个或多个特征的数值比较,识别特征空间中的最近邻(例如k=5)的数值,并且对于每个微型分类器,通过过半数投票将分类标签分配给该样本实例。在实践中,取决于用于分类的特征数量,可以有数千个这种微型分类器。该方法还包括过滤步骤c),也就是测试每个独立的微型分类器的性能(例如准确度),以对众多样本中的至少一些进行正确地分类,或者借助其它一些指标(例如在实验中由用于训练集样本的独立的微型分类器的分类限定的群组与临床实验的对照方案之间获得的多个风险比(HR)之间的不同)测量这些独立的微型分类器性能,并且仅保留那些分类准确度、预测能力或其它性能指标超过预定阈值的微型分类器,进而得出一组滤过的(删减后的)微型分类器。如果所选定的用于微型分类器过滤的性能指标是分类准确度,可将产生于分类操作的分类标签与预先知晓的用于样本的分类标签相对比。然而,也可以使用和(利用产生于分类操作的分类标签)评价其它的性能指标。只有那些在选定的用于分类的性能指标下执行得相当良好的微型分类器才被保留。还可以使用另一种监督式分类算法,诸如线性判别、决策树、概率性分类方法、基于边际的分类器(类似支持向量机),以及其它任何从一组加标签的训练数据训练分类器的分类方法。为克服因一些单变量的特征选择方法(取决于子集偏差)而造成偏差的问题,我们将所有可能的特征中的一大部分作为用于微型分类器的候选者。随后我们利用达到预选大小(参数s)的多个特征集构建所有可能的KNN分类器。这样就为我们提供了许多个“微型分类器”:例如,如果我们以每个样本100个特征(p=100)开始,我们会从多对这些特征(s=2)的所有可能的不同组合得到4950个“微型分类器”,而利用三个特征(s=3)的所有可能的组合则会得到161700个微型分类器,等等。当然,其它的探索可能的微型分类器的空间和限定它们的特征的方法也是可行的,并且可以用来取代这种分等级的方式。当然,这些“微型分类器”中的很多会具有不良的性能,且因此在过滤步骤c)中我们仅使用那些通过预定标准的“微型分类器”。这些标准是依赖特定问题而选定的:如果面临两级分类问题,人们会选择那些分类准确度超过预定阈值的微型分类器。在本文描述的GI-4000研究(下文的示例1)的情况下,我们选定那些预测性达到某种程度的分类器,即,对于GI-4000+吉西他滨群组(治疗方案)中晚复发群组与早复发群组之间的风险比(HR)比在吉西他滨群组(对照方案)中的小某个预定数值。即便借助这种对“微型分类器”的过滤,我们仍得到了数千个候选的“微型分类器”,其性能遍布从边界性能直至极好性能的整个范围。(在下文描述的示例1中有大约3500个这种微型分类器,它们通过了过滤测试并且被用于进行借助丢弃的逻辑训练)。该方法还包括步骤d):通过利用正则化组合方法组合滤过的微型分类器,生成主分类器(MC)。在一个可能的示例种,此步骤包括重复地执行在步骤c)生成的那组滤过的微型分类器到用于样本的分类标签的逻辑训练。这是通过作为实施极端丢弃法的结果而从滤过的那组微型分类器随机地选择滤过的微型分类器的一小部分,并对如此选定的微型分类器执行逻辑训练而实现的。虽然在思想上类似于标准的分类器组合方法(参见例如S.Tulyakov等人所著的ReviewofClassifierCombinationMethods(分类器组合方法概览),StudiesinComputationalIntelligence(计算智能研究),第90卷,2008年,第361-386页),然而,我们所面临的特定问题在于,一些“微型分类器”可能由于随机的因素而非自然地表现优良,并因此在组合中占据主导。为避免这种对特定主导“微型分类器”的过拟合(overfitting),我们通过针对每个逻辑训练步骤仅随机地选择这些“微型分类器”中的一小部分而生成许多逻辑训练步骤。这就是在深度学习理论中应用的丢弃法思想下对该问题的正则化。在我们具有许多微型分类器和小的训练集的情况下,我们使用极端丢弃法,其中在每次迭代中超过99%的滤过的微型分类器被丢弃。用于在步骤(d)中执行正则化组合方法的其它可用的方法包括:·类似脊回归的具有惩罚函数逻辑回归(基于Tikhonov正则化,Tikhonov,AndreyNikolayevich(1943)。“Oб”[Onthestabilityofinverseproblems]。DokladyAkademiiNaukSSSR39(5):195–198)。·套索方法(TheLassomethod,Tibshirani,R.(1996)。Regressionshrinkageandselectionviathelasso.J.Royal.Statist.SocB.著,第58卷,第1号,第267-288页)。·借助丢弃法正则化的神经网络(NitishShrivastava,“ImprovingNeuralNetworkswithDropout”,多伦多大学计算机科学研究生部的硕士论文;可从http://www.cs.toronto.edu/~nitish/msc_thesis.pdf获得。·常规正则化的神经网络(Generalregularizedneuralnetworks,GirosiF.等人著,神经计算,(7),219(1995年)。在此以援引方式纳入上文所引用的出版物。在该方法的步骤e)中,多个样本是被随机地分成测试集和训练集的一组样本,并且对于将这组样本分成测试集和训练集的不同划分实现方式,在编程后的计算机中重复执行步骤b)至d),从而生成多个主分类器,对于将这组样本分成训练集和测试集的每一种划分实现方式生成一个主分类器。该方法还包括步骤f):从所述多个主分类器中的一个或者所述多个主分类器的多于一个分类器的组合中限定一最终分类器。该最终分类器可通过各种方式来限定,包括通过从所述多个主分类器中选择具有典型的或有代表性能的单个主分类器,通过所有主分类器的过半数投票,通过改进的过半数投票(下文中说明),通过加权的过半数投票,或者相反。我们生成主分类器的方式在思路上与“丢弃法”正则化(即一种在深度学习共同体中使用的方法,其将噪声加入到神经网络训练,以避免被困于目标函数的局部极小值中)类同。参见NitishShrivastava所著的“ImprovingNeuralNetworkswithDropout”,多伦多大学计算机科学研究生部的硕士论文;可从http://www.cs.toronto.edu/~nitish/msc_thesis.pdf获得。我们的方法还可从集成式学习方法(例如参见文章“EnsembleMethods”,Zhi-HuaZhou著,CRC出版社,2012年,BocaRaton)中读到。这些方法在避免过拟合、提高生成可泛化测试(亦即能够在独立的样本集中被验证的测试)的可能性方面是有作用的。上述方法具有许多实用的优点和用途。通常,在分类研发中,特别是在诸如癌症研究或药物开发之类的健康科学中,研究者面临着仅有小的样本集可用的问题,这将导致,如果人们遵循分类器开发的标准方式,训练集和测试集非常小。例如,在针对药物功效研究的样本集中,训练集可包括来自治疗方案(arm)的或许20样本(n=20)和相似大小的训练集的(如果将对照方案也划分成训练集和测试集的话)。这会造成由某些些训练标签分配(诸如“早”或“晚”)限定的“早”和“晚”复发群组(见下文)中仅有约10个样本。标准方式将以审查多个特征(例如质谱数据中的峰值)开始,并选择那些展示出某些包含与训练类相关的信息的可能性的特征。随后会利用k-最近邻方法来组合这些(特征)以生成多变量测试。对于小的样本量,如此示例中的那样,包括在构建多变量测试中的特征的选择能够容易地被一些特征主导,这些特征主要由于将样本划分为训练集和测试集的特定划分方式而展示出区别力(discriminatingpower)。换言之,对于较小的样本量而言,利用单变量的多个p值来选择特征会使信息量变得较小,因为这些p值本身信息量变得较小。可以尝试通过试行多种训练/测试集划分模式来克服此问题,但似乎没有一种实际的方式来避免针对这些模式中的每一个拾取专门的特征,这使得对所开发的测试的泛化性能的估计变得困难。在之前的工作中(上文所述的通过援引而被纳入的‘909应用),我们开发了复杂的交叉验证技术,这些技术展示了此样本集有相当大的可能性能够用于开发预测性测试。然而,这一工作产生了许多个候选的分类器,且仍然难以为进一步的验证而选择特定的分类器。本文描述的我们所开发的方法解决了如下两个问题:(a)该方法并不依赖于用以包括在一多变量测试中的特定的特征选择,以及(b)通过组合许多个、甚至上千个可能的候选分类器,该方法提供了自动生成单个运行良好的分类器(测试)的手段。我们创造了术语“借助丢弃法的微型分类器组合”,或者简称作“CMC/D”,以指代本文中描述的分类器生成方法。如下文在示例1中所说明的,将CMC/D应用到GI-4000数据集,提供了某些超越先前的工作的主要优点:CMC/D使我们能够利用较小的训练集进行工作,并因此允许将样本集划分为训练集和测试集。这样就减轻了先前工作的一大问题,亦即缺少独立测试集。CMC/D还允许审查分类器性能对特定测试/训练划分方式的依赖性,这可能导致针对小样本集的偏差。最后,CMC/D针对每种训练/测试集划分得到一个主分类器/测试。尽管这一测试可能不是可以在给定数据下可被构造出的最优测试,但这种测试将通过构造而较小地面临由于训练集数据中的一些人为因素而导致的过拟合危险。作为利用正则化组合方法(诸如该方法的步骤d)中“微型分类器”的组合中的逻辑回归)的结果,由CMC/D生成的分类器在本质上是概率性的(probabilistic)。将CMC/D分类器应用到特定样本检测数据(例如质谱)的结果(对于给定的样本数据)提供了特定的分类(群组)标签的概率,在这种情况中为“早”,此概率的范围为从0到1,概率“0”表示一个分类标签,概率“1”表示另一个分类标签。在示例1中,我们使用0.5的自然概率界限用以对标为“早”的样本进行分类;亦即,如果对于特定样本而生成的概率大于0.5,我们将其分类为“早”,相反地,如果此概率小于0.5我们将该样本分类为“晚”。取决于设计的考虑因素,也可以使用除了0.5以外的其它数值。尽管在下文的示例1中我们给出了改变这种界限的效果的示例,然而我们为所有的开发步骤以及为最终的分类选择此界限值为0.5。在该方法中这一界限值是可调整的参数,这将在下文中进行说明。根据本发明方法的分类器生成中使用的样本的类型并不是特别重要,并且可以大范围地变化。在一个特定的示例中,这些样本是从人体获得的生物样本(诸如血液、脑脊髓液、尿等等),而获得数据的步骤包括对该样本执行一些物理检测,诸如质谱分析法并储存关联的质谱数据。该物理检测过程的另一示例是执行基因分析来获得基因、蛋白质、mRNA转录等表达水平(例如来自荧光检测)并储存关联的基因组数据。在一个特定的示例中,上述生物样本包括来自癌症患者的组织或基于血液的样本。上述样本可以是未分离的血清或血浆样本,或者可以是在执行去除(depletion)或分离(fractionation)步骤之后的一些样本。在又一个实施例中,如下文的示例1中所描述的,例如,使用在H.等人递交于2013年3月15日的美国专利申请US13/836,436(在此通过援引方式纳入其内容中)描述的例如“Deep-MALDI”质谱方法,还有Duncan等人发表在2013年6月召开于美国明尼阿波利斯、主题为MassSpectrometryandAlliedTopics的第61届ASMS会议的论文ExtendingtheInformationContentoftheMALDIAnalysisofBiologicalFluids(DeepMALDI),从MALDI-TOF质谱分析法中的至少20000个点样(shot)获取质谱数据。还应当理解的是,该方法通常将在有形的、实际的计算环境下实施,在该环境中借助某些检测器具(如质谱仪或基因分析仪)获得针对一组样本的检测数据,且在通用编程计算机的微处理器中实施分类器生成步骤b)至f)。从本文的描述、多个流程图和多个详细示例产生实施分类器开发方法的计算机可执行的代码,是处于本领域技术人员的能力范围内。示例1从质谱法产生CMC/D分类器从人类样本获得的数据(图1-图11)本文的这一章节将说明在具有基于血液的样本形式的样本集的背景下执行CMC/D分类器开发方法的一实际示例,这些样本经历质谱分析法并得到在分类中使用的数据集,该数据集呈处于不同的m/Z位置的100个特征(峰值)的形式,这些特征被用作从其中选择用于微型分类器的多个特征的那组特征。上述样本是从参与药物GI-4000的临床实验的胰腺癌患者获得的。分类器生成练习的目标在于证明是否可以构建对基于血液的样本的质谱进行操作的分类器(测试),其在治疗之前准确地预测与该样本关联的胰腺癌患者是否有可能受益于GI-4000与吉西他滨的结合(与单独使用吉西他滨相比)。在此示例中描述的方法将会以此类推地应用到其它的样本集或分类问题。患者人群及可用的样本用于这一项目的样本为在单独使用吉西他滨与使用GI-4000+吉西他滨作为在具有存在KRAS突变肿瘤的患者中可切除胰腺癌的辅助治疗的对比实验期间收集的预治疗样本。样本为在执行ELISpot分析之后留下的耗尽的血浆。基准样本仅可从参与该实验的179位患者中的91位中获得。被初始分类为基准的一个样本可在治疗中被较早地取得,且该样本(样本ID520)被从这一研究中排除。剩下的90个样本(示例1附录A中列出)被用于生成在这一项目中使用的深度MALDI质谱。表1概述了对应于提供用于这一项目的样本的90个受试者的患者特性。四十四个受试者被随机分配到治疗方案,而46个被分配到对照方案。人员统计资料和基准特性在数据集中的GI-4000与对照方案之间被很好地平衡。就预测的结果方面来说,该数据集表现为大致代表具有两个可能有意义的不平衡的总体研究,其中一个支持我们没有使用的患者群组(“非BDX群组”),而另一个支持我们使用的患者群组(“BDX群组”)。切除状态、年龄和性别在这两个群组之间被很好地平衡。这两个群组之间在ECOG性能状态(performancestatus)方面存在不平衡,其中BDX群组中的92.3%(与非BDX群组中的76.8%相比)具有0或1的性能状态。然而,在非BDX群组中14%是未报告的,而在BDX群组中为0%。因此这种不平衡可能无意义的,因为这两个群组中的大多数受试者具有0-1的PS(性能状态)。如果报告的话,那些未报告的群组将最有可能具有0-1的PS。在淋巴结转移方面存在着不平衡,在BDX群组中72.2%具有多于一个淋巴结转移,而在非BDX群组中为46.5%;并且在BDX群组中15.6%不具有阳性淋巴结,而在非BDX群组中为34.9%,因此从淋巴结状态的角度来看,BDX群组在基准上比总体研究人群具有更广泛的病变。表1在该分析中的受试者的患者特性*在对照例中,1个患者并不具有ECOG性能状态,且1个患者为PS3光谱采集和预处理深度MALDI光谱的产生利用深度MALDI方法产生光谱(参见递交于2013年3月15日的美国专利申请US13/836,436,在此通过援引方式纳入其内容)利用10个矩阵点,每个矩阵点上250个位置,每个位置具有800激光点样,造成每个样本理论上最大有2,000,000个激光点样。在利用采集测试过滤掉不能用的位置光谱之后,对于某些样本我们剩下最小数量为875,000个点样,而对于其它样本数量更大。我们超过了至少500,000个点样的光谱的设计目标。我们从通过了采样测试的那些位置光谱随机地选择了625个位置光谱而生成包括平均500,000个激光点样的深度MALDI光谱。利用下列步骤对这些深度MALDI光谱进行预处理而生成可比较的光谱:背景估计和减除利用一个两步骤处理来估计此背景(background)。选定多个初始较宽的估计窗来说明背景中的大尺度(m/Z中)趋势。深度MALDI常常在大峰值的m/Z-近邻提供小的峰值,由于过于靠近地跟随大的峰值而导致对这些小的峰值的背景估计不准确。为避免这种效果,我们在先前利用较小的估计窗估计的背景中加入补充的背景成分。所产生的两步骤背景被从所有的光谱中去掉。光谱校准在任何质谱中,对于渡越时间(time-of-flight)数量到m/Z数值的转换存在着略微的不符。我们识别出在质谱的大部分中存在的一组峰值并重新确定每个光谱的m/Z数值的尺度,使得每个独立的光谱中共同的峰到基准集的方差的总和尽可能的小。这一处理使得靠近的(m/Z)特征之间的分辨率较好。规范化为了获得在临床群组之间有区别的特征,我们需要从不同样本检测峰值的强度并比较它们的数值。在MALDI过程中,电离的蛋白质的总量是不可控制的,因此我们能够仅检测相对峰值强度。为此,我们需要对光谱进行规范化。为了避免峰值强度的可变性从内在可变或者与患者临床状态关联的峰值扩散到在规范化期间稳定的峰值,我们使用来自表现出很小的样本依赖性的m/Z的三个区域的光谱强度来使光谱规范化。特征限定和特征表为了为能够针对临床群组之间有区别的峰值限定可能的候选者,我们在预处理的光谱中定位峰值,并在每个峰值最大值附近限定一m/Z范围。这些m/Z范围限定用于所有进一步分析的特征。我们选择了655个特征的作为用于在群组之间进行区分的可能的候选者,并计算对应于每个谱的每个这些特征的积分强度。这样我们获得对应于每个谱的每个特征的特征值。在特征表中,表格清单行是谱,列是这些积分强度的特征(特征值)。在下一章节,我们将展示如何使用新设计的方法来利用该特征表构建一预测性测试,用以选择从将GI-4000添加到吉西他滨中受益的患者。CMC/D分类器开发方法综述在此示例中,我们面临着仅有小的样本集可用的问题,这导致如果遵循标准方式则训练集和测试集非常小。如上文所说明的,对于小的样本量,如在该研究课题中的那样,在多变量测试的构建中所包括的特征的选择能够容易地被某些特征主导,这些特征主要由于特定的训练/测试划分而展现出区别力。可以尝试通过试行多种训练/测试集划分模式来克服此问题,但这些看起来并非为避免针对这些模式中的每一个拾取专门的特征,但似乎没有一种实际的方式来避免针对这些模式中的每一个拾取专门的特征,这使得对所开发的测试的泛化性能的估计变得困难。在之前的工作中,我们开发了复杂的交叉验证技术,这些技术展示了此样本集有相当大的可能性能够用于开发预测性测试。然而,这一工作产生了许多个候选的分类器,且仍然难以为进一步的验证而选择特定的分类器。这里描述的我们所开发的方法解决了如下两个问题:该方法并不依赖于用以包括在一多变量测试中的特定的特征选择;以及通过组合许多个、甚至上千个可能的候选分类器,该方法提供了自动生成单个运行良好的测试的手段。为克服因一些单变量的特征选择方法(取决于子集偏差)而造成偏差的问题,我们将质谱数据中的特征值的一大部分作为用于分类的候选者。随后我们利用达到预选大小(s,=1,2,或其它一些整数)的多个特征集构建所有可能的KNN分类器(即本文的“微型分类器”)。这样就为我们提供了许多个分类器:例如,如果我们以样本100个特征开始,我们会从多对这些特征(s=2)的所有可能的不同组合得到4950个“微型分类器”,而利用三个特征(s=3)的组合则会得到161700个微型分类器,等等。当然,这些“微型分类器”中的很多会具有不良的性能,且因此我们仅使用那些通过基于分类准确度的预定标准的“微型分类器”。这些标准是依赖特定问题而选定的:如果面临两级分类问题,人们会选择那些分类准确度超过预定阈值的微型分类器。在GI-4000研究的情况下,在该方法的过滤步骤中,我们选定那些预测性达到某种程度的分类器,即,GI-4000+吉西他滨群组中晚复发群组与早复发群组之间的风险比(HR)比在吉西他滨群组中的小某个最小量的程度。即便借助这种对“微型分类器”的过滤,我们仍得到了数千个候选的“微型分类器”,其性能遍布从边界性能直至极好性能的整个范围。在我们的方法中,我们通过利用对群组(分类)标签的逻辑训练集合这些“预滤过的微型分类器”而生成“主分类器”。尽管在思想上与标准分类器组合方法类似,但是,我们所面临的特定问题在于,一些“微型分类器”可能由于随机的因素而非自然地表现优良,并因此在组合中占据主导。为避免这种对特定主导“微型分类器”的过拟合,我们通过针对这些逻辑训练步骤中的每一个仅随机地选择这些“微型分类器”中的一小部分而生成许多逻辑训练步骤。最终主分类器随后使用所有的逻辑回归步骤的平均。更详细而言,每个微型分类器的结果是两个数值之一,不是“早”就是“晚”。我们随后可通过借助标准逻辑回归限定获得“早”的概率,在逻辑回归的思想下利用逻辑回归来组合微型分类器的结果(例如参见http://en.wikipedia.org/wiki/Logistic_regression)方程(1)其中,如果应用于一样本特征值的微型分类器mc返回的值为“早”,则I(mc(特征值))=1,且如果该微型分类器返回的值为“晚”,则I(mc(特征值))=-1。对于训练集中的所有样本,这些权重(weight)wmc是未知的,并且需要从上述公式的回归拟合来确定,对于训练集中带“早”标签的样本,针对该公式的左手侧使用+1,而对于带“晚”标签的样本则使用-1。由于我们具有的微型分类器比样本多,进而权重也比样本多,通常微型分类器为数千个,而样本为数十个,因此这种拟合将总是导致几乎完美的分类,并且能够容易被那种可能由于随机因素而与特定问题的拟合非常良好的微型分类器所左右。我们并不希望我们最终的测试由单个特定的微型分类器所左右,该单个特定的微型分类器仅对于特定集合才能表现良好,而并不能够良好的泛化。因此我们设计一种如下的方法来调整这种表现:并不是一个总回归将用于所有微型分类器的所有权重同时拟合到训练数据,而是对于一个回归我们仅使用少数的微型分类器,但在生成该主分类器的过程中将此过程重复许多次。例如,我们随机地拾取这些微型分类器中的三个,为其三个权重执行回归,拾取另一组三个微型分类器,并确定其权重,并且将这一过程重复许多次,生成许多随机拾取(picks),亦即实现三个微型分类器。限定CMC/D主分类器的最终权重因而是所有的这类实现的权重的平均值。实现的数量应足够大,使得在整个过程期间每个微型分类器有非常大的可能被拾取至少一次。这种方式在思想上与“丢弃法”正则化类似,即一种在深度学习共同体中使用的方法,其将噪声加入到神经网络训练,以避免被困于目标函数的局部极小值。我们创造了术语“借助丢弃法的微型分类器组合”,即CMC/D,以指代这种方法。将CMC/D应用到GI-4000数据集,提供了某些超越先前的工作的主要优点:CMC/D使我们能够利用较小的训练集进行工作,并因此允许将样本集划分为训练集和测试集。这样就减轻了先前工作的一大问题,亦即缺少独立测试集。CMC/D还允许审查分类器性能对特定测试/训练划分方式的依赖性,这可能导致针对小样本集的偏差。最后,一旦CMC/D过程的参数被固定,其即产生唯一的测试,而无需人员进一步干预,亦即其消除了基于分类器性能评价和主观判断而从众多的选项中选择一个分类器的必要性。尽管这一测试可能不是可以在给定数据下可被构造出的最优测试,但这种测试将通过构造而较小地面临由于训练集数据中的一些人为因素而导致的过拟合危险由于在“微型分类器”的组合中使用逻辑回归,使得由CMC/D生成的分类器在本质上是概率性的。将CMC/D分类器应用到特定样谱的结果(对于给定的样本数据)提供了特定的分类(群组)标签的概率,在这种情况中为“早”。在下文的大部分描述中,我们使用0.5的自然概率界限用以对标为“早”的样本进行分类;亦即,如果对于特定样本而生成的概率大于0.5,我们将其分类为“早”,相反地,如果此概率小于0.5我们将该样本分类为“晚”。如下文所述,取决于设计的考虑因素,也可以使用除了0.5以外的其它数值。尽管在下文中我们给出了改变这种界限的效果的示例,然而我们为所有的开发步骤以及为最终的分类选择此界限值为0.5。图11的流程图表中示出了生成上文所描述的分类器的特定方法,该方法将随后在示例2中被描述。获得检测数据以及选择用于产生微型分类器的大的特征集深度MALDI方法为每个样本通过655个独立特征产生质谱。每个样本被分配给一基于复发时间的分类标签。将先前的项目中所使用的早复发和晚复发的定义用于该治疗方案(早=在276天之前出现复发事件,晚=在500天之前不复发),借助针对这些群组之间的差异的p值将这些655个独立的特征进行排名。以具有针对晚群组与早群组之间的对照的最小p值的特征开始,检查每个特征以确保质量(存在可区别的峰值、光滑度、没有过多的噪声)。拒绝被认为质量不足的特征,直至接受了100个特征。在示例1附录B中列出了在CMC/D分类器生成中使用的100个特征的中心(在m/Z中)。早/晚复发群组以及训练集和测试集的选择先前的分类器开发工作已将GI-4000治疗方案样本分成了早群组(早于275天复发)、晚群组(在500天之前不复发)和中间群组(其余部分)。由于这一项目旨在将这些样本划分成测试群组和训练群组,因而需要(将样本)分为早群组和晚群组的不同划分方式,以使用于早群组和晚群组的测试/训练群组规模最大化。早群组被认为是来自在290天时或者之前复发的受试者的所有样本。这样就提供了22个患者的早群组。两个样本因技术原因而被保留为中间群组,以避免对我们已有软件的分组结构进行耗时的软件修改。留下的20个样本来自在350天之前不复发的受试者,被用作晚群组。在示例1附录C中列出了这些群组的每一个中用于受试者的样本ID。在附图图1中的复发时间(TTR)的Kaplan-Meier图上阐示了这种对于治疗方案样本的结果群组的划分。为了将这些治疗方案早群组和晚群组划分成测试集和训练集,同时保持这些群组的结果的平衡,采用以下过程:将每个群组(早群组和晚群组)根据复发时间排序并随后划分成多个对,从而使具有最短TTR的两个受试者形成第一对,具有排名为第三和第四TTR的下两个受试者形成第二对,以此类推。在每个这些对中,一个受试者被随机地分配到训练集而另一个被分配到测试集。这样,对于每个群组,提供了相同大小的训练集和测试集(针对早群组的11个受试者以及针对晚群组的10个受试者中的每一个),在整个测试/训练集划分上取得结果的平衡,同时仍允许以自动一致的方式产生许多个不同训练/测试划分,见图2。对照方案中的多个样本也被划分成训练集和测试集。由于来自对照方案样本的光谱仅间接地在分类器训练中被使用,如下文将说明的,因而仅一个训练/测试划分被用于这些样本。来自对照方案的受试者根据他们的TTR被排名,并随后被交替地分配到对照训练集或对照测试集以提供两个群组,每个群组23个受试者。在示例1附录D中列出了用于将对照方案样本划分成训练集和测试集的样本ID。“微型分类器”的选择和过滤对于给定的训练集,利用100个被选特征的子集产生许多独立的K最近邻居(KNN)分类器是可能的。由训练集中的样本以及特定的特征子集限定的这些独立的KNN分类器限定一“微型分类器”。对于这一项目,K-最近邻居算法中K的数值自始至终固定为5。由于目标是产生在GI-4000与对照治疗之间具有预测能力的分类器,因而要求选择的该“微型分类器”展现出预测能力的某种最小水平,且因此对这些微型分类器完成过滤以产生一组滤过的微型分类器。这种“微型分类器”选择/过滤过程的实施方式如下:1、选择所有100个“微型分类器”,这些“微型分类器”是利用用于K-NN中的分类的100个候选特征(参见示例1附录B)中的仅一个特征而从训练集形成的。2、针对利用用于利用K-NN(s=2)的分类的100个候选特征中的两个特征而从训练集形成的4950个可能的“微型分类器”,执行一过滤步骤,而仅选择那些展现出各治疗方案之间的预测能力的最小水平的微型分类器。GI-4000方案(早训练、晚训练和中间的)训练集和对照训练集通过每2特征“微型分类器”被分类。在GI-4000方案和对照方案训练集中计算晚分类与早分类之间的风险比(HR)。如果对应于晚与早之间的对照方案的Mantel-HaenszelHR比对应于GI-4000方案的Mantel-HaenszelHR大至少0.3但不多于7.0,则认为该“微型分类器”是可接受的(因而可以包括进来)。这就使我们能够例外地排除那些过拟合的“微型分类器”(这些微型分类器具有好得过分的性能),以及那些具有非常非常低的乃至负的预测能力微型分类器。通常,借助单个或多对候选特征选择大约3,500个微型分类。然而,此数量依赖于精确的训练集/测试集实现,并且对于各个不同的实现,此数量有时小于3000或超过4000。利用带丢弃法的逻辑回归创建主CMC/D分类器通过利用晚训练集标签和早训练集标签以及极端丢弃法来训练逻辑回归,将上述数千个“微型分类器”组合成一个主CMC/D分类器。丢弃率被设定为99.9%,因此在大约3500个“微型分类器”中,每次丢弃法迭代仅包括随机选择的3-4个“微型分类器”。每个CMC/D主分类器使用10,000次丢弃法迭代,这足以确保所有的微型分类器均有可能以非零权重被包括在所产生的CMC/D主分类器中。因此,概括而言,通过过滤程序的所有微型分类器以及所有的特征对CMC/D主分类器均有贡献。所产生的主分类器被生成为对那些选定的、未经历丢弃法的滤过的微型分类器的组所做的所有逻辑回归训练的平均值。由此,示例1附录B列出的所有100个特征均被用于主分类器的分类。具有单个特征(s=1)的所有微型分类器在最终分类器中被使用,并且通过了过滤标准(使用这种特征对的微型分类器在指定的界限内对于将GI-4000加入到吉西他滨具有一定程度的预测能力)的所有特征对(s=2)被使用。这种主分类器因而由大约3,500个微型分类器构成,亦即100个单特征分类器与通过了过滤的两特征分类器的组合,但分配给每个微型分类器的权重不同。CMC/D分类器性能评估一旦针对给定的训练集实现创建了CMC/D主分类器,则通过针对GI-4000方案测试集和对照方案测试集运行该分类器而对其进行评价(见图2)。通过检查下列各项质量来评估性能:1、针对TTR的、GI-4000测试集的“早”分类和“晚”分类之间的HR。2、针对TTR的、对照方案测试集的“早”分类和“晚”分类之间的HR。3、针对TTR的、对分类为晚的样本的GI-4000测试集与对照方案测试集之间的HR。4、在第1项和第2项中计算出的两个HR的比率–类似于治疗方案与早/晚分类之间的交互HR。5、在第1项和第2项中计算出的两个HR的差值–一种用以评估分类器预测能力的可供选择的方法。6、对应于GI-4000测试集和对照方案测试集的“早”分类和“晚”分类的中等TTR。7、针对GI-4000测试集和对照方案测试集的晚分类的中等TTR的差值–用以评估GI-4000相较于对照方案在晚群组中受益(类似于第3项中的HR)。结果我们创建的第一CMC/D分类器对GI-4000方案测试集进行分类,如图3中所示。图3示出了在由所创建的第一CMC/D分类器生成的GI-4000测试集中被分类为早的概率的累积频率。被分类为“早”(“晚”)的样本是利用标准界限0.5制作的,并在图中示出,参见图例。利用标准0.5概率界限,21个测试集样本中的五个被分类为“晚”。图4中示出了对应于图3中的分类的TTR的Kaplan-Meier图和对照方案测试集的分类。利用逻辑回归将多个“微型分类器”组合成CMC/D主分类器,提供了一个可调整的参数,也就是被分为“早”的概率的界限,该界限将“早”分类和“晚”分类分开。将此界限从0.5的缺省值加以调整使人们能够‘协调’早:晚分类的比率。作为可如何使用这种调整的示例,针对该第一CMC/D分类器,该界限从0.5被调整到0.75。这样将GI-4000测试集中的“晚”分类的百分比提高到52%。此结果在图5中示出。特别地,图5A示出了在由所创建的第一CMC/D分类器生成的GI-4000方案测试集中被分类为“早”的概率的累积频率的图。采用0.75的标准界限而被分类为“晚(早)”的样本被以多个形成鲜明对比的点示出。在图5B中,示出了针对由第一主分类器采用调整过的概率界限0.75生成的测试集分类的TTR的Kaplan-Meier图。利用大的候选特征集(p>>n)来组合许多“微型分类器”,缓解了小的训练集的问题,就目前所知道的问题有特征选择的过拟合问题。然而,其不能够消除训练集和测试集划分的样本偏差的问题。这对该特定问题尤其重要,因为对于我们的分类群组,亦即“早”和“晚”复发群组,我们并不具有天然的或黄金标准选择。相比于将患者分成例如患有癌症或未患癌症的那一类分类问题(其中可通过独立的、确定检测来确定多个群组),在此情况中人们不得不设法基于连续的结果(具体而言,此示例中为复发时间(TTR))来推断出多个群组。由于许多种患者特性都对这种结果有贡献,因此应预期到的是,即便人们知晓一准确的预后的或预测性分类,这种群组的结果也会具有某些‘良好’预后患者具有不良的结果而一些‘不良’预后患者具有良好结果的数值分布。总体而言,‘良好’的预后患者会比‘不良’的预后患者具有更好的结果,但在结果中以界限点将患者分组会产生与期望的预后分类有关(但不与之相同)的两个群组;在推测结果的分组中会存在误差。将考虑到这一点的训练/测试划分的实现进行考量,可以看到如果在训练集中这个实现具有许多标签错误,则任何分类器都会由于训练标签错误而趋于表现不良。类似地,如果测试集实现包含许多标签错误,那么实际上表现良好的分类器可能被评估为性能差。因此,重要的是设法评估训练/测试实现(亦即,将样本分成训练集和测试集的划分)对CMC/D分类器性能的影响,并避免可能由于特别偏倚的选择可能导致出人意料的表现的情况。为此,针对利用上述一般程序生成的许多可能的训练/测试集实现(将样本组划分为训练集和测试集)而创建了主分类器。每个实现提供了用于分类器评价的多个量(上文的性能评估章节中指定的七个标准)的特定数值,并且如果利用许多个实现来生成CMC/D主分类器,则可以研究这些量的分布。此外,人们可能想要评价其它量,诸如早分类与晚分类的比率。图6示出针对大约60中不同训练/测试集实现/划分的GI-4000测试集和对照测试集中“早”和“晚”分类之间的风险比的直方图。这些风险比取决于训练/测试集的准确划分。显然,这些分布是比较宽泛的,并且尽管许多实现产生了‘典型的’HR(对于GI-4000而言约为2-2.5,而对于对照方案而言约为0.5-1.5),但某些实现产生了边远数值。‘典型的’训练/测试集划分产生类似的“早”和“晚”分类之间的风险比数值,但也有一些不太常见的“非典型”训练/测试集划分实现,这些训练/测试集划分实现产生小得多或者大得多的风险比(例如,对于GI-4000+吉西他滨方案,该风险比为“>5”,或者对于对照方案,该风险比为“>3”)。这些可能是与特定训练/测试集划分相关,这些特定训练/测试集划分特别易受过拟合的影响,或者该针对该特定训练/测试集划分存在大的样本偏差,而该偏差产生非典型的良好或不良的分类器或者不具有代表性的测试集。为解决将受试者错误地分配到晚群组和早群组的问题,在全部的训练/测试集实现范围内来研究GI-4000+吉西他滨方案中的受试者的测试集分类。若干个样本因持续被非常差地分类而较为显著,并且4个样本在任何实现中均从未被分类到其所分配的群组中。表2中列出了这些样本ID。表2在多个训练/测试集实现中持续被错误分类的样本的样本ID和群组标*从未被正确分类的样本;在原始数据中被审查过–现更新到1034天处的事件假设这些观察值可以说明不正确分配的群组(分类)标签,而为这9名患者调换这些样本的原始早/晚分配,并且利用更新后的标签集重复整个CMC/D分类器创建过程。在示例1附录E中总结了所产生的样本分组。针对最初的群组标签以及更新后的标签,图7中示出了对应于在全部的训练/测试集实现范围内的GI-4000和对照测试集的“早”和“晚”分类之间的HR的分布。对应于GI-4000测试集的“早”和“晚”之间HR分布的变化不是非常大。同时,对应于对照测试集的“早”和“晚”之间的HR分布变得更狭窄,而且其中心左移,表明在对照方案测试集中早群组与晚群组之间的分隔更小。这种组合表明了分类器预测能力的改善。应注意的是,分配到表2中样本的标签是我们基于TTR而初始给予的标签。然而,当我们使用主分类器来对这些样本进行分类时,当它们为测试集的一部分时,它们持续地被分类到相反的群组。基于TTR,人们希望这些样本具有所分配的标签,但它们看起来并不相配。我们将这作为分类标签不正确的一个象征,虽然TTR看起来与类标签相配。这或许是我们一开始如何划分群组导致的结果。在其它的测试中(诸如在上文所引用的我们的‘905专利中所描述的VeriStrat测试),某些被分类为“良好”的患者反而去世得早,远早于绝大多数“良好”的患者,而某些被分类为“不良”的患者的存活时间比许多其它被分类为“不良”的患者长的多,虽然“良好”比“不良”的总体情况更好,而由于许多因素能够对结果造成影响,因此这并不奇怪。我们相信同样的情况也会在这里发生。如果在K-M生存率图中提供更好的分离,并且提供更好的HR,则分类器性能会更好,如果所有的“不良(早期复发)”的患者在所有的“良好(晚期复发)”的患者之前去世或复发,但这实际上根本不可能发生,因为影响结果的因素有很多,并非仅是我们能够在血清中检测到的那些。与我们利用这些训练/测试集实现来研究的CMC/D分类器的性能有关的其它两个量是GI-4000测试集相对于对照测试集的“早”和“晚”分类之间的HR的比率,以及GI-4000测试集与对照测试集的晚群组之间的中等TTR之差。在图8中针对最初的群组标签和更新后的群组标签示出了这些量。治疗方案中“早”和“晚”分类之间的HR比率的分布的中心向右移,表明CMC/D分类器的预测性能得到改善。两个治疗方案中晚群组之间的中等TTR之差的分布变得更窄,且离群值(outlier)更少,表明对于该性能测量而言,在全部的训练/测试集实现范围内具有更强的可重现性。这些分析表明,如何将样本划分成训练集和测试集是很重要的。尽管大多数训练/测试集划分产生了最终CMC/D分类器,该最终CMC/D分类器对于将GI-4000加入到吉西他滨具有一定预测能力,但特定的划分能产生异常良好或不良的性能。这些异常的结果根据推测是由于小的训练集和测试集的某些细节而导致,且应当避免这些分类器可能与数据过拟合。在这一项目中,为了尽可能地避免过拟合,选择在训练/测试集划分中具有“典型”性能的CMC/D分类器。图9中示出了若干具有良好、但非异常性能的候选最终CMC/D分类器的Kaplan-Meier图。导致产生如图9所示数据的这四个最终CMC/D分类器之间的差异在于产生这些分类器的训练/测试集划分实现。每个分类器具有不同的训练/测试集实现。另外,这些分类器都是采用同样的方法生成的。它们都使用同样的100个质谱分析法特征值(示例1附录B),微型分类器使用数值s=1和s=2,对于每个微型分类器而言,KNN分类器中的K值相同(K=5),过滤标准相同,丢弃法迭代次数相同,甚至随机数量发生器的种子相同。对于每个训练/测试集划分实现而言,通过过滤的微型分类器是不同的,就像在逻辑回归过程期间这些微型分类器分配的权重。然而,为了产生它们,CMC/D处理输入的唯一不同是训练/测试集划分的不同。所有其它参数均相同。在这四个候选最终CMC/D分类器中,选择第一个(图9中的左上图),因为该分类器从我们所有的评价标准来看都表现出色,并在多个对照测试群组之间表现出小的分离。我们并不想让对群组沿相反方向分离太多,因为我们想让分类器针对GI-4000+吉西他滨治疗展现出特定的东西–亦即我们并不期待取得下述的分类器在生物学方面是合理的:这种分类器表明,早复发患者对于GI-4000+吉西他滨治疗方案比晚复发患者表现更差,而对于对照治疗则具有相反的表现。我们同样不希望对照群组在与GI-4000相同的方向分开,因为这会使对多种治疗之间的预测能力被削弱。对于该分类器(图9中的左上图),在图10A至图10D中示出了针对GI-4000测试集与对照方案的整个集合的TTR和OS(总生存期)的Kaplan-Meier图。(注意,在“微型分类器”的过滤中,对照方案的训练部分仅在分类器训练中间接地使用)。最近提供的更新后的结果数据允许对性能进行重新评估,这一点也在图10A到图10D中示出。图10E至图10I是如图10C和10D所示的针对参与GI-4000+吉西他滨研究的患者无复发生存率(RFS)和总生存期(OS)的图,但成对绘制以便容易比对。在这些图中,“BDX-001”代表示例1中描述的预测性测试。分类标签“+”等同于上文讨论的“晚”,该分类标签是针对被预测为在胰腺癌治疗中从GI-4000与吉西他滨的组合中获益的那些患者而产生的。分类标签“-”等同于上文讨论的分类标签“早”,该分类标签是针对没有被预测为从GI-4000与吉西他滨的组合中获益的那些患者而产生的。在图10G、图10H和图10I中,“安慰剂”是指在GI-4000+吉西他滨研究中被给予吉西他滨加安慰剂的组合的那些患者。图10E表明,示例1的测试发现在GI-4000+吉西他滨治疗群组中,在中等RFS(mRFS)方面存在12.2个月的差异。这类患者是通过针对患者的质谱生成“+”或“晚”分类标签的分类器而识别出的。图10F表明,示例1的测试发现对于那些具有“+”或“晚”分类标签的患者在GI-4000+吉西他滨治疗群组中,在OS方面有25.8个月的提高。图10G表明,对于那些具有“+”或“–”分类标签的患者,在GI-4000+吉西他滨实验的安慰剂+吉西他滨群组中,在OS方面不存在差异,表明了该测试的预测能力。图10H表明,示例1的测试选择了用GI-4000+吉西他滨治疗的具有更好无复发生存率的患者,特别地,示出了该群组与吉西他滨+安慰剂群组相比在mRFS方面有11.7个月的提高(21个月相对于9个月)。图10I示出了与吉西他滨+安慰剂群组相比,那些用GI-4000+吉西他滨治疗的患者的中等总生存期提高了16.6个月(42个月相对于25个月)。示例1的结论我们将新开发的分类技术(即CMC/D)应用到GI-4000数据集。这使得我们能够将数据分成单独的训练集和测试集。为避免小集合的偏差,我们在许多种可能的训练集和测试集划分上来评价该过程。对测试集错误分类的分析使我们能够精细化训练集标签,使“早”和“晚”群组限定更准确。所产生的CMC/D分类器对于从将GI-4000加入到吉西他滨中受益的患者的选择是有预测性的,即该分类器在晚群组而非早群组中显示明确的GI-4000+吉西他滨超越单独使用吉西他滨的治疗益处。在晚群组中GI-4000+吉西他滨超越单独使用吉西他滨的中等估计益处对于TTR而言是超过300天,对于OS而言是超过400天。我们已校核过这一测试并不因为选择一个测试作为最终检验(该最终检验在训练/测试配置的分布中是典型的)而对于特定训练/测试配置过拟合。尽管另一测试(分类器)可能更有效,但我们相信所选择的测试对于功效与泛化两个方面进行了良好折中。作为这一分析的结果,我们相信将GI-4000加入到吉西他滨对于借助我们的CMC/D分类器被测试标签“晚”选择的患者们是有效的。上述“晚”患者代表着所分析的总样本的~43%(90个中的39个)(参见分类示例1附录F)。本发明的又一个实施例是一种指导针对胰腺癌患者的治疗的方法,该方法的形式是利用根据所描述的对基于患者的血液样本的质谱进行操作的方法生成的分类器,预测患者是否会受益于GI-4000+吉西他滨的组合,且如果由分类器产生的分类标签为“晚”或等同标签,则预测患者受益于这种组合治疗,并施用这种治疗。本方法的又一个实施例是治疗胰腺癌患者的方法,包括如下步骤:将GI-4000+吉西他滨施用给患者,该患者借助分类器被选择为接受这种治疗,该分类器对患者的基于血液的样本的质谱进行操作,其中该分类器是通过本文描述的CMC/D方法生成的。示例2分类器生成系统和样本测试系统上述CMC/D分类器开发方法可被实施为有形的分类器开发系统以及通用计算机,该分类器开发系统具有质谱仪(或其它检测仪器)的形式,该质谱仪用于从多个样本(例如样本的分类器开发集)获得质谱(或其它)数据;该通用计算机具有处理单元,该处理单元执行用于实现CMC/D分类方法的代码。特别地,该计算机包括存储检测数据的机器可读存储器(例如硬盘)。该计算机还存储可执行代码,该代码执行检测数据的预处理,例如背景减除、光谱校准和规范化(如上文所描述),并存储用于分类的特定特征处的积分强度值,例如示例1附录B中所列特征的积分强度值。计算机还存储用于利用来自该样本的高达预选特征量(s,整数)的多组特征构建大量独立的微型分类器的可执行代码。在一个实施例中,该代码包括KNN分类算法(在本领域中是公知的),其应用于质谱数据中的一个特征或多个特征,并将这些特征值与样本开发集的子集(例如,带分类标签的质谱数据的训练集)比较。此KNN算法基于特征空间中的最近邻居生成分类标签。上述代码随后测试每个独立的微型分类器的分类准确度或者一些替代的其它性能指标,来对给定的样本集(例如训练集)中的生物样本进行分类,并保留那些性能超过预定阈值或者处于预定极限内的微型分类器,以得出一组滤过的微型分类器。随后,该代码通过利用极端丢弃法对这些样本重复地执行滤过的那组微型分类器到分类标签的逻辑训练(利用方程1),通过随机地选择滤过的微型分类器的一小部分并对如此选择的微型分类器执行逻辑训练,生成主分类器。主分类器可被生成为丢弃法迭代的所有的逻辑回归训练的平均值。在上文的GI-40000示例中,主分类器在计算机存储器中被表现为利用单个用于分类的特征(s=1)的微型分类器与利用两个用于分类的特征(s=2)的微型分类器的加权组合,这些微型分类器通过了过滤标准。可针对测试集划分或开发集的子集来评价该主分类器,这种评价也可针对将开发集分成训练集和测试集的多种不同划分来实施,且可通过选择产生于一个特定的训练集和测试集划分的一个主分类器来定义最终分类器,或者还可通过保留产生于每个训练集和测试集划分的所有主分类器并利用来自每个主分类器的过半数投票来向受试的样本分配标签,或者产生于测试集/训练集划分的每种实现的主分类器的其它一些组合,诸如所有主分类器的加权组合。该最终分类器随后被用于测试样本(例如癌症患者的基于血液的样本)的分类,以在先于治疗之前预测该患者是否有可能受益于GI-4000+吉西他滨的组合。如果分配到样本质谱的分类标签为“晚”,这意味着该患者有可能从将GI-4000加入到吉西他滨中受益。如果该分类标签为“早”,该患者不太可能从将GI-4000加入到吉西他滨中受益,且因此可以被转向吉西他滨单药治疗或其它的针对癌症的治疗选择。上文所描述的分类系统可在实验室测试中心实施,这种实验室测试中心从商业角度进行样本测试,并为门诊、医院、肿瘤医师和其它的卫生保健提供者提供服务,提供的测试结果是关于患者是否会受益于肿瘤靶向药物。当然,此分类器开发方法可被用于其它的目的,诸如诊断目的。图11是更详细地阐示在示例1和示例3中描述的分类器开发过程的流程图。此分类器开发过程通常会在通用计算机形式的计算系统中实施,该系统存储检测数据的分类器开发集(例如呈质谱数据的形式)及用于执行图中所示的各模块的可执行代码。如图11所示,此过程开始于分类器开发数据集1100,例如通过质谱仪(未图示)从基于人类患者的基于血液的样本获得的一组质谱数据。图11的流程图中示出的过程并不局限于任何特定的数据形式,如之前所提及的,例如也可以是基因组数据(mRNA转录表达数据、蛋白质表达数据等等)。然而,基于血液的样本的质谱分析法的示例适合于这里所讨论的内容,但是绝非以任何方式进行限制。在步骤1102,分别定义了分类器开发集1100中的分组(分类标签),例如“早”群组1104和“晚”群组1106。在此示例中,“早”群组1104是由开发集1100中与在施用抗癌药物之后疾病相对早复发的患者关联的光谱组构成。相反地,“晚”群组1106是由开发集1100中与在施用抗癌药物之后疾病相对晚复发的患者关联的光谱组构成。可由人类操作者或机器(计算机)通过审查与每个样本关联的临床数据来完成分类标签的定义。在下文中详细描述了在早群组和晚群组的定义方面的进一步考虑。将开发集1100分成早群组和晚群组的划分可以将开发集分成或不分成具有平均样本数量的多个群组。在步骤1108,将“早”、“晚”样本群组两者均划分成训练集和测试集。这种划分在步骤1108并非必须要分成均等的群组。我们可按照2:1或其它的比率来划分。如果我们具有一个非常大的集合,我们可能并不想使用一个实在很大的训练集。如果我们具有的样本数量非常有限,我们可以在训练集中使用比在测试集中更多的样本。这种在1108的划分产生两个群组:训练集1112和测试集1110(每个训练集和测试集包括来自开发集1100的“早”和“晚”两者的样本/数据)。如图11中所示,训练集1112随后经历分类器开发步骤1120,1126和1130。在步骤1120中,如上文先前详细说明的,创建大量基于KNN的微型分类器。这些微型分类器可仅使用质谱数据集中的1个(s=1)或可能2个特征(s=2)用于分类。如气球形框1122中所示,KNN微型分类器使用从整个特征空间提取的特征的子集(m/Z特征的积分强度值,如方框1124中所示)。上述质谱可呈“深度MALDI”谱的形式,如申请人较早的专利申请US13/836,436(递交于2013年3月15日)中描述的那样,该专利申请在此也通过援引方式被纳入。或者,该质谱可呈典型的来自比如2,000个激光点样的“稀释后直接上样(diluteandshoot)”光谱的形式,或者通过在获取光谱的时刻实施光谱过滤的若干个(例如三个)2,000点样光谱的平均。用于微型分类器中的分类的特征为积分强度值,也就是处于指定m/Z范围内的预定义峰值位置下方的区域面积。优选的是,在预处理步骤之后,例如已执行了光谱的背景减除、规范化和校准之后,生成用于在KNN微型分类器中进行分类的积分强度值。这些步骤以及KNN微型分类器的实现是由通用计算机中的计算机代码执行的。在步骤1126,对在步骤1120中生成的多个KNN微型分类器进行过滤,以仅保存性能水平可接受的那些微型分类器。在图11中直观地说明了这一步骤。相对于定义的性能指标来评估每个微型分类器。在该步骤中,只有那些具有良好分类性能的微型分类器被保留,如1128处的加号所指示的那样。在步骤1130,如上文所说明的,在执行多次逻辑回归和丢弃法正则化迭代之后,基于通过了过滤步骤的微型分类器生成主分类器。此主分类器可以被实现为在逻辑回归和丢弃法正则化之后的滤过的分类器组合的平均。形成这种主分类器(MC)的数据集以1132标示,并被存储在执行图11中所示方法的计算机的存储器中。(应注意的是,通过丢弃法进行的逻辑回归目前对正则化组合方法而言是优选的方式,但本领域技术人员应当清楚,也可以使用其他方法,包括之前引用的科技文献中所论述的特定正则化组合方法)。在步骤1134,随后通过主分类器使开发集数据(1110)的测试集划分经历分类,来测试在步骤1130生成的主分类器的性能。(再次说明,可在主分类器内执行分类算法之前使该测试集经历预处理步骤)。上述许多主分类器性能的结果被评估并且可被存储和以及表现为例如风险比分布的直方图,如图11中1138所示,或者如前文描述的图6和图7中所示。借助将“早”和“晚”样本集划分为不同的训练集和测试集实现的一种不同的划分,重复步骤1108、1110、1112、1120、1126、1130、1132和1134,如环1136所表示的。环1136的目的是为了避免训练集/测试集划分偏差。环1136的每次迭代的结果为一个不同的主分类器。对于训练集和测试集划分的每种实现,针对测试集(1110)的每个样本评估主分类器的性能。在步骤1136,分析来自每个训练/测试集划分的分类器性能数据(例如直方图)。例如,如图11中的1138所示,训练/测试集划分的每一种实现产生一主分类器,并且可创建由这许多主分类器产生的分类(早/晚)的风险比的直方图。如前文所说明的,可利用风险比的分布来评估分类器性能。应注意的是,借助正则化步骤(1132)以及从这些主分类器中选择具有典型的性能的一个主分类器,或者利用组合方式,例如对所有主分类器求平均值,例如利用从所有主分类器过半数投票算法或者对所有的主分类器应用加权,使最终分类器到训练数据的过拟合最小化。通过观察许多具有类似的良好性能的主分类器,提高了分析步骤1136中的最终分类器性能评估的信任度。可能存在这样的例子:训练集中的一些特定样本(通常数量较小)常常被主分类器或者说最终分类器错误地分类。在此情况中,为这类样本重新定义训练标签(例如将标签从“早”改变或“翻转”到“晚”)可能是有用的。这对于训练标签难以限定的情况下(例如,在针对治疗益处或相对治疗益处的测试中)的分类问题尤其相关。这种操作在步骤1142完成,且过程回环到步骤1102,并且针对样本的某些子集,根据修正的或者说新的训练标签继续进行将开发样本集分成“早”群组和“晚”群组的划分。在新的迭代中继续进行该流程图中所示的步骤1108的将这些群组分成训练集和测试集的划分以及后续步骤的过程,在步骤1136、1138产生新的主分类器以及对新的主分类器性能进行评价。步骤1140并非总是必要的,例如对于很少或没有错误分类的实例的情况,在此情况中,该处理过程在分析步骤1136之后直接进行到步骤1144。在步骤1144,定义用于指定用于待测试样本的最终的测试标签的过程。可通过若干方法来指定用于样本的最终测试标签,例如其可被定义为对来自所有的训练/测试集划分的所有最终主分类器的分类标签的过半数投票的结果。或者,其可被定义为由针对给定训练/测试集划分而选择的能提供典型性能的主分类器产生的标签,又或者也可通过使用对由主分类器产生的分类结果的统计分析,例如利用在下文的示例中描述的程序。测试系统图26是用于利用根据图11生成的分类器处理测试样本的系统的图示,该系统包括质谱仪2606和实施CMC/D分类器2620的通用计算机2610,该分类器被编码为机器可读指令,以及特征表2622形成存储在存储器2614内的带分类标签的质谱数据2622的训练集。应领会的是,图26的检测仪2606和计算机2610能够被用于生成根据图11的CMC/D分类器。现将在示例1的测试背景下描述图26的系统的操作,但应领会的是,该章节中描述的方法可被用于其它的示例中。图26的系统获得大量的样本2600,例如来自癌症患者的基于血液的样本(血清或血浆)。样本2600用于对患者是否可能受益或不受益于特定药物或多种药物的组合作出预测。这些样本可被获得为血清卡之类的形式,在这种卡片中,是将基于血液的样本被涂到纤维素卡片或其它类型的卡片上。获得三个样本等份。在一个可行的实施例中(如下文所述,在图12中的示例3中),还可使用基准样本2604。三个样本等份被涂在MALDI-ToF样本“板”2602上,该板被插入一检测仪中,其在此情况下为MALDI-ToF质谱仪2606。该质谱仪2606从三个样本等份中的每一者取得质谱2608。该质谱表现为数字形式被供给到编程后的通用计算机2610。计算机2610包括执行编程指令的中央处理单元2612。存储器2614存储代表质谱2608的数据。存储器2614还存储“主”或“最终”CMC/D分类器2620,其包括:a)训练集2622,呈N个带分类标签的光谱的特征表的形式,其中N为某些整数,在此示例中,如早先所描述的,带分类标签的光谱来自参与临床实验的患者,且每个样本被分配有诸如”早”、“晚”、“+”、“-”、“良好”、“不良”等分类标签;b)代表KNN分类算法的代码;c)用于对患者的质谱执行根据图11生成的最终分类器的程序代码,包括逻辑回归加权和代表形成最终分类器的主分类器的数据;以及d)用于存储分类结果的数据结构2628,以及用于测试样本的最终分类标签。存储器2614还存储用以实施以2650所示的处理过程的程序代码2630,其包括:用以在步骤2652中获取来自质谱仪的质谱数据的代码(未图示);预处理程序2632,用以实施背景减除、规范化和校准步骤2654;模块(未图示),用以获得在背景减除、规范化和对齐之后的光谱中预定义m/Z位置处的积分强度值(步骤2656);以及代码程序2638,用以对在步骤2656获得的数值利用训练集2622实施分类器2620。过程2658在步骤2660产生分类标签。程序代码2642包括用以校核(步骤2662)从而确定样本的所有的三个等份是否产生相同分类标签的代码。如果不是,则报告分类标签为“未定义”或等同物。如果所有三个患者样本2600等份产生同样的分类标签,则模块2640报告在2666所标示的分类标签(亦即“早”、“晚”、“+”、“-”、“良好”、“不良”或等同物)。程序代码2630可包括附加的及可选的多个模块,例如:特征修正函数代码2632(结合图12的说明所描述的);一组程序,用以处理来自基准样本2604的光谱以限定一特征修正函数;存储依赖于特征的噪声特性和所生成的噪声特征值实现(见图12)、并对这些噪声特征值实现进行分类的模块;以及存储统计算法用以获得分类器对于噪声特征值实现的性能上的统计数据的多个模块。如本领域技术人员所应当明了的那样,还可以包括其它的可选的软件模块。图26的系统可被实现为实验室测试处理中心,该测试处理中心从肿瘤医师、患者、门诊部等获得众多的患者样本,并针对患者样本产生类标签作为服务费用。质谱仪2606不需要被物理地定位在实验室测试中心,而是计算机2610能够在计算机网络上获得代表测试样本的质谱数据。示例3针对非小细胞肺癌(NSCLC)患者选择EGFR-I药物(VS2.0),通过患者基于血液的样本的质谱分析法产生CMC/D分类器在本章节将描述另一个产生CMC/D分类器并用其指导NSCLC患者的治疗的示例。分类器的产生在很大程度上遵循上文示例1描述的以及在上文示例2中对图11的论述中描述的方法。然而,在本示例中,为利用CMC/D分类器作预测而对测试样本进行的处理过程利用了基准光谱,并且为考虑本示例中所存在的设备资格及光谱再现性的限制因素而对光谱处理进行的额外调整。用于受试样本的最终分类标签的产生还利用了依赖于特征的噪声特性和下文将结合图12更详细描述的其它技术。不过,本章节将展示从质谱数据产生CMC/D分类器的又一个示例以及在治疗之前应用该分类器对患者是否有可能受益于一种药物的使用作出预测。在先前的美国专利US7,736,905中描述的VeriStrat测试(本文中有时称作“VS1.0”),除其它方面以外,在治疗之前就NSCLC患者是否为被称为VeriStrat“不良”的一类成员作出预测,该类成员在NSCLC的治疗中不太可能受益于多种EGFR-I(诸如埃罗替尼和吉非替尼)。这种预测是基于来自患者的基于血液的样本的质谱以及在计算机中实现的分类器的使用。从近期在NSCLC治疗中的EGFR-I实验(被称为TAILOR和DELTA实验)中获得的结果,表明埃罗替尼在EGFR野生型人群中可能属于较差的治疗法。因此,特罗凯(埃罗替尼)的使用已掉出针对其肿瘤显示EGFR敏化突变的患者的第一线治疗之外,并作为更高线治疗中的挽救疗法。在‘905专利中描述的测试并未描述如何对一种EGFR-I(诸如埃罗替尼)是否为比化疗更优越的治疗作出预测,即便在那些在VS1.0测试中测试为VeriStrat“良好”的患者。后续的研究,诸如PROSE研究(参见V.Gregorc等人的会议论文RandomizedProteomicStratifiedPhaseIIIStudyofSecond-LineErlotinibVersusChemotherapyinPatientswithInoperableNon-SmallCellLungCancer,发表于2013年6月的ASCO年度会议)并没有被设计为用以展现一种治疗相对于另一种治疗的优越性。此外,尽管在PROSE研究中VeriStrat“良好”的少量患者的数量到目前为止太小因而不足以为埃罗替尼和化疗的等同性争辩,但还没有证据显示一种治疗优于另一种治疗。本发明人已针对这一问题开发并应用了我们的新的CMC/D分类器开发方法。在我们的方法的开发期间,为了更深入地探究血清蛋白质组,利用我们称之为“深度MALDI”的方法,我们还开发了多种工具和算法来提高我们的能力,以通过组合来自标准采集的多重技术性复制的光谱来增强标准质谱采集技术的峰值内容,诸如用于VS1.0测试中并在美国专利US7,736,905中描述的标准“稀释后直接上样”质谱数据采集。在此示例中描述了来自对标准“稀释后直接上样”质谱采集的多重技术性复制的光谱的这种组合的一个例子。近期分类努力研究的目标是开发新的测试(这里称为VeriStrat2.0或VS2.0),该测试用于识别出与化疗相比更能从埃罗替尼受益的NSCLC患者群组。在本示例中描述了这一新的测试和生成用于该测试中的分类器的方法。在该测试的一个可能的实施方式中,该测试基于标准MALDI-ToF质谱采集,例如2000点样“稀释后直接上样”光谱。作为一个分类器开发集(图11中的1100),我们使用了在生成‘905专利的VS1.0测试中使用的来自最初的开发集和初始验证集的样本的子集。所产生的测试(如本文中描述的)表明在所选择的子集中埃罗替尼优于化疗的优越性,同时了保留了我们最初的VeriStrat测试的预测特性。本文中描述的该测试说明了如何识别NSCLC患者是否为这种有可能从EGFR-I(诸如埃罗替尼)获得比化疗更大益处的患者子集中的一员。在下述的本示例中该子集与分类标签“晚”关联。分类标签可以是给定的用以识别这类患者的其它一些等同的名称,诸如”EGFR受益”、“阳性”、“+”等等。这样一来,用于分类标签的特定名字就不重要了。本文中描述的测试的特征还在于一种分类算法,其中被识别为“不良”等的患者被预测为在NSCLC癌症治疗中不会从EGFR-I受益。可将在这里称作“中等”的第三种的类标签分配到受试的患者样本,该标签与如下的患者关联:这些患者被预测为无论进行化疗(多西他赛、培美曲塞)还是进行诸如吉非替尼或埃罗替尼之类的EGFR-I,均同样地在临床上有意义。患者人群和可用的样本下列患者队列具有可用于这一项目的样本:被称为“意大利人A”、“意大利人B”、“意大利人C”的样本集。意大利人A和B属于患有晚期NSCLC、以在最初的VeriStrat测试的开发和验证中使用的吉非替尼治疗的患者的队列。概略而言,参见专利US7,736,905;Taguchi等人,JNCI99:838-846(2007)。意大利人C属于以通过多种化疗方案的高级治疗方案治疗的患者队列。一开始的计划是直接创建预测性分类器,通过使用所有三个患者队列来识别使用吉非替尼具有与化疗相比更好结果的患者。然而,总体而言,在无进展生存率(PFS)数据可用的患者的子集中,意大利人C队列中的结果通常不如意大利人A和B的队列中的结果,此方法不是很有效。初始时利用全部的样本来创建分类器以识别出吉非替尼治疗具有良好结果的患者,这一努力产生了许多分类器,这些分类器所产生的分类与最初的VeriStrat分类具有非常强的重叠性,亦即我们能够产生许多具有类似性能的分类器并且产生非常类似的样本分类(与最初的利用CMC/D方法及多个不同的特征的VeriStrat相比)。即使当与来自VeriStrat的质谱特征重叠的光谱区域内的特征被从该过程排除,也是如此。因此,决定将分类器生成过程限制到产生最初的“VeriStrat良好”分类的样本,亦即设计一种将“VeriStrat良好”样本划分成具对于EGFR-I有更好的或更坏的结果的患者的分类器。最终,由于有理由相信具有性能状态(PS)2的患者和在第四线治疗中的患者总体上有可能从吉非替尼治疗中接受到的益处非常少,因此在分类器开发中也不包括来自这些患者的样本。来自这三个队列的其它的样本,包括来自最初的开发集的VeriStrat不良样本、来自意大利人C队列的样本和来自具有PS2并处于第四线治疗的患者的样本,仍将在开发过程期间被用于分类器评价中。此外,在本章节中稍后描述的CMC/D分类器的临床应用中,用于分类的训练集包括来自具有“VeriStrat不良”分类标签患者的光谱的特征值。在示例3附录A中给出了在分类器开发期间使用的样本的列表。在图11所示的框图中描绘了新的CMC/D分类器的开发。上文中详细地论述了该框图。基本上,根据在开始以EGFR-I治疗之后,与样本关联的患者历经疾病的早复发还是晚复发,将开发样本集(示例3附录A)分成两个群组(“早”和“晚”)。见图13,在下文中将论述。这种开发的目标是生成用于表示患者受益于一种药物(在此示例中为EGFR-I,与化疗相比)的分类标签以及用以同时识别出属于这一类的患者的测试。此过程的结果是(新的)分类标签以及将患者分配到这些类之一的测试。对于初始的类标签分配,历经晚复发的那些患者可被认为是从EGFR-I治疗中比另一种替代治疗(诸如化疗)受益更多的那些患者,并将分类标签“晚”分配到他们的光谱。作为初始的估计,那些历经早复发的患者可被认为是那些从EGFR-I治疗中没有比化疗受益更多的患者,并将分类标签“早”分配到他们的光谱。基于这两个样本群组,这些群组被分成大致同样大小的训练集和测试集(图11中的步骤1108)。利用患者的血清样本的MALDIToF光谱中的特征,使这些训练集经历在图11右手侧中所示的CMC/D分类器生成步骤1120、1126、1130和1134。由所产生的主分类器(MC)将测试样本分类,并且在步骤1134遍历样本(1110)的测试集评估MC性能。此过程遍历许多训练/测试集划分实现(在此示例中为250中实现)循环进行。被错误分类的样本被给予重新定义的训练标签,并重复CMC/D分类及评价步骤(步骤1140、1142)。在此测试的开发中,这种标签重新定义过程被重复两次。随后,从这些MC中选择最终分类器,在此例中所有250个分类器的过半数投票产生每个训练/测试划分。用于最终分类器的其它构造方式也是可行的,诸如选择一个提供“典型”性能的MC、250个最终MC的平均值,或者其他方式(例如参见图12)。光谱采集和预处理在图11的分类器生成中使用的质谱是借助质谱仪从基于血液的样本中取得的。在分类之前使此质谱经历预处理步骤。在本章节中描述这些步骤。a.产生在开发期间使用的质谱利用由Bruker制造的用于VeriStra测试的有资格的质谱分析法设备(详请参见附录H)执行基于血液的样本的光谱采集。可采用J.等人的专利的方法,美国专利US8,467,988来执行设备资格认证,在此通过援引方式纳入该专利的内容。以2,000个所取得的点样光谱一式三份的方式取得该光谱。在此特定情况中,在获取光谱时采用BrukerFlex控制设定来过滤光谱,以便仅取得期望数量的光谱。样本经历的实际点样的数量高于2000,并且对于每个样本和每个MALDI点都是不同的。针对每个样本取得的一式三份的光谱被对齐(均衡化)和平均,以使每个样本产生一个6,000点样的光谱。b.背景估计和减除对平均光谱预处理中的第一步骤为背景估计和减除。利用单窗口方法并乘以100来估计平均后的光谱的背景成分。随后将被估计的背景从平均后的光谱中减除。c.光谱对准在任何质谱中,对于渡越时间数到m/Z值的转换都略微存在差异。我们识别出一组存在于绝大多数质谱中的峰值并重新确定每个光谱的m/Z值规模,使得每个独立光谱中那些共同的峰到基准组的方差之和尽可能的小。此过程使得对于(在m/Z中)多个靠近的特征有更好的分辨率。d.规范化为了获得在临床群组之间有区分的多个特征,我们需要从不同的样本检测峰值强度并比较它们的数值。在MALDI过程中电离的蛋白质的总量并不是可控制的,且因此我们可以仅检测相对峰值强度。为此我们需要将光谱规范化。为了避免在规范化期间峰值强度从或者内在地可变、或者与患者的临床状况相互关联的峰值变化到稳定峰值的可变性发生扩散,需要注意确定光谱的哪个区域能被用于规范化。利用局部离子流规范化工具选择用于规范化的m/Z区域。局部离子流规范化在本领域中是公知的,感兴趣的读者请参阅美国专利US7,736,905中对规范化过程的论述。e.特征限定和特征表为了限定能够在临床群组之间加以区分的峰值(亦即,用于KNN分类中的m/Z特征)的可能的候选者,我们定位预处理光谱中的多个峰值并限定m/Z中的每个最大峰值周围的范围。m/Z中的这些范围限定了用于所有进一步分析的多个特征。对于每个光谱,我们选择76个特征作为可能的候选者用以在多个群组之间加以区分,并计算每个这些特征的积分强度。这样我们获得了针对每个光谱的每个特征的特征值。这些以表格式列出的积分强度(特征值)被称作特征表,其中行是光谱,列是特征,该特征表被存储在实现图11的方法的通用计算机的存储器中。在CMC/D分类器开发过程期间,所限定的特征中的m/Z=7616和14392这两个特征由于面对复验时缺乏充分的特征品质(噪声)而未被使用。我们注意到一些的样本具有相当的氧化水平,其导致双峰值结构或类似峰值偏移。为了避免丢失下层多肽的氧化版本,我们使用非常宽的特征定义。示例3附录B中提供了用于CMC/D分类器生成过程中的74个m/Z特征的定义。CMC/D分类器开发方法选择早/晚进展群组以及训练集和测试集(步骤1102和1108,图11)当然,基于临床数据不可能确定哪位患者从一种给定治疗中或多或少地受益。作为定义从借助EGFR-I的治疗中或多或少地受益的患者的类(亦即,将初始分类标签分配到样本)的第一近似值,在步骤1102(图11)中,PFS小于80天的的患者被定义为“早”(早进展表明从治疗中可能受益很小),而PFS超过200天的患者被被定义为“晚”(晚进展表明从治疗中可能受益较大)。参见图13。其结果是23位患者在“早”群组中,而23位患者在“晚”群组中。这些患者连同其分配的类标签在示例3附录C中列出。这些患者随后被划分成训练集(11个“早”和11个“晚”)和测试集(12个“早”和12个“晚”),图11中的步骤1108,被治疗线和性能状态(PS)分级。可能的情况是,一些训练/测试划分能够产生对于创建分类器而言特别良好或特别不良的训练集,以及容易分类或难以分类的测试集。因此,被分级的训练/测试划分被随机地完成250次(由图11中的环1136表示)。每个划分提供一训练集1112,该训练集产生一CMC/D主分类器(MC)(图11中的步骤1130),其性能可在对应的测试集上被评估(步骤1134)。为了提供在PFS时间分布方面有代表性的人群的测试集,随机地选择PFS介于80到200天之间、PS为0或1并且处于第一到第三治疗线的患者中的半数,使其包含在测试集中。图13中示出了分类标签的初始分配及划分成训练集和测试集的情况。产生微型分类器(步骤1120,图11)对于给定的训练集,可利用这74个特征的子集创建许多独立的K-最近邻居(KNN)分类器。由训练集中的样本及特定特征的子集定义的这些独立的KNN分类器定义了“微型分类器”(mC)。对于这一项目而言,在KNN算法中K=5始终是固定的。所有的mC被认为使用74个特征中的一个(s=1)或74个特征中的一对(s=2)。这样,对于每个训练集,提供了2775个mC。微型分类器的过滤(步骤1126,图11)通过mC在训练集上的性能基于过滤来删减步骤1120中生成的微型分类器。这是利用CMC/D过程的ERRORS方法完成的,其中Jmin=0.7,Jmax=0.9。这意味着每个mC被应用到其训练集。“早”和“晚”标签分配的准确度被计算。如果此准确度处于0.7与0.9之间,则mC通过了过滤且能够被用于产生主分类器(MC)。如果该准确度处于此范围之外,则mC未能通过过滤并从CMC/D过程被除去。通过过滤的mC的数量取决于训练集,亦即取决于特定的训练测试划分实现,但通常为1000-1500的量级。大体上,ERRORS方法评估由mC给定的分类的准确度。在过滤过程中每个mC被应用于训练集的每个成员,这为我们提供了针对训练集的每个成员的分类。我们知道我们已分配到训练集的每个成员的定义(分类标签),因此我们只是计算每个微型分类器的正确分类的比例。我们选择这一准确度(正确分类的比例)必须介于0.7与0.9之间。我们有意地没有将上限(Jmax)推高到1.0的完美分类。首先,并没有很多微型分类器达到这种准确度,但其次并且最重要的是,当生成分类器时我们要设法在该过程的每个阶段避免过拟合。达到异常高准确度的微型分类器有可能是‘特殊的’而不是‘典型的’,其源于训练集和特征的某些独特性,并且不太可能良好地泛化。因此,我们选择不将‘过于良好’的微型分类器包括在主分类器内。非常有趣的是,应注意到当将过滤标准设定为极端,并且具有异常良好的性能微型分类器被组合时,所产生的总的分类器却被证明表现更差。利用带丢弃法的逻辑回归创建主CMC/D分类器(步骤1130)通过使用晚和早训练集标签并借助作为正则化矩阵的极端丢弃法训练逻辑回归,将通过过滤后的这些mC组合成一个主分类器(MC)。进行一万次丢弃法迭代,在每次迭代中利用逻辑回归随机地选择5个mC并将其组合。对于来自每次丢弃法迭代的每个mC的逻辑回归权重(参见方程1,如上文所述)被平均以产生用于逻辑组合成最终MC的最终权重。CMC/D分类器性能评估(步骤1134、1136,图11)一旦对于给定的训练集实现创建了主分类器,则在步骤1134中通过在测试集(1110)上以及从意大利人C队列的样本获得的光谱上运行该主分类器来评估该分类器。对250种训练和测试划分的每一个执行此过程。评估的量包括针对意大利人C队列并对应于总生存期(OS)和PFS的、测试集的“早”分类和“晚”分类之间的风险比(HR),以及针对测试集和意大利人C队列的“早”分类和“晚”分类的中等值。图14A-图14B中示出了所生成的对应于PFS和OS的HR分布。此外,当带分类标签的样本在测试集中时,检查这些样本各自的分类。许多样本重复地被分配了与其PFS-定义的标签并不匹配的分类。这些样本被识别出并在表3中列出。表3.持续地被错误分类的样本样本IDICA_11ICA_12ICA_18ICA_20ICA_21ICA_22ICA_36ICA_38ICA_39ICA_45ICA_51ICA_68ICB_22ICB_3ICB_38ICB_49ICB_61初始的类标签分配的细化(步骤1140,图11)遍历许多训练/测试划分持续地被错误分类的那些样本的分类标签(在表1中列出)被翻转(“早”翻转为“晚”并且“晚”翻转“早”)。这样就产生了新的一组训练标签,以供再次实施CMC/D分类器生成过程。利用新的标签,如同之前基于治疗线和PS被分级之前,将“早”和“晚”样本再次随机化为训练集和测试集250次。在利用相同的标准过滤之前和过滤之时,创建多个微型分类器。利用带丢弃法的逻辑回归组合这些滤过的mC,以创建多个MC,并在新的测试集上评估这些MC的性能。在图14C和图14D中示出了对应于生成的PFS和OS的HR分布。在图14D和图14E中示出了在两次翻转之后对应于生成的PFS和OS的HR分布。当测试集的一部分,若干样本被确认为持续地被错误分类。表4中列出了这些样本。表4.在第一组类标签翻转之后持续地被错误分类的样本样本IDICA_20ICA_21ICA_38ICA_39ICA_45ICB_12ICB_40在CMC/D过程的第二次运行之后持续地被错误分类的那些样本的分类标签(在表4中列出)被翻转(“早”翻转为“晚”并且“晚”翻转为“早”)。这样就产生新的一组分类标签,它们再次被随机化为训练集和测试群组250次,基于治疗线和PS分级。构建mC、过滤、组合成MC和评估性能的整个过程被重复第三次。在该过程的第三次才重复之后,仅2个样本在训练集中时被不良地分类,并且决定不再需要进一步处理。图14E至图14F中示出了对应于CMC/D过程的第三次迭代的250个训练/测试划分的MC性能的分布。超过90%的训练/测试划分实现产生测试集的“早”分类和“晚”分类之间的小于1的HR,而这些实现的一半以上的HR小于0.76(对于PFS)以及小于0.78(对于OS)。最终测试/CMC/D分类器并不是通过选择这些独立的训练/测试划分中的一个来定义,而是该最终分类器被定义为针对第三次CMC/D迭代所有250个MC的过半数投票。这样做的优点是不需要从可能具有特别有益的测试集或训练集的一种特定的训练/测试集划分选择一主分类器,并且还消除了做出选择时的任何人类主观性因素,因此有可能提供更强健的最终分类器。通过这一过程限定了用于最终测试的分类标签。考虑设备资格及光谱再现性方面的限制因素而做的调整上文所描述的用来生成用于受试样本的分类标签的最终分类器的实现,在质谱数据处理中实施了某些调节,以顾及当开发测试时即存在的设备资格以及光谱再现性上的的某些限制因素。在本章节中将描述这些调节。稍后还将结合图12继续描述这一过程。本领域技术人员应明了的是,这些调节对于生成CMC/D分类器或者利用CMC/D分类器实施预测性测试而言可能并非是必要的。本章节中描述的调节的起因是由于我们用于生成质谱的质谱仪的某些局限性,以及还由于对提高测试稳定性的期望。A.质谱仪的m/Z灵敏度变化的校正利用J.Roder等人的美国专利US8,467,988中描述的过程,使用先前有资格进行最初的VeriStrat测试的Bruker质谱仪设备取得光谱。尽管最初的VeriStrat测试仅使用5kDa与13kDa之间的特征,但本章节中描述的测试使用具有除此范围内的特征之外的更高或更低的m/Z位置的特征。有资格进行最初的VeriStrat测试的光谱分析仪必须具有足够的用于最初测试的质谱特征的再现性,但在此范围之外的m/Z灵敏度的方面没有要求。将与在本测试开发中使用的光谱产生的时间相同的时间由基准样本生成的基准谱与之后由相同基准样本产生的光谱相比较,二者都是在具有资格的机器上进行,比较结果表明,虽然对于在5kDa至13kDa特征范围内的特征,m/Z灵敏度是类似的,但在此范围之外m/Z灵敏度表现出一些系统性的差异。为了能够比较在不同时刻或者以处于可用于测试的水平(根据这一新测试)的资格设定的不同设备上生成的光谱,需要针对这些m/Z灵敏度中的差异来修正上述特征值。这种修正可利用从单个基准样本生成的基准光谱来完成,该基准样本以与用于本测试开发的光谱相同的批次生成,以及与来自待利用新的VS2.0测试进行分类的患者样本的光谱的后续批次相同的批次生成。在本示例中(如图12的1202A和1202B所示),基准样本为来自健康人类的血清样本。以用于VS2.0开发的光谱一式三份地进行基准样本的两次制备。这些一式三份的样本利用平均工作流程被平均,并利用预处理工作流程被预处理(参见下文对图12的论述)。生成多个特征值,并在两次制备之间比较这些特征值。为了避免使用来自一个或另一个制备的异常的特征值,针对这两次制备,将特征减少到使彼此的特征值处于10%以内的程度。如FV1是针对基准样本的制备1的一特定特征的特征值(1202A,图12),而FV2是基准样本的制备2的同一特征的特征值(1202B,图12),如果以下方程成立,则该特征被认为适合于相对m/Z灵敏度的分析:|1-(FV1/FV2)|<0.1或|1-(FV2/FV1)|<0.1方程2将这些特征的特征值与从用于VS2.0测试的后续批次的样本中的基准样本的制备生成的相同的特征特征值进行比较。如果在后续批次中可以进行两次制备,则理想的是在样本进行VS2.0测试之前和之后进行,则同样为了能够在第二批次中用于m/Z灵敏度对照的特征,方程2的阈值应当被达到。如果基准样本多于2次的制备是可用的,则方程2可被泛化到使用来自增大的光谱数量的可用的信息,以便能将特征值的标准偏差与每个特征的平均特征值相比较,并且可使用标准偏差与平均值的比率低于一设定阈值(如0.1)的多个特征。一旦这些特征的一子集被确认具有合适的再现性,则在作为m/Z的函数的、开发批次中的基准光谱的平均特征值(AVO)与后续批次中的基准光谱的平均特征值(AVN)的比率的图中,能够检查从样本的VS2.0开发批次到样本的任何后续批次的m/Z灵敏度变化。此图在图15中被示出。在图15中可看到m/Z灵敏度的系统性变化,与后续批次相比,开发批次在较高的m/Z处具有较低的灵敏度,而在较低的m/Z处具有较高的灵敏度。为了能够对这种系统性的m/Z灵敏度差异进行校正,针对图15中的数据拟合一条具有确定斜率和截距的直线。这样就提供了一个函数,借助该函数能够修正在后续批次中针对任何样本获得的每个特征值,以使其可与针对VS2.0开发批次中的样本获得的特征值相比较。B.对通过VS1.0样本处理和光谱采集过程从血清样本获取质谱时固有的噪声的VS2.0分类稳定性分析VS1.0是高可再现性的测试,具有超过95%的分类再现性。一种在测试中获得再现性的方法是在VS1.0分类产生之前使用样本的一式三份的点样(spotting)来产生光谱,并比较一式三份的标签。由于针对VS2.0测试,来自样本的一式三份的光谱被平均,因此VS1.0的冗余信息丢失,并且此方式不能扩展到VS2.0。然而,已开发出一种电脑中运行的(in-silico)产生针对给定的测试样本的多重复制的方法,该方法允许对在VS1.0样本制备、点样以及光谱生成过程中依赖于样本的和依赖于MALDI-点样的、固有的非系统性非再现性(噪声)效果进行模拟。为描绘每个特征的噪声特性,比较在新取得针对VS1.0的资格的质谱仪上执行的意大利人A、B和C样本组的两次运行。对于每个VS2.0特征,每个样本的特征值在两次运行之间被比较。这样就产生了针对每个VS2.0特征的索引图(concordanceplot)。对于每个索引图,利用线性回归将一直线与特征值数据拟合。为描绘围绕这种拟合的噪声的特性,检查线性回归的残差。噪声被分配成主要为加性或主要为乘性。对于加性的噪声,噪声强度被定义为这些残差的标准偏差。对于乘性的噪声,将每个残差除以对应的特征值,该数量的标准偏差被定义为噪声强度。在示例3附录D中给出了以此方式估计的对应于VS2.0特征的噪声类型和噪声强度。对应于每个特征的噪声的特性已通过噪声类型和强度、σ而被描绘,对应于每个样本的每个特征的噪声实现与测得的特征值F,可以通过以下方程生成:加性噪声:F噪声=F+σε方程(3)乘性噪声:F噪声=F(1+σε)方程(4)其中ε为具有零平均数和单位标准偏差的高斯随机数。为审查对于特定的测试样本的噪声因素下的VS2.0分类的稳定性,利用方程(3)、方程(4)和在示例3附录D中给定的用于每个过滤器的噪声参数生成针对每个样本的特征表的160个噪声实现。利用在上文描述的CMC/D过程的最终迭代期间生成的250个MC,将每个噪声实现分类。这样就针对该样本的每个噪声实现产生了250个“早”或“晚”的分类,亦即每个样本40,000个“早”或“晚”分类。令全部250个主分类器的“早”分类的总数为“N早i”,而全部250个主分类器的“晚”分类的总数为“N晚i”,其中1≤i≤160。通过定义,对于所有的i而言,0≤N早i≤250,0≤N晚i≤250,以及N早i+N晚i=250。噪声影响估计量被限定为:噪声影响估计量=N早i/(|∑iN早i–∑iN晚i|/320)的标准偏差=sqrt(∑i(N早i)2–(∑iN早i)2)/(|∑iN早i–∑iN晚i|/320)=sqrt(∑i(N早i)2–(∑iN早i)2)/(|∑iN早i–20000|/160)方程(5)此“噪声影响估计量”将“早”主分类器分类的数量可变性与“早”和“晚”主分类器分类的总数之差作比较。如果与对应于一种实现的“早”与“晚”主分类的数量之间的典型差异相比较,这些噪声实现产生“早”分类的数量低可变性,则噪声影响估计量会较小。如果与对应于一种实现的“早”与“晚”主分类的数量之间的典型差异相比较,这些噪声实现产生了大的“早”分类的数量的可变性,则噪声影响估计量会较大。“早”与“晚”主分类器分类的数量之差较大的样本在返回的VS2.0分类中产生改变之前能够容忍相当大的可变性,而这种差异小的样本只具有小的可变性就会在返回的总体分类中造成改变。因此,在方程5中限定的噪声影响估计量提供了对样本易受分类标签变化影响的程度的度量。将这一过程应用到意大利人A、B和C样本集的两次运行,以计算对于每个样本的噪声影响估计量,可以通过仅对低于0.5的临界值的噪声影响估计量的样本返回VS2.0分类器分类,而对样本返回显示出的可靠分类。高于这一临界值则在返回用于受试样本的分类标签方面具有相当的不确定性,且应报告一中等/未知分类标签。将最终分类器应用到开发集中的样本将VS2.0最终分类器应用于开发样本组中的所有样本。注意,这一应用包括了在该分类器的训练中所包括的样本。在示例3附录E中给出了开发集样本的VS2.0分类。注意,具有“不良”的VS1.0分类的所有的样本被分配了“早”标签。对根据晚、未知和早(不包括VS1.0不良)以及图16中的VS1.0不良分组的开发集中的患者标绘了OS和PFS。注意,意大利人C队列中的若干患者具有OS数据,但无PFS数据。图16为具有从开发集光谱分配的标签的开发集中患者的时间-事件结果图;图16A:以吉非替尼治疗的患者的OS;图16B:以吉非替尼治疗的患者的PFS,图16C:化疗的患者的OS;以及图16D:化疗的患者的PFS。通过对比图16A和图16C,注意到那些样本测试为“晚”的患者从吉非替尼获得比化疗更大的益处,如这些患者的总生存期曲线所表现的那样。表5和表6中给出了与图16中的那些图相关的生存统计表5.与图16关联的中等值端点群组n中等值(天)95%CI(天)OS晚GEF32457259-680OS早/未知GEF53243144-304OSVS1.0不良GEF4496.560-162PFS晚GEF3220890-287PFS早/未知GEF539269-122PFSVS1.0不良GEF4461.543-83OS晚CT38055-92OS早/未知CT17172132-383OSVS1.0不良CT1214160-250PFS早/未知CT1478.540-113PFSVS1.0不良CT1082.529-93表6.与图16关联的风险比和p值来自意大利人A、B和C的样本被运行两次。(在最后一次运行中,仅VS1.0良好样本被再运行,由于缺少剩余的样本量,一小部分样本被忽略)。示例3附录F中总结了全部三个运行的结果。与电脑中运行的噪声分析一起进行的灵敏度校正使得可起作用的标签具有良好再现性。在最后一次运行中93个样本中的16个被加“晚”标签,35个被加“早”标签,以及42个被加“未知”标签。在该第三次运行中被加“晚”标签的样本在之前的运行中被加“晚”或“未知”标签。在第三次运行中被加“早”标签的样本在之前的运行中被加“早”或“未知”标签。在第三次运行中被加“早”标签的35个样本中的24个样本在所有三个运行中均被加“早”标签。在第三次运行中被加“晚”标签的16个样本中的14个样本在所有三个运行中均被加“晚”标签。在第三次运行中被加“未知”标签的42个样本中的20个样本在所有三个运行中均被加“未知”标签。尽管“未知”中的很大一部分是非期望的,但可看到如果我们从VS2.0分析调用“早(晚)”标签,此样本会在另一运行中被赋予“早(晚)”特性,或被称为“未知”。将最终CMC/D分类器应用到来自PROSE研究的样本测试过程:盲法(blinding)使上文所描述的最终CMC/D分类器对从来自一验证方案下的PROSE研究可用的样本获得的质谱进行测试。将质谱提供给对其临床的数据不清楚的分析师。该谱如上文所描述的那样被分析,并产生了作为结果的分类(示例3附录G)。随后,提供一破盲键(un-blindingkey),并执行统计分析。测试过程:m/Z灵敏度校正计算分析与PROSE光谱一起生成的血清P2(基准)光谱,以提供必要的m/z灵敏度校正。由于PROSE样本跨越了5个批次,通过每个批次收集一个血清制备P2。通过5个单独的制备,使用CV计算方法(上文所描绘的)。图17中示出了PROSE数据的回归曲线。通过这一曲线可以看出,获得的Y轴截距和斜率数值,如插入图17的表格中所示。结果的统计分析在示例3附录G中列出了所获得的来自PROSE实验的样本的VS2.0分类。仅考虑来自PROSE初步分析人群中的患者的样本进行统计分析。对于患者01_044和患者01_080,两个样本是可用的。对应于被赋予标准标签的样本(而不是被赋予‘第二_样本’标签的样本)的结果被用于统计分析。对于患者06_010,两个样本也是可用的,但两者都具有“早”的VS2.0分类。对于患者01_050、患者03_006、患者06_004、患者06_021、患者11_043、患者11_048和患者12_014则没有样本是可用的。因此在PROSE方案集人群中的263个患者中的256个的样本是可用的:148个被分类为“早”,39个被分类为“晚”,69个为“未知”。所有分类为“晚”的样本与具有VS1.0“良好”分类的患者关联。仅两个在PROSE初步分析中被分类为VS1.0“不良”的患者被分类为“未知”;所有其他的患者被分类为“早”。在148个被分类为“早”的患者中,73个具有VS“良好”的VS1.0分类,而75个具有VS“不良”的VS1.0分类。表7中示出了依据VS2.0分类的患者特性。表7.VS1.0“良好”人群中的依据VS2.0分类的患者特性图18示出按照治疗方案的“晚”和“早/未知”(VS1.0“良好”)的分类分组的OS结果,其中图18A示出对应于埃罗替尼治疗群组的数据,而图18B示出对应于化疗群组的数据。图19示出了按照治疗方案的“晚”和“早/未知”(VS1.0“良好”)的分类分组的PFS结果,其中图19A示出对应于埃罗替尼治疗群组的数据,而图19B示出对应于化疗群组的数据。表8中示出了VS1.0“良好”人群的多变量分析的结果。当针对可能的混淆因素而被调整时,VS2.0的“晚”或“早/未知”的结果仍然有意义。表8.VS1.0“良好”人群的多变量分析图20示出了按照治疗方案的VS1.0“不良”和“晚”群组的OS的Kaplan-Meier图以及对分类、VS1.0“不良”和“晚”及治疗方案之间交互作用的分析结果。图21比较了在VS1.0“良好”、“早/未知”群组中,化疗和埃罗替尼之间的结果。在图22中示出了按照治疗方案的晚群组中的结果的对比。注意,在图22A中,那些分类为“晚”并接受埃罗替尼治疗的患者具有17.1个月的中等总生存期,比那些接受化疗的患者多两个月。在表8中,针对每个治疗方案,总结了每个群组的OS和PFS的中等值,以及其95%的置信区间以及每个群组中的患者数量。表8.按照群组及治疗方案的OS和PFS的中值示例3结论本章节中描述的测试(VS2.0)是真正的多变量测试,其利用从基于血液的样本的质谱得到的74个特征来识别出接受埃罗替尼治疗比接受化疗的表现更优的第二线NSCLC患者群组。这一测试的开发已验证了CMC/D分类器开发方法。VS2.0将最初的VeriStrat测试群组中我们先前识别为“良好”的群组分为两个子群组,“VS2.0早”或“早”和“VS2.0晚”或“晚”,尽管由于光谱采集的局限性而具有相当大的不可识别患者群组(此处描述为“VS2.0未知”)。在其目前的实施方式中,这一测试(VS2.0)依赖于有资格进行我们最初的VeriStrat测试的设备的光谱采集。由于VS2.0要求采用VS1.0验证体制之外的m/z范围的特征值,需要采用特别的措施通过利用基准样本来校正依赖于m/Z的灵敏度的差异。利用在电脑中运行的灵敏度分析来评估标签稳定性,这导致相当大数量的VS2.0“未知”。针对仅分配可靠标签方面,通过开发集的三次运行评估了所分配的VS2.0标签的再现性,并且该再现性非常高。对于VS2.0的临床应用,我们分析了三个群组:VS1.0“良好”人群中的VS2.0“晚”、VS2.0“早”和“未知”,以及几乎被一致地分类为VS2.0“早”的VS1.0“不良”人群。在PROSE样本的盲法分析中,VS2.0是有资格的(经临床验证的)。在某些方面,VS2.0“晚”群组中的可用样本数量限制了这种资格的意义。将VS1.0“良好”群组中的VS2.0“晚”的总生存期与VS2.0“早/未知”的总生存期进行比较,表明VS2.0将VS1.0“良好”群组划分为埃罗替尼治疗下的表现良好和不良群组,同时在化疗方案中则极少有证据来证明这种划分。遗憾的是,因样本量过小而不能达到埃罗替尼相对于化疗的优越性的统计显著性。VS2.0保持了VS1.0的预测能力(按照治疗方案的VS2.0“晚”相对于VS1.0“不良”),即使样本量减半。PFS的结果也类似于OS。VS2.0的成功开发验证了测试开发且的相关方法,概括而言为CMC/D方法。训练标签的平行迭代开发和用以识别这类患者的测试的效果出人意料地好。CMC/D中固有的用以避免过拟合的手段被证明是有效的,且被扩展为包括在训练/测试划分MC上的过半数投票,进一步降低了测试/最终分类器选择的模糊性。VS2.0利用在我们使用的相加光谱(2,000个点样光谱的三份复制)中的大约60%的可观察峰值,而不具有明显偏爱的特征。因此,尽管本示例使用了示例3附录B所记录的特定特征,但这些特定的特征并不被认为是必要的或者关键的,并且性能良好的测试可以是基于这些特征的子集或者也许是额外的特征,例如通过更大的点样数量获得的光谱中发现的特征。从商业用途方面来说,VS2.0提供了一种识别如下患者群组的工具:人们能够合理地确信,对于该患者群组,埃罗替尼至少为化疗的等同手段,并且有可能更优。二线设定中17个月总生存期的中等值是惊人的,且可能导致二线NSCLC治疗体制的改变。同样,我们能够定义使这种预测成为该处理的一部分的分类标签“早”和“晚”(或等同物)。VS2.0CMC/D分类器在测试环境中的应用(图12)在本章节中将结合图12描述在示例3所述CMC/D分类器的应用以对来自NSCLC患者的基于血液的样本进行分类。如上文所说明的,如果分配给测试样本的类标签为“晚”或等同物,则该类标签预测提供该样本的NSCLC患者与化疗相比更有可能受益于EGFR-I(诸如埃罗替尼或吉非替尼)。“不良”分类标签或等同物表明该患者在癌症治疗中不太可能受益于EGFR-I。“中等/未知”分类标签表明该患者有可能从化疗或者从EGFR-I获得在临床意义上相似的受益。图12中示出了一工作流程,该流程示出如何在测试样本的质谱上使用根据图11生成的CMC/D分类器。该过程开始于向质谱仪提供三个基于血液的样本:来自于进行测试的患者的测试样本1200,以及被示出为基准样本1和基准样本2的两个基准样本,分别被记录为1202A和1202B。这两个基准样本是将来自健康人类患者的基于血液的基准样本两等分获得的。在这一实施例中使用基准样本1202A、1202B,以便校正对于在VS1.0测试中使用的特定质谱仪而言有资格的先前m/z范围之外的整个m/z范围的m/z灵敏度变化。可能的情况是,通过有合适资格的设备,可能并不是必须要用基准样本1、2。在步骤1204,使用MALDI-ToF质谱仪,在三个样本1200、1202A和1202B上执行质谱分析法。使每个样本在该仪器中经历三次2000样点“稀释后直接上样”MALDI-ToF质谱分析法以及光谱采集过滤(参见上文的论述)。对应于三个样本中的每一个而产生的三个2000获得的点样光谱被从质谱仪传递到用以实现图12的工作流程的通用计算机的机器可读存储器。随后,调用软件模块平均工作流程1206对在步骤1204获得的一式三份光谱求平均值(如步骤1208所示)。在图23中示出了求平均值的工作流程。基本上,该模块估计用于对齐的光谱的峰值,执行原谱(rawspectra)的对齐,并随后计算从三个样本中每一个样本取得的三等份的对齐光谱的平均值。随后,调用预处理工作流程模块1212(图24)来执行平均后的光谱的预处理并生成在分类是使用的特征值(特征表),如步骤1214所示。该步骤包括背景减除和估计、峰值探测和对齐、局部离子流规范化和预定义的m/Z范围上的特征值的计算(积分强度值)。在示例3附录B中列出了这些范围。如1216所示,将在步骤1214生成的对应于两个基准样本(1202A和1202B)的特征值提供给模块1218,该模块进行检验以判断这些基准值是否一致。基本上,在模块1218中,将这些基准特征值进行比较。这涉及如下步骤:1.对于在步骤1214获得的所有的特征值F,计算参数δF=min(|1-(FVpre/FVpost)|,|1-(FVpre/FVpost)|)。此处的思路是在测试样本1200之前(或者在一批测试样本的开始)运行一个基准样本(1202A),并从该基准样本获得特征值集合,即FVPre,随后,在测试样本1202之后(或者在这批测试样本结束时)运行另一次基准样本1202B的制备,并再次从基准样本获得特征值的集合,即FVPost。2.选择δF<0.1的那些特征,将那些特征值加入到特征值列表(列表L)。3.将在步骤“2”选择的特征列表L与特征值列表L’作比较,特征值列表L’是通过同样的步骤1-2从借助用于生成CMC/D分类器的样本的开发集的基准样本运行获得的(即示例3附录B中的特征列表)。4.如果列表L包含处于m/Z位置3219和18634的特征,则认为这些特征值是一致的。如果一致性测试(4.)失败,则该过程返回到开始处,并重做测试样本和两个基准样本的光谱获取。如果一致性测试(4.)成功,则处理过程进行到利用标准特征值集合1220限定特征校正函数步骤1222。这些特征值用于基准样本(1201A和1202B)的两个制备,当生成最初的光谱时(即,在CMC/D分类器产生时),借助开发集样本运行这两个制备。它可以是所有特征值的列表,但其中一些并未通过我们在这两个制备之间设定的一致性标准,因此这些特征在实践中将永不被使用,而将被从列表中排除。我们寻求的特征在借助开发集光谱的基准样本运行的两个制备之间要一致(协调),并且对于pre-(前)和post-(后)基准光谱也要一致。随后,我们计算最初的样本的平均值以及对于这些特征的前-和后-样本的平均值。我们算出这二者的比率并将其绘制为m/Z的函数。产生比率的曲线图的线性回归,并且返回Y轴截距和斜率。参见前文对图15的论述。在步骤1224,来自步骤1222的Y轴截距和斜率分别为根据线性回归图的特征值校正函数参数a和b。这些数值被应用于在步骤1214生成的测试样本特征值。这种校正可被表达如下:FV校正=FV估计/(a+bmZ)在步骤1224,这些校正后的特征值被存储在存储器中。这些校正后的特征值被用于两个单独的处理分支:步骤1228和步骤1232中。在步骤1228中,代表根据图11的过程生成的最终CMC/D分类器的数据集1226被应用于校正后的测试样本特征值。在这一示例中,最终CMC/D分类器是在来自分类器生成样本集1100的每个测试样本和训练样本划分实现中生成(图11)并在图11的步骤1134创建的这组250个主分类器。将主分类器应用到校正后的特征值的的结果是测试样本分类标签,如1229所示。如图12中的1232所示,在步骤1224生成的校正后的特征值还被发送到模块1232,该模块利用预定义的、依赖于特征的噪声特性1230生成新的特征值实现(“噪声实现”)。基本上,该模块1232使用从开发样本集获得的噪声参数σi(图11,1100)来生成160个噪声实现:-加性噪声实现:FVNi=FV校正,i+εi-乘性噪声实现:FVNi=FV校正,i*(1+εi)其中εi是具有零均值和单位标准偏差的高斯随机数(N),其以表达式N(0,σi)为特征,其中σi为从之前描述的基于开发集确定的噪声参数。在步骤1232中生成的作为结果的“噪声”特征值呈特征表的形式。所有的特征值作为工作流程产品被提供。这一过程的结果以方便的形式被存储,诸如Excel电子表格。在步骤1234,代表主分类器的数据组(1226,上文所描述的)被应用于在步骤1232生成的噪声特征值。参见图25。这导致形成主分类器结果表(每个类型的分类标签的#)。在这一特定的示例中,主分类器采用基于250个训练/测试集划分而形成的250个主分类器的形式(如上文所说明的),对应于每个噪声实现生成250个分类标签。如步骤1236所示,对应于噪声实现的主分类器结果被整理,从而可被获得对分类结果的统计数据,如1238所示。在这一步骤1236中,我们生成比率R(称为“噪声影响估计量”),其与晚分类和早分类的数量之间的差的标准偏差相关。对特征表的所有的噪声实现进行这一处理。这种统计分析和比率R的计算的细节如下:令N早i=针对每个噪声实现计算的所有250个主分类器(MC)的早分类的#,i,对于该测试样本(在此示例中1≤i≤160,因为存在160个不同的噪声实现)。计算所有的i的总和,∑iN早i。令N晚i=针对噪声实现计算的所有250个主分类器(MC)的晚分类的#,i,对于该测试样本(1≤i≤160)。计算所有的i的总和,∑iN晚i。因此,对于所有的i,0≤N早i≤250且0≤N晚i≤250。并且,对于所有的噪声实现i,N早i+N晚i=250。噪声影响估计量=R=N早i/(|∑iN早i–∑iN晚i|/320)的标准偏差=sqrt(∑i(N早i)2–(∑iN早i)2)/(|∑iN早i–∑iN晚i|/320)=sqrt(∑i(N早i)2–(∑iN早i)2)/(|∑iN早i–20000|/160)R的分母(|∑iN早i–∑iN晚i|/320)提供了我们对所有160个噪声实现的“早”和“晚”的数量之间的差的平均值的度量。如果此数量较小,则过半数投票分类接近,而如果此数量较大,则是“一边倒”的投票。大体上,比率R将MC标签的可变性与“一边倒”的程度相比较,这是重要的,因为我们想要知道我们估测的噪声参数ε的可变性是否有可能导致过半数投票分类不可靠。亦即,如果我们在所有250个MC上平均220个“早”和30个“晚”,我们并不介意比如说10的可变性,但如果我们在所有250个MC上平均130个“早”和120个“晚”,我们会介意10的可变性。在步骤1240生成用于测试样本的最终分类标签(1200,图12)。这种分类将仅对具有VS1.0“良好”的分类的样本执行。所报告的这种最终分类标签如下:1.如果在步骤1236中确定的比率R>0.5,则返回标签“中等”(或等同物)。样本与“中等”标签关联的患者被预测为从化疗和从EGFR-I获得相似的临床意义上的受益。注意,这与主分类器在校正后的特征值(1129)上产生的分类标签没有关系。2.如果在步骤1236中确定的比率R≤0.5,A.如果在1229生成的测试样本标签为“晚”,返回“晚”标签。B.如果在1229生成的测试样本标签为“早”,返回“早”标签。对于NSCLC癌症的治疗,与“晚”标签关联的测试样本被预测为从EGFR-I获得与化疗相比更大的益处。在一个可能的实施例中,中等标签被认为包括那些其噪声影响估计量>0.5(上文的地1.点)加上那些“早”(<=0.5噪声影响估计量且具有“早”标签)标签的患者。它们是被组合的,因为这样做在临床上是有用的(它们实质上包括那些剩余的患者,如果决定对那些“晚”的患者给予EGFR-I,而对那些测试为VS1.0不良的患者给予化疗)。“对化疗和TKI的测试结果可能类似”这一结果是针对该组合群组(噪声影响估计量>0.5(上文的第1.点)加上“早”分类标签的患者(<=0.5噪声影响估计量和“早”标签)而做出的结论,而非针对任一单独的群组做出的。示例4基于基因组数据生成CMC/D分类器及其用于预测乳腺癌患者的早期复发的应用在示例4中将描述CMC/D分类器生成的另一示例,其中用于分类器开发的一组样本的检测数据呈基因组数据(即基因表达数据)的形式。在这一特定的示例中,我们用于分类器开发的数据集已在下述论文中被研究:VenetD,DumontJE,DetoursV(2011),“MostRandomGeneExpressionSignaturesAreSignificantlyAssociatedwithBreastCancerOutcome”PLoSComputBiol7(10):e1002240。这里研究的数据集(称为“NKI队列”、“NKI-295”)被包括为Venet等人的论文中所附带的支持信息的一部分。此数据集是通过来自在荷兰癌症研究院的医院治疗的连续295位患者的新鲜冰冻乳腺癌组织样本中的微阵列基因表达谱创建的(在M.J.vandeVijver等人的论文中描述,NEJM,2002,第347卷,第1999-2009页)。所有的患者被实施乳房切除术或保乳术治疗。将RNA从速冻的肿瘤组织中分离出并用以导出互补RNA(cRNA)。这些微阵列包括大约25,000个人类基因并借助喷绘(inkjet)技术而被合成。该数据集包括附加的临床数据,以及总生存期(OS)和无复发生存率(RFS)(亦即无远端转移的生存率)的数据。此数据集的详细说明可参见M.J.vandeVijver等人的上述论文。我们主要以RFS数据(例如当限定“早”群组和“晚”群组时)来操作,但还针对总生存期(OS)数据进行了生存率分析。此数据组包含13,108个特征(独特的mRNA转录的荧光检测),这些特征对应于相应基因的基因表达测定结果。我们研究的临床问题是,我们是否可以使用本文中描述的CMC/D方法利用来自乳腺癌肿瘤样本的基因表达数据来创建能预测复发风险的分类器。理想的是,这种预测可被用于指导继乳腺癌手术后的治疗(放疗或辅助性全身治疗:化疗、激素治疗)。具有高复发风险的患者可以被导向更激进的治疗,具有低复发风险的患者可接受不太激进和低毒性的治疗。预测复发风险的分类器接纳基因表达数据作为输入。输出是二进制的:其或者是“早”,亦即早复发,也就是高复发风险;或者是“晚”,亦即晚复发或根本不复发。现已提出若干种已知的“基因标记”用来预测乳腺癌复发风险。一种广为人知的标记是“70-基因标记”,该标记成为商业测试的基础并被称为“MammaPrint”,由L.J.van‘tVeer等人提出,“Geneexpressionprofilingpredictsclinicaloutcomeofbreastcancer(基因表达分析预测乳腺癌的临床结果)”,Nature,2002年,第415卷,第530-536页。这一测试还被认为是下述的若干专利的主题,包括US7,171,311(“Methodsofassigningtreatmenttobreastcancerpatients”)、US7,514,209(“Diagnosisandprognosisofbreastcancerpatients”)和US7,863,001(“Diagnosisandprognosisofbreastcancerpatients”)。如Venet等人的文章中所描述的,存在着其它多种可行的测试,它们利用同样的基因组数据并产生非常类似的分类和临床应用,但利用不同的基因组。这让人不禁要问:这怎么可能?难道所有的特征在生物学上无意义么?难道基因的这些组合都在表达同样的东西?我们想要知道关于这个问题我们的CMC/D分类器开发过程都向我们反馈了什么,以及我们是否能够对此数据使用我们的方法生成新的分类器来预测乳腺癌的复发。如本示例所展现出的,我们能够生成这样一种分类器,它不仅可以普遍适用,而且具有针对乳腺癌复发的预测能力。在这项工作的开展中,我们获得了在Venet等人的文章中所引用的公开基因组数据集,将该数据划分成分类器开发队列和验证队列,利用此开发队列开发CMC/D分类器并在验证队列上测试其性能。此数据集包含13,108个特征(mRNA转录表达水平),这存在着特征选择问题(下文论述),并且我们的分类器是基于最具有统计学显著性的400个或更少的特征的子集。我们从该数据中的RFS数据限定了“早”和“晚”初始训练标签。在我们对分类器开发的首次尝试中,利用结合图11详细描述的方法,我们使用了将开发样本集分成训练集和测试集实现的100种划分来限定100个主分类器。我们以“早/晚”分类的定义开始,从13,108个可用的特征选择了400个特征(利用t-测试或SAM,其为用于基因组问题的典型方法),利用分类错误进行微型分类器过滤,并为被错误分类的样本执行标签翻转直至收敛。此过程对开发集效果良好。利用改进的过半数投票(MMV)测量分类器性能。稍后在本示例中将更详细描述MMV及其基本原理。然而,当我们将最终分类器应用到验证队列时,我们看到从对应于开发队列与验证队列之间的RFS的风险比的方面而言不同的性能,换言之,我们初始的CMC/D分类器的泛化性能并没有如我们期待的那样好。我们发现一个解决此生成问题的方案:特征显著性依赖于分类标签,并且当我们为经常被错误分类的样本重新定义分类标签时,通过在分类器开发的迭代期间重新选择特征(见图27,步骤1152),我们可达到更好的分类器泛化。我们发现表达差异依赖于用于早群组和晚群组的分类标签。从分类群组A、B的统计获知,特征可通过规范化的表达差异而被排序,例如借助t-统计:t~(平均值(A)–平均值(B)/(合并的标准偏差)。如果群组的成员关系不正确,这种表达差异将变得无意义。为研究这一问题,对于生成我们的CMC/D分类器的首次尝试,我们创建了开发队列和验证队列的t-统计的曲线图(图28中示出)。该曲线图显示,对应于开发队列和验证队列的特征的表达顺序之间的相关性非常小,并且初始的特征选择是无用的。我们发现,通过在标签翻转步骤期间特征的重新选择以及在分类器开发期间对早群组和晚群组的定义,我们能够使CMC/D分类器收敛到一分类器和可普遍适用的一组特征,亦即,通过改进的组标签分配和优化的特征选择,表达差异的t-统计在开发队列和验证队列中变得相似。图29中示出了这种收敛,此图作为在随着为被错误分类的样本翻转份类标签及特征的新选择的逐次迭代期间,用于一系列CMC/D分类器的开发队列与验证队列之间的t-统计的一系列图。注意,图29的右手侧的最终图的比例改变了。图29示出了位于右手的阳性表达侧的图出现了区别特征,这表明分类标签与分子数据是一致的。此外,在此迭代过程期间,开发队列与验证队列中RFS与OS的风险比收敛为一致,如下文所示:我们从这一练习中得出的结论是,我们已解决了Venet等人概述的多分类器问题。在分类器开发期间人们需要以迭代方式调整训练标签,并且根据“正确的”(修正的)训练标签选择特征。我们获得了一个独特的特征集,该特征集产生了用于早期乳腺癌复发预测的泛化后的分类器。或许在Venet等人的数据中终究存在一个独特的分子标记。我们进一步注意到,在CMC/D分类器开发期间强化微型分类器的过滤使性能获得少许改善。这些方面以及特征选择技术将在下文更详细的说明中进行描述。CMC/D分类器开发在此示例中,我们应用我们的CMC/D方法来开发若干这类分类器,并研究其性能。图27中示出了我们所用的方法;该方法类似于上文在示例1-3中所描述的方法,不同的只是我们利用基因表达数据而非质谱数据。此外,在分类器开发的迭代期间,我们从13,108个特征的可用特征空间(1150)中重新选择特征(步骤1152),并在步骤1120中借助微型分类器在此减小的特征空间(1122)中进行k-NN分类。分类器照常将每个样本分类为“早”(高危)或者“晚”(低危)群组,分类器的性能是以各群组之间的风险比(HR)和对应的生存率曲线图(Kaplan-Meier曲线)为特征的。除性能之外,分类器的一个重要的特性是如何使其普遍适用(泛化)到新的(前所未见的)数据。理想而言,针对新的数据的性能应当类似于在用于开发分类器的数据上测得的性能。泛化不良的分类器易于发生过拟合,亦即它们对于开发数据显示出高的性能,但对于新的数据显示出低得多的性能。为了能够研究分类器具有多大程度的泛化能力,我们将Venet等人的公开数据集分成队列1(开发队列,图27中的开发样本集1100)和队列2(验证队列)。特别地,我们将该数据分成队列1(开发队列)和队列2(验证队列)如下:1)将该数据(295个样本)分为“经审查(censored)的RFS”和“未经审查的RFS”子集2)在两个子集中,按RFS排序3)在两个排序后的子集中,采用1-2-1-2-……模式向队列1或队列2分配样本。由此,我们采用样本组的分级的划分,其目标是获得在RFS方面非常类似的两个队列。得到的队列1包括148位患者。队列2包括147位患者。我们利用CMC/D方法建立针对基因表达数据的分类器的方式非常类似于我们针对质谱数据所用的方式,此方式已在上文中详尽地予以说明。这里对这种方法进行一个概述,并参照图27来进行描述。我们将公开的基因组数据集划分成开发集队列1100(队列1)和验证队列(队列2)。在这两个队列中为每个样本限定多个分类群组(步骤1102)。在开发集队列上进行分类器开发如下。该开发队列被划分成训练集和测试集(步骤1108)。我们生成许多这类划分(称之为“实现”;在这一研究中我们使用100个实现),如环1136所示。以此方式,我们能够确信我们的分类器不依赖于特定的划分的独特性。对于每个实现,我们以如下步骤建立“主分类器”MC。首先,我们制造出大量的“微型分类器”(步骤1120),它们为利用从对应于这些样本的数据选择的1个特征2个特征的k-NN分类器。对于400个特征(mRNA转录),此数量是我们在本示例中通常使用的数量,基于1个特征有400个可能的微型分类器,而基于2个特征则加上79,800个可能的微型分类器。由此,我们具有80,200个可能的微型分类器。对于每个微型分类器,我们利用此实现的“训练集”部分来估计性能。随后,对微型分类器进行过滤(步骤1126):我们仅保留那些性能满足给定的标准的微型分类器,这些标准作为“过滤参数”在下文的表中被列出:在上表中,研究#指的是利用不同的特征数量、或者用于选择滤过的微型分类器的不同过滤选项生成不同的CMC/D分类器(图27,步骤1126)。通常,微型分类器的10%至30%通过过滤。随后,利用具有极端丢弃法的逻辑回归构建“主分类器”(图27,步骤1130)。微型分类器的输出充当逻辑回归的输入。当计算逻辑回归的参数时,我们使用丢弃法:也就是说,我们进行多次丢弃法迭代,每一次我们随机地仅使用小数量(留下的数量,leave-innumber)的微型分类器。这些参数通常如下:主分类器参数留下的数量447-->丢弃法迭代的数量20000最终,如步骤1132中所示,通过求由所有的丢弃法迭代产生的逻辑回归参数的平均值,构建主分类器MC。利用针对逻辑回归的输出的临界值0.5分配“早”和“晚”分类标签。通过对所有的训练集/测试集实现所产生的主分类器的过半数投票(在我们的情况中为100个主分类器的过半数投票),完成新样本的分类(亦即,步骤1144中所选择的最终分类器)。迭代标签翻转我们还通过进行标签翻转(在步骤1140中重新定义的训练标签)执行分类器的迭代开发。也就是说,首先我们利用从RFS数据得到的最初的“早”和“晚”标签(具有最短的RFS的50个样本为“早”,具有最长的RFS的50个样本为“晚”)开发一主分类器。随后,在步骤1140中,我们通过将最初的标签替换为由分类器分配的标签来进行一个“标签翻转”(仅那些被错误分类的样本得到新的标签)。随后,我们重新开发该分类器(重复步骤1108、1120、1126、1128、1130,并在步骤1152选择新的特征)。我们将这一过程迭代若干次,直到我们得到接近收敛,也就是几乎所有的标签保持相同。总体的观察结果是,对于这一数据集,在标签翻转迭代的过程中人们会观察到一定程度的性能下降,但泛化性能提高,也就是说,对于开发队列(队列1)和验证队列(队列2)而言,以“早”群组和“晚”群组之间的风险比来衡量的性能变得类似。特征选择和特征的统计显著性尽管我们这里使用的CMC/D构架与在质谱数据中的情况是相同的,但唯一最重要的差异在于,在基因表达数据中,存在非常多的可能的基因组特征(在此情况中为13,108个,图27中的整个特征空间1150)可供使用,因此我们必须解决特征选择的问题。在这一练习中我们在kNN微型分类器中选择400个特征。作为额外的练习,我们针对100个最显著的特征重复分类器开发。我们发现,与当利用400个特征训练分类器时相比,利用100个特征时分类器性能有些变差。既可以在生成分类器之前一劳永逸地选择多个特征,也可以如图27中的步骤1152所示,利用由分类器分配的标签,在每次标签翻转迭代时重新选择这些特征。主要的观察结果是,后一种情况的特征统计显著性大幅提高,以及队列1与队列2之间的特征的统计显著性的相关性也提高了。因此,对于本示例中的基因组数据,标签翻转及主分类器步骤的迭代的使用连同特征的重新选择被认为是优选的实施例。在分类器开发中以及针对错误分类的样本而重复伴随类标签翻转的迭代中,我们已注意到,逐次迭代有时会趋于导致“早”和“晚”分类成员的数量不平衡增大,亦即,早群组中成员的数量逐渐变大而晚群组的数量成员逐渐变小。我们尝试一种新的策略:当我们进行标签翻转时,我们将早群组和晚群组中的成员的数量保持为平衡。更具体而言,在分类器分配‘早’和‘晚’标签之后,我们确定所得到的‘早’和‘晚’群组的规模。如果‘早’群组的规模大于50,我们将具有最长RFS的若干样本从‘早’移到‘中等’。如果‘早’群组的规模小于50,我们将具有最短RFS的若干‘中间’样本从‘中间’移到‘早’。如果‘晚’群组的规模大于50,我们将具有最短RFS的若干样本从‘晚’移到‘中等’。如果‘晚’群组的规模小于50,我们将被分类为‘晚’并具有最长的RFS的若干‘中等’样本从‘中等’移到‘晚’。由此我们重新平衡了这些群组,从而在翻转之后我们具有50个‘早’和50个‘晚’。在分类器生成过程的每一逐次迭代期间,我们利用特征显著性的统计度量(诸如t-测试)从可用的一组13,108个特征中选择新的一组400个特征。另一估量统计显著性的方法是SAM(微阵列的显著性分析)。关于此技术的背景信息在V.Tusher等人的论文“Significanceanalysisofmicroarraysappliedtoionizingradiationresponse”中有描述,该论文于2001年4月24日刊登于PNAS,第98卷,第9号,第5116-5121页,在此通过援引方式纳入其内容。图32A示出对应于队列1和最初的早群组和晚群组定义的SAM图。图32B示出对应于利用HR过滤和在3次标签翻转迭代之后的群组大小再平衡的队列1的SAM图。基本上,区域3202和3204(处于带区3206之外)中的点对应于统计学显著地上升或下调的特征。处于带区3206之内的那些点3208对应于那些并不显示统计学显著性上升或下调的特征。通过比较图32A和图32B将会看到,在翻转之后更多的特征在“早”群组和“晚”群组之间变得在统计学上显著地不同,而且这种不同变得更强。结果图30是Kaplan-Meyer总生存期曲线图,示出我们所开发的用来将那些具有改善的总生存期的患者(分类标签“晚”)与那些具有相对不良的总生存期、亦即乳腺癌复发的风险增大(分类标签“早”)的患者分开的分类器的能力。在图30中,针对开发样本集(队列1)和验证样本集(队列2)的Kalan-Meyer图叠加在同样的图上被示出。如图示3002与3006(晚群组)以及3004与3008(早群组)的接近度所表示的那样,我们利用开发样本集开发的分类器没有过拟合;亦即,其为验证样本集中的新的数据提供了同样的结果。统计结果如下:队列1:风险比4.3462.401到7.863的比率,95%CI队列2:风险比5.3332.863到10.60的比率,95%CI我们注意到,图30的Kaplan-Meyer图与vandeVijver等人的NEJM论文第2004页所示的Kaplan-Meyer图类似。来自CMC/D主分类器的结果的分析方法在该CMC/D过程中,每个训练/测试划分实现产生一个主分类器(MC),该主分类器是从通过借助丢弃法正则化的逻辑回归而进行的多个微型分类器(mC)的组合生成的。在第一种情况中,这种逻辑回归的输出并不是二进制标签,而是取0与1之间的数值的一连续概率。将一界限(例如0.5,但任何选择都是可能的)应用到这些MC概率,我们能将这些概率从一连续变量转为二进制标签。这样,每个MC针对一给定的样本产生一分类标签。然而,此步骤并不是必要的,也可以选择不在这里应用一界限,而是将信息保持在连续的概率变量中。从MC获得输出(从通过使用界限值的二进制标签的方面来说,或者从概率的方面来说),则需要对于所有这些MC组合这些输出(学习理论语言中的“bagged(袋装)”)来产生针对特定样本的单个二进制分类。这种CMC/D过程被实施的方式意味着,当一样本在对应于一个实现的MC训练集中被使用时,该样本始终是正确分类的(从在实施切断之后的二进制标签的方面来说,或者从对于一个分类接近0、而对于其它的分类为1的目标概率的方面来说)。因此,对于在该训练集中使用的对应于某些MC的样本,使用针对所有的MC的简单的过半数投票可能造成对分类器性能的非自然的(人为的)良好评估。为避免这种情况,我们可以使用改进的过半数投票(MMV)来获得针对在分类器的开发中直接使用的样本的分类。这一过程是仅当样本不被包括在MC的训练集中时针对MC输出的过半数投票。(对于从不用于训练MC的样本,过半数投票和MMV是相同的)。可在通过对由所有的MC形成的分类进行过半数投票而实施分界之后,针对那些不被包括在训练集中的样本实施此MMV。反之,如果我们此时想要避免使用分界,而利用MC概率输出来工作,则能够计算出对于所有针对不被包括在训练集中的样本的那些MC的概率的平均值。采用后一种方式,MMV产生另一个平均的连续变量,其取值在0与1之间,处于特定的分类中的平均概率。这可以通过在MC上求平均值之后实施分界而被转换为二进制分类标签。概率的直接求平均值提供了一些优点。如果我们为每个样本获得平均概率,则可能同时评估通过将不同的界限应用到平均概率而产生的整个分类器家族的性能。这可以通过利用标准受试者操作特征(ROC)曲线方法来完成。参见http://en.wikipedia.org/wiki/Receiver_operating_characteristic(作为背景信息)。对于应用到平均概率上的界限的特别选择,为所有的样本生成分类标签,且可将这些标签与已知的类标签相比较来计算由该界限限定的分类器的灵敏度和特异度。这可以针对该界限的许多数值来实施,且结果以灵敏度相对1-特异度的形式(ROC曲线)被标绘。该分类器家族的总体性能能够以曲线下方的面积(AUC)为特征。该ROC曲线能够被检查,且选择了最好地适应分类器所需的目标性能(从灵敏度与特异度的方面来说)的特定的界限。为提供这些方式的一个示例,CMC/D被应用于从经历外科手术的乳腺癌患者获得的mRNA数据的基因组数据集。其目的是产生能够识别出会在外科手术之后、在五年之前复发(早期复发)的患者的分类器。从基于早期复发(患者在5年之前复发)或无早期复发(患者在5年之前不复发)的开发集分类之间的t-测试的超过13,000个可用的特征中选择二百五十个特征(基因表达)。CMC/D过程是利用200个训练/测试集划分(实现)来实施的。利用对于有每个MC概率输出的界限0.5,为每个患者计算出用于生成分类的200个MC分类标签和改进的过半数投票过程。这样就产生了具有79%灵敏度和79%特异度的CMC/D分类器来识别会在5年之前复发的乳腺癌。利用MC概率输出,为每个样本获得平均概率并计算出ROC曲线,如图31中所示。实曲线(图31,3102)示出对应于分类器家族的这些可能的性能(就灵敏度和特异度而言),这些性能可通过将一界限应用到平均MC概率来限定。AUC为0.82表示对应于此分类器的家族的相当大的分类能力(AUC=0.5表示随机分类,而AUC=1为完美的分类)。图31中的星号3104表示通过将0.5的界限应用到独立的MC概率而获得的CMC/D分类器的性能。这种ROC曲线使我们能够选择一个界限来获得最适合于特定临床需求的早期复发分类器。例如,如果高灵敏度是必不可少的,或许这会使非常高比例的有风险的患者受到合适的医疗干预来防止早期复发,可通过牺牲特异度来选择该ROC曲线上具有高灵敏度的一个点(或许灵敏度=0.9而特异度=0.6)。或者,如果这种唯一的医疗干预具有严重副作用的风险高,则选择ROC曲线上的对应于更高特异度的点(或许灵敏度=0.8而特异度=0.8)可能是更合适的。进一步的考虑在上述方法的概述中,除其它方面之外,我们已阐示了产生新型分类器的若干示例(本文称为CMC/D)以对一患者是否有可能受益于抗癌药物做出预测。我们还阐示了这种方法能够在用于开发样本集(例如“早”和“晚”)的分类标签在生成分类器的同时被分配的情况下被执行。示例1、3和4利用将开发样本集分成训练集和测试集,构建许多个独立的微型分类器,将这些微型分类器进行过滤,并借助正则化的组合方法(诸如逻辑回归和极端丢弃法正则化)来组合这些微型分类器。还描述了在分类器生成的过程中重新定义类标签。最终分类器可呈现若干可能的形式,例如基于将开发集分成训练集和测试集的多种划分,在逻辑回归和丢弃法正则化之后的主分类器的平均值,或者来自所有的训练集和测试集划分的所有主分类器的组合,例如利用该组合的过半数投票、选择代表典型性能的一个特定的主分类器、或者上述任一种,以进一步考虑到基于被修改以模拟数据中的噪声的特征值的主分类器投票的统计分析。因此,最终分类器的特定设计具有相当大的灵活性,且本公开文本的范围旨在涵盖所有此类设计。此外,尽管本发明的这些分类器开发的示例是在为患者是否受益于某些药物做预测的背景下给出的,但应当清楚的是,该CMC/D分类器能够被用于进行其它类型的分类,例如一患者是属于A类的成员还是B类的成员,其中A类和B类具有诊断学意义或其它的意义。数据集及与数据集关联的分类标签的类型并非特别重要。作为又一个示例,CMC/D分类器能够被用于进行处于医学之外的完全不同的领域的测试样本的分类。CMC/D方法的使用还有这样一种自然延伸:即,使用例如蛋白质表达水平、基因组数据,此数据单独地或者组合地用作输入数据集,并呈从单个患者样本的多个不同评估乃至从来自单个患者的不同样本形态导出的检测数据/特征的形式。对于基因组数据(基因表达、蛋白质表达、mRNA转录表达或其它)而言,应当清楚的是,基因组数据特征值的准确性质并不是特别重要。我们在示例4中使用的来自Venet等人论文中的基因组数据的版本是基于荧光检测的,但在完全有可能这些检测同样经过某些预处理步骤和可能的校准及规范化步骤,这些步骤是具有基因芯片特性的,并通常借助与基因芯片一起提供的软件来完成,且可能并非是原始检测的结果。我们理解这些数据集代表着Venet等人的将原始的荧光检测转换为描述mRNA的量的可感测数字的的最大努力。还可以使用除荧光检测之外的其它的物理量,例如质量检测。随附的权利要求提供了对本发明的进一步描述。示例1附件示例1附录A:该项目中使用的样本示例1附录B:CMC/D分类器中采用的特征示例1附录C:来自GI-4000方案分配到每个TTR群组的样本(早、晚、中等)示例1附录D:来自对照方案分配到训练及测试集的样本示例1附录E:在标签更新之后来自GI-4000方案分配到每个TTR群组(早、晚、中等)的样本示例1附录F:借助选定的主分类器的样本分类示例3附件示例3附录A:在分类器开发中使用的样本示例3附录B:在CMC/D分类器中采用的特征示例3附录C:用于分类器开发的第一阶段的初始的分类标签示例3附录D:用于VS2.0特征的噪声类型和噪声强度示例3附录E:开发集样本的VS2.0分类示例3附录F:横跨三个运行的开发集样本的VS2.0分类示例3附录G:为PROSE样本返回的VS2.0分类示例3附录H:用于获取光谱的仪器的细节*这是快速的一致性校核,未取得两个样本的点样位置,但如果抛去这两个样本,则是一致的。*2此运行是在与140115_PROSE从仪器258的运行相同的板上完成的。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1