使用分类系统及其试剂盒识别和诊断肺部疾病的方法

文档序号:6165787阅读:339来源:国知局
使用分类系统及其试剂盒识别和诊断肺部疾病的方法
【专利摘要】本发明提供用于诊断肺部疾病,例如反应性气道疾病的非小细胞肺癌的生物标记物和生物标记物组合。将这些生物标记物的测定值输入诸如支持向量机或AdaBoost的分类系统,以帮助确定个体患有肺部疾病的可能性。还提供了包括检测所述生物标记物和生物标记物组合的试剂的试剂盒,以及帮助诊断肺部疾病的系统。
【专利说明】使用分类系统及其试剂盒识别和诊断肺部疾病的方法
[0001]发明背景
[0002](a)【技术领域】
[0003]本发明涉及使用生物标记物及其试剂盒对肺部疾病的检测、识别和诊断,以及根据生物标记物帮助确定疾病存在或不存在的可能性的系统。更具体地讲,本发明涉及通过测定特定生物标记物的表达水平,并且将这些测定值输入分类系统,例如支持向量机对非小细胞肺癌和反应性气道疾病进行的诊断。
[0004](b)相关技术的描述
[0005]人类肺组织的病变
[0006]数以百万计的美国人患有呼吸系统的病变,例如哮喘和肺癌。事实上,据American
Lung Association &报告,几乎有 2000 万美国人患有哮喘。American Cancer Society, Inc.估计,仅在2007年新增的呼吸系统癌症为229,400例,呼吸系统癌症死亡为164,840例。虽然在检测到癌症还处于原位时,所有癌症病例的五年存活率均为46%,但肺癌患者的五年存活率仅为13%。相应地,仅有16%的肺癌在疾病扩散之前被发现。根据癌细胞的病变,肺癌通常分为两种主要类型。每种类型根据转化变为癌性的细胞类型命名。小细胞肺癌来源于人类肺组织中的小细胞,而非小细胞肺癌通常涵盖非小细胞类型的所有肺癌。非小细胞肺癌组合在一起,因为对于所有非小细胞类型治疗通常是相同的。非小细胞肺癌或NSCLC —起构成了约75%的所有肺癌。
[0007]肺癌难以在早期诊断,这一事实是肺癌患者低存活率的主要因素。当前诊断肺癌或识别其在人体中存在的方法仅限于采取肺部的X-射线、计算机断层成像(CT)扫描以及类似的测试,物理确定肿瘤的存在或不存在。因此,肺癌的诊断通常仅响应于明显或存在一段显著时间的症状,以及疾病存在于人体中的时间足以产生可物理检测的肿块之后作出。
[0008]相似地,当前检测哮喘的方法通常在症状,例如反复喘息、咳嗽和胸闷的出现很久以后才进行。当前检测哮喘的方法通常仅限于肺功能测试,例如肺活量测试或挑战测试。此夕卜,这些测试通常由内科医生安排,随着多个其他测试进行,以排除其他病变或反应性气道疾病,例如慢性阻塞性肺病(COPD)、支气管炎、肺炎和充血性心力衰竭。
[0009]分类系统
[0010]已经广泛探索了各种分类系统,例如用于数据分析和数据挖掘的机器学习方法,用于识别模式,以及在存在恰为无关数据的其他信息的情况下启动包含于大数据库中的重要信息的提取。学习机器包括可训练为使用具有已知分类的数据归纳的算法。然后,训练的学习机器算法可用于在未知结果的情况下预测结果,即根据学习模式对数据分类。机器学习方法,包括神经网络、隐藏马尔可夫模型、信度网络和基于核的分类器例如支持向量机,可用于特征为大量数据、噪声模式以及一般理论缺乏的问题。
[0011]模式分类、回归和群集问题的多个成功方法依赖于确定一对模式的相似性的核。这些核通常定义为可以实数的向量表示的模式。例如,线性核、径向基核和多项式核均测定一对实数向量的相似性。当数据以该方式最佳地表示为实数序列时,此类核是适当的。核的选择对应于数据在特征空间中表示的选择。在多个应用中,模式具有更大的结构度。可开发这些结构用于改善学习算法的性能。机器学习应用中常见的结构化数据类型的例子为字符串、文档、树、图例如网站或化学分子、信号例如微阵列表达谱、光谱、图像、时空数据、关系数据和生物化学浓度等等。
[0012]分类系统已用于医疗领域。例如,使用各种计算机系统和分类系统例如支持向量机提出了诊断和预测医学病症出现的方法。参见,如美国专利N0.7, 321,881,7,467, 119、7,505,948,7, 617,163,7, 676,442,7, 702,598,7, 707,134 和 7,747,547,这些专利的公开内容据此全文以引用方式并入。然而,这些方法未提供诊断和/或预测人类肺组织病变,例如非小细胞肺癌和/或反应性气道疾病的高度准确性。
[0013]同样,本领域也不存在诊断人类肺组织病变,尤其是在其发展的早期的简单、可靠方法。此外,目前也不存在能够指示特定肺组织病变存在的血测试法。因此,开发在疾病进展的早期确定肺癌存在的方法是所期望的。同样,开发在临床上明显症状的最早出现之前诊断哮喘和非小细胞肺癌,使它们彼此区分并且区别于其他肺部疾病例如感染的方法也是所期望的。
[0014]本发明的优选实施方案的概述
[0015]本发明通过提供使用各种分类系统例如支持向量机评估受试者中某些生物标记物的可靠方法来满足这些需要。
[0016]本发明提供了受试者的生理表征方法,其包括首先获得受试者的生理样品;然后确定该样品中多个生物标记物的生物标记物测定值;以及最后根据生物标记物测定值使用分类系统对样品分类,其中样品的分类与生理状态或病症,或受试者疾病状态的变化相关。通常,分类系统是机器学习系统,优选地核或分类以及基于回归树的分类系统,甚至更优选地支持向量机(SVM)或AdaBoost。
[0017]在一个实施方案中,该生理表征方法提供表征受试者中存在或不存在非小细胞肺癌,或非小细胞肺癌发展阶段的诊断。在另一个实施方案中,该生理表征方法提供表征受试者的反应性气道疾病,例如哮喘或阻塞性肺病的诊断。在又一个实施方案中,该生理表征方法提供表征受试者的肺部疾病的诊断,其中多个生物标记物包括帮助识别反应性气道疾病和非小细胞肺癌的征兆的标记物、多个表征反应性气道疾病的生物标记物,以及多个表征非小细胞肺癌的生物标记物,在所述样品中,多个生物标记物不是相同的;并且样品根据生物标记物测定值使用三种分类系统分类,其中样品的三种分类方式帮助识别受试者的(i)反应性气道疾病和非小细胞肺癌;(ii)存在或不存在反应性气道疾病;以及(iii)存在或不存在非小细胞肺癌的征兆;从而确定受试者患有(I)反应性气道疾病;(2)非小细胞肺癌,或(3)不存在疾病,这取决于存在于三种分类的两种中的病症。
[0018]本发明还提供对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括以下步骤:接收测试数据,所述测试数据包括哺乳动物测试受试者中生物标记物集的多个生物标记物测定值,然后通过经训练的支持向量机的电子表示使用电子存储的训练数据向量集合评估测试数据,每个训练数据向量代表单个哺乳动物,并且包括相应哺乳动物的生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于相应哺乳动物的疾病状态的分类;以及最后根据评估步骤输出哺乳动物测试受试者的分类。优选地,哺乳动物测试受试者是人。在另一个模型中,评估步骤包括访问电子存储的训练数据向量集合。[0019]在另一个模型中,本发明提供训练支持向量机以生成对测试数据分类的模型的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括以下步骤:访问电子存储的训练数据向量集合,每个训练数据向量代表单个人,并且包括相应人的生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于相应人的疾病状态的分类,以及使用电子存储的训练数据向量集合训练支持向量机的电子表示。随后,本发明提供接收测试数据,所述测试数据包括人测试受试者中生物标记物集的多个生物标记物测定值,使用训练支持向量机的电子表示(即,训练支持向量机生成的模型)评估测试数据;以及最后根据评估步骤输出人测试受试者的分类。
[0020]在又一个实施方案中,本发明提供对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值。该方法包括接收人测试受试者的测试数据,所述测试数据包括生物标记物集的至少每个生物标记物的生物标记物测定值。该方法还包括使用通过电子存储的第一训练数据向量集合训练的支持向量机的电子表示评估测试数据,第一训练数据向量集合中的每个训练数据向量代表单个人,并且包括相应人的生物标记物集的至少每个生物标记物的生物标记物测定值。第一训练数据向量集合的每个训练数据向量还包括相对于相应人的疾病状态的分类。该方法还包括根据评估步骤输出人测试受试者的分类。在该实施方案中,生物标记物集中的每个生物标记物(A)处于根据每个生物标记物的两组浓度测定值的边缘分布的集中趋势函数从最大至最小排序的生物标记物初始段中,其中排序的生物标记物的初始段是相对于第二训练数据向量集合的正确分类的百分比排序的生物标记物的其他初始段中最大的,其中第二训练数据向量集合的每个训练数据向量表示单个人,并且包括相应人的生物标记物集的至少每个生物标记物的生物标记物测定值,第二训练数据向量集合的每个训练数据向量还包括相对于相应人的疾病状态的分类,或(B)为在(A)中识别的生物标记物初始段中的生物标记物的一级相互作用因子。
[0021]通常,本发明的方法相对于疾病状态的存在或不存在对测试受试者分类,所述疾病状态优选地为肺部疾病,更优选地为非小细胞肺癌或反应性气道疾病,例如哮喘。生物标记物测定值可包括选自实例中所描述的生物标记物的至少一个蛋白质的血浆浓度测定值。优选地,生物标记物测定值包括至少四个不同生物标记物的血浆浓度,或者生物标记物测定值可包括至少六个不同生物标记物,或甚至至少十个不同生物标记物或至少十八个不同生物标记物的血衆浓度。训练向量集合可包括至少30个向量、50个向量,或甚至100个向量。在一个模型中,分类器是支持向量机,其包括一个或多个选自线性核、径向基核、多项式核、均勻核、三角核、Epanechnikov核、四次方(双权)核、三次立方(三权)核和余弦核的核函数。在另一个模型中,使用AdaBoost从基于如ID3或C4.5的初始分类器开发分类器。
[0022]本发明还提供对测试数据分类的系统,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,其中所述系统包括计算机,所述计算机包括支持向量机的电子表示,所述支持向量机可使用电子存储的训练数据向量集合训练,每个训练数据向量代表单个人,并且包括相应人的生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于相应人的疾病状态的分类,电子存储的训练数据向量集合可操作地联接到计算机,所述计算机还被配置为接收测试数据,所述测试数据包括人测试受试者中生物标记物集的多个生物标记物测定值,所述计算机还被配置为在训练后使用支持向量机的电子表示评估测试数据,并且根据评估输出人测试受试者的分类。[0023]在另一个实施方案中,本发明提供对测试数据分类的系统,所述测试数据包括生物标记物集的每个的生物标记物测定值,其中所述系统包括计算机,所述计算机又包括支持向量机的电子表示,所述支持向量机训练为相对于测试受试者的疾病状态对测试数据分类,所述训练基于电子存储的训练数据向量集合,每个训练数据向量代表单个人,并且包括相应人的生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于相应人的疾病状态的分类;所述计算机被配置为接收测试数据,所述测试数据包括人测试受试者中生物标记物集的多个生物标记物测定值,所述计算机还被配置为使用支持向量机的训练电子表示评估测试数据,并且根据评估输出人测试受试者的分类。
[0024]在任何实施方案中,本发明的系统适用于实施上述任何方法。在具体模型中,系统的任何实施方案中的计算机可另外配置为使用逻辑从生物标记物超集选择生物标记物集,所述逻辑被配置为(a)对于生物标记物超集中的每个生物标记物,计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离;(b)根据距离对生物标记物超集中的生物标记物排序,从而生成生物标记物的有序集合;(c)对于生物标记物的有序集合的多个初始段的每个,根据训练数据计算模型拟合的测定值;(d)根据模型拟合的最大测定值选择生物标记物的有序集合的初始段,以选择生物标记物的有序集合的优选初始段;(e)从生物标记物的零集开始,从生物标记物的有序集合的优选初始段递归添加另外的生物标记物,生成生物标记物的子集,其中如果(I)其添加最大地提高了优选初始段中剩余的生物标记物中的模型拟合,以及(2)其添加提高了模型拟合至少预定的阈值,则将每个另外的生物标记物添加到生物标记物的现有子集;以及(f)当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的预定阈值时,停止将生物标记物添加到生物标记物的现有子集,从而选择生物标记物的子集。
[0025]本文提供的方法和系统能够诊断和预测肺部病变(如,肺癌、哮喘),通常准确性(如,灵敏度和特异性)超过90%。这些结果与现有诊断和预测肺部病变例如非小细胞肺癌的方法相比提供了显著改进。
[0026]附图简述
[0027]图1A示出了实施例1的正常(NO)群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0028]图1B示出了实施例1的非小细胞肺癌(LC)群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0029]图1C示出了实施例1的哮喘(AST)群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0030]图1D示出了实施例1的AST群体对NO群体、LC群体对NO群体和AST群体对LC群体中每个生物标记物的荧光强度平均值的百分比变化。
[0031]图2A示出了实施例1的正常(NO)女性群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0032]图2B示出了实施例1的非小细胞肺癌(LC)女性群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0033]图2C示出了实施例1的哮喘(AST)女性群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。[0034]图2D示出了实施例1的AST群体对NO女性群体、LC群体对NO女性群体和AST群体对LC女性群体中每个生物标记物的荧光强度平均值的百分比变化。
[0035]图3A示出了实施例1的正常(NO)男性群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0036]图3B示出了实施例1的非小细胞肺癌(LC)男性群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0037]图3C示出了实施例1的哮喘(AST)男性群体中生物标记物的平均荧光强度水平,以及标准偏差和相对标准偏差。
[0038]图3D示出了实施例1的AST群体对NO男性群体、LC群体对NO男性群体和AST群体对LC男性群体中每个生物标记物的荧光强度平均值的百分比变化。
[0039]图4示出了实施例1的AST男性群体对AST女性群体、LC男性群体对LC女性群体和NO男性群体对NO女性群体中每个生物标记物的荧光强度平均值的百分比变化。
[0040]图5不出了各种分子与HGF (肝细胞生长因子)的关系。该图由ARIADNEPATHWAY STUDIO? 生成。
[0041]图6 不出了 Adaboost 的 ROC 曲线。
[0042]图7示出了 SVM的ROC曲线。
[0043]图8示出了仅限于男性的Adaboost的ROC曲线。
[0044]图9示出了仅限于女性的Adaboost的ROC曲线。
[0045]图10示出了基于Adaboost模型的变量选择图。
[0046]图11示出了基于男性的Adaboost模型的变量选择图。
[0047]图12示出了基于女性的Adaboost模型的变量选择图。
[0048]图13示出了 Adaboost模型的准确性分布。
[0049]图14示出了 Adaboost模型的灵敏度分布。
[0050]图15示出了 Adaboost模型的特异性分布。
[0051]发明详述
[0052]本发明涉及使用生物标记物检测、识别和诊断肺部疾病的各种方法。这些方法涉及确定特定生物标记物的生物标记物测定值以及使用分类系统中的这些生物标记物测定值确定个体患有非小细胞肺癌和/或反应性气道疾病(如,哮喘、慢性阻塞性肺病等)的可能性。本发明还提供包括检测这些生物标记物的检测剂的试剂盒,或用于确定这些生物标记物的生物标记物测定值,作为帮助确定肺部疾病的可能性的系统组件的装置。
[0053]示例性生物标记物通过测定内科医生确定诊断为非小细胞肺癌或哮喘的群体患者,以及未诊断为非小细胞肺癌和/或哮喘的患者的血衆中五十九个选择生物标记物的表达水平识别。该方法在实施例1中详细描述。
[0054]定义
[0055]如本文所用,“生物标记物”或“标记物”是可作为生物系统生理状态的特征指标客观测定的生物分子。出于本发明的目的,生物分子包括离子、小分子、肽、蛋白质、具有翻译后修饰的妝和蛋白质、核昔、核昔Ife和多核昔Ife (包括RNA和DNA)、糖蛋白、脂蛋白,以及这些类型分子的各种共价和非共价修饰。生物分子包括生物系统功能天然的、特征性的和/或本质的任何这些实体。大多数生物标记物为多肽,但它们也可以是mRNA或修饰的mRNA,其代表以多肽表达的基因产物的预翻译形式,或它们可包括多肽的翻译后修饰。
[0056]如本文所用,“生物标记物测定值”是用于表征疾病存在或不存在的生物标记物相关信息。此类信息可包括作为或与浓度成比例,或者提供生物标记物在组织或生物流体中表达的定性或定量指示的测定值。每个生物标记物可表示为向量空间中的维度,其中每个向量由具体受试者相关的多个生物标记物测定值组成。
[0057]如本文所用,“子集”为适当子集,“超集”为适当超集。
[0058]如本文所用,“受试者”意指任何动物,但优选地为哺乳动物,例如人。在多个实施方案中,受试者是患有或存在患有肺部疾病风险的人类患者。
[0059]如本文所用,“生理样品”包括来自生物流体和组织的样品。生物流体包括全血、血浆、血清、唾液、尿液、汗液、淋巴液和肺泡灌洗液。组织样品包括实体肺组织或其他实体组织的活组织、淋巴结活组织、转移性病灶的活组织。获得生理样品的方法是熟知的。
[0060]如本文所用,“检测剂”包括特异性检测本文所述的生物标记物的试剂和系统。检测剂包括例如抗体、核酸探针、核酸配体、凝集素的试剂,或对一个或多个特定标记物具有特定亲和力,足以区分所关注样品中的特定标记物和其他标记物的其他试剂,以及系统例如传感器,包括使用上述结合或换句话讲固定化试剂的传感器。
[0061]一级相互作用因子
[0062]为了促进和控制维持生命必须的多种细胞和机体生理功能,生物分子必须彼此相互作用。这些相互作用可视为通讯的类型。在该通讯中,各种生物分子可视为信息。这些分子作为其信号转导功能的必要部分,必然与多种靶标包括其他类型的生物分子相互作用。
[0063]一种类型的相互作用分子通常称为受体。此类受体结合同样作为相互作用分子的配体。另一种类型的直接分子间相互作用是辅因子或别构剂与酶的结合。这些分子间相互作用形成合作进行和控制细胞和生物体的基本生命功能的信号转导分子网络。这些相互作用分子的每个均为本发明术语中的生物标记物。本发明的特定生物标记物在生理上与其他生物标记物相关,所述其他生物标记物的水平增加或减少的方式与特定生物标记物的水平一致。这些其他相关的生物标记物相对于本发明的特定生物标记物称为“一级相互作用因子”。
[0064]“一级相互作用因子”是直接与特定生物分子相互作用的那些分子实体。例如,药物吗啡直接与阿片受体相互作用,最终减少疼痛感觉。因此,在“一级相互作用因子”的定义下,阿片受体是一级相互作用因子。一级相互作用因子包括其相互作用的通讯通路中所述生物标记物的上游和下游直接邻居。这些实体涵盖通过关系连接的蛋白质、核酸和小分子,所述关系包括但不限于:直接(或间接)调节、表达、化学反应、分子合成、结合、启动子结合、蛋白质修饰和分子运输。水平一致的生物标记物集合是本领域技术人员,以及生理学和细胞生物学学者熟知的。实际上,特定生物标记物的一级相互作用因子是本领域已知的,并且可使用各种数据库和可用的生物信息学软件例如ARIADNE PATHWAY STUDIO?、ExPASYProteomics Server Qlucore Omics Explorer、Protein Prospector、PQuad> ChEMBL 等等查找(参见,例如 Ariadne, Inc.的 ARIADNE PATHWAY STUDIO?〈www.ariadne.genomics,com〉或欧洲生物信息学研究所(European Bioinformatics Institute)、欧洲分子生物学实验室(European Molecular Biology Laboratory)的 ChEMBL数据库〈www.eb1.ac.uk>)。
[0065]一级相互作用因子生物标记物是表达水平与一种生物标记物一致的那些生物标记物。因此,有关特定生物标记物水平的信息(“生物标记物测定值”)可通过测定与该特定生物标记物一致的一级相互作用因子的水平获得。当然,技术人员将确认作为替代或除特定生物标记物之外使用的一级相互作用因子的水平以确定和可再现的方式变化,所述方式符合特定生物标记物的行为。
[0066]作为另外一种选择,本发明提供的本文所述的任何方法可使用特定生物标记物的一级相互作用因子进行。例如,本发明的一些实施方案提供包括确定HGF的生物标记物测定值的生理表征方法。同样,本发明还提供包括确定HGF的一级相互作用因子的生物标记物测定值的生理表征方法。HGF的一级相互作用因子包括但不限于:图5中识别的那些(如,INS、EGF、MIF)。因此,在本发明的设想内,特定生物标记物测定值可用特定生物标记物的一级相互作用因子代替。
[0067]确定生物标记物测定值
[0068]生物标记物测定值是整体涉及表达产物,通常是蛋白质或多肽的定量测定值的信息。本发明涵盖了在RNA (翻译前)或蛋白质水平(可包括翻译后修饰)确定生物标记物测定值。具体地讲,本发明涵盖了确定反映转录、翻译、转录后修饰水平增加或减少,或蛋白质降解的范围或程度的生物标记物浓度的变化,其中这些变化与特定疾病状态或疾病进展相关联。
[0069]多个正常受试者表达的蛋白质在患有疾病或病症,例如非小细胞肺癌或哮喘的受试者中的表达更多或更少。本领域的技术人员将会知道大多数疾病表现出多个不同生物标记物的变化。同样,疾病可通过多个标记物的表达模式来表征。多个生物标记物表达水平的确定有助于观察表达模式,此类模式提供比单个生物标记物的检测更灵敏、更准确的诊断。模式可包括一些特定生物标记物的异常升高,同时其他特定生物标记物的异常减少。
[0070]根据本发明,生理样品从受试者收集,收集方式确保了样品中的生物标记物测定值与收集样品的受试者中该生物标记物的浓度成正比。测定的进行使得测定值与样品中生物标记物的浓度成正比。选择满足这些要求的取样技术和测定技术在本领域技术人员的认识内。
[0071]技术人员将会理解,对于单个生物标记物,多种确定生物标记物测定值的方法是本领域已知的。参见Instrumental Methods of Analysis,第7版,1988年)。此类测定可以多重或基于矩阵的格式进行,例如多重免疫测定。
[0072]多种确定生物标记物测定值的方法是本领域已知的。此类测定方法包括但不限于:放射免疫测定、酶联免疫吸附测定(ELISA)、具有通过可见或紫外光吸收进行放射或光谱检测的高压液相色谱、质谱定性和定量分析、蛋白质印迹、使用放射性、荧光或化学发光探针或核检测进行定量可视化的I维或2维凝胶电泳、具有吸收或荧光光度测定的基于抗体的检测、通过任何多个化学发光报告系统的发光进行定量、酶测定、免疫沉淀或免疫捕获测定、固相和液相免疫测定、蛋白质阵列或芯片、DNA阵列或芯片、板测定、使用具有结合亲和力、允许识别的分子例如核酸配体和分子印迹聚合物的测定以及通过任何其他合适技术以及任何所描述的检测技术或装置的仪器启动进行的生物标记物浓度的任何其他定量分析测定。
[0073]确定生物标记物测定值的步骤可通过本领域已知的任何装置,尤其是本文讨论的那些装置进行。在优选的实施方案中,确定生物标记物测定值的步骤包括使用抗体进行免疫测定。本领域的技术人员能够轻松地选择用于本发明的适当抗体。所选择的抗体优选地对所关注的抗原具有选择性(即,对特定生物标记物具有选择性),对所述抗原具有高结合特异性,并且与其他抗原具有最小交叉反应性。抗体结合所关注抗原的能力可以例如通过已知方法,例如酶联免疫吸附测定(ELISA)、流式细胞术和免疫组织化学确定。此外,抗体应对所关注的抗原具有相对高的结合特异性。抗体的结合特异性可通过已知方法,例如免疫沉淀或通过体外结合测试如放射性免疫测定(RIA)或ELISA确定。选择能够结合所关注抗原、具有高结合特异性和最小交叉反应性的抗体的方法公开在例如美国专利N0.7,288,249中有所提供,该专利全文据此以引用方式并入。表征肺部疾病的生物标记物的生物标记物测定值可作为分类系统,例如支持向量机的输入。
[0074]每个生物标记物可表示为向量空间中的维度,其中每个向量由具体受试者相关的多个生物标记物测定值组成。因此,向量空间的维数对应于生物标记物集的大小。多个生物标记物的生物标记物测定值模式可用于各种诊断和预后方法。本发明提供此类方法。示例性方法包括分类系统,例如支持向量机。
[0075]分类系统
[0076]本发明涉及尤其是根据多个、连续分布的生物标记物来预测肺部病变,如肺癌或哮喘。对于一些分类系统(如,支持向量机),预测可以是三步处理。在第一步骤中,通过描述预定的数据集构建分类器。这是“学习步骤”,使用“训练”数据进行。
[0077]训练数据库是计算机实施的数据存储,其反映相对于每个相应人的疾病状态分类相关的多个人的多个生物标记物测定值。存储数据的格式可以是平面文件、数据库、表格,或本领域已知的任何其他可检索的数据存储格式。在示例性实施方案中,测试数据以多个向量存储,每个向量对应于单个人,每个向量包括多个生物标记物的多个生物标记物测定值,以及相对于人的疾病状态分类。通常,每个向量包含多个生物标记物测定值中每个生物标记物测定值的条目。训练数据库可连接到网络,例如互联网,使其内容可通过授权实体(如,人类用户或计算机程序)远程检索。或者,训练数据库可位于网络隔离的计算机中。
[0078]在第二步骤中,该步骤是可选的,分类器施加于“验证”数据库,并且观察到准确性,包括灵敏度和特异性的各种测量值。在示例性实施方案中,仅有一部分训练数据库用于学习步骤,其余部分训练数据库用作验证数据库。在第三步骤中,将受试者的生物标记物测定值提交到分类系统,其输出受试者的计算分类(如,疾病状态)。
[0079]多个构建分类器的方法是本领域已知的,包括决策树、贝叶斯分类器、贝叶斯信度网络、養-最近邻分类器、范例推理和支持向量机(Han J和Kamber M,2006,第6章,DataMining, Concepts and Techniques 第二版 Elsevier:Amsterdam)。在优选的实施方案中,本发明涉及支持向量机的使用。然而,如本文所述,可使用本领域已知的任何分类系统。
[0080]支持向量机
[0081]支持向量机(SVM)是本领域已知的。例如,使用支持向量机提出了诊断和预测医学病症出现的方法。参见,如美国专利N0.7,505,948,7, 617,163和7,676,442,这些专利的公开内容据此全文以引用方式并入。
[0082]通常,SVM提供用于根据每个受试者的生物标记物测定值的一个维向量(称为爲-元组)将n个受试者中的每个分为两个或更多个疾病类别的模型。SVM首先使用核函数将赢-元组转换为等于或大于维度的空间。核函数将数据映射到空间,其中类别可使用初始数
据空间中可能的超平面更好地分离的。为了确定区分类别的超平面,可选择支持向量集,其位置最靠近疾病类别之间的边缘。然后通过已知SVM技术选择超平面,使得支持向量和超平面之间的距离在处罚不正确预测的成本函数的界限内达到最大。该超平面是依据预测最佳地分离数据的超平面(Vapnik, 1998Statistical Learning Theory.New York:Wiley)。然后所有新观察值根据观察值相对于超平面的位置,分为属于所关注类别中的任何一者。当考虑超过两个类别时,对于所有类别处理成对地进行,并且其结果组合建立区分所有类别的规则。
[0083]在示例性实施方案中,使用称为高斯径向基函数(RBF)1 (Vapnik, 1998 (Vapnik,1998年))的核函数。RBF在先验知识不可用时使用,其用于从多个其他定义的核函数,例如多项式或S形核(Han J.&Kamber M., page343(Han J.和Kamber M.,第 343 页))选择。RBF将初始空间映射到无限维度的新空间。Karatzoglou等人用R统计语言对该受试者及其实施进行了讨论(Support Vector Machines in R.Journal of Statistical Software, 2006)。本文所述的所有SVM统计计算使用统计软件编程语言和环境R2.10.0 (www.r-project.0rg)进行。SVM使用kernlab包中的ksvm()函数拟合。
[0084]以下描述提供了支持向量机的一些符号(Cristianini N, Shawe-Taylor J.AnIntroduction to Support Vector Machines and other kernel-based learningmethods, 2000年,第106页),及其区分来自多个集合的观察值的方法概述。
[0085]假设训练样品或训练数据库。
[0086]S= ((x1; Y1) , (x2, y2) ,..., (x1; Y1)) (I)
[0087]其中,对于i=l,...,1,Xi为生物标记物测定值的向量,并且yi为Xi属于的集合(如,正常、非小细胞肺癌、哮喘)的指标,特征空间由核K(x,z)隐含地定义。假设参数Z满
足以下二次优化问述:1 RBF函数为k(x;, x,) = exp (-o||x-x,||2),其中x和x,为两个元组。
[0088]最大化撕⑷
【权利要求】
1.一种受试者的生理表征方法,所述方法包括(a)获得所述受试者的生理样品;(b)确定所述样品中多个生物标记物的生物标记物测定值;以及(C)根据所述生物标记物测定值使用分类系统对所述样品分类,其中所述样品的所述分类与生理状态或病症,或所述受试者疾病状态的变化相关。
2.—种诊断受试者中非小细胞肺癌的方法,所述方法包括(a)获得所述受试者的生理样品;(b)确定所述样品中多个生物标记物的生物标记物测定值;以及(C)根据所述生物标记物测定值使用分类系统对所述样品分类,其中所述样品的所述分类是所述受试者中非小细胞肺癌存在或发展的表征。
3.—种诊断受试者中反应性气道疾病的方法,所述方法包括(a)获得所述受试者的生理样品;(b)确定所述样品中多个生物标记物的生物标记物测定值;以及(C)根据所述生物标记物测定值使用分类系统对所述样品分类,其中所述样品的所述分类是所述受试者中反应性气道疾病的表征。
4.一种诊断受试者中肺部疾病的方法,所述方法包括, (a)获得所述受试者的生理样品; (b)确定所述样品中以下多个生物标记物的生物标记物测定值:帮助区分反应性气道疾病和非小细胞肺癌的指示的多个生物标记物、表征反应性气道疾病的多个生物标记物,和表征非小细胞肺癌的多个生物标记物,其中所述多个生物标记物是不同的; (C)根据所述生物标记物测定值使用三个分类系统对所述样品分类,其中所述样品的所述分类帮助区分所述受试者中(i)反应性气道疾病和非小细胞肺癌;(ii)存在或不存在反应性气道疾病;以及(iii)存在或不存在非小细胞肺癌的所述指示; (d)确定所述受试者患有(I )反应性气道疾病;(2)非小细胞肺癌,或(3)不存在疾病,这取决于在所述三种分类中的二者中发现的病症。
5.权利要求1-4中任一项所述的方法,其中所述分类系统是机器学习系统。
6.根据权利要求5所述的方法,其中所述机器学习系统是基于核的分类系统。
7.根据权利要求6所述的方法,其中所述基于核的分类系统是支持向量机。
8.根据权利要求5所述的方法,其中所述机器学习系统是分类和回归树系统。
9.根据权利要求8所述的方法,其中所述机器学习系统是分类和回归树系统的集合体。
10.根据权利要求9所述的方法,其中所述机器学习系统是AdaBoost。
11.一种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的每个生物标记物的生物标记物测定值; 使用支持向量机的电子表示评估所述测试数据,所述支持向量机使用电子存储的训练数据向量集合训练,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;以及 根据所述评估步骤输出所述人测试受试者的分类。
12.—种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的每个生物标记物的生物标记物测定值; 使用AdaBoost分类器的电子表示评估所述测试数据,所述AdaBoost分类器使用电子存储的训练数据向量集合训练,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;以及 根据所述评估步骤输出所述人测试受试者的分类。
13.—种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 访问电子存储的训练数据向量集合,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;使用所述电子存储的训练数据向量集合训练支持向量机的电子表不; 接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的多个生物标记物测定值; 使用所述支持向量机的所述电子表示评估所述测试数据;以及 根据所述评估步骤输出所述人测试受试者的分类。
14.一种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 访问电子存储的训练数据向量集合,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;使用所述电子存储的训练数据向量集合训练AdaBoost分类器的电子表示; 接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的多个生物标记物测定值; 使用所述AdaBoost分类器的所述电子表示评估所述测试数据;以及根据所述评估步骤输出所述人测试受试者的分类。
15.一种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 访问电子存储的训练数据向量集合,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;从所述生物标记物集选择生物标记物的子集;使用来自所述电子存储的训练数据向量集合的所述生物标记物子集的所述数据训练支持向量机的电子表示; 接收测试数据,所述测试数据包括人测试受试者的多个生物标记物测定值;使用所述支持向量机的所述电子表示评估所述测试数据;以及 根据所述评估步骤输出所述人测试受试者的分类,其中所述选择生物标记物的子集包括:a.对于所述生物标记物集中的每个生物标记物,使用编程计算机计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离; b.根据所述距离对所述生物标记物集中的所述生物标记物排序,从而生成生物标记物的有序集合; c.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从所述生物标记物空集开始,将来自生物标记物的所述有序集合的所述优选初始段的另外生物标记物递归添加到所述模型,生成所述生物标记物子集,其中如果(I)其添加最大地提高了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其添加提高了模型拟合至少预定的阈值,则将每个另外的生物标记物添加到生物标记物的现有子集; f.当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的所述预定的阈值时,停止将生物标记物添加到生物标记物的现有子集,从而选择生物标记物的子集。
16.一种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 访问电子存储的训练数据向量 集合,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;从所述生物标记物集选择生物标记物的子集; 使用来自所述电子存储的训练数据向量集合的所述生物标记物子集的所述数据训练AdaBoost分类器的电子表示; 接收测试数据,所述测试数据包括人测试受试者的多个生物标记物测定值;使用所述支持向量机的所述电子表示评估所述测试数据;以及 根据所述评估步骤输出所述人测试受试者的分类,其中所述选择生物标记物的子集包括: a.对于所述生物标记物集中的每个生物标记物,使用编程计算机计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离; b.根据所述距离对所述生物标记物集中的所述生物标记物排序,从而生成生物标记物的有序集合; c.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从所述生物标记物空集开始,将来自生物标记物的所述有序集合的所述优选初始段的另外生物标记物递归添加到所述模型,生成所述生物标记物子集,其中如果(I)其添加最大地提高了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其添加提高了模型拟合至少预定的阈值,则将每个另外的生物标记物添加到生物标记物的现有子集; f.当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的所述预定的阈值时,停止将生物标记物添加到生物标记物的现有子集,从而选择生物标记物的子集。
17.—种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的每个的生物标记物测定值; 使用支持向量机的电子表示评估所述测试数据,所述支持向量机使用电子存储的训练数据向量集合训练,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类,所述生物标记物集从生物标记物超集选择;以及 根据所述评估步骤输出所述人测试受试者的分类。
18.—种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的每个的生物标记物测定值; 使用AdaBoost分类器的电子表示评估所述测试数据,所述AdaBoost分类器使用电子存储的训练数据向量集合训练,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类,所述生物标记物集从生物标记物超集选择;以及 根据所述评估步骤输 出所述人测试受试者的分类。
19.根据权利要求17和18所述的方法,其中所述生物标记物测定值集合从生物标记物测定值的所述超集选择,所述选择使用的方法包括: a.对于所述生物标记物超集中的每个生物标记物,使用编程计算机计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离; b.根据所述距离对所述生物标记物集中的所述生物标记物排序,从而生成生物标记物的有序集合; c.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从所述生物标记物空集开始,递归添加来自生物标记物的所述有序集合的所述优选初始段的另外生物标记物,生成所述生物标记物子集,其中如果(I)其添加最大地提高了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其添加提高了模型拟合至少预定的阈值,则将每个另外的生物标记物添加到生物标记物的现有子集; f.当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的所述预定的阈值时,停止将生物标记物添加到生物标记物的现有子集,从而选择生物标记物的子集。
20.根据权利要求17和18所述的系统,所述系统还包括被配置为使用逻辑从生物标记物超集选择生物标记物集的计算机,所述逻辑被配置为: a.对于所述生物标记物超集中的每个生物标记物,计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离; b.根据所述距离对所述生物标记物超集中的所述生物标记物排序,从而生成生物标记物的有序集合; C.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从生物标记物的所述初始段开始,从生物标记物的所述有序集合的所述优选初始段递归移除生物标记物,生成所述生物标记物子集,其中如果(I)其移除最小地减少了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其移除未减少模型拟合至少预定的阈值,则将每个生物标记物从现有的生物标记物超集移除; f.当任何另外的生物标记物的所述移除导致模型拟合的测定值的减少超出模型拟合测定值的所述预定的阈值时,停止将生物标记物从现有的生物标记物超集移除,从而选择生物标记物超集。
21.根据权利要求17-20中任一项所述的方法,其中所述评估包括访问所述电子存储的训练数据向量集合。
22.根据权利要求11-21中任一项所述的方法,其中相对于疾病状态的所述分类为所述疾病状态的所述存在或不存在。
23.根据权利要求22所述的方法,其中所述疾病状态是肺部疾病。
24.根据权利要求23所述的方法,其中所述肺部疾病是非小细胞癌。
25.根据权利要求23所述的方法,其中所述肺部疾病是反应性气道疾病。
26.根据权利要求25所述的方法,其中所述反应性气道疾病是哮喘。
27.根据权利要求11-26中任一项所述的方法,其中所述生物标记物测定值包括至少一个蛋白质的血衆浓度测量值,所述蛋白质选自载脂蛋白(〃Apo〃) Al、ApoA2、ApoB> ApoC2、ApoE, CD40、D- 二聚体、因子-VI1、因子-VII1、因子-X、蛋白-C、组织纤溶酶原激活剂(〃TPA〃)、脑源性神经营养因子(〃BDNF〃)、B淋巴细胞趋化因子(〃BLC〃)、趋化因子(C-X-C基序)配体I ("GR0-1")、皮肤T-细胞吸引趋化因子("CTACK")、嗜酸性粒细胞活化趋化因子-2、嗜酸性粒细胞活化趋化因子_3、粒酶-B、肝细胞生长因子(〃HGF〃)、1-TACX "CXCLir ;〃趋化因子(C-X-C基序)配体11"、〃干扰素诱导T-细胞α趋化因子〃)、瘦蛋白("LEP")、白血病抑制因子(〃LIF〃)、单核细胞特异性趋化因子3(〃MMP-3〃)、巨噬细胞集落刺激因子("MCSF")、Y干扰素诱导的单核细胞因子("MIG")、巨噬细胞炎性蛋白-3 α ("MIP-3 α 〃)、基质金属蛋白酶(〃ΜΜΡ〃)1、ΜΜΡ2、ΜΜΡ3、ΜΜΡ7、ΜΜΡ8、ΜΜΡ9、ΜΜΡ12、ΜΜΡ13、CD40、神经生长因子β ("NGF-β")、可溶性配体("CD40配体〃)、表皮生长因子("EFG")、嗜酸性粒细胞活化趋化因子("CCL11")、Fractalkine、碱性成纤维细胞生长因子("FGF-碱性〃)、粒细胞集落刺激因子("G-CSF")、粒细胞巨噬细胞集落刺激因子("GM-CSF")、干扰素、("IFN Y")、IFN-ω、IFN-α 2、IFN-β、白介素(〃IL〃)la、IL-1 β、IL-lra、IL-2、IL_2ra、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-12(p40)、IL-12(p70)、IL-13、IL-15、IL-16、IL-17、IL-17a、IL-17F、IL-20、IL-21、IL-22、IL_23(pl9)、IL-27、IL-31、IP-10、单核细胞趋化蛋白I (〃MCP-1〃)、巨噬细胞炎性蛋白(〃MIP〃)la、MIP-l β、中性粒细胞激活肽78 (〃ΕΝΑ_78〃)、骨保护素(〃0PG〃)、胎盘生长因子(〃PIGF〃)、血小板衍生生长因子亚基B同源二聚体("TOGFBB")、正常T细胞表达分泌的活性调节蛋白("RANTES")、干细胞生长因子("SCGF")、基质细胞衍生因子I ("SDF-1")、可溶性Fas配体("Sfas-配体〃)、可溶性核因子κ -B受体活化剂配体(〃8狀爾1/)、生存素、转化生长因子&0^ a〃)、TGF_i3、肿瘤坏死因子a(〃TNFa〃)、TNF-β、TNF 受体 I (〃TNFR_I〃)、TNFR-1I, TNF-相关凋亡诱导配体(〃TRAIL〃)、促血小板生成素(〃TPO〃)、血管内皮生长因子(〃VEGF〃)、胰岛素(〃Ins〃)、C-肽、胰高血糖素样蛋白-1/胰淀素("GLP-1/胰淀素〃)、胰淀素(总)、胰高血糖素、脂联素、纤溶酶原激活物抑制剂I ("PA1-1";〃丝氨酸蛋白酶抑制剂〃)(活化/总)、抵抗素(〃RETN〃 ,xcpl")、sFas、可溶性Fas配体(〃sFasL〃)、巨噬细胞游走抑制因子(〃MIF〃)、sE_选择素、可溶性血管细胞粘附分子("sVCAM")、可溶性细胞间粘附分子("sICAM")、髓过氧化物酶(〃MPO〃)、C_反应蛋白(〃CRP〃)、血清淀粉样蛋白A (〃SAA〃 ;〃SAA1〃)和血清淀粉样蛋白P(〃SAP〃)。
28.根据权利要求27所述的方法,其中所述生物标记物测定值包括至少四种不同生物标记物的血浆浓度。
29.根据权利要求27所述的方法,其中所述生物标记物测定值包括至少六种不同生物标记物的血浆浓度。
30.根据权利要求27所述的方法,其中所述生物标记物测定值包括至少十种不同生物标记物的血浆浓度。
31.根据权利要求27所述的方法,其中所述生物标记物测定值包括至少十八种不同生物标记物的血浆浓度。
32.根据权 利要求11-31中任一项所述的方法,其中所述其中所述训练向量集包括至少30个向量、50个向量、100个向量。
33.根据权利要求11、13、15、17和19-26中任一项所述的方法,其中所述支持向量机包括一个或多个选自线性核、径向基核、多项式核、均匀核、三角核、Epanechnikov核、四次方(双权)核、三次立方(三权)核和余弦核的核函数。
34.根据权利要求12、14、16和18-26中任一项所述的方法,其中所述AdaBoost分类器包括 5、10、15、20、25、30、40、50、75 或 100 次迭代。
35.一种对测试数据分类的系统,所述测试数据包括生物标记物集的每个的生物标记物测定值,所述系统包括: 电子存储的训练数据向量集合,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类; 可操作地联接到所述电子存储的训练数据向量集合的计算机,所述计算机包括支持向量机的电子表示,所述支持向量机适于使用所述电子存储的训练数据向量集合训练,所述计算机被配置为接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的多个生物标记物测定值,所述计算机还被配置为使用所述支持向量机的所述电子表示评估所述测试数据,并且根据所述评估输出所述人测试受试者的分类。
36.一种对测试数据分类的系统,所述测试数据包括生物标记物集的每个的生物标记物测定值,所述系统包括: 电子存储的训练数据向量集合,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;可操作地联接到所述电子存储的训练数据向量集合的计算机,所述计算机包括AdaBoost分类器的电子表示,所述AdaBoost分类器适于使用所述电子存储的训练数据向量集合训练,所述计算机被配置为接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的多个生物标记物测定值,所述计算机还被配置为使用所述支持向量机的所述电子表示评估所述测试数据,并且根据所述评估输出所述人测试受试者的分类。
37.一种对测试数据分类的系统,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述系统包括: 包括支持向量机的电子表示的计算机,所述支持向量机使用电子存储的训练数据向量集合训练,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;所述计算机被配置为接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的多个生物标记物测定值,所述计算机还被配置为使用所述支持向量机的所述电子表示评估所述测试数据,并且根据所述评估输出所述人测试受试者的分类。
38.一种对测试数据分类的系统,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述系统包括: 包括AdaBoost分类器的电子表示的计算机,所述AdaBoost分类器使用电子存储的训练数据向量集合训练,每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的每个生物标记物的生物标记物测定值,每个训练数据向量还包括相对于所述相应人的疾病状态的分类;所述计算机被配置为接收测试数据,所述测试数据包括人测试受试者中所述生物标记物集的多个生物标记物测定值,所述计算机还被配置为使用所述支持向量机的所述电子表示评估所述测试数据,并且根据所述评估输出所述人测试受试者的分类。
39.根据权利要求37所述的系统,所述系统还包括被配置为使用逻辑从生物标记物超集选择生物标记物集的计算机,所述逻辑被配置为: a.对于所述生物标记物超集中的每个生物标记物,计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离; b.根据所述距离对所述生物标记物超集中的所述生物标记物排序,从而生成生物标记物的有序集合; c.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从所述生物标记物空集开始,递归添加来自生物标记物的所述有序集合的所述优选初始段的另 外生物标记物,生成所述生物标记物子集,其中如果(1)其添加提高了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其添加提高了模型拟合至少预定的阈值,则将每个另外的生物标记物添加到生物标记物的现有子集; f.当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的所述预定的阈值时,停止将生物标记物添加到生物标记物的现有子集,从而选择生物标记物的子集。
40.根据权利要求37所述的系统,所述系统还包括被配置为使用逻辑从生物标记物超集选择生物标记物集的计算机,所述逻辑被配置为: a.对于所述生物标记物超集中的每个生物标记物,计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离; b.根据所述距离对所述生物标记物超集中的所述生物标记物排序,从而生成生物标记物的有序集合; c.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从生物标记物的所述初始段开始,从生物标记物的所述有序集合的所述优选初始段递归移除生物标记物,生成所述生物标记物子集,其中如果(I)其移除最小地减少了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其移除未减少模型拟合至少预定的阈值,则将每个生物标记物从现有的生物标记物超集移除; f.当任何另外的生物标记物的所述移除导致模型拟合的测定值的减少超出模型拟合测定值的所述预定的阈值时,停止将生物标记物从现有的生物标记物超集移除,从而选择生物标记物超集。
41.根据权利要求38所述的系统,所述系统还包括被配置为使用逻辑从生物标记物超集选择生物标记物集的计算机,所述逻辑被配置为: a.对于所述生物标记物超集中的每个生物标记物,计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而 生成多个距离; b.根据所述距离对所述生物标记物超集中的所述生物标记物排序,从而生成生物标记物的有序集合; c.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从所述生物标记物空集开始,递归添加来自生物标记物的所述有序集合的所述优选初始段的另外生物标记物,生成所述生物标记物子集,其中如果(I)其添加提高了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其添加提高了模型拟合至少预定的阈值,则将每个另外的生物标记物添加到生物标记物的现有子集; f.当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的所述预定的阈值时,停止将生物标记物添加到生物标记物的现有子集,从而选择生物标记物的子集。
42.根据权利要求38所述的系统,所述系统还包括被配置为使用逻辑从生物标记物超集选择生物标记物集的计算机,所述逻辑被配置为: a.对于所述生物标记物超集中的每个生物标记物,计算每个生物标记物的两组浓度测定值的边缘分布之间的距离,从而生成多个距离; b.根据所述距离对所述生物标记物超集中的所述生物标记物排序,从而生成生物标记物的有序集合; c.对于生物标记物的所述有序集合的多个初始段中的每个,根据所述训练数据计算模型拟合的测定值; d.根据模型拟合的最大测定值选择生物标记物的所述有序集合的初始段,从而选择生物标记物的所述有序集合的优选初始段; e.从生物标记物的所述初始段开始,从生物标记物的所述有序集合的所述优选初始段递归移除生物标记物,生成所述生物标记物子集,其中如果(I)其移除最小地减少了所述优选初始段中剩余的生物标记物中的模型拟合,以及(2)其移除未减少模型拟合至少预定的阈值,则将每个生物标记物从现有的生物标记物超集移除; f.当任何另外的生物标记物的所述移除导致模型拟合的测定值的减少超出模型拟合测定值的所述预定的阈值时,停止将生物标记物从现有的生物标记物超集移除,从而选择生物标记物超集。
43.根据权利要求35-42中任一项所述的系统,其中相对于疾病状态的所述分类为所述疾病状态的所述存在或不存在。
44.根据权利要求43所述的系统,其中所述疾病状态是肺部疾病。
45.根据权利要求44所述的系统,其中所述肺部疾病是非小细胞癌。
46.根据权利要求44所述的系统,其中所述肺部疾病是反应性气道疾病。
47.根据权利要求46所述的系统,其中所述反应性气道疾病是哮喘。
48.根据权利要求35-47中任一项所述的方法,其中所述生物标记物测定值包括至少一个蛋白质的血衆浓度测量 值,所述蛋白质选自载脂蛋白(〃Apo〃)Al、ApoA2、ApoB> ApoC2、ApoE, CD40、D- 二聚体、因子-VI1、因子-VII1、因子-X、蛋白-C、组织纤溶酶原激活剂(〃TPA〃)、脑源性神经营养因子(〃BDNF〃)、B淋巴细胞趋化因子(〃BLC〃)、趋化因子(C-X-C基序)配体I ("GR0-1")、皮肤T-细胞吸引趋化因子("CTACK")、嗜酸性粒细胞活化趋化因子-2、嗜酸性粒细胞活化趋化因子_3、粒酶-B、肝细胞生长因子(〃HGF〃)、1-TACX "CXCLir ;“趋化因子(C-X-C基序)配体11”、“干扰素诱导T-细胞a趋化因子”)、瘦蛋白("LEP")、白血病抑制因子(〃LIF〃)、单核细胞特异性趋化因子3(〃MMP-3〃)、巨噬细胞集落刺激因子(〃MCSF〃)、y干扰素诱导的单核细胞因子("MIG")、巨噬细胞炎性蛋白-3 a ("MIP-3 a 〃)、基质金属蛋白酶(〃MMP〃)1、MMP2、MMP3、MMP7、MMP8、MMP9、MMP12、MMP13、CD40、神经生长因子P ("NGF-P")、可溶性配体("CD40配体〃)、表皮生长因子("EFG")、嗜酸性粒细胞活化趋化因子("CCL11")、Fractalkine、碱性成纤维细胞生长因子("FGF-碱性〃)、粒细胞集落刺激因子("G-CSF")、粒细胞巨噬细胞集落刺激因子("GM-CSF")、干扰素、("IFN Y")、IFN-w、IFN-a 2、IFN-3、白介素(〃IL〃)la、IL-1 ^、IL-lra、IL-2、IL_2ra、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-12(p40)、IL-12(p70)、IL-13、IL-15、IL-16、IL-17、IL-17a、IL-17F、IL-20、IL-21、IL-22、IL_23(pl9)、IL-27、IL-31、IP-10、单核细胞趋化蛋白I (〃MCP-1〃)、巨噬细胞炎性蛋白(〃MIP〃)la、MIP-l P、中性粒细胞激活肽78 (〃ENA_78〃)、骨保护素(〃0PG〃)、胎盘生长因子(〃PIGF〃)、血小板衍生生长因子亚基B同源二聚体("TOGFBB")、正常T细胞表达分泌的活性调节蛋白("RANTES")、干细胞生长因子("SCGF")、基质细胞衍生因子I ("SDF-1")、可溶性Fas配体("Sfas-配体〃)、可溶性核因子k -B受体活化剂配体(〃8狀爾1/)、生存素、转化生长因子&(/'^^ a〃)、TGF-0、肿瘤坏死因子a(〃TNFa〃)、TNF-^、TNF 受体 I (〃TNFR_I〃)、TNFR-1I, TNF-相关凋亡诱导配体(〃TRAIL〃)、促血小板生成素(〃TP0〃)、血管内皮生长因子(〃VEGF〃)、胰岛素(〃Ins〃)、C-肽、胰高血糖素样蛋白-1/胰淀素("GLP-1/胰淀素〃)、胰淀素(总)、胰高血糖素、脂联素、纤溶酶原激活物抑制剂I ("PA1-1";〃丝氨酸蛋白酶抑制剂〃)(活化/总)、抵抗素(〃RETN〃 ,xcpl")、sFas、可溶性Fas配体(〃sFasL〃)、巨噬细胞游走抑制因子(〃MIF〃)、sE_选择素、可溶性血管细胞粘附分子("sVCAM")、可溶性细胞间粘附分子("sICAM")、髓过氧化物酶(〃MPO〃)、C-反应蛋白(〃CRP〃)、血清淀粉样蛋白A (〃SAA〃 ;〃SAA1〃)和血清淀粉样蛋白P(〃SAP〃)。
49.根据权利要求48所述的系统,其中所述生物标记物测定值包括至少四种不同生物标记物的血浆浓度。
50.根据权利要求48所述的系统,其中所述生物标记物测定值包括至少六种不同生物标记物的血浆浓度。
51.根据权利要求48所述的系统,其中所述生物标记物测定值包括至少十种不同生物标记物的血浆浓度。
52.根据权利要求48所述的系统,其中所述生物标记物测定值包括至少十八种不同生物标记物的血浆浓度。
53.根据权利要求35-52中任一项所述的系统,其中所述其中所述训练向量集包括至少30个向量、50个向量、100个向量。
54.根据权利要求35、37、39、40或43-53中任一项所述的系统,其中所述支持向量机包括一个或多个选自线性核、径向基核、多项式核、均匀核、三角核、Epanechnikov核、四次方(双权)核、三次立方(三权)核和余弦核的核函数。
55.根据权利要求36、38或41-53中任一项所述的系统,其中所述AdaBoost分类器包括 5、10、15、20、25、30、40、50、75 或 100 次迭代。
56.—种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 接收人测试受试者的测试数据,所述测试数据包括所述生物标记物集的至少每个生物标记物的生物标记物测定值。 使用支持向量机的电子表示评估所述测试数据,所述支持向量机使用电子存储的第一训练数据向量集合训练,所述第一训练数据向量集合的每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第一训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类; 以及 根据所述评估步骤输出所述人测试受试者的分类; 其中所述生物标记物集中的每个生物标记物(A)处于根据每个生物标记物的两组浓度测定值的边缘分布的集中趋势函数从最大至最小排序的生物标记物初始段中,其中排序的生物标记物的所述初始段是相对于第二训练数据向量集合的正确分类的百分比排序的生物标记物的其他初始段中最大的,并且其中所述第二训练数据向量集合的每个训练数据向量表示单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第二训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类,或(B)为在(A)中识别的生物标记物的所述初始段中的生物标记物的一级相互作用因子。
57.—种对测试数据分类的方法,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述方法包括: 接收人测试受试者的测试数据,所述测试数据包括所述生物标记物集的至少每个生物标记物的生物标记物测定值。 使用AdaBoost分类器的电子表示评估所述测试数据,所述AdaBoost分类器使用电子存储的第一训练数据向量集合训练,所述第一训练数据向量集合的每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第一训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类; 以及 根据所述评估步骤输出所述人测试受试者的分类; 其中所述生物标记物集中的每个生物标记物(A)处于根据每个生物标记物的两组浓度测定值的边缘分布的集中趋势函数从最大至最小排序的生物标记物初始段中,其中排序的生物标记物的所述初始段是相对于第二训练数据向量集合的正确分类的百分比排序的生物标记物的其他初始段中最大的,并且其中所述第二训练数据向量集合的每个训练数据向量表示单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第二训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类,或(B)为在(A)中识别的生物标记物的所述初始段中的生物标记物的一级相互作用因子。
58.根据权利要求56或57所述的方法,其中所述生物标记物集中的每个生物标记物处于生物标记物的递归添加生成的生物标记物集中,所述添加最大地提高了所述第二训练数据向量集合与所述前一个集合的正确分类百分比,从所述空集开始,直到添加另外的生物标记物不会增加所述第二训练数据向量集合的正确分类百分比至少20%的阈值。
59.根据权利要求58所述的方法,其中所述阈值为15%。
60.根据权利要求58所述的方法,其中所述阈值为10%。
61.根据权利要求58所述的方法,其中所述阈值为5%。
62.根据权利要求58所述的方法,其中所述阈值为2%。
63.根据权利要求58所述的方法,其中所述阈值为1%。
64.根据权利要求58所述的方法,其中所述阈值为0.5%。
65.根据权利要求58所述的方法,其中所述阈值为0.1%。
66.根据权利要求58所述的方法,其中所述阈值为0.01%。
67.根据权利要求58所述的方法,其中所述第一训练数据向量集合与所述第二训练数据向量集合相同。
68.根据权利要求58-67中任一项所述的方法,其中所述第一训练数据向量集合和所述第二训练数据向量集合的每个向量随机选择。
69.根据权利要求58-68中任一项所述的方法,其中所述第一训练数据向量集合包含至少五十个向量。
70.根据权利要求58-69中任一项所述的方法,其中所述第二训练数据向量集合包含至少五十个向量。
71.根据权利要求58-70中任一项所述的方法,所述方法还包括访问电子存储的所述第一训练数据向量集合,以及访问电子存储的所述第二训练数据向量集合。
72.—种对测试数据分类的系统,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述系统包括: 电子计算机,所述电子计算机编程为接收人测试受试者的测试数据,所述测试数据包括所述生物标记物集的至少每个生物标记物的生物标记物测定值,以及使用支持向量机的电子表示评估所述测试数据,所述支持向量机使用电子存储的第一训练数据向量集合训练,所述第一训练数据向量集合的每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第一训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类; 其中所述计算机还编程为根据所述支持向量机的所述电子表示输出所述人测试受试者的分类; 其中所述生物标记物集中的每个生物标记物:(A)处于根据每个生物标记物的两组浓度测定值的边缘分布的集中趋势函数从最大至最小排序的生物标记物初始段中,其中排序的生物标记物的所述初始段是相对于第二训练数据向量集合的正确分类的百分比排序的生物标记物的其他初始段中最大的,并且其中所述第二训练数据向量集合的每个训练数据向量表示单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第二训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类,或(B)为在(A)中识别的生物标记物的所述初始段中的生物标记物的一级相互作用因子。
73.—种对测试数据分类的系统,所述测试数据包括生物标记物集的每个的多个生物标记物测定值,所述系统包括: 电子计算机,所述电子计算机编程为接收人测试受试者的测试数据,所述测试数据包括所述生物标记物集的至少每个生物标记物的生物标记物测定值,以及使用AdaBoost分类器的电子表示评估所述测试数据,所述AdaBoost分类器使用电子存储的第一训练数据向量集合训练,所述第一训练数据向量集合的每个训练数据向量代表单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第一训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类; 其中所述计算机还编程为根据所述AdaBoost分类器的所述电子表示输出所述人测试受试者的分类; 其中所述生物标记物集中的每个生物标记物:(A)处于根据每个生物标记物的两组浓度测定值的边缘分布的集中趋势函数从最大至最小排序的生物标记物初始段中,其中排序的生物标记物的所述初始段是相对于第二训练数据向量集合的正确分类的百分比排序的生物标记物的其他初始段中最大的,并且其中所述第二训练数据向量集合的每个训练数据向量表示单个人,并且包括所述相应人的所述生物标记物集的至少每个生物标记物的生物标记物测定值,所述第二训练数据向量集合的每个训练数据向量还包括相对于所述相应人的疾病状态的分类,或(B)为在(A)中识别的生物标记物的所述初始段中的生物标记物的一级相互作用因子。
74.根据权利要求72或73所述的系统,其中所述生物标记物集中的每个生物标记物处于生物标记物的递归添加生成的生物标记物集中,所述添加最大地提高了所述第二训练数据向量集合与所述前一个集合的正确分类百分比,从所述空集开始,直到添加另外的生物标记物不会增加所述第二训练数据向量集合的正确分类百分比至少20%的阈值。
75.根据权利要求74所述的方法,其中所述阈值为15%。
76.根据权利要求74所述的方法,其中所述阈值为10%。
77.根据权利要求74所述的方法,其中所述阈值为5%。
78.根据权利要求74所述的方法,其中所述阈值为2%。
79.根据权利要求74所述的方法,其中所述阈值为1%。
80.根据权利要求74所述的方法,其中所述阈值为0.5%。
81.根据权利要求74所述的方法,其中所述阈值为0.1%。
82.根据权利要求74所述的方法,其中所述阈值为0.01%。
83.根据权利要求74所述的系统,其中所述第一训练数据向量集合与所述第二训练数据向量集合相同。
84.根据权利要 求72-83中任一项所述的系统,其中所述第一训练数据向量集合和所述第二训练数据向量集合的每个向量随机选择。
85.根据权利要求72-84中任一项所述的系统,其中所述第一训练数据向量集合包含至少五十个向量。
86.根据权利要求72-85中任一项所述的系统,其中所述第二训练数据向量集合包含至少五十个向量。
87.根据权利要求72-86中任一项所述的系统,所述系统还包括电子存储的所述第一训练数据向量集合和电子存储的所述第二训练数据向量集合,所述第一训练数据向量集合可操作地联接到所述电子计算机,所述第二训练数据向量集合可操作地联接到所述电子计算机。
【文档编号】G01N33/574GK103703371SQ201280031514
【公开日】2014年4月2日 申请日期:2012年4月30日 优先权日:2011年4月29日
【发明者】R·T·斯特里珀, E·伊兹比茨卡, J·米夏勒克, C·劳登 申请人:癌症预防和治疗有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1