帮助区别良性和恶性放射线照相明显肺结节的方法和组合物与流程

文档序号:17124007发布日期:2019-03-16 00:08阅读:557来源:国知局
帮助区别良性和恶性放射线照相明显肺结节的方法和组合物与流程
本申请要求2016年4月1日提交的美国临时专利申请号62/317,225的权益,该申请的内容通过引用以其整体并入本文。发明领域本发明公开内容涉及与临床参数组合的肺癌生物标志物和用于区分人受试者中的良性肺结节和恶性结节的筛选方法。背景迄今为止,肺癌是造成北美和世界大部分地区癌症死亡的主要原因,比接下来三种最致命的癌症(即乳腺癌、前列腺癌和结肠直肠癌)共同造成的死亡人数更多。仅在美国,肺癌每年导致超过156,000人死亡(americancancersociety.cancerfacts&figures2011.atlanta:americancancersociety;2011)。烟草使用已被确定为肺癌的主要致病因素,并被认为占约90%的病例。因此,年龄超过50岁且超过20的吸烟史的个体一生中有七分之一发生该疾病的风险。肺癌是一种相对沉默的疾病,如果有任何特殊症状,直到达到更晚期阶段之前几乎不显示。因此,大多数患者直到其癌症转移出肺部才会被诊断出来,并且他们不再可以单独通过手术治疗。因此,尽管预防肺癌的最佳方法可能是戒烟或停止吸烟,但对于许多目前和过去的吸烟者来说,已经发生了转变性致癌事件,并且尽管癌症尚未显现,但损害已经完成。因此,或许如今降低肺癌死亡率的最有效手段是当肿瘤仍然局部化并且顺从治愈目的的手术时的早期检测。早期检测的重要性最近在大型7-年临床研究-国家肺癌筛查试验(nationallungcancerscreeningtrial)(nlst)中得到证实,该试验比较了胸部x射线和胸部ct扫描作为肺癌早期检测的潜在形式(nationallungscreeningtrialresearchteam,aberledr,adamsam,bergcd,blackwc,clappjd,fagerstromrm,gareenif,gatsonisc,marcuspm,sicksjd.reducedlung-cancermortalitywithlow-dosecomputedtomographicscreening.nengljmed.2011aug4;365(5):395-409)。该试验得出的结论是,使用胸部ct扫描来筛查高危人群比胸部x射线显著地鉴定更早期的肺癌并导致疾病死亡率总体降低20%。这项研究清楚地表明,早期鉴定肺癌可挽救生命。不幸的是,ct扫描作为肺癌筛查方法的广泛应用不是没有问题的。nlst设计采用了系列ct筛查范例,其中患者每年接受ct扫描,仅需三年。接受年度ct扫描超过3年的参与者中,近40%至少有一次筛查结果为阳性,且这些阳性筛查结果的96.4%为假阳性。这种非常高的假阳性率会导致患者焦虑和医疗保健系统的负担,因为使用低剂量ct扫描的阳性发现后的随访通常包括高级成像和活检。虽然ct扫描是肺癌早期检测的重要工具,但在nlst结果公布后两年以上,极少数因吸烟史而处于肺癌高风险中的患者启动了年度ct扫描计划。这种不情愿每年进行ct扫描的原因可能是由于许多因素,包括成本、感知的辐射暴露风险(尤其是通过系列ct扫描)、给放射中心安排单独诊断程序的无症状患者造成的不便或负担以及医生对ct扫描作为独立试验的假阳性率极高的担忧,这将导致大量不必要的随访诊断试验和侵入性操作。尽管在吸烟者中对于肺癌的总寿命风险高,任何个人吸烟者在特定时间点患有癌症的机会仅在1.5-2.7%的量级[bach,p.b.,etal.,screeningforlungcancer*accpevidence-basedclinicalpracticeguidelines(第2版).chestjournal,2007.132(3_suppl):p.69s-77s.]。由于这种低发病率,所以鉴定哪些患者处于最高风险中是具有挑战性和复杂性的。期望有血液测试以补充使用放射线照相筛选用于肺癌的早期检测。然而,目前不推荐在肺癌患者的临床管理中对循环肿瘤标志物的评估,因为缺乏坚实的科学证据(callisteretal.thorax2015;70:ii1-ii54,sturgeonetal.clinchem2008;54e11-e79)。临床医生,连同放射线照相筛选,依靠临床特征,如肺结节大小、患者年龄和吸烟状况,来建立给定患者的肺癌风险(gouldetal.chest2013;143:e93s-e120s)。这些诊断方法不完善,并且需要改进目前的诊断实践,包括临床医生区分良性和恶性肺结节的能力。我们在本文中提供用于通过在算法中组合使用已建立的肺癌生物标志物与患者临床参数,用于帮助临床医生诊断恶性肺癌的计算机辅助方法。人工智能/机器学习系统对于分析信息是有用的,并且可以辅助人类专家进行决策。例如包括诊断决策支持系统的机器学习系统可以使用临床决策公式、规则、树或其它过程来辅助医师进行诊断。尽管已经开发了决策系统,但是这样的系统并未在医疗实践中广泛使用,因为这些系统遭受了限制,从而无法将其融入到卫生组织的日常操作中。例如决策系统可提供难以管理的数据量,依赖于具有极小的显著性的分析,并且不与复杂的多发病良好相关(greenhalgh,t.evidencebasedmedicine:amovementincrisis?bmj(2014)348:g3725)。许多不同的医护工作者可以看到患者,并且患者数据可能以结构化和非结构化形式分散在不同计算机系统中。此外,很难与这些系统交互(berner,2006;shortliffe,2006)。进入患者数据是困难的,诊断建议的列表可能太长,且诊断建议背后的推理并不总是透明的。此外,这些系统对下一步行动的重视程度不够,并且不能帮助临床医生弄清楚需要做什么来帮助患者(shortliffe,2006)。因此,期望提供允许人工智能/机器学习系统用于帮助癌症的早期检测、尤其是使用血液测试的方法和技术。目前,仍然需要用于非侵入性检测肺部疾病(包括癌症),监测对治疗的反应,或检测肺癌复发的临床相关标志物。同样清楚的是这样的测定法必须具有高度特异性并具有合理的灵敏度,并且是以合理的成本容易获得的。循环生物标志物提供了成像的替代选择,具有以下优点:1)发现它们是微创的,易于收集样本类型(血液或血液衍生的流体),2)它们可以在受试者中随时间频繁进行监测以建立准确的基线,因此容易检测随时间的变化,3)它们能够以合理的低成本提供,4)它们可以限制患者进行重复的昂贵的和可能有害的ct扫描的数目,和/或5)不同于ct扫描,生物标志物可以潜在地区分停滞的和更有侵略性的肺病灶(参见例如greenbergandlee,opinpulmmed,13:249-55(2007))。现有的生物标志物测定法包括几种血清蛋白质标志物如cea(okadaetal.,annthoracsurg,78:216-21(2004))、cyfra21-1(schneider,advclinchem,42:1-41(2006))、crp(siemesetal.,jclinoncol,24:5216-22(2006))、ca-125(schneider,2006)和神经元特异性烯醇化酶和鳞状细胞癌抗原(siemesetal.,2006)。通过参考以下描述、附图和权利要求,可以更好地理解本发明的这些和其它优点。下文中所述实施方案的这种描述使得人们能够实施本发明的实施方案,其不是旨在限制优选实施方案,而是用作其具体实例。本领域技术人员应当理解,他们可以容易地使用所公开的理念和具体实施方案作为修改或设计用于实现本发明的相同目的的其它方法和系统的基础。本领域技术人员还应当认识到,这类等同的组合不会偏离最广泛形式的本发明的精神和范围。概述本发明提供用于评估具有放射线照相明显肺结节的患者是恶性的可能性的方法,通过测量来自患者的样品中肺癌生物标志物的水平与临床参数变量组合。在实施方案中,本方法包括通过组合获得的生物标志物值和获得的临床参数值,利用计算机工具来生成综合分数;通过比较综合分数与得自具有良性结节和恶性结节的患者群组的参考集,基于综合分数生成患者的风险分数;和将风险分数分类到风险类别以确定患者具有良性结节或恶性结节的可能性,用于建议临床医生结节是或不是恶性的可能性,其中风险类别得自与患者相同的群组群体,并且其中每个风险类别与良性或恶性分组相关联。在其它实施方案中,本方法包括利用计算机工具,从获得的每种生物标志物的值和获得的每种临床参数的值计算恶性结节的概率值;将概率值与得自具有良性结节和恶性结节的患者群组的阈值相比较,以确定概率值是否高于或低于阈值;如果概率值高于阈值,则将患者中的放射线照相明显肺结节分类为恶性,或者如果概率值低于阈值,则将患者中的放射线照相明显肺结节分类为良性。测量的肺癌生物标志物包括选自cea、ca19-9、scc、nse、progrp和cyfra中的至少两种生物标志物。临床参数包括选自年龄、吸烟强度、肺结节大小、吸烟指数(packyears)、每天包数、吸烟持续时间、吸烟状况和咳嗽中的至少两种临床参数。在实施方案中,提供了帮助临床医生区分患者中的良性和恶性放射线照相明显肺结节的方法,其中该方法包括:a)获得来自具有放射线照相明显肺结节的患者的生物学样品和临床参数数据;b)测量样品中的生物标志物组,其中对于每种测量的生物标志物获得数值,其中生物标志物组包括选自cea、ca19-9、scc、nse、progrp和cyfra中的至少两种生物标志物;c)获得来自患者的临床参数组的每种临床参数的值,其中临床参数组包括选自年龄、吸烟强度、肺结节大小、吸烟指数,每天包数、吸烟持续时间,吸烟状态和咳嗽中的至少两种临床参数,d)从获得的每种生物标志物的值和获得的每种临床参数的值,计算恶性结节的综合概率值;e)比较概率值与阈值,以确定概率值是否高于或低于阈值,其中,如果概率值高于阈值,则将患者中的放射线照相明显肺结节分类为恶性,或者如果概率值低于阈值,则将患者中的放射线照相明显肺结节分类为良性;和f)对具有分类为恶性的放射线照相明显肺结节的患者施用计算机断层(ct)扫描。在某些实施方案中,患者被进一步施用ct扫描、手术或组织活检,或者取代ct扫描、手术或组织活检进行施用。在实施方案中,放射线照相明显肺结节的大小小于30mm。在某些实施方案中,放射线照相明显肺结节的大小是约15mm至29mm。在其它实施方案中,放射线照相明显肺结节的大小是约1mm至约14mm。通常认为大小是30mm或者更大的放射线照相明显肺结节是恶性的,其中对患者施用手术或其它治疗选择。相反地,认为大小是约1mm至29mm的放射线照相明显肺结节是不确定的,其中在缺少本发明的方法的情况下,患者在肺结节最初被鉴定后数月或数年,被安排进行后续的ct扫描。本发明的方法区分这样的大小范围的良性和恶性肺结节,从而使得患者能够更适当地进行监测或治疗。在实施方案中,区分良性和恶性放射线照相明显肺结节的阈值得自具有良性结节和恶性结节的患者群组,其中阈值可以是约50%,或约50%至约75%的概率值。在其它实施方案中,区分良性和恶性放射线照相明显肺结节的阈值得自具有良性结节和恶性结节的患者群组,特异性为至少65%或约80%。在实施方案中,概率值是通过接受者操作特征(roc)曲线的曲线下面积(auc)测量的阳性预测值。在某些实施方案中,概率值使用多变量逻辑回归模型、神经网络模型、随机森林模型或决策树模型进行计算。在实施方案中,至少两种生物标志物选自cea、cyfra或nse并且至少两种临床参数选自吸烟状况、患者年龄、咳嗽和结节大小。在某些实施方案中,生物标志物组包括cea、cyfra或nse并且临床参数组包括患者年龄、咳嗽和结节大小。附图简要说明本领域技术人员通过参考附图可以更好地理解本发明的众多优点,其中:图1a-1b是根据实施例实施方案的实例计算环境的示意图。图2a-2b是根据实施例实施方案的实例神经网络系统的示例。图3是示例根据实施例实施方案的用于识别和纠正有问题的数据的操作的流程图。图4a-4b是示例根据实施例实施方案的用于确定患有癌症的风险的操作的流程图。图5是示例根据实施例实施方案的用于提取数据的操作的流程图。图6是示例根据实施例实施方案的用于与可公开访问的数据源接口的操作的流程图。图7是示例根据实施例实施方案的人工智能系统的客户和计算节点的示意图。图8是示例根据实施例实施方案的用于人工智能系统的云计算环境的示意图。图9是示例根据实施例实施方案的计算模型层的抽象化的示意图。图10显示了对于例如肺癌这样的疾病的风险分类表的例子。在该风险分类表中,具有大于观察到的2%吸烟者风险的风险之间的拐点出现,总mom分数高于9。总分为9或更小时,该患者患有肺癌风险不高于任何尚未诊断出的其它重度吸烟者。与吸烟人群相比,大于9的mom分数表明癌症的风险更高或癌症的可能性更高。图11是根据实施例实施方案的用于利用机器学习系统来构建群组群体的实例操作的流程图。图12是根据实施例实施方案的用于利用机器学习系统来分类个体患者的实例操作的流程图。图13是用于基于mlr模型来分辨肺癌和良性结节的roc曲线(3种生物标志物+3种临床因素)。参见实施例2和表7。图14是在肺癌病例和对照(良性结节)中的结节大小的直方图。图15是基于mlr的三个结节亚组每个的roc图。图16是通过%概率肺癌的结节类别和状态的点图,其中“癌症”和“对照”组两者都是通过结节大小类别进行亚采样:1)0-14mm,2)15-29mm,以及3)≥30mm。参见实施例2和表10中。详述a)简介本发明的实施方案提供了非侵入性方法、诊断测试和计算机实现的机器学习方法、装置、系统和计算机可读介质,用于评估具有放射线照相明显肺结节的患者相对于群体或群组群体的可能性,通过产生例如分层的风险类别或阈值,以更准确地预测相比于良性结节,恶性结节的存在。患者可以是对于肺癌是有症状的、无症状的或轻微症状的。本发明的方法提供了优于使用临床参数或使用生物标志物来评估肺癌的可能性的改善。在多变量分析、神经网络分析或随机森林分析中生物标志物值和临床参数的组合提高了正确分类具有恶性或良性肺结节的患者的准确性。参见实施例1和2。例如根据本发明公开的一个方面,使用群体或个体组群的风险分类来确定具有放射线照相明显肺结节的患者中恶性肺结节存在的定量风险水平。在一些方面,用于确定风险水平的数据可以包括但不限于测量血液中的多种生物标志物的血液测试(仅一次或优选系列地测量随时间的变化),患者的医疗记录包括吸烟史、肺癌家族史和肺结节大小、数量和定位,以及与癌症风险有关的公开可用信息来源。在某些实施方案中,风险分类在本文中被称为风险分类表。如本文所用,术语“表”以其最广泛的含义使用,以指将数据分组为提供易于解释或呈现的格式,这包括但不限于从计算机程序指令的执行或软件应用程序提供的数据,表格,电子表格等。因此,在一个实施方案中,风险分类表是分层人群或组群(例如人类受试者群体)的分组。人类受试者的这种分层是基于对诊断为患有癌症的受试者的回顾性临床样品(并且可能包括其它数据)的分析,其中对于每个分层分组确定癌症的实际发生率,在本文中称为阳性预测分数(pps)。理想地,来自人群或组群的数据是以纵向或前瞻为基础采集的,因此在采集血样并且已经测量生物标志物之后确定恶性肺结节的存在或不存在。以这种方式采集的数据通常可以克服已经归类为来自癌症患者(“病例”)与未患有明显癌症的患者(“对照”)的存储或存档样品中的生物标志物的回顾性研究中固有的各种限制和偏差。用于创建定量风险水平的数据优选来自非常大量的患者,超过一千个,超过一万个,乃至超过十万个患者。(以下部分描述了使用机器学习系统对风险算法和表格进行持续改进的方式。)然后,通过在受分层的人群或人群受试者组群(例如50岁或以上的人类受试者)中将pps除以所报告的癌症发病率,将pps转换为表明患有恶性肺结节的可能性增加的乘数。给予每个分组或组群分组一个风险分类识别符,包括但不限于低风险,中-低风险,中等风险,中-高风险和最高风险。因此,在一个实施方案中,风险分类表的每个类别包括1)患有恶性肺结节的增加的可能性,2)风险识别符和3)综合分数的范围。在下面更详细地提供了风险类别表的生成,包括用于归一化生物标志数据的方法,连同肺癌(恶性对比良性肺结节)的具体实例。本发明还提供了机器学习系统、方法和计算机可读介质用于分析来自癌症的生物标志物组的结果以及来自患者医疗记录的数据,和信息的其他公开获得的来源,并且定量相对于群体在人受试者中存在恶性结节的人受试者的增加的风险(或在某些情况下,降低的风险)。如本文所用,术语“增加的风险”是指相比于整个群体群组的恶性结节的已知发病率,恶性结节的存在的增加。本发明的方法和风险类别表是至少部分地基于1)鉴定和聚类一组蛋白质和针对那些蛋白质得到的自身抗体,其可以作为癌症存在的标志物,2)鉴定指示恶性肺结节的临床参数组;3)将得到的值(生物标志物和临床参数)归一化和聚合,以生成综合分数;和(4)确定阈值,其用于将患者划分为具有恶性结节存在的不同风险程度的组,其中确定人受试者对于恶性结节相对于良性结节的存在具有定量的增加的风险的的可能性。可以利用机器学习系统来确定最佳群组分组以及确定如何组合生物标志物组合数据、医疗数据和其它数据以便以最佳或近乎最佳的方式(例如正确地)生成风险分类,其可以预测哪些个体具有低假阳性率的癌症。机器学习系统为每个测试患者产生一个数值风险分数,临床医师可以使用它来做出有关癌症患者疗法的治疗决策,或者重要的是,进一步通知筛查程序以更好地预测和诊断患者中的早期癌症。而且,如本文中更详细描述的,机器学习系统适于在系统用于真实世界临床设置时接收附加数据,并且重新计算和在某些实施方案中,至少两种肺癌生物标志物和至少两种临床参数的组提供了用于区分恶性肺结节和良性结节的至少80%的灵敏度(在80%特异性),至少85%的灵敏度,至少90%的灵敏度,或至少95%的灵敏度。在另一个实施方案中,至少两种肺癌生物标志物和至少两种临床参数的组提供区分恶性肺结节和良性结节的至少0.87的auc值。在某些实施方案中,当作为使用统计模型如多变量逻辑回归、神经网络或随机森林作为组进行分析的时候,使用包括至少两种肺癌生物标志物和至少两种临床参数来预测患者对恶性肺结节是否是阳性的。在这种情况下,分析肺癌生物标志物值和临床参数值并计算综合概率值。然后,将该值与设定阈值进行比较以确定综合值是否高于或低于阈值。当与阈值比较时,得出对于恶性肺结节是阳性或阴性的预测,通过包括如果综合分数高于阈值,则患者对于恶性肺结节是阳性的,或者包括如果综合分数低于阈值,则患者对于恶性肺结节是阴性的(即结节是良性的)。阈值可以是概率值,例如50%,从具有良性结节和恶性结节的患者的回顾性群组得到或计算出的。可以调整该阈值,其中优化灵敏度和特异性以提高区分良性和恶性放射线照相明显肺结节的精确度。在实施方案中,阈值是得自特异性为至少65%的具有良性结节和恶性结节的患者群组。在其它实施方案中,特异性为80%左右。b)定义如本文所用,术语“一”或“一个”在专利对比文件中通常被用来包括一个或多于一个,独立于“至少一个”或“一个或多个”的任何其它实例或用法。如本文所用,术语“或”用于指非排他性的或者,使得“a或b”包括“a但不是b”,“b但不是a”和“a和b”,另有指示的除外。如本文所用,术语“约”用于指大致,近似,几乎或接近于等于或等于所述量的量,例如所述量加/减去约5%、约4%、约3%、约2%或约1%。如本文所用,术语“无症状的”是指先前未被诊断患有相同癌症的患者或人类受试者,其患有的风险正在被定量和分类。例如人类受试者可能会出现咳嗽、疲劳、疼痛等症状,但以前没有被诊断出患有肺癌、但现在正在接受筛查以将他们存在癌症的风险增加归类,而且对于本方法仍然被视为“无症状”。如本文所用,术语“auc”是指例如曲线roc曲线下面积的。该值可以评估对给定的样本群体进行测试的量度,其中值为1代表良好测试,低至0.5意味着测试在对测试受试者进行分类时提供了随机响应。由于auc的范围仅为0.5至1.0,所以auc的小变化比0至1或0至100%范围的度量中的类似变化具有更大的显著性。当给出auc的%变化时,将基于度量的整个范围为0.5至1.0的事实来计算。各种统计软件包可以计算roc曲线的auc,如sigmaplot12.5、jmptm或analyse-ittm。auc可用于比较整个数据范围内分类算法的准确性。根据定义,具有更大auc的分类算法具有更大的能力来在两个目标组(疾病和无疾病)之间正确分类未知物。分类算法可以是单个分子的度量一样简单或者像多个分子的度量和整合一样复杂。如本文所用,术语“生物样品”和“测试样品”是指从任何给定受试者分离的所有生物流体和排泄物。在本发明背景下,这样的样品包括但不限于血液、血清、血浆、尿液、眼泪、唾液、汗液、活检物、腹水、脑脊液、乳汁、淋巴液、支气管和其它灌洗液样品或组织提取物样品。在某些实施方案中,血液、血清、血浆和支气管灌洗液或其它液体样品是便利的测试样品,其用于本方法的上下文中。如本文所用,术语“癌症”和“癌性的”是指或描述哺乳动物的生理状况,其典型特征在于不受调节的细胞生长。癌症的例子包括但不限于肺癌、乳腺癌、结肠癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、宫颈癌、卵巢癌、肝癌、膀胱癌、尿道癌、甲状腺癌、肾癌、癌、黑素瘤和脑癌。如本文所用,术语“癌症风险因素”是指与特定癌症相关的已知风险的生物或环境影响。这些癌症风险因素包括但不限于癌症家族史(例如乳腺癌)、年龄、体重、性别、吸烟史、暴露于石棉、暴露于辐射等。在某些实施方案中,肺癌的癌症危险因素是具有吸烟史的50岁或以上的人类受试者。如本文所用,术语“群组”指具有共同因素或影响(例如年龄、家族史、癌症风险因素、环境影响等)的人类受试者的组或一部分。在一个实例中,如本文所用,“组群”是指具有共同癌症风险因素的一组人类受试者;这在本文中也被称为“疾病群组”。在另一个实例中,如本文所用,“群组”是指例如按年龄根据年龄与癌症风险组群匹配的正常人群组;在本文中也称作“正常组群”。如本文所用,术语“综合分数”是指来自人类受试者的样品中测量的标志物的获得值与获得的临床参数的集合。在实施方案中,将获得值进行归一化,特别是将获得的生物标志物值进行归一化以提供每个测试的人受试者的综合分数。当在风险分类表的环境中使用并且与基于风险分类表中的综合分数范围的分层人群分组或组群分组相关时,至少部分由机器学习系统使用“生物标志物综合分数”以确定每个测试的人类受试者的“风险分数”,其中指示分层分组患有癌症的可能性增加的数值(例如乘数,百分比等)变成“风险分数”。参见图10。如本文所用,术语“差异表达的基因”、“差异基因表达”和它们的可互换使用的同义词以最广泛的含义使用,并且指基因和/或所得到的蛋白质,其在患有疾病、尤其是癌症例如肺癌的受试者中的表达被活化为相对于其在正常或对照受试者中的表达更高或更低的水平。这些术语还包括在相同疾病的不同阶段表达被活化至更高或更低水平的基因。还应当理解,差异表达的基因可以在核酸水平或蛋白质水平上被激活或抑制,或者可以经受选择性剪接以产生不同的多肽产物。例如这种差异可以通过mrna水平,表面表达,分泌或其它多肽分配的变化来证明。差异基因表达可以包括比较两个或多个基因或其基因产物(例如蛋白质)之间的表达,或比较两个或多个基因或其基因产物之间的表达比率,乃至比较相同基因的两个不同的加工产物,所述基因的加工产物在正常受试者和患有疾病、特别是癌症的受试者之间或在同一疾病的不同阶段之间存在差异。差异表达包括在例如正常细胞和患病细胞,或已经历不同疾病事件或疾病阶段的细胞中基因或其表达产物中的暂时性或细胞表达模式的定量差异和定性差异。如本文所用,术语“基因表达谱”以最广泛的含义使用,并且包括定量生物样品中的mrna和/或蛋白质水平的方法。如本文所用,术语“增加的风险”是指测试之后针对癌症存在的人类受试者的风险水平相对于在测试之前人群已知的特定癌症的患病率增加。换句话说,在测试之前,人类受试者患癌症的风险可以是2%(基于人群中癌症的可理解的患病率),但是在测试之后(基于生物标志物的测量值),他们存在癌症的风险可以是30%,或者与组群相比报告为增加15倍。如本文所用,术语“降低的风险”是指在测试之后,对于癌症存在的人类受试者的风险水平相对于在测试之前人群已知的特定患病率的降低。在这种情况下,“降低的风险”是指在测试之前相对于人群的风险水平的变化。如本文所用,术语“肺癌”是指与任意指定受试者的肺系相关的癌症状态。在本发明的上下文中,肺癌包括但不限于腺癌、表皮样癌、鳞状细胞癌、大细胞癌、小细胞癌、非小细胞癌和支气管肺泡癌。在本发明的上下文中,肺癌可以处于不同阶段以及不同分级程度。用于确定肺癌阶段或其排序程度的方法是本领域技术人员众所周知的。如本文所用,可互换使用的术语“标志物”、“生物标志物”(或其片段)及其同义词是指可以在样品中评估并与身体状况相关联的分子。例如标志物包括表达的基因或其产物(例如蛋白质)或针对与可从人体样品(例如血液、血清、实体组织等)检测到的与身体或疾病状况有关的那些蛋白质的自身抗体,或微rna,或其任意组合。这样的生物标志物包括但不限于包含核苷酸、氨基酸、糖、脂肪酸、类固醇、代谢物、多肽、蛋白质(例如但不限于抗原和抗体)、碳水化合物、脂质、激素、抗体的生物分子、用作生物分子替代物的目标区域,其组合(例如糖蛋白、核糖核蛋白、脂蛋白)以及涉及任何此类生物分子的任何复合物,例如但不限于在抗原和结合到所述抗原上可用的表位的自身抗体之间形成的复合物。术语“生物标志物”还可以指包含至少5个连续氨基酸残基,优选至少10个连续氨基酸残基,更优选至少15个连续氨基酸残基并且保留亲本多肽的生物活性和/或一些功能特征例如抗原性或结构域特征的多肽(亲本)序列的一部分。本发明的标志物是指存在于癌细胞上或癌细胞中的肿瘤抗原或已经从癌细胞脱落入体液如血液或血清中的肿瘤抗原。如本文所使用的,本发明的标志物也指对于那些肿瘤抗原的由身体产生的自身抗体和循环mirna。在一个方面,如本文所用的“标志物”是指能够在人类受试者的血清中检测到的mirna和肿瘤蛋白(tp)和/或自身抗体(aab)。也可以理解,在本发明的方法中一组中的标志物的应用可以各自对综合分数具有等同的贡献,或者某些生物标志物可以被加权,其中一组中的标志物对最终综合分数贡献不同的权重或量。应当理解,肺癌的一些肿瘤蛋白(tp)类型生物标志物可以来自与肿瘤细胞相互作用的非肿瘤细胞。在那种情况下,免疫系统能生产不仅是自身抗体,还有广谱的细胞信号传导分子(例如细胞因子等)。在大多数研究中确定的循环蛋白生物标志物的来源无法证实,虽然他们在肿瘤细胞中的过表达与升高的血液水平相关联。术语“肿瘤蛋白”或tp可以在本文中与“肿瘤相关联的蛋白”或“肺癌相关联的蛋白”(lcap)交换使用。如本文所使用的,与跨样本和时间的生物标志物的测量结合使用时,术语“归一化”及其派生词是指数学方法,包括但不限于mom、标准偏差归一化、s形归一化等,其中意图是这些归一化的值允许以消除或最小化差异和严重影响的方式比较来自不同的数据集的相应的归一化的值。如本文所用,术语“环境数据库”是指包含癌症的环境风险因素的数据库,包括但不限于位置、邮政编码。对于在特定地点生活或工作了多年的患者,环境数据库可能能够指出这些位置是否与癌症的存在相关。来自数据库中的信息可能基于期刊文章、科学研究等。如本文所用,术语“就业数据库”或“职业数据库”是指包含癌症的职业风险因素的数据库。这类数据包括但不限于已知与癌症发展相关的职业、从事特定职业的人可能遇到的化学物质或致癌物,职业年数与风险之间的相关性(例如从事职业5年的职业癌症风险增加5%,同一职业10年的职业与其它职业相比癌症风险增加55%等。)如本文所用,术语“人群数据库”是指包含个体人群的人口统计学数据(例如性别、年龄、吸烟史、家族史、血液测试、生物标志物测试等)的数据库。该数据被提供给神经网络用于组群分析,并且神经网络识别出最能预测癌症存在的因素。如本文所用,术语“遗传数据库”是指包含将各种类型的遗传信息与癌症的存在相关联的信息(例如braf、v600e突变、egfp、基因snps等)的数据库。如本文所用,术语“原始图像”是指在处理之前的成像研究,例如xray、ct扫描、mri、eeg、ecg、超声等。如本文所用,术语“医疗史”是指与患者相关的任何类型的医学信息或与患者相关的临床参数。在一些实施方案中,医疗史被存储在电子医学记录数据库中。医疗史可能包括临床数据(如影像模式、血液检查、生物标志物、癌症样本和对照样本、实验室等)、临床笔录、症状、症状严重程度、吸烟年数、疾病家族史、病史、治疗和结果、指明特定诊断的icd代码、其它疾病史、放射学报告、影像研究、报告、医疗史、从遗传测试中鉴定的遗传风险因素、基因突变等。如本文所用,术语“转换的数字字段”是指已通过自然语言处理从非结构化数据(例如吸烟年数、频率等)提取的数值数据。如本文所用,术语“非结构化数据”是指文本、自由形式文本等。例如非结构化数据可以包括由临床医师输入的患者笔录、伴随成像研究的注释等。如本文所用,可以互换使用的术语“标志物组”、“生物标志物组”和它们的同义词是指可从人样品中检测的一种以上的一起与存在特定的癌症相关的标志物。如本文所用,(肿瘤)癌症的术语“病理学”包括危及患者健康的所有现象。这包括但不限于异常的或不可控的细胞生长、转移、对邻近细胞正常功能的干扰、细胞因子或其它分泌产物以异常水平的释放、对炎症或免疫应答的抑制或加剧、瘤形成、癌前病变、恶化、侵入周围或远处的组织或器官如淋巴结等。如本文所使用的,术语“癌症的已知发病率”是指使用本发明的方法测试人受试者之前群体中癌症的发病率。癌症的已知发病率,可以是在基于回顾性的数据或应用到发病率的算法的文献中报道的发病率,其中在算法中考虑如年龄以及更直接和相关历史的因素。在这种情况下,在群组中癌症的已知发病率是指在通过本发明的方法测试之前,患有癌症的风险。如本文所使用的,术语“阳性预测分数”、“阳性预测值”或者“ppv”是指在生物标志物测试上的特定范围内的分数是真阳性结果的可能性。这在本文中也称为癌症的概率,以百分比形式表示。它被定义为真阳性结果的数量除以总阳性结果的数量。真阳性结果可以通过将测试灵敏度乘以测试群体中的疾病发病率来计算。假阳性可以通过(将1减特异性)乘以(1-测试群体中的疾病的发病率)来计算。总阳性结果等于真阳性加假阳性。如本文所用,术语“癌症的概率”是指使用本发明方法筛选后,患者对于肺癌的存在是阳性(包括区分良性和恶性肺结节)的概率或可能性(例如表示为百分比)。如本文所用,术语“概率值”或“综合概率值”是指对来自患者样品的测量的生物标志物的组和从患者收集的临床参数数据的组的统评分析。参见实施例1和2。统评分析可以是多变量逻辑回归模型、神经网络模型、随机森林模型,决策树模型或用于分析多个变量的其他公知的方法。将概率值分配给每个患者(例如人),其然后被用于当与阈值比较时,将患者中的放射线照相明显肺结节分类为良性的或恶性的。该阈值从具有良性结节和恶性结节的患者的回顾性群组得到或计算。该阈值也可以是从反映与患者相关联的群体的回顾性群组来计算的概率值。如本文所使用的,术语“受试者工作特性曲线”或“roc曲线”是用于区分两个群体,肺癌患者和对照(例如没有肺癌那些)的特定特征的性能线图(plot)。基于单个特征的值以升序对整个群体(即患者和对照)的数据进行排序。然后,对于该特征的每个值,确定数据的真阳性和假阳性率。真阳性率通过计数在所考虑的特征的值之上的病例数量并随后除以患者总数来确定。假阳性率通过计数在所考虑的特征的值之上的对照数量并随后除以对照总数来确定。roc曲线可以为单个特征以及其他单个输出来产生,例如组合的两个或更多个特征的组合(例如加、减、乘等)以提供可以绘制在roc曲线中的单个组合的值。roc曲线是针对测试的假阳性率(1-特异性)的测试的真阳性率(灵敏度)的线图。roc曲线提供了另一种手段来快速筛选数据集。如本文使用的,术语“筛选”是指用于在群体中鉴定无症状个体(例如没有癌症的体征或症状的那些)中的未识别的癌症的策略。如本文中所使用的,就特定的癌症(例如肺癌)筛选群体的群组(例如50岁或以上的吸烟者),其中应用本发明的方法来确定那些无症状个体的癌症存在的可能性和/或风险。如本文所使用的,术语“灵敏度”是指测量被正确地识别为阳性:真阳性的阳性比例的统评分析。灵敏度越高,识别的假阴性越少。可以测量用于特定疾病(例如肺癌)的生物标志物或生物标志物组在指定的特异性截止值(例如80%)的灵敏度并用于评估患者对于特定疾病的风险。如本文所使用的,术语“特异性”是指测量被正确地识别为阴性:真阴性的阴性比例的统评分析。特异性越高,假阳性率越低。组合的特异性(例如80%)和灵敏性(例如至少80%)越高,生物标志物或生物标志物组是对于以临床实用性正确地识别肺癌更好的预测器。如本文所使用的,术语“受试者”是指动物,优选哺乳动物,包括人类或非人类。术语“患者”和“人受试者”在本文中可以互换使用。如本文所使用的,术语“肿瘤”是指所有赘生性细胞生长和增殖,无论是恶性的还是良性的,及所有癌前的和癌性细胞和组织。如本文所用,短语“加权评分方法”是指涉及将测试样品中所识别和量化的一种生物标志物的测量值转换为许多潜在分数之一的方法。roc曲线可用于通过能够基于从roc曲线定义的假阳性%的倒数使用加权分数来标准化不同标志物之间的分数。可以通过将auc乘以标志物的因子然后除以基于roc曲线的假阳性%来计算加权分数。加权分数可以使用以下公式计算:加权分数=(aucx×因子)/(1-%特异性x)其中x是标志物;“因子”是整个组中的实数(例如0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25等);并且,“特异性”是不超过95%(例如80%)的选定值。用于组的因子的乘法允许用户扩展(scale)加权分数。因此,如所希望的,一种标志物的测量可以被转换成尽可能多或尽可能少的分数。加权为对于目标群体具有低假阳性率(从而具有更高的特异性)的生物标志物提供更高的分数。加权范例可以包括假阳性(1-特异性)的升高水平,低于该水平测试将导致增加的分数。因此,具有高特异性的标志物可以比更低特异性的标志物给予更大的分数或更大范围的分数。评估用于加权的参数的基础可以通过确定在患有肺癌的患者群体中和在正常个体中标志物的存在来获得。从所有的样品中获得的信息(数据)用于生成roc曲线,并创建每种生物标志物的auc。将一定数量的预定的截止值和加权的分数分配给基于%特异性的每种生物标志物。该演算提供汇集分数的分层,而那些分数可以用来定义关联是否具有肺癌的更高或更低风险的任意风险类别的范围。类别的数量可以是设计选择或者可以由数据驱动。c)生物标志物本发明公开内容涉及包括至少两种肺癌生物标志物的肺癌生物标志物组及其在筛选肺癌中的用途。如本文所使用的,“筛选肺癌”是指诊断患者中的肺癌和/或确定患者中的癌症的可能性和/或分类的患者对于肺癌的风险和/或确定患者对于肺癌的增加的风险和/或区分良性和恶性肺结节。在实施方案中,肺癌生物标志物可以选自肿瘤蛋白(tp)、自身抗体(aab)或微rna(mirna)肺癌生物标志物来选择。在实施方案中,肺癌生物标志物选自cea、ca19-9、scc、nse、progrp和cyfra。在某些实施方案中,肺癌生物标志物组包括至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、至少10个、至少15个、至少20个、至少30个、至少40个或至少50个肺癌生物标志物。在一个方面中,肺癌生物标志物组包括至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、至少十(10)个、至少15个、至少20个、至少30个、至少40个或至少50个肿瘤蛋白(tp)肺癌生物标志物。在另一个方面中,肺癌生物标志物组包括至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、至少10个、至少15个、至少20个、至少30个、至少40个或至少50个自身抗体(aab)肺癌生物标志物。可以优化肺癌生物标志物组中的生物标志物的总数量以及来自每个类别(mirna、tp和aab)的总数量以有助于获得临床相关性,其中相比于只有一个类别的肺癌生物标志物(mirna、tp或aab)的组(例如在80%特异性大于80%灵敏度),这样的组具有增加的灵敏度。在该实例中,肺癌生物标志物组可以包括x数量的mirna肺癌生物标志物和y数量的tp和/或aab肺癌生物标志物,其中x和y可以是相同的或不同的并且是零至至少约50个肺癌生物标志物,只要该组包括至少两种肺癌生物标志物。在某些实施方案中,肺癌组包括x个mirna肺癌生物标志物和y个tp肺癌生物标志物。在另一个实施方案中,肺癌生物标志物组包括x个mirna的肺癌生物标志物和y’个aab肺癌生物标志物。在另一个实施方案中,肺癌生物标志物组包括x个mirna肺癌生物标志物,y个tp肺癌生物标志物和y’个aab肺癌生物标志物。x、y和y’代表至少1个至约至少50个肺癌生物标志物,并且可以在每个组中是相同的或不同。在实施方案中,肺癌生物标志物组包括tp肺癌生物标志物。在某些实施方案中,肺癌生物标志物组包括约0至约10个mirna肺癌生物标志物、约0至约10个tp肺癌生物标志物和/或约0至约10个aab肺癌生物标志物。在一个方面,肺癌生物标志物组包括两个tp肺癌生物标志物,三个tp肺癌生物标志物,四个tp肺癌生物标志物,五个tp肺癌生物标志物,六个tp肺癌生物标志物,七个tp肺癌生物标志物,八个tp肺癌生物标志物,九个tp肺癌生物标志物或十(10)个tp肺癌生物标志物与约0至约10个mirna肺癌生物标志物和/或约0至约10个aab肺癌生物标志物组合。在另一个方面,肺癌生物标志物组包括一个tp肺癌生物标志物,二个tp肺癌生物标志物,三个tp肺癌生物标志物,四个tp肺癌生物标志物,五个tp肺癌生物标志物,六个tp肺癌生物标志物,七个tp肺癌生物标志物,八个tp肺癌生物标志物,九个tp肺癌生物标志物或十(10)个tp肺癌生物标志物与一个aab肺癌生物标志物,二个aab肺癌生物标志物,三个aab肺癌生物标志物,四个aab肺癌生物标志物,五个aab肺癌生物标志物,六个aab肺癌生物标志物,七个aab肺癌的生物标志物,八个aab肺癌生物标志物,九个aab肺癌生物标志物或(10)个aab肺癌生物标志物和/或约0至约10个mirna肺癌生物标志物组合。应当理解,对本文描述的任何肺癌组,该组测量在该组中列出的生物标志物和该组不包含生物标志物而是工具以测量样品中所述生物标志物的水平提供测试值。测试值是由测量的标志物和所使用的试剂确定的,并且可以是例如u/ml、u/l、μg/l、ng/l、μg/ml或ng/ml。然而,可以执行测量之前需要选择用于筛选肺癌生物标志物组。许多生物标志物对于肺癌是已知的并且组可以被本申请人选择或者完成,可以基于其中组是基于用于肺癌的经验数据产生的对回顾性临床样品中的单个标志物进行测量来选择的组。可以使用的生物标志物的实例包括可测量的分子,例如在体液样品中,如抗体、抗原、小分子、蛋白质、激素、基因等,其中本发明的肺癌组包括至少两个tp肺癌生物标志物,并且可以进一步包括来自肺癌生物标志物的mirna组和/或肺癌生物标志物的aab组的肺癌生物标志物。i)肺癌生物标志物之前进行了研究来努力确定生物标志物组,其包括调查已知肿瘤蛋白标志物配合对新颖肺癌特异性标志物的发现项目(pct公布号wo2009/006323和us2013/0196868,各自通过引用并入本文)。这项工作表明,标志物的组合能够用于提高肺癌测试的灵敏度而不明显地影响测试的特异性。为了实现这一点,测试并分析生物标志物,达到建立6种生物标志物的组(3种tp和三种aab),汇集得到肺癌早期检测的显著的灵敏度和特异性。建立了六种或五种tp生物标志物的其他组并且证明对肺癌当在实施例1的样品中使用时,在80%特异性的70.5%灵敏度和0.84的auc。如本文中所公开的,本申请人通过组合临床参数变量与肿瘤蛋白(tp)和/或自身抗体(aab)肺癌提供了对患者进行肺癌筛选和/或帮助临床医生区分患者中的良性和恶性放射线明显肺结节的改进。在该组中包括临床参数变量提供了86%和91%的灵敏度(80%特异性),是相比于tp组的改进。参见表4和5以及实施例1和2在一个实施方案中,标志物组选自抗p53、抗ny-eso-1、抗ras、抗neu、抗mapkapk3、细胞角蛋白8、细胞角蛋白19、细胞角蛋白18、cea、ca125、ca15-3、ca19-9、cyfra21-1、nse(神经元特异性烯醇化酶)、scc(鳞状上皮细胞癌相关抗原)、α-fp、psa、tpm、tpa、血清淀粉样蛋白a、progrp(亲胃泌素释放肽)和α1抗胰蛋白酶[molinaetal.assessmentofacombinaedpaleofsixserumtumormarkerforlungcancer;amjrepircritcaremedvol193,iss4,pp.427-437(fed15,2016);molinaetal.tumormarkersinpatientswithnon-smallcelllungcancerasanaidinhistologicaldiagnosisandprognosis,tumorbiol2003;24:209-218;fengetal.theeffectofartificialneuralnetworkmodelcombinedwithsixtumormarkersinauxiliarydiagnosisoflungcancer,jmedsyst(2012)36:2973-2980]和(美国专利公布号2012/0071334;2008/0160546;2008/0133141;2007/0178504(各自通过引用并入本文))。许多循环蛋白已经最近被确定为肺癌发生的可能生物标志物,例如蛋白质cea、rbp4、haat、scca[patz,e.f.,etal.,panelofserumbiomarkersforthediagnosisoflungcancer.journalofclinicaloncology,2007.25(35):p.5578-5583.];蛋白质il6、il-8和crp[pine,s.r.,etal.,increasedlevelsofcirculatinginterleukin6,interleukin8,c-reactiveprotein,andriskoflungcancer.journalofthenationalcancerinstitute,2011.103(14):p.1112-1122.];蛋白质tnf-α、cyfra21-1、il-1ra、mmp-2、单核细胞趋化蛋白1和se-选择素[farlow,e.c.,etal.,developmentofamultiplexedtumor-associatedautoantibody-basedbloodtestforthedetectionofnon–smallcelllungcancer.clinicalcancerresearch,2010.16(13):p.3452-3462.];蛋白质催乳素、转甲状腺素蛋白、血小板反应蛋白-1、e-选择素、c-c基序趋化因素5、巨噬细胞迁移抑制因素、纤溶酶原激活物抑制剂、受体酪氨酸-蛋白激酶、erbb-2、细胞角蛋白片段21.1和血清淀粉样蛋白a[bigbee,w.l.p.,etal.,-amultiplexedserumbiomarkerimmunoassaypaneldiscriminatesclinicallungcancerpatientsfromhigh-riskindividualsfoundtobecancer-freebyctscreening[journalofthoraciconcologyapril,2012.7(4):p.698-708.];蛋白质egf、scd40配体、il-8、mmp-8[izbicka,e.,etal.,plasmabiomarkersdistinguishnon-smallcelllungcancerfromasthmaanddifferinmenandwomen.cancergenomics-proteomics,2012.9(1):p.27-35.]。结合其为可能的生物标志物的循环、肺癌相关联的蛋白质的新型配体包括结合钙粘蛋白-1、cd30配体、血管内皮抑素、hsp90α、lrig3、mip-4、多效生长因素、prkci、rgm-c、scf-sr、sl-选择素和yes的核酸适体[ostroff,r.m.,etal.,unlockingbiomarkerdiscovery:largescaleapplicationofaptamerproteomictechnologyforearlydetectionoflungcancer.plosone,2010.5(12):p.e15003.]和结合富含亮氨酸的α-2糖蛋白1(lrg1)、α-抗胰凝乳蛋白酶1(act)、补体c9、触珠蛋白β链的单克隆抗体[guergova-kuras,m.,etal.,discoveryoflungcancerbiomarkersbyprofilingtheplasmaproteomewithmonoclonalantibodylibraries.molecular&cellularproteomics,2011.10(12).];和蛋白质[higgins,g.,etal.,variantciz1isacirculatingbiomarkerforearly-stagelungcancer.proceedingsofthenationalacademyofsciences,2012.]。被建议为肺癌的循环标志物的自身抗体包括p53、ny-eso-1、cage、gbu4-5、膜联蛋白1和sox2[lam,s.,etal.,earlycdt-lung:animmunobiomarkertestasanaidtoearlydetectionoflungcancer.cancerpreventionresearch,2011.4(7):p.1126-1134.]和impdh、磷酸甘油酯变位酶、ubiquillin、膜联蛋白i、膜联蛋白ii和热休克蛋白70-9b(hsp70-9b)[farlow,e.c.,etal.,developmentofamultiplexedtumor-associatedautoantibody-basedbloodtestforthedetectionofnon–smallcelllungcancer.clinicalcancerresearch,2010.16(13):p.3452-3462.]。在实施方案中,tp肺癌生物标志物选自cea、ca19-9、cyfra21-1、nse、scc和progrp。在另一个实施方案中,aab肺癌生物标志物选自抗p53、抗ny-eso-1、抗cage、抗gbu4-5、抗膜联蛋白1、抗sox2、抗ras、抗neu和抗mapkapk3。在一个实施方案中,肺癌组包括抗p53、抗ny-eso-1或抗mapkapk3中的至少一种。在另一个实施例中,组包括cea、cyfra21-1或ca125中的至少一种。在一个实施方案中,肺癌标志物组选自cea(genbank登录号cae75559)、ca125(uniprotkb/swiss-prot:q8wxi7.2)、cyfra21-1(ncbi参考序列:np_008850.1)、抗ny-eso-1(抗原ncbi参考序列:np_001318.1)、抗p53(抗原genbank登录号:bac16799.1)和抗mapkapk3(抗原ncbi参考序列:np_001230855.1),前三个是肿瘤标志物蛋白而后三个是自身抗体。在其它实施方案中,生物标志物包括被建议为肺癌的循环标志物的微rna(mirna或mir)并且包括mir-21、mir-126、mir-210、mir-486-5p(shen,j.,etal.,plasmamicrornasaspotentialbiomarkersfornon-small-celllungcancer.labinvest,2011.91(4):p.579-587);mir-15a、mir-15b、mir-27b、mir-142-3p、mir-301(hennessey,p.t.,etal.,serummicrornabiomarkersfordetectionofnon-smallcelllungcancer.plosone,2012.7(2):p.e32307);let-7b、let-7c、let-7d、let-7e、mir-10a、mir-10b、mir-130b、mir-132、mir-133b、mir-139、mir-143、mir-152、mir-155、mir-15b、mir-17-5p、mir-193、mir-194、mir-195、mir-196b、mir-199a*、mir-19b、mir-202、mir-204、mir-205、mir-206、mir-20b、mir-21、mir-210、mir-214、mir-221、mir-27a、mir-27b、mir-296、mir-29a、mir-301、mir-324-3p、mir-324-5p、mir-339、mir-346、mir-365,mir-378、mir-422a、mir-432、mir-485-3p、mir-496、mir-497、mir-505、mir-518b、mir-525、mir-566、mir-605、mir-638、mir-660和mir-93[美国专利公布号2011/0053158];hsa-mir-361-5p、hsa-mir-23b、hsa-mir-126、hsa-mir-527、hsa-mir-29a、hsa-let-7i、hsa-mir-19a、hsa-mir-28-5p、hsa-mir-185*、hsa-mir-23a、hsa-mir-1914*、hsa-mir-29c、hsa-mir-505*、hsa-let-7d、hsa-mir-378、hsa-mir-29b、hsa-mir-604、hsa-mir-29b、hsa-let-7b、hsa-mir-299-3p、hsa-mir-423-3p、hsa-mir-18a*、hsa-mir-1909、hsa-let-7c、hsa-mir-15a、hsa-mir-425、hsa-mir-93*、hsa-mir-665、hsa-mir-30e、hsa-mir-339-3p、hsa-mir-1307、hsa-mir-625*、hsa-mir-193a-5p、hsa-mir-130b、hsa-mir-17*、hsa-mir-574-5p和hsa-mir-324-3p(美国专利公布号2012/0108462);mir-20a、mir-24、mir-25、mir-145、mir-152、mir-199a-5p、mir-221、mir-222、mir-223、mir-320(chen,x.,etal.,identificationoftenserummicrornasfromagenome-wideserummicrornaexpressionprofileasnovelnoninvasivebiomarkersfornon-smallcelllungcancerdiagnosis.internationaljournalofcancer,2012.130(7):p.1620-1628);hsa-let-7a、hsa-let-7b、hsa-let-7d、hsa-mir-103、hsa-mir-126、hsa-mir-133b、hsa-mir-139-5p、hsa-mir-140-5p、hsa-mir-142-3p、hsa-mir-142-5p、hsa-mir-148a、hsa-mir-148b、hsa-mir-17、hsa-mir-191、hsa-mir-22、hsa-mir-223、hsa-mir-26a、hsa-mir-26b、hsa-mir-28-5p、hsa-mir-29a、hsa-mir-30b、hsa-mir-30c、hsa-mir-32、hsa-mir-328、hsa-mir-331-3p、hsa-mir-342-3p、hsa-mir-374a、hsa-mir-376a、hsa-mir-432-star、hsa-mir-484、hsa-mir-486-5p、hsa-mir-566、hsa-mir-92a、hsa-mir-98(bianchi,f.,etal.,aserumcirculatingmirnadiagnostictesttoidentifyasymptomatichigh-riskindividualswithearlystagelungcancer.embomolecularmedicine,2011.3(8):p.495-503);mir-190b、mir-630、mir-942和mir-1284(patnaik,s.k.,etal.,micrornaexpressionprofilesofwholebloodinlungadenocarcinoma.plosone,2012.7(9):p.e46045)。在实施方案中,肺癌生物标志物包括mir-21、mir-126、mir-210、mir-486中的至少一种。ii)泛癌生物标志物在世界的某些地区,特别是在远东地区,许多医院和“健康检查中心”为患者提供肿瘤标志物组作为其年度体检或检查的一部分。这些组提供给无任何特定癌症的明显体征或症状或者倾向的患者,并且不对任何一种肿瘤类型具有特异性(即“泛癌症”)。示例性的这样的测试方法是y.-h.wenetal.,clinicachimicaacta450(2015)273-276,“cancerscreeningthroughamulti-analyteserumbiomarkerpanelduringhealthcheck-upexaminations:resultsfroma12-yearexperience.”报道的。作者的报告是基于来自2001至2012年期间在台湾的他们医院测试的超过40,000个患者的结果。使用来自rochediagnostics、abbottdiagnostics和siemenshealthcarediagnostics的试剂盒使用以下生物标志物对患者进行测试:afp、ca15-3、ca125、psa、scc、cea、ca19-9和cyfra,21-1。肿瘤标志物组的用于识别在该区域中四种最常诊断的恶性肿瘤(即肝癌、肺癌、前列腺癌和结肠直肠癌)的灵敏度分别为90.9%、75.0%、100%和76%。具有至少一个显示出截止点以上的值的标志物的受试者被认为对于通常称为“任何标志物高”测试的测定法是阳性的。未报告算法。此外,该测试中没有考虑临床参数和生物标志物速度。据信,根据本发明的方法和机器学习系统能够改善和增强由台湾组报道的泛癌生物标志物组,并且容易允许其在世界的其他地方使用。例如可以采用组合生物标志物值与临床参数的算法,其自动改善使用机器学习软件。iii)数据的归一化在实施方案中,从测量样品中标志物获得的值被归一化。无意限制用于归一化测量的生物标志物的值的方法,只要用于测试人受试者样品的方法与用于生成风险类别表或阈值的方法相同。存在数据归一化的许多方法,并且是本领域技术人员所熟悉的。这些方法包括如背景消减、扩展、中位数倍增(mom)分析、线性变换、最小二乘拟合等。归一化的目的在于使单独标志物的不同测量尺度等同,使得得到的值可以根据如确定的加权尺度合并并且由用户或所述机器学习系统设计,且不受自然界中发现的标志物的绝对值或相对值影响。美国公布号2008/0133141(通过引用并入本文)教导了用于处理和解释来自多重测定法的数据的统计方法。由此可以将任意一种标志物的量与预定的截止值比较,从而区分所述标志物的阳性与阴性,如根据对患有癌症的患者的对照群体研究和适合匹配的正常对照组所确定的,基于所述比较得到每种标志物的生物标志物的综合分数;且然后组合每种标志物的生物标志物综合分数,得到样品中该标志物的生物标志物的综合分数。在一些实施方案中,对于一种或多种生物标志物,也可以包括生物标志物速度。预定的截止值可以基于roc曲线,且每个标志物的生物标志物综合分数可以基于该标志物的特异性计算。然后可以将生物标志物综合分数与预定的生物标志物综合分数比较,将该生物标志物综合分数转化成患有肺癌可能性或风险的定量测量值。在某些实施方案中,对患有肺癌的可能性或风险的定量测定是基于生物标志物的综合分数、涉及患者的医疗数据的分析、生物标志物速度数据以及有关癌症风险因素的信息的其他公共来源。用于分数变换或归一化的另一种方法是,例如应用数据集成的中位数倍增(mom)方法。在mom方法中,每种生物标志物的中位数用于归一化该特定生物标志物的所有测量,例如如kutteh等人(obstet.gynecol.84:811-815,1994)和palomaki等人(clin.chem.lab.med.)39:1137-1145,2001)所提供的。因此,任何测量的生物标志物水平除以癌症组的中位数,得到mom值。mom值可以对于组中的每一种生物标志物进行汇集或组合(例如求和、加权和相加,等等),产生了每个样品的组mom值或汇集的mom分数。在其它实施方案中,因为测试了附加的样品并验证了癌症的存在,所以癌症群体的样品大小和用于确定中位数的法线可以增加,以得到更准确的群体数据。在其它实施方案中,因为测试了附加的样品并验证了癌症的存在,所以该数据被反馈到机器学习系统以产生对患者患有癌症的风险的更准确的预测。在某些实施方案中,归一化包括为测量的每种生物标志物确定中位数倍增(mom)分数。在本发明方法的下一步骤中,汇集每种生物标志物的归一化值被以生成每个受试者的生物标志物综合分数。在某些实施方案中,该方法包括对每种标志物的mom分数求和以获得生物标志物综合分数。换句话说,通过测量以任意单位的在特定癌症组中使用的每种标志物的水平并将这些水平与在先前的验证研究中发现的中位数水平进行比较来得到生物标志物综合分数。在一个实施方案中,癌症是肺癌并且该组包括上述公开的六种标志物,其中该方法产生用于代表对于给定患者的每种标志物的中位数倍增(mom)的6个初始分数。汇集这些初始分数(例如求和等)以得到生物标志物综合分数。在某些实施方案中,测量标志物并且将那些产生的值归一化并然后汇集以得到生物标志物综合分数。在某些方面,归一化测量的生物标志物值包括确定中位数倍增(mom)分数。在其它方面,本方法进一步包括求和前对归一化的值进行加权以获得生物标志物综合分数。在另外的其它实施方案中,机器学习系统可以用于确定对归一化的值的加权以及如何基于本文中所呈现的实施方案汇集该值(例如确定哪些标志物是最具有预测性的,并给这些标志物分配更大的权重)。d)临床参数如本文所使用的,“临床参数”与“变量”同义使用,并且可以包括关于患者收集的任何数据,其指示或有助于分析患者具有恶性肺结节,但本身不能被直接精确地确定。临床参数可以具有定义的固定值,如患者的年龄或肺结节的大小。在实施方案中,临床参数可以具有二进制值,例如0或1指示患者具有(1)或不具有(0)咳嗽或者患者具有(1)或不具有(0)肺癌的家族史。在实施方案中,临床参数包括但不限于肺癌的家族史、肺结节大小、肺结节的数目、结节的位置、组织学分型和分期、患者年龄、吸烟史、吸烟指数、每天包数(吸烟强度)、吸烟持续时间(年数)、吸烟状况、症状(如咳嗽、咳痰、痰中含血、胸痛、心悸)、症状的数目、性别、环境暴露(例如灰尘、空气污染、化学品、烹饪燃料、厨房通风、二手烟)、咳血、呼吸困难、发热和疲劳。在实施方案中,临床参数选自肺癌的家族史、肺结节大小、吸烟指数、每天包数(吸烟强度)、患者年龄、吸烟持续时间、吸烟状况、咳嗽和痰中含血。在实施方案中,有助于诊断肺癌和/或区分良性和恶性肺结节的临床参数,结合测量肺癌生物标志物组,包括结节大小、患者年龄、吸烟持续时间、吸烟指数和咳嗽。在实施方案中,待测量的肺癌生物标志物选自cea、ca19-9、scc、nse、progrp和cyfra并且临床参数组选自年龄、吸烟强度、肺结节大小、吸烟指数、每天包数、吸烟持续时间、吸烟状况和咳嗽。在某些实施方案中,所测量的生物标志物组包括选自cea、cyfra、nse和pro-grp中的至少两种生物标志物,并且临床参数组包括选自吸烟状态、患者年龄、咳嗽和结节大小中的至少两种临床参数。e)风险类别表在某些实施方案中,本发明的方法利用风险类别表基于所述综合分数来生成患者的风险分数,其通过比较综合分数与得自具有良性结节和恶性结节的患者群组的参考集。本实施方案还包括定量对于人受试者的癌症存在的增加的风险作为风险分数,其中综合分数(组合了获得的生物标志物值和获得的临床参数值)与分层的人受试者群体的分组的风险类别匹配,其中每个风险类别包括指示患有癌症的增加的可能性的乘数(或百分比),其与生物标志物综合分数的范围相关联。这种定量是基于对人受试者的分层群组的预先确定的分组。在一个实施方案中,对人受试者的分层群体的分组或疾病群组的分层是以风险类别表的形式。对疾病群组,共享癌症风险因素的人受试者的群体的选择,是癌症研究本领域的技术人员所理解的。在某些实施方案中,群组可以共有年龄类别和吸烟史。然而,可以理解的是,群组以及所分数层可以是更多维度的并考虑到进一步的环境、职业、遗传或生物因素(例如流行病学因素)。在某些实施方案中,对分层的人受试者群体进行分组,用于确定无症状人受试者中癌症存在的定量的增加的风险,包括:至少三个风险类别,其中每个风险类别包括:1)指示患有癌症的增加的可能性的乘数(或百分比),2)风险类别和3)综合分数的范围。在某些方面,其中通过汇集从用于癌症的标志物组确定的归一化的值生成个体风险分数,以获得与风险类别表的风险类别相关联的生物标志物综合分数。在进一步的方面,确定归一化的值为中位数倍增(mom)分数。在实施方案中,对分层的人受试者群体进行分组,用于在有症状的或无症状的人受试者中确定用于恶性肺结节癌症的存在的定量的增加的风险,包括:至少三个风险类别,其中每个风险类别包括:1)指示具有恶性结节的增加的可能性的乘数(或百分比),2)风险类别和3)综合分数的范围。用于风险类别的风险标识符是给予特定组以提供用于生物标志物综合分数范围和风险分数的内容(和包括其他数据,诸如医疗史)和风险分数的标签,乘数(或百分比)指示各组中患有癌症的增加的可能性。在某些实施方案中,风险标识符选自低风险、中低风险、中度风险、中高风险和最高风险。这些风险标识符不旨在是限制性的,而是可以包括由用于生成表和/或进一步细化数据的内容的数据所指示的其他标签。指示具有恶性结节的增加的可能性的风险分数是数值,如13.4;5.0;2.1;0.7和0.4。该值根据经验得出,并且取决于数据、受试者群体的群组、癌症类型、医疗记录数据、职业和环境因素、生物标志物、生物标志物速度等而变化。因此,指示具有恶性结节的增加的可能性的乘数可以是选自2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29和30等的数值,或者它们的分数。风险分数可以被表示为数值乘数,例如2倍、5倍等,其中,所述数值乘数指示超过群组群体中癌症的正常发病率的增加的可能性,这形成了分层的基础,用于在测试时的人受试者,或是百分比,表明相对于癌症的正常发病率的增加的风险的百分比。换句话说,人受试者来自用于生成风险类别表的相同疾病群组。在肺癌的实例中,疾病群组可以是具有吸烟史的50岁以上的人受试者。因此,例如如果患者接受13.4倍的风险分数,则人受试者具有相对于群体的13.4倍的增加的癌症存在风险。如上文所公开的,该乘数值根据经验确定,并且在本实例中从回顾性临床样品来确定。因此,将人受试者分层为群组群体是基于对具有恶性结节的受试者的回顾性临床样品(和风险匹配对照)的分析,其中为每个分层的分组确定癌症的实际发生率或阳性预测分数。这些技术的细节在整个申请中并在实施例部分中详细描述。一般而言,一旦人受试者的群体已被分层,当使用具有已知病史的回顾性样品时,可以为每个分层的分组确定阳性预测分数。然后将每一组中癌症的实际发生率除以人受试者群体中的报告的癌症发生率。例如如果用于从人受试者的分层群体中分组之一的阳性预测分数为27%,这个值将除以分层的群体群组中癌症的实际发生率(例如2%),以获得13.5的乘数。在这种情况下,指示患有癌症的增加的可能性的乘数是13.5并且具有与此类别匹配的生物标志物综合分数的测试的对象将有13.5倍的风险因子。换句话说,在测试的时候,更可能地患有癌症的人受试者是在该特定群组中的一般群体的13.5倍。通过基于这些技术对数据分层,提供了数据转换成更定量的风险分类,其改善了根据肺癌确认的成本对患者进行后续测试(例如cat扫描或pet扫描)的指导,以及患者的依从性。因此,由于在重度吸烟者的风险群体中肺癌发生率约为2%,这一百分比被用作患有癌症和没有患有癌症的可能性(表示在该水平个体等同地可能患有癌症或没有患有癌症)之间的截止点,也就是1。使用2%的疾病患病率确定阳性预测值,且然后用阳性预测值除以2得到解释为患肺癌可能性的另一个风险值,其为正常群体风险值的倍数,所述正常群体风险值可以视为1或等同或者视为基于群体研究的2%风险。风险类别表的一个实例提供在图10中。风险类别表的第一列是主综合分数的范围。在本文提供的实例中,对来自测量的生物标志物的组的数据进行归一化来生成生物标志物综合分数。可以利用机器学习系统来汇集归一化的生物标志物分数与其它信息(例如医疗信息、公众可获得的信息等),以生成主综合分数。这些主综合分数可以被分组,以提供范围并驱动对群组群体的分层。这种方法的细节在本说明书中详细描述,包括实施例部分。通过将生物标志物综合分数和其他信息(例如医疗信息、公众可获得的信息等)转换成基于群组群体数据的风险类别,然后医生和患者可以评估是否需要、必要或推荐后续程序,基于是否存在更大的风险只是略高于任何吸烟者的,即2%,或由于更大的主综合分数而更高,这指示患者和医生更多的考虑。通过ppv的进一步数据转换,医生和患者将受益于定量的值,其指示吸烟者中癌症和/或恶性肺结节的发病率,这提供了根据生物标志物测定法对癌症风险的改进解决方案。因此,具有20或更大的主综合分数的患者患有肺癌的可能性是任何其他重度吸烟者的13.4倍,参见图10。即13.4倍乘数解释为患有肺癌的约27%的总风险。也就是说,当所有的重度吸烟者在测试之前具有1/50的机会患有肺癌,测试后的主综合分数为20或更多,即个体有1/4的机会患有肺癌。因此,该人应该考虑后续测试以显示是否存在任何癌症(例如肺癌),并采取任何行为改变来降低癌症的风险。在某些实施方案中,归一化的步骤包括确定每种标志物的中位数倍增(mom)分数。在这种情况下,随后对mom分数进行求和或汇集,以获得生物标志物综合分数。在对以风险分数形式的癌症存在的增加的风险进行定量之后,该分数可以以医生易于理解的形式提供。在某些实施方案中,风险分数提供在报告中。在某些方面中,该报告可以包括一个或多个以下内容:患者信息、风险类别表、相对于群组群体的风险分数、一种或多种生物标志物测试分数、生物标志物综合分数、主综合分数、识别患者的风险类别、对风险类别表的解释以及所得的测试分数、测试的生物标志物的列表、疾病群组的描述、环境和/或职业因素、群组大小、生物标志物速度、基因突变、家族史、误差范围等。统计学分析在某些实施方案中,使用本领域中充分理解的多变量统计模型对患者的生物标志物的测量值(其可以包括或可以不包括归一化的值)和数值临床参数数据进行分析,来获取或计算概率值,其是用于测量的整个变量组的综合值。在实施方案中,可使用多变量逻辑回归(mlr)模型、神经网络模型、随机森林模型或决策树模型来计算概率值。使用来自具有良性结节和恶性结节的患者群体的回顾性临床样品来开发模型。见实施例2。在示例性实施方案中,mlr用于计算患者的概率值,其中log[θ(χ)/1-θ(χ)]=logit[θ(χ)]=α+β1χ1+β2χ2+...+βnχn。癌症的概率=θ(χ),其中:癌症概率+正常概率=1;α是截距;χ=标志物测量;β值-估计的最大可能性logit[θ(x)]=α+β吸烟状况x吸烟状况+β检查时的患者年龄x检查时的患者年龄+βcopdxcopd+β吸烟指数x吸烟指数+β测试值_ceax测试值_cea+β测试值_cyfrax测试值cyfra+β测试值_ca125x测试值ca125+β测试值ny-eso1x测试值ny-eso1未知的疾病概率计算公式为:癌症概率=1/[1+逆log(lin[n])]正常概率=逆log(lin[n])(癌症概率)如实施例2中所公开的,以下mlr模型用来使用组(吸烟状况、患者年龄、结节大小、cea、cyfra和nse)来计算概率值:f(p)=α+β吸烟状态x吸烟状态+β检查时的患者年龄x检查时的患者年龄+β结节大小x结节大小+β测试值_ceax测试值_cea+β测试值_cyfrax测试值cyfra+β测试值_nsex测试值_nse其它统计模块使用不同的算法,但每种使用具有良性结节和恶性结节的患者的回顾性群组进行开发。这些模型是本领域技术人员众所周知的。将概率值与阈值比较,以确定该概率值是否高于或低于阈值,其中如果概率值高于阈值,则将患者中的放射线照相明显肺结节分类为恶性,或如果概率值低于阈值,则将患者中的放射线照相明显肺结节分类为良性。阈值可以是从回顾性群组导出或计算出的50%概率值。在那种情况下,如果概率低于阈值,即小于50%概率,则将患者中的放射线照相明显肺结节分类为良性。该阈值概率值可以用至少在65%特异性的灵敏度,或者至少在80%特异性或更高的灵敏度来确定。这样一来,在计算的概率中的置信度是很高的。备选地,当使用50%概率值的阈值并且计算出的概率值高于该阈值,则将患者中的放射线照相明显肺结节分类为恶性。该阈值可以设定在得自回顾性群组的任何概率值,其中灵敏度和特异性用于提供最高程度的准确度。该阈值可以是具有在80%特异性的灵敏度的至少50%、至少55%、至少60%、至少65%、至少70%、至少75%或至少80%的概率值。在某些实施方案中,该阈值可以是具有在65%或更高特异性的灵敏度的至少50%、至少55%、至少60%、至少65%、至少70%、至少75%或至少80%的概率值。e)帮助临床医生区分患者中的良性和恶性放射线照相明显肺结节的方法在某些实施方案中,本文中提供的是用于针对肺癌筛选患者的方法。筛选包括但不限于使用本发明的肺癌生物标志物组用于诊断患者的肺癌和/或确定患者中癌症的可能性和/或分类患者的肺癌风险和/或确定患者的肺癌的增加的风险和/或区分良性和恶性放射线肺结节。一方面,相比于群体,风险水平增加。在另一个方面,相比于群体,风险水平降低。测试后相对于群体患有癌症存在的定量的增加的风险的无症状的患者是医生选择用于后续测试的那些。在实施方案中,可以已经筛选患者,其中放射线照相明显肺结节得到鉴定。那些结节的大小与其他临床参数和测量的生物标志物组用于区分良性的结节和恶性的结节。在某些实施方案中,多变量逻辑回归分析可以用来确定概率值。随后该值可以根据风险类别表进行分类或与阈值进行比较,其中高于阈值的结节被认为是恶性的和低于阈值的结节被认为是良性的。在其它实施方案中,机器学习软件,或支持向量机(svm)学习算法、神经网络、随机森林或决策树模型用于分析获得的生物标志物和临床参数值,其中根据风险类别表生成并分类综合或风险分数或者将其与阈值进行比较。类似于实施例1和2,这种分析需要使用回顾性样品生成训练集和验证集。回顾性样品的大群组,具有已知的临床结果,无论是在样品收集的时候或通过随访,患者群体异质性的反映用于生成训练和验证集,其进而用来生成阈值和/或风险类别表。然后其他患者样品使用本发明方法进行分析并且与这些阈值或风险类别表相比,以为临床医生提供肺癌的增加的可能性的结果(无症状或轻微症状患者的情况下)或当结节在放射线照相筛选中存在时,区分良性和恶性结节。因此,在实施方案中是用于评估患者患有肺癌的可能性的方法,包括:1)获得来自人受试者的样品中的至少两种肺癌生物标志物的值;获得来自人受试者的至少一种临床参数的值;和2)从所述生物标志物测量计算癌症的概率,从而确定患者患有肺癌的可能性。在其它实施方案中是方法,以帮助临床医生区分患者中的良性和恶性放射线照射明显肺结节,包括:1)获得来自患者的生物学样品中的生物标志物组的每种生物标志物的值,其中生物标志物组包括至少两种肺癌生物标志物;2)获得来自患者的临床参数组的每种临床参数的值,3)利用计算机工具来:a)通过组合获得的生物标志物值和获得的临床参数值生成综合分数;b)通过比较综合分数和得自具有良性结节和恶性结节的患者群组的参考集,基于综合分数生成风险分数;c)将风险分数分类到风险类别,用于建议临床医生结节是或不是恶性的可能性,其中风险类别得自与患者的相同群组群体并且其中每个风险类别与良性或恶性分组相关联,以确定患者具有良性结节或恶性结节的可能性。在实施方案中,是帮助临床医生区分患者中的良性和恶性放射线照相明显肺结节的方法,包括:1)获得来自患者的生物学样品中的生物标志物组的每种生物标志物的值;2)获得来自患者的临床参数组的每种临床参数的值,其中临床参数组包括至少两种临床参数;3)利用计算机工具来:a)从获得的每种生物标志物的值和获得的每种临床参数的值,计算恶性结节的概率值(与风险分数可互换使用);b)将概率值与得自具有良性结节和恶性结节的患者群组的阈值进行比较,以确定概率值是否高于或低于阈值;c)如果概率值高于阈值,则将患者中的放射线照相明显肺结节分类为恶性,或d)如果概率值低于阈值,则将患者中的放射线照相明显肺结节分类为良性。在某些实施方案中,是帮助临床医生区分患者中的良性和恶性放射线照相明显肺结节的方法,包括:a)获得来自具有放射线照相明显肺结节的患者的生物学样品和临床参数数据;b)测量样品中的生物标志物组,其中获得每种测量的生物标志物的值,其中生物标志物组包括选自cea、ca19-9、scc、nse、progrp和cyfra中的至少两种生物标志物;c)从患者获得临床参数组的每种临床参数的值,其中临床参数组包括选自年龄、吸烟强度、肺结节大小、吸烟指数,每天包数、吸烟持续时间、吸烟状况和咳嗽中的至少两种临床参数;d)从获得的每种生物标志物的值和获得的每种临床参数的值,计算恶性结节的综合概率值;和e)将概率值与阈值进行比较,以确定概率值是否高于或低于阈值,其中如果概率值高于阈值,则将患者中的放射线照相明显肺结节分类为恶性,或者如果概率值低于阈值,则将患者中的放射线照相明显肺结节分类为良性。在某些实施方案中,在对放射线照相显现肺结节进行分类之后,对具有分类为恶性的放射线照相明显的肺结节的患者施用计算机断层(ct)扫描。在其他实施方案中,在ct扫描之后或代替扫描,对患者进行手术或组织活检。本文描述的方法的一个或多个步骤能够手动执行,或者可以完全地或部分地自动化的(例如该方法的一个或多个步骤可以由计算机程序或算法来执行。如果要通过计算机程序或算法来执行方法,则该方法的执行会进一步需要使用适当的硬件,例如输入、存储、处理、显示和输出设备等)。用于对该方法的一个或多个步骤进行自动化的方法是本领域技术人员已知的。i)测量样品中的生物标志物本发明方法的第一步是在从人受试者收集样品后,测量生物标志物组。将来自患者(对于肺癌是无症状、轻微症状或有症状的)的血液样品送到具有资格的实验室,以使用具有足够的灵敏度和特异性的生物标志物组来测试样品,用于区分良性和恶性放射线照相明显肺结节。这些生物标志物的非限制性列表包括在本文中,贯穿包括实施例的说明书。也可以利用其他合适的体液例如痰或唾液代替血液。存在用于测量可以在本中使用的基因表达(例如mrna)、得到的基因产物(例如多肽或蛋白质)或调节基因表达的非编码rna(mirna)的本领域中已知的许多方法。样品通常包括血液,并且经处理使得从血液样品来测量肺癌生物标志物。在某些实施方案中,样品来自怀疑患有肺癌或处于发生肺癌的风险的患者。在实施方案中,患者具有放射线照相明显肺结节。在其它实施方案中,患者是没有肺癌症状的。取决于临床意图,获得并用于测定法的血浆或血清的体积可以变化。本领域的技术人员将认识到存在用于获得和制备血清样品的许多方法。通常,使用标准方法将血液抽吸到收集管并使其凝结。然后将血清与凝固血液的细胞部分分离。在一些方法中,将凝血活化剂,如二氧化硅颗粒添加至血液收集管中。在其他方法中,不处理血液及以促进凝结。血液收集管可商购自许多来源并以各种格式(例如bectondickenson管-ssttm、玻璃血清管或塑料血清管)。用于测量蛋白质生物标志物(或基因表达)的方法例如在pct国际专利公布号wo2009/006323;美国公布号2012/0071334;美国专利公布号2008/0160546;美国专利公布号2008/0133141;美国专利公布号2007/0178504(各自通过引用并入本文)中描述,并教导了使用珠作为固相和荧光或颜色作为报告子以免疫测定法形式的多重肺癌测定法。因此,与报告子的存在和量的实际定量值相比,能够以定性分数的形式提供荧光(例如平均荧光强度(mfi))或颜色的程度。例如可以使用本领域已知的一种或多种免疫测定法来确定测试样品中一种或多种抗原或抗体的存在和定量。免疫测定法通常包括:(a)提供特异性结合生物标志物(即,抗原或抗体)的抗体(或抗原);(b)将测试样品与抗体或抗原接触;和(c)检测测试样品中结合于抗原的抗体的复合物或测试样品中结合于抗体的抗原复合物的存在。众所周知免疫结合测定法包括,例如酶联免疫吸附测定法(elisa),其也被称为“夹心测定法”,酶免疫测定法(eia),放射免疫测定法(ria),荧光免疫测定法(fia),化学发光免疫测定法(clia),计数免疫测定法(cia),过滤介质酶免疫测定法(meia),荧光连接的免疫吸附测定法(flisa),凝集免疫测定法和多重荧光免疫测定法(如luminexlabmap),免疫组织化学等。对于一般免疫测定法的综述,也参见methodsincellbiology:antibodiesincellbiology,volume37(asai,ed.1993);basicandclinicalimmunology(danielp.stites;1991)。免疫测定法能够用来确定来自受试者的样品中抗原的量。首先,上述免疫测定法能够用来检测样品中抗原的测试量。如果抗原是存在于样品中,它会如上述在合适的孵育条件下与特异性结合抗原的抗体形成抗体-抗原复合物。通过将测量的值与标准或对照比较能够确定抗体-抗原复合物的量。然后使用已知的技术例如但不限于roc分析能够计算抗原的auc。在另一个实施方案中,测量来自人受试者的样品中标志物(例如mrna)的基因表达。例如使用石蜡包埋的组织的基因表达谱方法包括定量逆转录酶聚合酶链式反应(qrt-pcr),然而,也可以使用其它技术平台,包括质谱和dna微阵列。这些方法包括但不限于pcr、微阵列、基因表达系列分析(sage)和通过大规模平行标签测序的基因表达分析(mpss)。包括提供用于测量来自人受试者的标志物或标志物组的任何方法与本发明的方法使用。在某些实施方案中,来自人受试者的样品是组织切片例如来自活检。在另一个实施方案中,来自人受试者的样品是体液,如血液、血清、血浆或者其部分或级分。在其它实施方案中,样品是血液或血清并且标志物是从其测量的蛋白质。在又一个实施方案中,样品是组织切片并且标志物是在其中表达的mrna。也包括来自人受试者的样品形式和标志物的形式的许多其它组合。美国专利公布号2011/0053158教导了扩增和测量来自血清样品的mirna。在某些方法中,通过静脉穿刺收集血液并抽血后在三小时内处理以尽量减少溶血以及尽量减少mirna从完整细胞中释放到血液中。在一些方法中,血液保持在冰上,直到使用。血液可以通过离心进行分级以除去细胞成分。在一些实施方案中,制备血清的离心可以是以至少500、1000、2000、3000、4000或5000×g的速度。在某些实施方案中,可将血液孵育至少10、20、30、40、50、60、90、120或150分钟,以使凝结。在其它实施方案中,血液孵育至多3小时。当使用血浆,在分离细胞和无细胞组分之前不允许血液凝固。从血液的细胞部分分离之后,将血清或血浆冷冻直到进一步测定。分析之前,从血清或血浆中提取rna并使用本领域中已知的方法进行纯化。已知许多方法用于分离总rna,或用于特异性提取小rna,包括mirna。可以使用市售的试剂盒(例如perfectrnatotalrnaisolationkit,fiveprime-threeprime,inc.;mirvanatm试剂盒,ambion,inc.)提取rna。备选地,适用用于提取哺乳动物细胞内rna或病毒rna的rna提取方法,无论是发表的或与修饰的,用于从血浆和血清提取rna。可以如在美国专利公布号2008/0057502中描述的方法或修改,使用二氧化硅颗粒、玻璃珠或硅藻中从血浆或血清提取rna。在某些实施方案中,将mirna标志物的水平与对照相比,以确定水平是否降低或升高。对照可以是外部对照,例如来自已知没有肺部疾病的受试者的血清或血浆样品中的mirna。外部对照可以是来自正常(非患病)受试者或来自具有良性肺病的患者的样品。在其他情况下,外部对照可以是来自如组织样品的非血清样品的mirna或已知量的合成rna。外部对照可以是汇集的、平均的或个别的样品;它可以是与被测量的样品相同的或不同的mirna。内部对照是来自被测试的相同的血清或血浆样品的标志物,例如mirna对照。参见例如美国专利公布号2009/0075258,通过引用将其全部并入本文。包括测量mirna的水平或量的许多方法。可以使用任何可靠的、灵敏的和特异的方法。在一些实施方案中,在测量之前扩增mirna。在其它实施方案中,在扩增过程中测量mirna的水平。在另一些方法中,测量前不扩增mirna。存在用于扩增mirna核酸序列如成熟mirna、前体mirna和初始mirna的许多方法。合适的核酸聚合和扩增技术包括逆转录(rt)、聚合酶链式反应(pcr)、实时pcr(定量pcr(q-pcr))、核酸序列-碱基扩增(nasba)、连接酶链式反应、多重可连接的探针扩增、入侵者技术(thirdwave)、滚环扩增、体外转录(ivt)、链置换扩增、转录介导的扩增(tma)、rna(eberwine)扩增,以及本领域技术人员已知的任何其他方法。在某些实施方案中,使用多于一个的扩增方法,如逆转录和随后的实时定量pcr(qrt-pcr)(chenetal.,nucleicacidsresearch,33(20):e179(2005))。典型的pcr反应包括多个扩增步骤或循环,其选择性地扩增靶核酸种类:变性步骤,其中靶核酸变性;退火步骤,其中一组pcr引物(正向和反向引物)与互补dna链退火;和延伸步骤,其中热稳定dna聚合酶延伸引物。通过重复这些步骤多次,扩增dna片段以产生对应于靶dna序列的扩增子。典型的pcr反应包括变性、退火和延伸的20个或更多个循环。在许多情况下,可以同时进行退火和延伸步骤,在这种情况下,循环仅包括两个步骤。由于成熟mirna是单链的,可以在pcr反应之前进行逆转录反应(其产生互补的cdna序列)。逆转录反应包括使用例如基于rna的dna聚合酶(逆转录酶)和引物。在pcr和q-pcr的方法中,例如针对每个靶序列使用一组引物。在某些实施方案中,引物的长度取决于许多因素,所述因素包括但不限于引物之间的期望杂交温度、靶核酸序列和待扩增的不同靶核酸序列的复杂性。在某些实施方案中,引物的长度为约15至约35个核苷酸。在其他实施方案中,引物的长度等于或小于15、20、25、30或35个核苷酸。在另外的实施方案中,引物的长度为至少35个核苷酸。在进一步的方面中,正向引物可以包括与mirna生物标志物退火的至少一个序列和备选地可以包括附加的5'非互补区。在另一个方面中,反向引物可以被设计为与逆转录的mirna的互补序列退火。反向引物可以独立于mirna生物标志物序列,并且可使用相同的反向引物扩增多个mirna生物标志物。备选地,反向引物可以特异于mirna生物标志物。在一些实施方案中,在单个反应体积中扩增两种或更多种mirna。一个方面包括多重q-pcr,如qrt-pcr,其使得能够通过使用多于一对引物和/或多于一个探针在一个反应体积中同时扩增并定量至少两种目的mirna。引物对包括至少一个扩增引物,其独特地结合每种mirna,并且对探针加标签,使得它们彼此区分,从而允许同时定量多种mirna。多重qrt-pcr具有研究和诊断用途,包括但不限于检测mirna用于诊断、预后和治疗应用。qrt-pcr反应还可以通过包括逆转录酶和基于dna的热稳定dna聚合酶与逆转录反应组合。当使用两种聚合酶,“热启动”方法可以用于最大化测定法性能(美国专利号5,411,876和5,985,619)。例如可以使用一种或多种热活化方法或化学改变来隔离用于逆转录酶反应和pcr反应的成分,以改善聚合效率(us专利号5,550,044、5,413,924和6,403,341)。在某些实施方案中,标签、染料或加标签的探针和/或引物用于检测扩增的或未扩增的mirna。熟练的技术人员基于检测方法的灵敏度和靶的丰度,将认识到哪些检测方法是合适的。根据检测方法的灵敏度和靶的丰度,在检测之前可以需要或不需要扩增。本领域技术人员将认识到,其中mirna的扩增是优选的检测方法。探针或引物可以包括沃森-克里克碱基或修饰的碱基。修饰的碱基包括但不限于aegis碱基(来自eragenbiosciences),其已经被描述在例如美国专利号5,432,272、5,965,364和6,001,983中。在某些方面中,碱基是通过天然磷酸二酯键或不同的化学键连接的。不同的化学键包括但不限于肽键或锁核酸(lna)键,其描述在例如美国专利号7,060,809中。在进一步的方面,存在于扩增反应中的寡核苷酸探针或引物适用于监测随时间变化产生的扩增产物量。在某些方面,具有不同的单链对双链特征的探针用于检测核酸。探针包括但不限于5'-外切核酸酶测定法(例如taqmantm)探针(参见美国专利号5,538,848),茎-环的分子信标(参见例如美国专利号6,103,476和5,925,517),无茎或线性信标(参见例如wo9921881,us专利号6,485,901和6,649,349),肽核酸(pna)分子信标(参见例如美国专利号6,355,421和6,593,091),线性pna信标(参见例如美国专利号6,329,144),非fret探针(参见例如美国专利号6,150,097),sunrisetm/amplifluorbtm探针(参见例如美国专利号6,548,250),茎-环和双链体scorpiontm探针(参见例如美国专利号6,589,743),凸起环探针(参见例如美国专利号6,590,091),伪结探针(参见例如美国专利号6,548,250),环形标(cyclicon)(参见例如美国专利号6,383,752),mgbeclipsetm探针(epochbiosciences),发夹探针(参见例如美国专利号6,596,490),pna点亮(light-up)探针,抗引物淬火探针(lietal.,clin.chem.53:624-633(2006)),自组装纳米粒子探针和二茂铁-修饰的探针,描述在例如美国专利号6,485,901中。在某些实施方案中,扩增反应中的一个或多个引物可以包括标签。在更进一步的实施方案中,不同的探针或引物包含彼此可区分的可检测标签。在一些实施方案中,可以用两个或更多个可区分的标签对核酸例如探针或引物进行加标签。在一些方面,标签附着到一种或多种探针,并具有以下性质中的一种或多种:(ⅰ)提供可检测的信号;(ii)与第二标签相互作用,以修饰由第二标签提供的可检测信号,例如fret(荧光共振能量转移);(ⅲ)稳定化杂交,例如双链体形成;和(iv)提供结合复合物或亲和组的成员,例如亲和、抗体-抗原、离子复合物、半抗原-配体(例如生物素-亲和素)。在其它方面,可以通过使用大量的已知技术的任何一种来完成标签的使用,其中使用已知标签、键、连接基团、试剂、反应条件以及分析和纯化方法。mirna可通过直接或间接方法进行检测。在直接检测方法中,通过连接到核酸分子的可检测的标签检测一种或多种mirna。在这样的方法中,在结合到探针之前对mirna加标签。因此,通过筛选结合到探针的加标签的mirna来检测结合。探针任选地在反应体积中连接珠。在某些实施方案中,通过直接与加标签的探针结合来检测核酸,并随后检测探针。在本发明的一个实施方案中,使用与探针缀合的flexmapmicrospheres(luminex)以捕获所需的核酸,来检测核酸,如扩增的mirna。例如一些方法可以包括使用荧光标签修饰的多核苷酸探针的检测或支链dna(bdna)检测。在其它实施方案中,通过间接检测方法来检测核酸。例如生物素化的探针可以与链霉亲和素缀合的染料结合,以检测结合的核酸。链霉亲和素分子结合在扩增的mirna上的生物素标签,并且通过检测附着至链霉亲和素分子的染料分子来检测结合的mirna。在一个实施方案中,链霉亲和素缀合的染料分子包含链霉亲和素r-藻红蛋白(prozyme)。其它缀合的染料分子是本领域技术人员已知的。标签包括但不限于:产生或猝灭可检测的荧光、化学发光或生物发光信号的发光、光散射和光吸收化合物(参见例如kricka,l.,nonisotopicdnaprobetechniques,academicpress,sandiego(1992)和garmana.,non-radioactivelabeling,academicpress(1997))。作为标签使用的荧光报告染料包括但不限于荧光素(参见例如美国专利号5,188,934、6,008,379和6,020,481),罗丹明(参见例如美国专利号5,366,860、5,847,162、5,936,087、6,051,719和6,191,278),苯并吩噁嗪(参见例如美国专利号6,140,500),能量转移荧光染料,其包含供体和受体的对(参见例如美国专利号5,863,727;5,800,996和5,945,526),和花青(参见例如wo9745539),丽丝胺,藻红蛋白,cy2,cy3,cy3.5,cy5,cy5.5,cy7,fluorx(amersham),alexa350,alexa430,amca,bodipy630/650,bodipy650/665,bodipy-fl,bodipy-r6g,bodipy-tmr,bodipy-trx,瀑布蓝素(cascadeblue),cy3,cy5,6-fam,异硫氰酸荧光素,hex,6-joe,俄勒冈绿488,俄勒冈绿500,俄勒冈绿514,太平洋蓝,reg,罗丹明绿,罗丹明红,肾造影剂,rox,sypro,tamra,四甲基罗丹明,和/或德克萨斯红,以及能够产生可检测的信号的任何其它荧光部分。荧光素染料的实例包括但不限于6-羧基荧光素;2',4',1,4,-四氯荧光素;和2',4',5',7',1,4-六氯荧光素。在某些方面中,荧光标签选自sybr绿、6-羧基荧光素(“fam”)、tet、rox、victm和joe。例如在某些实施方案中,标签是能够以不同的、在光谱上可解析的波长发射光的不同荧光团(例如4-不同颜色的荧光团);某些这样的加标签的探针是在本领域中已知的,并且如上所述,并且在美国专利号6,140,054中。在一些实施方案中使用包括报告子荧光团和猝灭子荧光团的加双标签的荧光探针。应当理解的是,选择具有不同的发射光谱的荧光团,使得能够容易地区分它们。在又一个方面中,标签是杂交稳定化部分,其用于增强、稳定化或影响双链体的杂交,例如嵌入剂和嵌入染料(包括但不限于溴化乙锭和sybr-green),小沟结合剂,和交联官能团(参见例如blackburnetal.,eds.“dnaandrnastructure”innucleicacidsinchemistryandbiology(1996))。在进一步的方面,可以使用依靠杂交和/或连接以定量mirna的方法,包括在允许杂交靶核酸序列的可区分探针与未结合的探针分离的一种或多种寡核苷酸连接(ola)方法。作为一个实例,如在美国专利公布号2006/0078894公开的harp样探针可以用于测量mirna的量。在这样的方法中,探针和靶向的核酸之间的杂交后,将探针修饰以区分杂交的探针和未杂交的探针。此后,可以扩增和/或检测探针。一般而言,探针失活区包含在探针的靶杂交区内的核苷酸的子集。为了减少或防止没有杂交到其靶核酸的harp探针的扩增或检测并因此允许检测靶核酸,实施杂交后的探针失活步骤,其中使用能够区分杂交到其靶核酸序列的harp探针和相应的未杂交的harp探针的试剂。试剂能够失活或修饰未杂交的探针harp,使得它不能被扩增。在该方法的另一个实施方案中,探针连接反应可以用于定量mirna。在多重连接依赖性探针扩增(mlpa)技术(schoutenetal.,nucleicacidsresearch30:e57(2002))中,在靶核酸上彼此紧邻杂交的探针对只在靶核酸的存在时彼此连接。在某些方面,mlpa探针具有侧翼pcr引物结合位点。只有在它们已经被连接时,mlpa才能被扩增,因此允许对mirna生物标志物进行检测和定量。在具体的实施方案中,根据shenetal.labinvest.(2011)测量mirna肺癌生物标志物,其中使用来自ambion的mirvanamirna分离试剂盒从血清样品纯化mirna,接着通过rt-pct的扩增和检测,例如使用来自appliedbiosystems的taqman微rnart试剂盒。f)试剂盒一种或多种生物标志物,用于测试生物标志物的一种或多种试剂,癌症风险因素参数(临床参数),风险类别表或阈值和/或能够与机器学习系统进行通信用于确定风险分数的系统或软件应用,和它们的任意组合适合于试剂盒的形成(例如组),用于执行本方法。在某些实施方案中,试剂盒可以包含(a)含有用于定量测试样品中的一种或多种抗原的至少一种抗体的试剂,其中所述抗原包括以下中的一种或多种:(ⅰ)细胞角蛋白8、细胞角蛋白19、角蛋白18、cea、ca125、ca15-3、scc、ca19-9、progrp、cyfra21-1、血清淀粉样蛋白a、α-1抗胰蛋白酶和载脂蛋白ciii;或(ii)cea、ca125、cyfra21-1、nse、scc、progrp、afp、ca-19-9、ca15-3和psa;(b)含有用于定量测试样品中的至少一种抗体的一种或多种抗原的试剂;其中所述抗体包括以下中的一种或多种:抗p53、抗tmp21、抗npclllc结构域、抗tmodl、抗camk1、抗rgs1、抗pacsin1、抗rcv1、抗mapkapk3、抗ny-eso-1和抗细胞周期蛋白e2;和(c)系统、装置或一种或多种计算机程序/软件应用,用于执行如下步骤:归一化测试样品中测量的每种抗原和/或抗体的量,求和或汇集这些归一化的值以获得生物标志物综合分数,组合生物标志物综合分数与群组群体中与癌症风险的增加相关联的其他因素以产生主综合分数,并且通过使用软件应用将主要综合分数与风险类别表相关联并使用定量的癌症存在的增加的风险,为每位患者分配确定并风险分数,作为进一步确定的癌症筛选的辅助。在肿瘤抗原作为生物标志物的情况下,这些试剂盒的来源优选地来自已经开发、优化和制造它们以与上述自动化免疫测定分析仪之一兼容的供应商。此类供应商的实例包括rochediagnostics(basel,switzerland)和abbottdiagnostics(abbottpark,illinois)。使用如此制造的试剂盒的优点是,如果制造商的样品采集、储存、制备等方案得到精心遵循,它们被标准化以产生实验室之间的一致结果。这样,从癌症筛选常见的世界医疗机构或地区生成的数据可以用于构建或改进根据本发明的算法,该算法可以用于这种测试类型的历史较少的医疗机构或地区。用于定量一个或多个目标区域的试剂盒中包括的试剂可包括结合并保留至少一个包含在组中的目标区域的吸附剂,用于与所述吸附剂连接的固体支持物(例如珠子),一种或多种可检测标签等。吸附剂可以是分析化学和免疫化学中使用的众多吸附剂中的任何一种,包括金属螯合物、阳离子基团、阴离子基团、疏水基团、抗原和抗体。在某些实施方案中,试剂盒包含必需的试剂来定量至少两种以下抗原,细胞角蛋白19、角蛋白18、ca19-9、cea、ca-15-3、ca125、nse、scc、cyfra21-1、血清淀粉样蛋白a和progrp。在另一个实施方案中,试剂盒包含必需的试剂来定量至少一种以下抗体:抗p53、抗tmp21、抗npclllc结构域、抗tmod1、抗camk1、抗rgs1、抗pacsinl、抗rcv1、抗mapkapk3、抗ny-eso-1和抗细胞周期蛋白e2。在一些实施方案中,试剂盒还包括用于执行本文描述的一些或所有操作的计算机可读介质。试剂盒可进一步包括装置或系统,所述装置或系统包括一个或多个处理器,所述处理器可操作以从对样品中的标志物的测量接收浓度值,并配置成执行计算机可读介质指令以确定生物标志物综合分数,将生物标志物综合分数与其他风险因素组合来生成主综合分数,并将主综合分数与包括多个风险类别(例如主风险类别表)的分层群组群体进行比较,以提供风险分数。g)分析生物标志物与临床参数数据在测量生物标志物组后,获得测量的生物标志物的值。使用每个患者的数值临床参数数据来分析这些值,以提供恶性结节的综合分数或概率值。在某些实施方案中,可以使用本领域技术人员熟知的标准统评分析来计算综合分数或概率值,其中将对组中每种肺癌生物标志物的测量与数值临床参数组合以提供概率值。在一个方面,多变量逻辑回归分析用于导出具有对应于每种标记物和临床参数的一组变量的数学函数,其为每个变量提供加权因子。导出加权因子以优化函数的结果(agency)来预测因变量,其在实施例1和2中是患者的良性对恶性肺结节的二分法。加权因子对于所分析的具体变量组合(例如组)是特定的。然后可以将该函数应用于原始样品以预测恶性肺结节的概率。通过这种方式,回顾性数据集用于为肺癌生物标志物组和临床参数的特定组提供加权因子,然后将其用于计算患者中恶性肺结节的概率,其中在使用本方法筛选之前癌症的结果未知或不确定。也可使用其它已建立的方法来分析来自患者样品中肺癌生物标志物的测量数据,以诊断癌症和/或确定患者患有癌症的可能性和/或确定患者患有癌症的风险和/或确定患者的癌症风险的增加和/或区分良性和恶性肺结节。标志物的选择可以基于当进行测量并归一化时,每种标志物和临床参数同等贡献地确定癌症存在的可能性的理解。因此,在某些实施方案中,测量和归一化其中没有一种标志物被给予任何特定权重的组中的每种标志物。在这种情况下,每种标志物具有1的权重。在其它实施方案中,标志物和临床参数的选择可以基于当进行测量时和任选地归一化时,每个变量不同等贡献地确定癌症存在的可能性的理解。在这种情况下,该组中的具体标志物可以被加权为1的分数(例如如果相对贡献低),1的倍数(例如如果相对贡献高)或1(例如当相比于在该组中的其它标志物,其相对贡献是中性的)。因此,在某些实施方案中,本发明方法进一步包括在对归一化的值进行求和之前加权归一化的值,以获得综合分数。决策树是一种数据处理方法,其中一系列的简单二元决策引导通过分类以产生这样的所希望的二元结果。因此,样品是基于其值是否高于或低于计算出的阈值进行分配。试图采用决策树逻辑对多种生物标志物评分的模型是由moretal.,pnas,102(21):7677-7682(2005)开发,其中获得最佳截止值并为标志物分配值为0(不太可能患有癌症)或1(可能患有癌症)。然后,将个人生物标志物的分数组合用于每个样品的最终分数并且分数越高,疾病的概率越高。那个技术提供了医生和患者所青睐的二元结果。而数据的分布不是有助于该模型的简单性的假设,该模型降低信息为1或0的分数,导致定量信息的丢失,例如减少预测性更高的标志物的作用和升高预测性更低的标志物的作用。此外,在多重测定法中标志物的集合可以包括在诊断疾病中值或预测性的变化水平。因此,任何一种标志物对最终决定的影响可以基于在筛选群体以及与实际病理相关中获得的汇集的数据进行加权,以提供更能够鉴别或有效的诊断测定法。备选的方法是相比于仅一个二元分类方案,通过将定量数据扩展定性转换为多个类别而找到一个中间地带。在某些实施方案中,归一化的步骤包括为每个标志物确定中位数倍增(mom)分数。在这种情况下,mom分数随后求和以得到综合分数。在其它实施方案中,获得癌症的概率还可以包括归一化测量的生物标志物值以及求和归一化的值以产生癌症的概率。在某些实施方案中,从测量样品中的标志物获得的值被归一化。无意限制用于归一化测量的生物标志物的值的方法。存在数据归一化的许多方法,对于本领域技术人员是熟悉的。这些方法包括简单如背景消减、扩展、中位数倍增(mom)分析、线性变换、最小二乘拟合等。归一化的目的在于使单独标志物的不同测量尺度等同,使得得到的值可以根据如确定的加权尺度合并并且由用户或所述机器学习系统设计,且不受自然界中发现的标志物的绝对值或相对值影响。美国公布号2008/0133141(通过引用并入本文)教导了用于处理和解释来自多重测定法的数据的统计方法。由此可以将任意一种标志物的量与预定的截止值比较,从而区分所述标志物的阳性与阴性,如从患有癌症的患者的对照群体研究和适合匹配的正常对照所确定的,基于所述比较得到每种标志物的分数;且然后组合每种标志物的分数,得到样品中该标志物的综合分数。预定的截止值可以基于roc曲线并且每种标志物的分数可以基于标志物的特异性来计算。然后,总分数可以与预定的总分数比较以将该总分数转换为对患有肺癌的可能性或风险的定性测定。用于分数转换或归一化的另一种方法是,例如应用数据集成的中位数倍增(mom)方法。在mom方法中,每种生物标志物的中位数用于归一化该特定生物标志物的所有测量,例如如在kutteh等人(obstet.gynecol.84:811-815,1994)和palomakietal.(clin.chem.lab.med.)39:1137-1145,2001)中提供的。因此,任何测量的生物标志物水平除以癌症组的中位值,产生mom值。mom值可以对于组中每种生物标志物进行组合(即,求和或相加)以产生对于每个样品的组mom值或汇集mom分数。在某些实施方案中,测量生物标志物,并且对这些结果值归一化,然后求和以得到综合分数。在某些方面,归一化测量的生物标志物值包括确定中位数倍增(mom)分数。在其它方面,本方法进一步包括在求和之前加权归一化的值以得到综合分数。初级护理保健执业者,包括专门从事内科或家庭医疗的医生以及助理医生和护士执业者,是本文所公开的方法的用户。这些初级护理提供者通常每天会看大量的患者,其中许多患者因吸烟史、年龄和其他生活方式因素而处于肺癌的风险中。2012年美国人群体的约18%是现吸烟者,而更多是前吸烟者,他们比从不吸烟者具有更高的肺癌风险谱。上述nlst研究(参见背景部分)的结论是通过ct扫描进行年度筛选的特定年龄以上的重度吸烟者与未经过类似筛选的人相比,肺癌死亡率显著降低。然而,由于上述原因,极少数处于风险的患者进行每年的ct筛选。对于这些患者,根据本发明的测试范例提供了替代方案。将来自具有重吸烟史(例如每天吸烟至少一包烟持续20年或更长)的患者的血液样品送到具有资格的实验室,以使用对早期肺癌具有足够的灵敏度和特异性的生物标志物的组测试样品。这些生物标志物的非限制性列表在本文包括在上述公开内容和以下实施例中。可以利用其他合适的体液例如痰或唾液代替血液。然后使用在本公开中描述的技术生成该患者的癌症概率。然后可以使用癌症概率值计算,与具有可比较的吸烟史和年龄范围的其他人相比,患者患有肺癌的风险。具体而言,如果要在护理点而不是在实验室进行风险计算,则可以使用与移动设备(例如平板电脑或智能电话)兼容的软件应用。一旦医生或保健执业者有了患者的风险分数(即该患者相对于具有可比较的流行病学因素的其他人群患有肺癌的可能性),他们可以具体推荐那些风险较高的患者随后进行其他测试,如ct扫描。应当理解,高于其则推荐进一步测试的精确数值截止值可以根据许多因素而变化,包括但不限于(i)患者的期望及其总体健康和家族史,(ii)由医疗委员会建立的或科学组织推荐的操作指南,(iii)医生自己的实践偏好,以及(iv)生物标志物测试的性质,包括其总体准确度和验证数据的强度。据信,使用本文公开的方法将具有双重好处:保证最有风险的患者进行ct扫描,以便检测到能够通过手术治愈的早期肿瘤,同时减少与孤立的ct筛选有关的假阳性的费用和负担。在其它实施方案中,如下详细描述的机器学习算法用于分析获得的生物标志物值和获得的临床参数值。h)装置本发明的实施方案还提供了用于评估受试者的癌症存在风险水平并将风险水平与相对于群体或群组群体测试后癌症存在的增加或减少相关的装置。装置可包括配置成执行计算机可读介质指令(例如计算机程序或软件应用,例如机器学习系统)的处理器,以接收从对样品中生物标志物的评价的浓度值,并与其它风险组合因素(例如患者的病史,涉及患癌症风险等信息的公共可得的来源)组合可以确定主综合分数,并将其与包含多个风险类别的分组(例如风险类别表)的分层群组群体进行比较,并提供风险分数。在本文中描述了用于确定主综合分数和风险分数的方法和技术。装置可以采用多种形式中的任何一种,例如手持设备、平板电脑或者任何其他类型的计算机或电子设备。装置还可以包括配置为执行指令的处理器(例如计算机软件产品,用于手持设备的应用,配置为执行方法的手持设备,万维网(www)页面或者其他云或网络连接位置,或者任何计算设备。在其他实施方案中,装置可以包括手持设备、平板电脑或任何其他类型的计算机或电子设备,用于访问作为软件如服务(saas)部署提供的机器学习系统。因此,相关性可以显示为图形表示,其在一些实施方案中存储在数据库或内存中,例如随机存取内存、只读内存、磁盘、虚拟内存等。也可以使用其他合适的表示,或者本领域已知的示例。装置还可以包括用于存储相关性的存储工具,输入工具和用于显示对特定的医疗状况而言所述对象的状态的显示工具。存储工具可以是,例如随机存取内存、只读内存、高速缓存、缓冲器、磁盘、虚拟内存或数据库。输入工具可以是,例如小键盘、键盘、存储的数据、触摸屏、语音激活系统、可下载的程序、可下载的数据、数字接口、手持设备或红外信号设备。显示工具可以是,例如计算机监视器、阴极射线管(crt)、数字屏幕、发光二极管(led)、液晶显示器(lcd)、x射线、压缩的数字化图像、视频图像或手持设备。装置还可以包括数据库或与数据库通信,其中数据库存储因素的相关性并且可由用户访问。在本发明的另一个实施方案中,所述装置是计算设备,例如以包括处理单元、内存和存储器的计算机或手持设备的形式。计算设备可包括,或访问计算环境,其包括各种计算机可读介质,诸如易失性内存和非易失性内存,可移动存储器和/或不可移动存储器。计算机存储器包括,例如ram、rom、eprom和eeprom、闪存或其它内存技术、cdrom、数字多功能盘(dvd)或其它光盘存储器、磁盒、磁带、磁盘存储器或其它磁存储设备,或本领域中已知的能够存储计算机可读指令的其他介质。计算设备还可以包括或可以访问包含输入、输出和/或通信连接的计算环境。输入可以是一个或几个设备,诸如键盘、鼠标、触摸屏或手写笔。输出也可以是一个或几个设备,诸如视频显示器、打印机、音频输出设备、触摸刺激输出设备或读屏输出设备。如果需要的话,计算设备可以配置成在使用通信连接来连接到一个或多个远程计算机的联网环境中操作。通信连接可以是,例如局域网(lan)、广域网(wan)或其他网络并且可以在云、有线网络、无线射频网络和/或红外网络上操作。i)生物标志物速度本发明的实施方案也可利用生物标志物速度来评估患有癌症或恶性肺结节,例如肺癌的风险。相对于评估生物标志物的单一浓度,例如对于生物标志物是否高于在单个时间点的给定阈值,生物标志物速度反映随时间变化的生物标志物浓度。通过评估个体患者的随时间的一系列的生物标志物水平(例如时间t=0,t=3个月,t=6个月,t=1年等),可以确定生物标志物的速度(或增加的速率)。基于这种类型的方法,患者患癌症的风险基于速度可以被分层为高风险与低风险(或之间的任何数量的类别)。表明测量卵巢癌、胰腺癌和前列腺癌中随时间的肿瘤抗原水平变化优于单个读数的医学文献独立报告包括menonetal.jclinoncolmay11,2015;lockshinetal.plosone,april2014;andmikropoulosetal.,jclinoncol33,2015(suppl7;abstr16)。在至少一项研究中,相比于基于单一的、一次性的阈值筛选,系列筛选使癌症的检出率加倍。menon等人还公开了鉴定与患者的先前的测试分数相比,一种或多种生物标志物的水平的尖峰,并自动建议患者和提供者更频繁地(例如每季度)测试或采取其他行动的算法。i.用于肺癌早期检测的预测性分析的人工智能系统人工智能系统包括配置为执行通常由人类完成的任务,例如语音识别、决策制定、语言翻译、图像处理与识别等的计算机系统。一般地,人工智能系统具有学习、维护和访问信息的大储存库、进行推理和分析以做出决定的能力以及自我纠正的能力。人工智能系统可以包括知识表示系统和机器学习系统。知识表示系统通常提供结构以捕获并编码用于支持决策制定的信息。机器学习系统能够分析数据,以确定数据中的新趋势和模式。例如机器学习系统可以包括神经网络、归纳算法、遗传算法等,并且可以通过分析数据中的模式得出的解决方案。鉴于与癌症的发展有关联的无数因素,本发明实施方案利用人工智能/机器学习系统,例如神经网络,用于提供对个体患有癌症的可能性(风险)的改进的、更准确的确定。通过提供具有与癌症存在相关联的无数风险因素(其中一些因素比其它因素具有更大的影响)的神经网络系统,以及足够大的训练数据集,神经网络可以更准确地预测个体患有癌症的可能性(风险),提供给患者和临床医生以强大的、基于证据的个体化的风险评估,其中具有对于鉴定为高风险的患者的具体的后续处理建议。机器学习系统提供了确定无数风险因素中的哪些是最重要的,以及如何权衡这些因素的能力。此外,机器学习系统可以随着时间的推移,随着可获得越来越多的数据而演变,以做出更准确的预测。在一些实施方案中,虽然机器学习系统可以随着时间的推移而演变以做出准确的预测,机器学习系统可以具有在计划的基础上部署改进的预测的能力。换言之,机器学习系统所使用的以确定风险的技术可用于在一段时间内保持静态,从而允许对于确定风险分数的一致性。在指定的时间,机器学习系统可以部署纳入对新数据进行分析以产生改进的风险分数的更新技术。尽管本文所呈现的示例实施方案涉及神经网络,本发明实施方案并不意在限制于神经网络并可应用于任何类型的机器学习系统。因此,可以明确理解的是本文所呈现的实施方案并不意在严格地限制于神经网络,而是可以包括具有本文所述功能性的任何类型或任何组合的任何形式的人工智能系统。图1a-1b是根据本发明实施方案的示例计算环境的示意图。显示了示例人工智能计算系统,也被称为癌系统的神经分析(nacs)100,用于确定患有癌症的风险。综上所述,将来自患者的医疗记录和其他公共可获得的数据提供给主神经网络,其中主神经网络对数据进行分析来预测相对于群组群体,患者患有癌症的个体风险。在一些实施方案中,利用多个其它神经网络以有可用于分析的形式将数据提供给主神经网络。然而,可以清楚地理解,虽然nacs100可包括多个其他神经网络(例如用于数据清理,用于数据提取等),用于提供以合适的形式的数据,本发明实施方案还包括将数据以适合于分析而不被其他神经网络附加处理的预先定义的形式提供给主神经网络。因此,本发明的实施方案包括主神经网络,以及与任何一种或多种其它神经网络组合的主神经网络,用于数据处理。图1a包括一个或多个神经网络nn1-7,一个或多个数据库db10-60,公共总线65和扩展总线70,hippa编校和匿名器75以及一个或多个知识库(ks)80、110和120。一般情况下,每个数据库10-60包括与患有癌症的风险相关联的一个或多个类型信息。在一些实施方案中,该信息可以跨多个数据库分布,而在其它实施方案中,信息可以被包括在单个数据库中。每个数据库可以与其他数据库中的每个数据库是本地的或远程的,并且每个神经网络可以与这些数据库中的每个数据库是本地的或远程的。如下以另外的细节描述图1a的每一个组件。初级emrdb10可以是电子医疗记录(emr)数据库,例如在医院、医生的办公室等,其包括一个或多个患者的一个或多个医疗记录。重要的是,emrdb10将提供至少患者最近的血液测试的生物标志物水平或值。在其它实施方案中,emr也可以提供来自患者的历史生物标志物数据,如果执行系列测试并且信息是可用的,以允许生物标志物速度作为因素计入算法中。在一些实施方案中,该数据库是针对特定患者的医疗信息的初级来源(例如患者的初级护理医师、医院、专家或初级护理的任何其他来源等)。次级emrdb20可以是emr数据库(例如在另一医院,在另一个医生的办公室),其包括与患者相关的家庭成员的医疗记录为或包括在初级emrdb10未找到的患者的附加医疗记录。在一些方面,次级emr数据库20可包括多于一个的数据库。在一般情况下,emr数据库可以包括患者医疗记录,其包括以下类型的信息的一种或多种(如年龄、性别、住址、病史、医生笔记、症状、遵医嘱药物、已知过敏、成像数据和相应的注解、治疗和治疗结果、血液工作、基因检测、表达谱、家族史等)。在一些实施方案中,第一神经网络(也被称为nn1“加法器”)可以用于确定其他家庭成员信息或患者信息是否在次级emrdb20中可得。在附加信息可用的情况下,可以就该信息查询次级emrdb20。第二神经网络(也被称为nn2a“清理器”或nn2b“清理器”)用于识别与患者有关的丢失的、模糊的或不正确的医疗数据(统称为“有问题的数据”)。例如神经网络nn2a可以用于识别来自初级emr数据库db10的有问题的数据,并且神经网络nn2b可以用于识别来自次级emr数据库db20的有问题的数据。在一些实施方案中,通过获取作为外展过程的部分的信息来补救有问题的数据,该外展过程利用其他信息源来补救有问题的数据。例如可以通过电话、电子邮件或任何其他合适的通信方式联系医疗提供者、患者或家庭成员以解决具有有问题的数据的问题。备选地,可以访问其他emr数据库、其他电子信息来源等以补救有问题的数据。在一些实施方案中,可以根据对确定风险分数的潜在影响,对所识别的有问题的数据进行排序,使得将对风险分数具有较大影响的所识别的有问题的数据被排序为更重要,以便有效地分配资源。例如缺失的邮政编码可能对风险分数的潜在影响比吸烟史或实验室测试中的错误更小,因此可以容忍,而吸烟史或实验室测试中的错误会产生更大的潜在影响。干净数据被发送到hippa编校和匿名器模块75,其使数据匿名以符合法规和其他法律要求。除非个人另有授权,否则个人医疗保健记录通常是匿名的,以符合隐私和其他法规。在一些实施方案中,通过用独特标识符替换患者特定标识信息(例如姓名、社会安全号码等)来对个体记录进行匿名,从而提供在确定风险分数之后识别个体的方式。一旦数据被清理,并且已被hippa编校和匿名器75进行匿名,它就可以存储在干净数据知识库(ks)80中,即由nacs100生成的存储库。在一些实施方案中,一旦已经补救了有问题的数据,则校正的数据可以存储在初级emrdb10或次级emrdb20本身中,因此可以不需要分开的知识基础存储库。第三神经网络(也被称为神经网络nn3“emr提取器”可以用于从干净数据ks80提取具体相关的信息,其包括来自患者的医疗记录的干净数据。训练神经网nn3来识别与用于确定风险分数相关的电子医疗记录数据。例如通过提供足够大数目的训练数据集,其中将特定类型的已知医疗数据呈现给神经网络,并通过迭代过程进行加工,其中由神经网络识别的潜在的医疗数据被标记为相对于已知类型正确或不正确,神经网络能够被训练以学习识别特定的医疗数据(例如图像,非结构化的,结构化的,等等)。神经网络nn3可以将数据分类到不同的数据类型,例如原始图像,数值/结构化的数据,bm速度,非结构化的数据等,并且数据可以存储在提取的数据知识库(ks)130中(参照图1b)。nn3可以将识别的患者数据分离成不同类别的信息,例如原始图像,非结构化的数据(例如医生笔记,诊断,治疗,放射笔记等),数值数据(例如血液测试结果,生物标志物),人口统计数据(年龄,体重等)和生物标志物速度。一些类型的数据进行进一步加工,例如通过另一神经网络,而另一些发送到nn12(被称为“主”nn)用于处理。在其它实施方案中,第四神经网络(也被称为nn4“拉取器(puller)”可用于在数据库db30-60中识别相关或请求的数据,其与患者的病史相关。公共可获得的数据库的实例包括环境数据库30、就业数据库40、群体数据库50和遗传数据库60。一般而言,该神经网络可用于识别公共可获得的数据(例如存储在数据库中的数据,期刊文章中的数据,出版物等),其具有与患有癌症的风险因素有关的信息,以及与患者的病史相关的信息。在本文中提供了可以从emrdbs10和20中提取的信息类型以提供给神经网络nn4用于进一步分析的实例。对于环境数据库db30,可识别以下字段:患者位置,工作邮政编码,在该地址的年数。对于职业/就业数据库db40,可以识别特定就业的年数。对于群体数据库db50,可以识别患者的人口统计资料,如性别、年龄、作为吸烟者的年数以及家族史。对于遗传数据库db60,可以识别突变如brafv600e突变,egfppos。该信息可以提供给神经网络nn4,并且可以产生相应的问题以确定相关的风险因素。例如nacs100可以识别个体的职业,并对数据库db40产生一个待询问的问题,关于个体的职业是否与癌症具有已知相关性。患者可以以确定的年数(例如10)生活于特定邮政编码。因此,相应的问题“近10年居住在特定邮政编码的患者的癌症风险是什么?”可以生成并存储在公共知识库(ks)110,以在随后的时间点询问。作为另一个实例,nacs100可以生成待向环境db30询问关于个体的职业是否与增加的癌症风险相关联的问题。患者可能已经在某个职业(例如煤矿工人)中工作了许多年(例如20年)。因此,可以在公共ks110中生成并存储相应问题“作为煤矿工人工作20年的癌症风险是什么?”,以便在随后的时间点询问。类似地,nacs100还可以产生遗传问题,例如来自患者病史的突变或其他遗传异常是否与癌症的发生有关。通常,例如在本领域已知的问答生成模块的帮助下,可以生成各种类型的基于环境、就业、群体和遗传的问题并将其存储在公共ks110中作为待询问的问题。也示于图1a中的公共总线65提供了将与患者的医疗历史相关的问题提供给公众可获得的数据库的通信网络,其中对于问题的回答可以并入到对风险分数的确定中。例如信息可以在可包括通过nacs100产生的对数据库询问的问题的公共知识库(ks)110和数据库db30-60本身之间传送。如前所述,公共可获得的数据库db30-60可以包括与患有癌症的风险相关联的各种类型的信息。因此,本发明实施方案可以利用这些数据库中的一个或多个,除了来自电子医疗记录db10和20的信息的其他信息,以确定对个体癌症的存在的可能性。例如环境数据库db30可以包括与癌症的存在相关联的环境或地理因素。例如某些地理邮政编码可以指示与患有癌症的增加的风险相关联的环境因素,例如在给定区域内致癌物质的存在、放射性元素、毒素、化学品泄漏或污染等。数据库db30还可以包括关于与疾病如癌症的发展相关联的环境因素的信息,例如烟雾等级、污染水平、暴露于二手烟等。就业数据库db40可以包括连接一些类型的就业与患有癌症的增加的风险的信息。例如某些行业和工作类型,例如煤矿工人、建筑工人、画家、工业制造者等,可以具有暴露于辐射或致癌化学品,包括石棉、铅等的增加的可能性,这增加患有癌症的风险。群体数据库db50包括患有癌症诊断的个体的群体的信息,通常是匿名的。在一些实施方案中,数据库db50可以包括个体患者的档案,每位患者的档案包括可影响个体患有癌症的风险的各类信息,如年龄、性别、吸烟史年数、每天的包数、成像数据、就业、居住、生物标志物分数、生物标志物综合分数或生物标志速度等。通过收集和分析该类型的数据,群组群体可以通过神经网络来确定。遗传db60可包括被识别为与患有癌症的增加的风险相关联的基因。例如遗传db60可以包括任何公共可获得的数据库或储存库,以及期刊文章,科研研究,或任何其他的信息来源,它们将特定的基因序列、突变或表达水平与患癌症的增加的风险相连。数据库30-60中的任何数据库可以包括多个数据库。例如环境db30可以包括多个数据库,每个数据库包括不同类型的环境信息,就业db40可以包括多个数据库,每个数据库包括不同类型的就业信息,群体db50可以包括多个数据库,每个数据库包括群体信息,以及遗传db60可以包括多个数据库,每个数据库包括不同类型的遗传信息。信息可以通过扩展总线70在数据库db30-60之间传送并存储在扩展知识库(ks)120中。例如扩展ks120可以包括对nacs100产生的问题的回答,其对数据库db30-60进行询问。公共ks110和扩展ks120是由nacs创建的存储库。为了便于对db30-60进行询问,第五组神经网络(也被称为nn5a、nn5b、nn5c或nn5d)用于在特定主题的知识来源或数据库(例如db30-60)中识别特定的数据。例如可以利用神经网络nn5a在环境db30中识别特定的环境数据,可以利用神经网络nn5b在就业db40中识别特定的就业数据,可以利用神经网络nn5c在群体db50中识别特定的群体数据,以及可以利用神经网络nn5d在遗传db60中识别特定的遗传数据。选择认为是特定的字段中信息的主要来源的知识源或数据库用于与db30-60相包括。知识来源的实例包括期刊论文、数据库、演示文稿、基因序列或基因表达库等。在一些方面中,信息的每个类别或信息本身的每个来源可以具有用于识别相关数据的相应神经网络,并且在一些实施方案中,可以供应商特定方式训练神经网络来识别信息。每个数据库也可包括结构化的和非结构化的数据。在一些实施方案中,如果新的研究报告了与癌症的新的遗传联系,或对于癌症发生的新的地理“热点”,nacs系统100可以在数据库30-60中搜索信息以重新评估其确定的风险并为患者或医生提供更新的风险。例如可以产生一个问题并存储在公共ks110中,可以以预定间隔将其询问db30-60(例如每月、每季度、每年等),并且所述风险确定可以被周期性地更新。在医学领域,不断出版新的临床文献和指南,描述新的筛选程序、疗法和治疗并发症。当新信息可用时,通过问答生成模块可以自动地运行查询不需要主动参与(以自动的方式)。结果可以前瞻性地发送到医生或患者或者存储在扩展ks120以供后续使用。在一些实施方案中,nacs100可以使用例如问答模块从语义概念、关系以及从db10和20提取的数据自动地生成查询。使用语义概念和关系,可以自动制定用于问答系统的系统查询。备选地,医生或患者还可以通过合适的用户界面以自然语言或其他方式输入查询。在另外的其它实施方案中,第六组神经网络(也被称为nn6a、nn6b、nn6c或nn6d)用于扩展每个数据库输出,或来自db30-60对问题的回答,例如0到9范围内用于加权。例如对于lovecanal,ny的输出邮政编码14304可能被扩展为“9”,以指示高风险,而对于sedona,az的输出邮政编码86336可以是“0”,以指示低风险。许多不同类型的扩展是本发明实施方案所覆盖的。在一些实施方案中,数据库输出根据公共参考进行扩展,无论数据库,而在其他实施方案中,数据库输出根据相对基础进行扩展,例如使得对于给定数据库的加权“9”对于其他数据库的加权“9”可以不具有相同的影响。根据数据的不一致性,每个数据库可以具有其自己的相应神经网络以扩展相关信息。在一些实施方案中,生成每个回答以及置信度和信息来源。每个回答的置信度可以是例如0到1,0到10之间的数字,或任何期望的范围。在其它实施方案中,第七神经网络(也被称为nn7“基因削减(snip)”用来参考与患者的病史相关联的基因以识别类似和/或相关的基因。可以根据遗传信息的文献、公共数据库等识别类似的或相关的基因。除了与所识别的基因相关联的风险之外,神经网络nn7也可以输出与进一步的分析有关的基因类型。根据如图1a所示的实例计算环境,将来自神经网络nn3的提取的数据通过提取的数据总线138发送至其它神经网络以进行分析。来自外部数据库db30-60的输出数据,其可被存储在扩展ks120中,加载到扩展总线70并提供给其它神经网络以进行分析,作为扩展的人口统计数据170。将来自神经网络nn7的数据提供给另一个神经网络以进行分析作为遗传数据165,并且提供群体数据160作为对其他神经网络的输入。参考图1b示出了这些输出中的每一个。如图ib所示,可以将来自提取的数据总线138的数据分类为不同类型的数据。可以将数据分类为原始图像155(例如x射线、ct扫描、mri、超声、eeg、ekg等),并且可以如本文描述地将原始图像提供给nn10用于进一步分析。也可以将数据分类为生物标志物(bm)速度数据145,并且可以如本文所述地将数据提供给神经网络nn9用于进一步分析。可以进一步将数据分类成数值数据150,例如年龄、icd、血液/生物标志物测试、吸烟史(年数和每天包数)、诊断(dx)、性别等,或非结构化的数据140。非结构化的数据140可以包括文本或数值基础的信息,例如医师笔记、注释等。nn8可以所使用自然语言处理和其它已有的技术如本文中所述地分析非结构化的数据140。第八神经网络(也被称为神经网络nn8自然语言处理(“nlp”)用于分析非结构化的数据140,例如医师笔记、其他emt文本(例如放射学、现病史(hpi))。通过神经网络nn8处理之后,可以将数据分成多个类别,包括基于文本的类别,包括实验室报告、进展笔记、印象、患者历史等,以及得到的数据,其包括得自基于文本的数据的数据,例如吸烟年数和吸烟的频率(例如每天多少包)。在其它实施方案中,第九神经网络(也被称为nn9)用于分析生物标志物(bm)速度。此神经网络(其可以以受监督的或无监督的方式进行训练)分析生物标志物或生物标志物组的速度,并确定速度是否指示癌症的存在。标志物可以包括cyfra、cea、progrp等,并且神经网络可以分析随时间变化的绝对值和相对值。在一些方面,具有高于阈值的速度可以指示癌症的存在。可以生成对于生物标志物的组合的个人以及组速度分数。在一些实施方案中,此神经网络可以是未受过训练的,并且可以识别先前未知的关系。可以确定组(panel)的个人以及组(group)速度。在其它实施方案中,第十神经网络(也被称为nn10“筛”)用于分析原始图像,例如x射线、ct扫描、mri等,并提取临床成像数据。在一些实施方案中,此神经网络nn10可以提取与确定癌症的增加的风险相关的图像的部分。在其它实施方案中,第十一神经网络(也被称为神经网络nn11“未经训练的群组分析”)用于识别在群组分组中的模式。特定群体分组可以作为基于通过神经网络nnl做出的决策随时间变化而改变。例如年龄与患癌症的风险相关,但不知道最佳分组(例如42-47岁,53-60等)。神经网络nn11可以最初确定具有10年吸烟史的年龄53-60的群组群体有50%的增加的风险。因为附加数据变得可用,所以最佳分组(群组)可能会改变。通过利用未经训练的神经网络,如神经网络nn11,发现自然发生的分组模式(例如在给定年龄发展癌症和基于类似的吸烟史的个人聚类),可以识别和分析分组模式,以确定给定患者的最佳群组。在一些实施方案中,nn11是未经训练的并将自我学习。举例来说,年龄是一个重要的因素。可能不知道最好的年龄范围或者分组,例如年龄范围是否应为42-47、53-60等。此外,因为其他风险因素纳入分析,所以分组可能会改变。通过使用未经训练的nn对数据进行分析,nn可以利用聚类找到相关的分组。算法可以反复尝试不同的分组和不同的风险因素,直到找到给定患者的最佳群组。在许多情况下,未经训练的nn将发现通过传统技术可以发现的关联性。第十二神经网络(也被称为神经网nn12“主nn”)接收多个输入,每个与疾病例如癌症的发生相关联。在这个实例中,nn12接收患者emr数据总线142的输入,其中的一些使用神经网络nn8-10以及扩展的人口统计数据170、遗传数据165和群体数据160进一步处理,通过nn11处理后以产生群组数据。可根据本文中呈现的技术对到神经网络nn12的输入数据进行归一化。神经网络nn12分配权重给每个输入,并执行分析以使根据这些风险因素对患有癌症做出预测(可能性%)。最初,分配的权重可以通过使用包括患有癌症诊断的患者、他们的病史和其它相关联的风险因素的数据集训练神经网络来确定。因为关于癌症的附加数据(例如新的风险因素等)变得可用,这个数据可以被集成到神经网络nn12并且相应的加权可以随时间变化而演变。神经网络nn12的输出数据可存储在db10和/或db20作为反馈回路的部分。训练nn12以产生以下输出,如框180所示,包括患者风险分数(例如在给定的群组中的个体患者的风险%、误差范围、群组的大小和群组的标签等),识别的主要风险因素(可能是与群组群体不同)、推荐的诊断(dx)和治疗的成功因素。如本文所描述,神经网络nn12还可以生成其他类型的数据。神经网络nn12可利用反馈来将输出写回到数据库db10和db20用以不断改进机器学习系统,使机器学习系统通过不断将新数据并入到训练集来做出更准确的预测。随着新的患者数据变得可用,例如确认或否认患者患有癌症,nacs系统100可以利用该信息用于附加的固有训练,从而允许确定风险分数%以提高准确度。例如如果患者被诊断患有癌症,那么可以遵守治疗的类型、结果(长寿)和成功率,并反馈到系统中,使系统在成功的治疗和具有最佳灵敏度、选择性和最低的模糊性的最佳(阳性)临床指标上进行培训。如果患者未被诊断患有癌症,那么这个信息反馈到系统中,以针对最佳阴性临床指标进行训练。医生的诊断也可与nacs风险分数进行比较。本发明的实施方案可以包括至少一个emr,例如db10,主神经网络nn12用于进行风险确定,以及上述公共数据库db30-60中的任何一个或多个,以及上述知识库80、110、120、130和135中的任何一个或多个,以及神经网络nn1-11中任一个或多个。在一些实施方案中,神经网络可被训练来识别以供应商特定的格式提供的信息。在其它实施方案中,神经网络nn12可以确定信息不足以对患者的风险分数做出确定。图2a示出神经网络的实例。如先前所指出的,神经网络系统通常是指人工神经网络的系统,包括多个人工神经元或节点,使得神经网络系统设计背后的系统结构和概念是基于生物系统和/或神经元的模型。例如神经网络的组件可以包括多个输入处理元件或节点输入层210,包括处理元件或节点的一个或多个“隐藏”层220,以及包括多个输出的处理元件或节点的输出层230到隐藏层。每个节点可以连接到一个或多个其他节点作为隐藏计算层的部分。隐藏层220可包括单一层或多个层,每一层包括多个互连的计算节点,其中一层的节点连接到另一个层。神经网络还可以包括加权和汇集操作作为隐藏层的部分。例如每个输入可以被分配相应的权重,例如数字范围是0至1,0至10等。加权的输入可以提供给隐藏层,并进行汇集(例如通过对加权的输入信号进行求和)。在一些实施方案中,将限制功能施加到汇集的信号。来自隐藏层的汇集的信号(其可被限制)可以由输出层来接收,并且可以进行第二汇集操作以产生一个或多个输出信号。输出限制功能也可以施加到汇集的输出信号,产生由神经网络的预测的量。许多不同的配置是可能的,并且这些实例旨在是非限制性的。如本文所述,可以配置神经网系统用于特定应用,例如图案识别或数据分类,通过称为训练的学习过程。因此,神经网络可以训练为提取模式、检测趋势并对复杂或不精确的数据进行分类,这些数据对于人类往往太复杂,而且在许多情况下对其他计算机技术进行分析过于复杂。如图2b所示,神经网络内的信息还可以双向流动。例如从输入层到输出层流动的数据显示为前进活动,并从输出层到输入层中流动的误差信号表示为反馈或“反向传播”。该误差信号可以反馈到系统中,并且作为结果,神经网络可调节一个或多个输入的权重。训练神经网络对于神经网络的操作的许多不同的技术是本领域已知的。神经网络通常经历迭代学习或训练过程,其中在将神经网络放置在生产模式对(非训练)数据进行操作之前,对神经网络一次呈现一个实例。在一些情况下,可以将相同的训练数据集呈现给神经网络多次,直到神经网络在正确的解决方案上收敛,达到指定的标准,例如给定的置信区间、给定的误差等。通常,验证数据的集合(例如数据集)是足够大以允许神经网络的收敛,使神经网络能够在指定的误差范围内预测非训练数据的正确分类(例如癌症的风险增加或癌症的风险不增加)。以受监督的或无监督的方式发生训练。在受监督的学习过程中,可以为神经网络提供大的训练数据集,其中回答是明确知道。例如可以以串行方式将来自数据集的测试案例以及数据集的回答呈现给神经网络。通过为神经网络提供包括阳性和阴性回答(例如相关的数据和不相关的数据)的大数据集,并告诉神经网络哪个数据对应于阳性回答和哪个对应于阴性回答,神经网络可以学习识别阳性回答(例如相关的数据),条件是提供足够大的数据集。在受监督的学习过程中,个人或管理员可以与机器学习系统交互以提供关于机器学习系统确定的结果是否准确的信息。在无监督的学习过程中,还可以为神经网络提供大的训练数据集。然而,在这种情况下,关于哪些数据是阳性以及哪些数据是阴性的回答没有提供给神经网络并且可能是未知的。相反,神经网络可以使用统计手段,例如k均值聚类等来确定阳性数据。通过为神经网络提供包括阳性和阴性回答(例如相关数据和非相关数据)的大数据集,神经网络可以学习识别数据中的模式。对神经网络的每个输入通常经过加权。在一些实施方案中,初始加权(例如随机加权等)是由机器学习系统来确定,而在其它情况下,初始加权可以是用户定义的。机器学习系统处理具有初始加权的输入信息以确定输出。然后输出可以与训练数据集例如通过实验获得的有效的数据进行比较。机器学习系统可确定计算得到的预测和训练数据集之间的误差信号,和供给或传播该信号返回通过系统进入输入层,导致对输入加权的调整。在其它实施方案中,误差信号可以用来调整在隐藏层中的权重,以提高神经网络的准确度。因此,在训练过程中,神经网络可以通过训练数据集在每个迭代期间调整对输入和/或隐藏层的加权。因为同一训练数据集可被处理多次,神经网络可以细化输入的权重,直到达到收敛。典型地,最终的权重由机器学习系统来确定。作为用于神经网络nn1的训练过程的实例,神经网络nn1可被训练来寻找表明次级emrdb20具有相关数据的迹象。例如可以为神经网络nn1呈现来自emr系统db20具有相同名称和社会安全号码的患者的数据集,以及确认来自次级emr的患者匹配初级emr。类似地,可以为加法器呈现来自另一个emr系统具有相同名称和不同社会安全号码的患者的数据集,以及确认来自次级emr的数据不匹配来自初级emr的患者。基于这种类型的训练,神经网络能学会区分哪些记录与该数据库匹配特定的患者。作为另一个实例,并且参考神经网络nn2a和nn2b,可以训练这些神经网络以识别丢失的数据。例如可以为这些神经网络呈现患者的完整数据集,其具有数据集完整的指示。然后可以为这些神经网络呈现具有特定的缺失数据的另一数据集。在足够大的训练课程之后,神经网络将学习缺失数据的概念,并且能够识别非训练数据集(生产模式)中的缺失数据。类似地,可以训练神经网络nn2a和nn2b关于是什么构成有问题的数据。例如如果邮政编码与填充的位置字段不匹配,则可能是错误的,因为患者更可能正确地识别他们的城市和州。作为又一个示例,事先训练每个神经网络nn5a-nn5d以发现特定数据(例如来自环境db、就业db、群体db、遗传db等)。一旦满足指定的标准(例如在指定的误差率内的正确预测,个体群体中的哪些个体患有癌症),可以将神经网络置于生产模式中。因此,对于本文提供的实施方案的目的,将通常认为用具有足够大小的数据集训练各种神经网络达到收敛。神经网络被训练后,神经网络可以接触新的数据,并且可以测试它的性能,例如用另一数据集,其中可以用临床数据验证来自神经网络的预测。一旦已经建立神经网络以在既定的指南内行动,神经网络可以接触真正的未知数据。因为神经网络是高度适应的,当新数据变得可用,用于做出决定来确定风险分数的特定标准可以随时间变化而演变。虽然有可能随时间的特定时刻的变化表征神经网络,神经网络和相应的决策过程随时间变化而演变。因此,因为获得新的数据并因为新的结论得到验证,网络的节点内的数据流可以随着时间的推移而演变。图3是显示用于根据本发明的实施方案清理信息的示例操作的流程图。该方法可以用于识别在emrdb10和emrdb20中的患者信息,以及校正有问题的信息,并将校正的信息存储在知识库中,例如清理数据ks80(参见图1a)。在操作300,对存储初级电子病历(emr)系统的一个或多个医疗记录的患者信息进行识别。在操作310,确定(例如使用加法器神经网络nn1)是否需要存储在一个或多个次级emr中的附加数据(例如来自患者或来自与患者相关的家族成员的附加医疗信息)来计算风险分数。如果机器学习系统能够计算风险分数而无需附加的数据,该过程可以继续操作至操作320。如果需要附加的信息,在操作315,获得附加的数据。在操作320,机器学习系统识别(例如使用神经网络nn2a和nn2b)来自emrdb10和emrdb20的患者数据的一个或多个字段是有问题(例如丢失数据、错误数据、歧义数据等),并要被校正。在一些实施方案中,将待校正的有问题的数据基于每个识别出的字段对所确定的风险分数的潜在影响进行排名。在一些实施方案中,排名最高的(最高的潜在影响)字段被校正,并且该系统可以确定可以在不校正具有较低的潜在影响的字段来执行计算。在操作330,一个或多个识别的字段通过一个或多个外展过程进行校正(例如手动、自动或两者)。外展过程可以包括接触的信息的另一来源,例如医生、患者、另一计算系统等,以校正有问题的数据。在操作340,机器学习系统确定是否需要对信息进行匿名,并且如果是的话,对信息进行匿名。否则,该过程可以继续到操作350。在操作350,匿名(或校正)的信息存储在清理数据知识库(ks)80中,其中信息就绪例如通过nn3“emr提取器”进行提取。图4显示了根据本发明的实施方案、涉及主神经网络nn12的示例操作的流程图。在这个实例中,将多个输入提供给主神经网络nn12。这些输入包括来自emrpt数据总线142,以及来自db30-60的数据。主神经网络nn12分析接收到的输入,以确定群体例如群组群体中个体患有癌症的风险。在该实例中,将来自提取的数据ks130的数据直接或通过一个或多个其他神经网络提供给主神经网络nn12。特别地,在操作400,可以将数值数据提供给nn12以进行分析。在一些实施方案中,该数据可以直接提供给nn12,其中每种类型的数据可以被加权作为分开的输入。也可以向神经网络nn12提供经过其他神经网络处理的其他类型的数据。在操作405由神经网络nn9处理的生物标志物(bm)速度数据可以在操作410提供给神经网络nn12以进行分析。nn9可以基于生物标志物浓度的速度(例如随时间变化的一种或多种生物标志物的增加速率)来确定患者患癌症的增加的风险。在操作415,将非结构化的数据提供给nn8以进行分析。在操作420和425,可以将得自非结构化的数据的数值数据以及非结构化的数据本身(神经网络nn8的两个输出)提供给神经网络nn12以进行处理。在操作430,将原始图像数据提供给nn10以进行分析。在操作435,可以将神经网络nn10的输出、分析的图像数据提供给神经网络nn12以进行分析。如在操作440-460中所示,除了来自总线138的数据之外,主神经网络nn12也可以从公共可获得的数据库接收输入。在操作440,将可以存储在扩展ks120中的来自数据库db30-60的扩展的风险因素作为输入提供给主神经网络nn12。在操作445,将遗传标志物提供给nn7以进行分析并且将输出提供给nn12以在操作450进行分析。在操作455,可以产生来自神经网络nn11以群组形式的群体数据并在操作460提供给神经网络nn12以进行分析。上述实例不旨在对可以提供到nn12的输入的类型进行限制。本发明实施方案可包括得自患者的医疗信息或与患者的医疗状况相关的公共可获得的信息任何来源的任何输入。如操作465所示,一旦输入被接收,主神经网络nn12可以用于分析信息,以确定个体是否具有患有癌症的增加的风险。在一些实施方案中,主神经网络nn12可以接收来自神经网络nn11的群组群体。在分析不同类型的数据时,主nn12可以修饰群组群体以包括附加的因素。例如如果群组群体最初是由神经网络nn11提供为男性、50岁和10-15的吸烟指数,在考虑其他风险因素后,神经网络nn12可以修饰群组以包括附加的信息,例如男性、50岁、10-15的吸烟指数、综合生物标志物分数大于阈值,以及具有一定速度的指定生物标志物。因此,群组群体可以随时间变化而演变。主神经网络nn12还可以产生各种类型的信息作为分析已经提供的各种类型的输入数据的结果。在操作470,神经网络nn12确定个体患者相对于群体例如群组群体的患有癌症的增加的风险(例如百分比、乘数或任何其他数值等)。可以在报告中提供包括确定的风险和用于确定风险的信息,例如群组群体、群组的大小等,以及相关的统计信息(例如误差范围)的报告。报告还可以包括建议高危患者进行更频繁的筛选。在某些方面,随访之间的推荐时间随着临床指标和群组群体变化。还提供有关行为改变的建议。其他类型的信息也可以提供给患者或医生。例如在操作474,可以报告基于神经网络nn12的分析的患有癌症的主要风险因素。在操作472,可以报告已经优化的癌症特异性生物标志物(例如在风险确定中最重的加权)。在操作476,可以报告用于生成预测的癌症风险的数据的概要。在操作478,可以根据医生诊断早期癌症的能力对医生进行排名。可以评估这些医生使用的技术,以开发用于培训其他医生进行癌症早期诊断的最佳实践。在操作480,可以报告最佳bm速度,其是与患有癌症的增加的风险无关联的速度和与患有癌症的增加的风险相关联的速度(例如阈值等)之间的截止值。在操作482,可以将关于在随访访问期间是否诊断出癌症的患者信息写回emr,以便向系统提供连续反馈。随着神经网络nn12接收对被识别为高风险(如神经网络预测)的个体是否患有癌症进行验证或无效的数据,神经网络nn12可以继续在生产模式中随时间变化进行内在训练,随着附加的患者数据变得可用而调整输入和/或隐藏的层权重。因此,通过利用反馈回路,其中预测结果与实际结果之间的差异(例如通过侵入性测试所确认的)随时间变化被反馈到系统中,预测的准确度随着附加数据提供给系统可以得到改善。本文的实施方案可以基于对数据(例如医疗患者数据)进行演变而自动且连续地更新风险分数、相应的置信度值/误差范围,以便提供最高置信度回答和建议。当给出相同的输入时,本文的实施方案不是提供始终提供相同回答的静态计算,而是在接收新数据时不断更新,从而向医生和患者提供最佳的最新信息。因此,本文的实施方案提供了超过基于预设的固定标准生成静态结果的系统的实质优点,该预设的固定标准很少被修改(或者仅在定期更新(例如软件更新)时修订)。通过动态行动,风险分数和建议可以根据演变的人口统计变化,演变的医学发现等以及在emr和公共可获得的数据库中的新数据而发生变化。因此,本文的实施方案可以持续改进对癌症的早期检测,并且新数据变得可用,为医生及其患者提供自动化系统,用于随着医学进步和人口统计学随着时间的推移而访问其患者的最佳医疗实践和治疗。图5示出了根据本发明实施方案,emr提取器神经网络nn3的示例操作的流程图。清理数据ks80包括来自emrdb10和如果可用的emrdb20的清理信息的存储库。在操作505,利用神经网络nn3从清理数据ks80中提取数据。该提取的数据可以存储在提取的数据ks130中。在操作510,按类型分开提取的数据,例如原始图像155、生物标志物(bm)速度数据145、基于文本的非结构化的数据140和数值/结构化的数据150。在操作515,确定在将信息提供给主神经网络nn12进行分析之前是否需要附加的处理(通过其他神经网络)。数值数据150可以存储在患者数据ks135中而无需附加的处理。在此实例中,其余类型的数据与其他神经网络一起处理。在操作520,将原始图像数据155提供给分析成像数据的神经网络nn10。在操作530,将生物标志物速度数据145提供给生物标志物速度神经网络nn9,其识别生物标志物数据中的模式。在一些实施方案中,nn9可以是未经训练的。在操作540,将非结构化的数据140提供给自然语言处理神经网络nn8,其使用自然语言处理和语义来分析非结构化的数据。nlp可以应用于分析各种类型文本的内容(例如医师笔记、实验室报告、病史、处方治疗和任何其它类型的注释),以确定相关的风险因素,并且该信息可以作为输入提供给主nn12。nn8也可以从非结构化的语言得出数值输入,例如吸烟年数、家庭成员吸烟年数以及在操作540的任何其他数值数据。例如神经网络nn8可用于附有原始图像的书面放射学报告的自然语言处理。有了足够大量的训练实例,nlp/深度学习程序将学习如何解释有关发现癌症的书面报告。在该实例中,神经网络nn8产生至少两个输出,例如基于文本的数据175包括患者的历史,图像报告曝光等,以及转换的数值字段185,例如吸烟年数、吸烟频率等。pt数据ks135可以存储发送到总线142用于随后输入到主神经网络nn12的数据。图6示出了根据本发明实施方案、与公共可获得的数据相关联的神经网络的示例操作的流程图。在操作610,神经网络nn4用于识别emr中的信息,该信息将受益于可从公共可获得的信息源获得的附加知识。相应的问题可以例如通过本领域已知的问答模块生成,并存储在公共ks110中以供将来回顾。在操作620,识别和维护最佳类域特异性知识来源。在该实例中,域是指公共可获得的信息类型,例如地理/环境、就业、群体或遗传数据库。在操作630,神经网络nn5a-d用于查询每个相应的域来源,条件是神经网络nn4已经识别出对该特定域信息的需要。在操作640,确定是否已从所有域来源提取数据并得到完全评估。如果不是,则该过程返回到操作620,并且重复识别最佳类域特异性知识来源。在一些实施方案中,假设已经询问关于遗传域的问题,则在操作645,神经网络nn7用于提取相关遗传缺陷的细节。可以通过遗传数据165将遗传数据提供给主神经网络nn12。在操作650,神经网络nn11用于提取群体数据以进行群组分析,并且将提取的数据、群体/群组数据提供给神经网络nn12以进行分析。在操作655,神经网络nn6a-d用于扩展(或加权)在每个相应域中提供的回答。应当理解,一个域中的权重在另一个域中的权重方面可能不相等,例如环境域中的“9”可能不等同于遗传域中的“9”。在操作660,将扩展的数据从db30-60加载到扩展总线70上。扩展的数据可以存储在扩展ks120中以供将来使用。在一些实施方案中,随着患者的新数据变得可用,系统重新计算风险分数,并将结果提供给医生。在许多域,具有最高置信度的回答不一定是合适的回答,因为有可能是一个问题有几种可能的解释。正如本领域技术人员可以理解,本文实施方案的方面可以体现为系统、方法或计算机程序产品。因此,本文实施方案的方面可以采取完全硬件实施方案,完全软件实施方案(包括固件、驻留软件、微代码等),或者组合了软件和硬件方面的实施方案,其在本文全部一般可以称为“电路”、“模块”或“系统”。此外,本文实施方案的方面可以采取包含在一个或多个计算机可读介质中的计算机程序产品的形式,所述计算机可读介质具有包含在其上的计算机可读程序代码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是,例如但不限于电子、磁、光、电磁、红外或半导体系统、装置或设备,或上述的任意合适的组合。计算机可读存储介质的更具体的实例(非穷举列表)将包括以下:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取内存(ram)、只读内存(rom)、可擦除可编程只读内存(eprom或闪存)、光纤、便携式光盘只读存储器(cd-rom)、光学存储设备、磁存储设备或者上述的任意合适的组合。在本文的上下文中,计算机可读存储介质可以是能够包含或存储程序的任何有形介质,所述程序由指令执行系统、装置或设备使用或与指令执行系统、装置或设备连接。计算机可读信号介质可以包括具有包含在其中例如在基带中或作为载波的一部分的计算机可读程序代码的传播数据信号。这样的传播信号可以采取任何的各种各样的形式,包括但不限于电磁、光学或其任何适当的组合。计算机可读信号介质可为不是计算机可读存储介质,并且能够通信、传递或传播程序的任何计算机可读介质,所述程序由指令执行系统、装置或设备使用或与指令执行系统、装置或设备连接。包含在计算机可读介质上的程序代码可以使用任何合适的介质传输,所述介质包括但不限于无线、有线、光纤电缆、rf等,或者上述的任何合适组合。图11和12是用于利用机器学习系统将个体患者分类到风险类别例如基于风险分数的示例过程的流程图。图11包括构建群组群体,而图12涉及个体患者的分类。参考图11,在操作2005,接收个体患者的标志物值和病史(例如在神经网络nn12)。在操作2010,机器学习系统(例如神经网络nn11)用于基于来自大量患者(例如来自群体db50)的信息(例如生物标志物值、病史、阳性或阴性诊断等)识别相对于个体患者的群组群体。通过将个体患者的生物标志物值和病史提供给神经网络nn11,神经网络能够确定群组群体。在操作2020,机器学习系统可以用于识别参数(例如风险因素、相应加权等)以将群组群体划分到多个类别,每个类别代表患有疾病的风险水平。机器学习系统可能事先不知道,哪些参数(例如风险因素)是最能预测患有肺癌的。因此,神经网络可以使用迭代过程确定这些参数,直到指定的标准得到满足(例如具有已被诊断为患有癌症的个体的群体的指定百分比,分类在风险最高的类别中)。神经网络可以细化参数(例如风险因素、加权等),直到满足指定的标准。在一些方面,神经网络nn11可以对群组群体执行聚类(例如使用统计聚类技术等),以识别风险因素,例如基于来自大量患者的医疗信息。例如通过对年龄执行聚类,神经网络nn11可以确定45-50岁之间的个体是最有可能患有癌症(例如首诊)。可以以类似的方式来选择其它参数。因此,机器学习系统可以选择初始参数集例如年龄/年龄范围、吸烟史(根据年和/或每年包数)以进行分析,并对每个参数分配初始加权。因此,通过使用聚类或其他分组/分析技术,可以识别预测参数。在操作2025,基于风险分数,将患者(例如在一些方面中,大量患者的每个患者)分类到群组群体的类别。在操作2040,通过与患者已知的分类相比较,确定患者的分类是否满足指定的标准。因为来自大量患者的信息包括患有或没有患有癌症的诊断,由神经网络产生的分类/风险评分可以评估准确度。例如没有患有癌症的大多数患者应具有高的风险分数,并被分类为高风险,而确实患有癌症的大多数患者应该具有低风险分数并被归类为低风险。在操作2050,如果分类(通过风险分数)满足指定的标准(例如在指定的错误率、误差范围、置信区间等内),则该过程可继续至图12中框“a”。否则,在操作2070,机器学习系统将选择参数的修订集(例如修订的参数可包括的医疗信息的新字段、每个字段的改变的加权等)来构建风险分数用于分类。例如如果最初使用年龄和吸烟史,可以使用年龄、吸烟史和生物标志物值来构建参数的修订集。作为另一实例,如果最初使用年龄和吸烟史来确定风险分数,可以使用对年龄的降低加权和对吸烟史的增加加权来构建参数的修订集。在操作2080,使用参数的修订集来构建群组群体的类别,并且该过程继续到操作2025。可以重复操作2025-2080直到达到指定的标准。参考图12,在操作2110,机器学习系统用于将个体患者分类(通过风险分数)到群组群体的类别(高风险、中等风险、低风险)。在操作2120,接收个体患者的附加医疗信息,其指示个体患者是否患有疾病(例如癌症)。在操作2130,做出个体患者的分类是否与附加的医疗信息(例如患者是否患有癌症的诊断)是一致的确定。如果在操作2140,分类与附加的医疗信息是一致的,则该过程可以结束。否则,如果结果不一致,在操作2150,机器学习系统选择群组群体的参数的修订集(例如参数可以包括医学信息的新的字段,每个字段改变加权等)。例如可以添加新的字段以选择新的群组(例如新的生物标志物)或可以调整输入到神经网络nn11的加权。在操作2160,基于参数的修订集(通过分配相应的风险分数)构建群组群体的类别,将个体患者分类到群组群体的类别,并且该过程通过操作2130-2160迭代直到达成一致。因此,神经网络是自适应系统。通过实例的学习过程,而不是通过不同的案例的常规程序化,神经网络能够响应新的数据而演变。还应当注意,用于训练人工神经网络的算法(例如梯度下降法、成本函数等)是本领域已知的,并且将不会详细包括在本文中。用于执行本文实施方案的方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写,包括诸如java、smalltalk、c++等的面向对象的编程语言和传统的过程编程语言,例如“c”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上执行,部分地在用户的计算机上执行,作为独立的软件包执行,部分地在用户的计算机上并且部分地在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(lan)或广域网(wan),或者可以连接到外部计算机(用于例如通过使用互联网服务提供商的互联网)。下面参考根据本发明实施方案的方法、装置(系统)和计算机程序产品的流程图图示和/或框图来描述本文实施方案的方面。应当理解,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令实现。可以将这些计算机程序指令提供给计算机,专用计算机或其他可编程数据处理装置的处理器以产生机器,使得通过计算机的处理器或其他可编程数据处理装置执行的指令创建用于实现流程图和/或框图的框中指定的功能/动作的工具。这些计算机程序指令也可以存储在计算机可读介质中,其可以引导计算机、其它可编程数据处理装置或其他设备以特定方式起作用,使得存储在计算机可读介质中的指令产生包括实现在流程图和/或框图的框中指定的功能/动作的指令的制造制品。计算机程序指令还可以加载到计算机、其它可编程数据处理装置或其他设备上,使得在计算机、其它可编程数据处理装置或其他设备上执行的一系列操作步骤,以产生计算机实现的过程,使得在计算机或其它可编程数据装置上执行的指令提供用于实现在流程图和/或框图的框中指定的功能/动作的过程。在附图中的流程图和框图示出根据本文各个实施方案的系统、方法和计算机程序产品的架构、功能和可能实现的操作。在这方面,流程图或框图中的每个框可以代表代码的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。还应当指出的是,在一些替代实现方式中,可能不以附图中标注的顺序发生在框中提到的功能。例如连续示出的两个框可以实际上基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还应注意,框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统,或专用硬件和计算机指令的组合来实现。应提前理解的是,尽管本发明公开包括关于云计算的详细描述,但是本文所述的教导的实现不限于云计算环境。而是,本文的实施方案能够结合现在已知或以后开发的任何其他类型的计算环境来实现。云计算是一种服务交付模型,使得能够方便地按需网络访问可配置计算资源的共享池(例如网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务),能够通过最少的管理工作或与服务提供商的交互来快速配置和发布。该云模型可以包括至少五个特征,至少三个服务模型和至少四个部署模型。特点如下:按需自助服务:云消费者可以根据需要自动地单方面地提供计算能力,例如服务器时间和网络存储,而不需要与服务提供者进行人工交互。广泛的网络访问:能力在网络上可用并且通过促进异构瘦或胖客户端平台(例如移动电话、膝上型计算机和pda)的使用的标准机制来访问。资源汇集:可以汇集提供者的计算资源以使用多租户模型为多个消费者服务,其中根据需求动态地分配和重新分配不同的物理和虚拟资源。这是一种位置独立感,因为消费者通常对所提供的资源的确切位置没有控制或认识,但是可能能够在更高抽象级别(例如国家、州或数据中心)指定位置。快速弹性:能够快速且弹性地提供能力,在一些情况下是自动地,快速放大并迅速释放以快速缩小。对于消费者,可用于供应的能力通常看起来是无限的并且可以在任何时间以任何数量购买。测量的服务:云系统通过利用适合于服务类型(例如存储、处理、带宽和活动用户帐户)的某种抽象水平的计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,从而为所使用的服务的提供者和消费者提供透明性。服务模型如下:软件即服务(saas):提供给消费者的能力是使用在云基础构架上运行的提供商的应用。可以通过诸如web浏览器(例如基于web的电子邮件)之类的瘦客户端接口从各种客户端设备访问应用。消费者不管理或控制底层云基础构架,包括网络、服务器、操作系统、存储或甚至个人应用功能,可能的例外是有限的用户特定应用配置设置。平台即服务(paas):提供给消费者的能力是部署到使用由供应商支持的编程语言和工具创建的云基础构架消费者创建或获得的应用。消费者不管理或控制底层云基础构架,包括网络、服务器、操作系统或存储,但是控制所部署的应用和可能的应用托管环境配置。基础构架即服务(iaas):提供给消费者的能力是提供处理、存储、网络和其他基本计算资源,其中消费者能够部署和运行任意软件,其可以包括操作系统和应用。消费者不管理或控制底层云基础构架,但控制操作系统、存储、部署的应用以及可能有限地控制选择网络组件(例如主机防火墙)。部署模型如下:私有云:云基础构架单独为某个组织运行。它可以由组织或第三方管理并且内部或外部存在。社区云:云基础构架被若干组织共享并支持有共同利害关系(例如任务、安全要求、政策和合规考虑)的特定社区。它可以由组织或第三方管理并且内部或外部存在。公共云:云基础构架提供给广大公众或大型产业群并且由出售云服务的组织拥有。混合云:云基础构架是两个或更多个云(私有云、社区云或公共云)的组合,其保持独特的实体,但是通过使数据和应用可移植的标准化的或专有技术结合在一起(例如用于云之间负载平衡的云爆发)。云计算环境是以集中在无状态、低耦合、模块化和语义互操作性为导向的服务。在云计算的心脏是包括互连节点的网络的基础架构。现在参考图7,显示了包括用于人工智能系统的计算节点的计算环境的实例。在一些实施方案中,节点可以是独立的(单个)计算节点。在一些实施方案中,节点可以在基于云的计算环境中实现。在其它实施方案中,节点可以是在分布式计算环境中的多个节点中的一个。因此,计算节点740仅是合适的人工智能计算节点的一个实例,并且不旨在暗示对本文描述的发明的实施方案的使用或功能的范围的任何限制。无论如何,计算节点740能够被实现和/或执行任何上文所述的功能。在云计算节点740有计算机服务器/节点740,其可与众多其他计算系统环境或配置一起操作。可以适合于与服务器/节点740使用的已知计算系统、环境和/或配置的实例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络pc、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境等。计算机服务器/节点740可以以计算机系统可执行指令的一般内容描述,诸如程序模块,由计算机系统执行。通常,程序模块可以包括例程、程序、对象、组件、逻辑、数据结构等等,其执行特定任务或实现特定抽象数据类型。服务器/节点740可以在其中由通过通信网络连接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中,程序模块可以位于本地和远程计算机系统存储介质,包括内存存储设备。图7显示了根据本发明实施方案的示例计算环境。服务器/节点740的组件可以包括但不限于一个或多个处理器或处理单元744、系统内存748、网络接口卡742以及总线746,总线746耦合包括系统内存748的各种系统组件至处理器744。总线746代表一个或多个的任意若干类型的总线结构,包括内存总线或内存控制器、外围总线、加速图形端口以及使用任何各种总线架构的处理器或局部总线。举例来说,而不是限制,这样的架构包括工业标准架构(isa)总线、微通道架构(mca)总线、增强型isa(eisa)总线、视频电子标准协会(vesa)本地总线以及外围组件互连(pci)总线。电脑服务器/节点740通常包括各种计算机系统可读介质。这种介质可以是计算机服务器/节点740可访问的任何可用介质,并且包括易失性和非易失性介质,可移动和不可移动介质。系统内存748可以包括以易失性内存形式的计算机系统可读介质,例如随机存取内存(ram)750和/或高速缓冲内存755。计算机系统/服务器740还可以包括其它可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过举例的方式,提供存储系统760用于读取和写入不可移动、非易失性磁介质(未显示并且通常称为“硬盘驱动器”或固态驱动器)。尽管未示出,可以提供用于读取和写入可移动、非易失性磁盘(例如“软盘”)的磁盘驱动器,以及用于读取和写入可移动、非易失性光盘例如cd-rom、dvd-rom或其它光学介质的光盘驱动器。在这种情况下,每一个都可以通过一个或多个数据介质接口连接到总线746。如下将进一步描绘和描述的,内存748可以包括具有被配置为实施本发明实施方案的功能的程序模块的组(例如至少一个)的至少一个程序产品。程序/实用程序770,其具有对应于nacs100的一个或多个元件的程序模块的组(至少一个),可以通过举例的方式而非限制性地存储在内存748,以及操作系统780,一个或多个应用程序,其他程序模块,和程序数据中。每个操作系统,一个或多个应用程序,其它程序模块和程序数据或者它们的一些组合也可以包括网络环境的实现。用于nacs100的程序模块通常实施如本文所述的本发明实施方案的功能和/或方法。计算机服务器节点740还可以与客户端设备710通信。客户端设备710可以具有一个或多个用户接口718,诸如键盘、点击设备、显示等,一个或多个处理器714,和/或使客户端设备710能够与计算机服务器/节点740通信从而与客户端设备710通信的任何设备(例如网卡712、调制解调器等)。此外,计算机服务器/节点740可以通过一个或多个网络725,例如局域网(lan)、广域网(wan)和/或公共网络(例如因特网),经由网络接口卡742与客户端710通信。如所示,网络接口卡742通过总线746与计算机服务器/节点740的其他组件通信。应该理解,尽管未示出,其他硬件和/或软件组件可以与计算机服务器/节点740结合使用。实例包括但不限于:微码、设备驱动器、冗余处理器、外部磁盘驱动器阵列、raid系统、磁带驱动器和数据存档存储系统等。一个或多个数据库730可以存储nacs100可访问的数据。在一些实施方案中,nacs100可以在单个服务器节点740上运行。在其它实施方案中,nacs100可跨越多个多重节点分布,其中主计算节点提供工作负载到多个从节点(未示出)。现在参考图8,描绘了示例性的云计算环境800。如所示,云计算环境800包括一个或多个云计算节点805,云消费者使用的本地计算设备,诸如,例如个人数字助理(pda)或蜂窝式电话810、台式计算机815、膝上计算机820可以通过其进行通信。节点805可以彼此通信。它们可以在一个或多个网络中物理地或虚拟地进行分组(未示出),所述网络例如如上所述的私有云、社区云、公共云或混合云,或其组合。这允许云计算环境800提供基础构架、平台和/或软件作为云消费者不需要维护本地计算设备上的资源的服务。应该理解,图8中所示的计算设备810-820的类型仅旨在说明,并且计算节点805和云计算环境800可以通过任何类型的网络和/或网络可寻址连接(例如使用网络浏览器)与任何类型的计算机化设备通信。现在参考图9,显示了由云计算环境800(图8)提供的功能抽象层的组。应该提前理解的是,图9中所示的组件、层和功能仅旨在说明,并且本发明的实施方案不限于此。如所示,提供了以下层和相应的功能:硬件和软件层910包括硬件和软件组件。硬件组件的实例包括大型机、基于risc(精简指令集计算机)架构的服务器;存储设备;网络和网络组件。软件组件的实例包括网络应用服务器软件、应用服务器软件和数据库软件。虚拟化层920提供抽象层,从该抽象层可以提供虚拟实体的以下实例:虚拟服务器;虚拟存储;虚拟网络,包括虚拟专用网络;虚拟应用和操作系统;和虚拟客户端。在一个实例中,管理层930可以提供下面描述的功能。资源供应提供计算资源和用于在云计算环境内执行任务的其他资源的动态获得。当在云计算环境内使用资源时,其他功能提供成本跟踪。在一个实例中,这些资源可以包括应用软件许可。安全性为云消费者和任务提供身份验证,以及保护数据和其他资源。用户门户为消费者和系统管理员提供对云计算环境的访问。工作负载层940提供可用于云计算环境的功能的实例。可从该层提供的工作负载和功能的实例包括:数据分析处理;神经网络分析等。本文所用的术语是仅出于描述特定实施方案的目的,并且不旨在以本发明的特定实施例进行限制。如本文所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。将进一步理解,在本说明书中使用的术语“包含”在/或“包括”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、组件和/或它们的组。所附权利要求书中的所有工具或步骤加功能元件的对应结构、材料、动作和等同物旨在包括用于结合具体要求保护的其他要求保护的元件执行功能的任何结构、材料或动作。已经出于说明和描述的目的给出了对本文实施方案的描述,但是并不旨在穷举或限制于本文公开的实施方案。在不脱离本发明的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施方案是为了最好地解释本发明的原理和实际应用,并且使其他本领域普通技术人员能够理解本发明,各种实施方案具有适合于预期的特定用途的各种修改。在另一个示例性实施方案中,本文描述的决策支持应用用于癌症的早期检测。在一个方面,决策支持应用利用来自血液生物标志物的数据、专利医疗记录、与从医学文献收集的增加或减少的肺癌风险相关联的流行病学因素、与从医学文献收集的增加或减少的肺癌风险相关联的临床因素、以及对通过本领域众所周知的各种扫描技术生成的患者x射线和其他图像的分析与从问答系统收集的信息一致,以便确定相对于适当的匹配群组的患者的癌症风险。在另一方面,利用机器学习基于先前结果改进算法,来随着时间的推移改进决策。在另一方面,医学图像包括但不限于基于x射线的技术(常规x射线、计算机断层(ct)、乳房x射线照相术和造影剂的使用),使用各种放射性药物显示生物过程的分子成像、磁成像(mri)和超声波。在另一方面,本文所述的nacs100提供患者的肺癌风险以及对其他非癌肺病的可能性的评估。例如本发明申请可以评估copd、哮喘或其他疾病的可能性。在另一方面,本文描述的应用可以同时提供对患者多种癌症风险的评估。在另一方面,本发明的应用还可提供潜在测试的列表,其可增加每个潜在评估风险的置信度值,以及由于新数据而增加或减少评估风险。在另一方面,可以分析以评估患者的肺癌相对风险的临床和流行病学因素包括但不限于疾病症状如持续性咳嗽、血性咳嗽或意外体重减轻等,放射学结果如来自胸部x射线或ct扫描的可疑结果,以及环境因素如暴露于空气污染、氡、石棉或二手烟的量,根据使用时间和使用强度的吸烟史,以及肺癌家族史。在另一示例性实施方案中,本文描述的机器学习应用提供以安全的基于云的医师门户的结果。本领域技术人员认识到,本文公开的实施方案可以用能够进行机器学习和自然语言处理的任何高级应用来实施。本文引用的所有参考文献均以引用的方式整体并入。实施例给出以下实施例以说明本发明的实施。它们并非旨在限制或定义本发明的整个范围。实施例1:研究肺癌生物标志物表达与临床参数变量美国国家肺筛选试验(“nlst”)表明,低剂量ct(ldct)筛选程序可降低高危患者的疾病特异性死亡率20%和总死亡率7%,这证明了早期肺癌检测拯救生命(并认为减少生存期的特定疾病医疗费用)[thenationallungscreeningtrialresearchteam.reducedlung-cancermortalitywithlow-dosecomputedtomographicscreening.nengljmed.2011;365:395–409.doi:10.1056/nejmoa1102873]。然而,主要ldct的缺点包括高的假阳性率和无法明确区分良性结节,可涉及昂贵的侵入性的后续程序[bachpb,mirkinjn,olivertk,azzolicg,berryda,brawleyow,etal.benefitsandharmsofctscreeningforlungcancer:asystematicreview.jama.2012;307(22):2418–29;croswelljm,kramerbs,kreimerar,prorokpc,xujl,bakersg,etal.cumulativeincidenceoffalse-positiveresultsinrepeated,multimodalcancerscreening.annfammed.2009;7:212–22;woodde,eapenga,ettingerds,etal.lungcancerscreening.jnatlcancercomprnetw2012;10:240-265]。假阳性ldct的结果发生在相当比例的经筛选的人中;所有阳性结果的95%不会导致癌症诊断。大多数肺病专家认为,需要生物标志物测试来辅助(compliment)放射线照相筛查,因为ldct实现了其最终稳态利用。参与目前的研究是具有肺结节并证实肺癌的现吸烟者或前吸烟者(最近15年之内停止)的459个受试者的群组(肺癌试验组),以及具有证实的良性肺结节的139个匹配的对照。所有的参与者均在50岁或以上,具有20的吸烟指数或以上的吸烟史。在放射线照相筛查的6周内,所有受试者捐献血液用于生物标志物的测量。放射线照相筛查用来表征肺结节,包括大小和数量。相关联的患者信息包括年龄、性别、种族、最终诊断包括肺癌分期和组织学类型、肺癌家族史、吸烟指数、每天包数(如吸烟强度)、吸烟持续时间(年)、吸烟状况、症状、咳嗽(是或否)以及痰中含血。人口统计和临床信息对于对照组,中间年龄(mediumage)为58岁,91%为男性(9%为女性),50%是无症状的和9%有肺癌的家族史。对于测试组(确认的肺癌),中间年龄为62岁,91%为男性(9%为女性),43%是无症状的和8%有肺癌的家族史。测试组和对照组之间的吸烟史是相似的,两组的中位数吸烟指数为40。在对照组中,87%为现吸烟者,戒烟中位数年龄为53.5岁和戒烟后3年,相比于测试组中89%的戒烟中位数年龄为60岁和戒烟后4年。在肺癌组中,44%被分期为早期(i和ii期)和56%为晚期(iii和iv期)。肺癌被分类为腺癌40%,鳞癌34%,小细胞癌19%,大细胞癌4%,以及其他3%。使用可商购的试剂和来自rochediagnostics的免疫测定技术来测量血清生物标志物。测量的生物标志物包括cea、ca19-9、cyfra21-1、nse、scc和progrp,并且将水平报告为测试值。获得的临床参数包括肺癌的家族史、结节大小、吸烟指数、每天包数(或吸烟强度)、研究时的患者年龄、吸烟持续时间(年)、吸烟状况、咳嗽(二元)、血液。表1:良性结节(对照组)生物标志物中位数(蛋白质或单位)ca19-99cea2cyfra2nse11pro-grp34scc1表2:肺癌(测试组)生物标志物中位数(蛋白质或单位)ca19-911cea4cyfra4nse13pro-grp37scc1分析将这些变量(生物标志物或临床参数)的每个在单变量逻辑回归模型中分析并且一起在多变量逻辑回归模型中分析。下面提供以接受者操作特征(roc)曲线的曲线下面积(auc)的变量分析。表3:生物标志物与临床参数分析进一步分析生物标志物,比较具有和不具有临床参数的6-标志物组和5-标志物组。将从生物标志物组和临床参数组计算的auc值与生物标志物组加上临床参数相比较,表明将临床参数变量加入到多变量逻辑回归模型分析的改进。所测试的生物标志物中,四种有助于分析用于区分良性和恶性结节;它们是cea、cyfra、nse和progrp。所测试的临床参数中,六种有助于用于区分良性和恶性结节得多变量分析;它们是患者年龄、吸烟状况、吸烟史(包括吸烟指数、以年数表示的吸烟持续时间和吸烟强度)、胸部症状(如胸痛、痰中含血、胸闷)、咳嗽和结节大小。表4:6-生物标志物组和临床参数分析表5:5-生物标志物与临床参数分析实施例2:多标志物算法用于区分良性和恶性肺结节将来自实施例1的具有肺结节的现和前(在过去15年内停止)的459个受试者的群组扩展至1005个受试者的总群组,其中该研究的目的是以成本有效且快速的方法筛选大量的现有数据,用于风险评估算法开发并证明使用算法从标志物组生成结果而不是“任何标志物高”方法的重要性。我们还探索了使用先进的机器学习模型将肺结节分类为良性或恶性。在这里,我们报道了使用来自ldct筛选群组的数据(n=1005)用于预测肺结节中肺癌概率的模型和计算器的开发。如下文和实施例1中所公开的,获得并分析来自具有放射线照相明显肺结节的1005个受试者的群组的数据,其中502个参与者患有恶性结节“癌症”,503个参与者是具有良性结节的“对照”组。收集的数据在分析前是不知情的。选择包括在研究中的所有受试者是:a)初始评估时的年龄为50-80岁;b)吸烟指数为20+的吸烟者,以及c)现吸烟者或过去15年内戒烟的吸烟者,并且包括有症状和无症状的受试者。测试所有受试者的以下癌症生物标志物:cea、cyfra21-1、nse、ca19-9、pro-grp和scc。通过临床结果、成像诊断和组织学检查确认每位癌症患者(具有放射线照相明显肺结节的那些)的诊断。还收集了每个参与者的以下临床特征:抽血时的年龄、性别、吸烟史(现或前)、吸烟指数、肺癌的家族史、症状的存在、伴随的疾病以及结节的数量和大小。表6:癌症和对照受试者的临床特征蛋白质生物标志物浓度通过使用abbott试剂组(abbott,usa)通过微粒酶免疫测定法来确定,并通过化学发光分析仪(architecti2000sr,abbott,usa)根据制造商的建议进行测量。统评分析使用逻辑回归预测二元(是/否)癌症患者结果,其中使用是连续的(例如生物标志物浓度的值)或二分的(例如现或前吸烟者)的独立变量的向量。在逻辑模型中,二元(是/否)结果被使用以下等式转换为概率函数[f(p)]:因此,概率函数然后可以用在预测模型中,其中包括截距(α),以及用于预测器(x)的估计值(β)。f(p)=α+βx当使用一个以上的预测器时,该模型被称为多变量逻辑回归:f(p)=α+β1xi1+β2xi2+…+βpxip逐步逻辑回归是多变量逻辑回归的特殊类型,其中如果在预测器的卡方统计量的预测强度满足预先确定的显著性阈值(α=0.3),则预测器被迭代地包括在该模型中。处理整个数据集(n=1005)作为用于模型开发的训练数据集。6种生物标志物(cea、cyfra21-1、nse、ca19-9、pro-grp和scc)和7种临床因素(吸烟状况、吸烟指数、年龄、肺癌病史、症状(例如与肺癌相关的症状和体征:咳嗽、咳血、气短、喘息或嘈杂呼吸、食欲不振、疲倦、反复感染等)、结节大小和咳嗽)的组进行分析。在分析中,没有数值的症状(例如咳嗽)被分配一个二进制值(1或0,症状存在或者不存在),而具有数值的症状(例如年龄或吸烟指数)用于分析中。将开发的mlr模型与“任何标志物高”方法进行比较,其中如果任何个体生物标志物值高于其各自的截止点,则该测试被认为是阳性的。对于新模型开发,我们将临床参数添加到生物标志物组。在实施方案中,mlr用于计算生物标记和临床参数的组的测量值的概率值(在本文中也称为综合分数或预测概率),然后将概率值与阈值进行比较以确定概率值是否高于或低于阈值,其中如果概率值高于阈值,则将患者中的放射线照相明显肺结节分类为恶性,或者如果概率值低于阈值,则将患者中的放射线照相明显肺结节分类为良性。在实施方案中,阈值简单地为50%的预测值,其中具有约50%预测值的患者被分类为具有恶性肺结节或被认为具有恶性肺结节的增加的可能性。在其他实施方案中,基于80%灵敏度来确定阈值,其中基于预测值来执行roc/auc分析以确定其是否高于或低于设定阈值。在三次运行中测试了预测肺癌(恶性肺结节)的一系列替代统计方法,每次使用80%的样品作为训练数据集并且20%作为测试集。以下方法在模型上并排运行,具有以下临床参数和生物标志物组:吸烟状况、患者年龄、结节大小、cea、cyfra和nse。在这项研究中,该组对于正确区分良性和恶性肺结节最具预测性(最高auc)。1.逻辑模型:简单的传统逻辑回归模型;2.随机森林:这是使用breiman随机森林算法进行分类和回归,这可以避免过度拟合训练数据集。共有500个决策树来运行随机森林。3.神经网络:在模型中使用传统的反向传播算法,以及2个隐藏层。4.支持向量机(svm):使用r包“e1071”的默认设置;5.决策树:使用r包“rpart”中的递归分区和回归树;6.深度学习:使用r包“h2o”的默认设置,它在神经网络中有200个隐藏层。使用v9.3或更高版本进行所有的统计分析。结果逻辑回归(单变量、多变量和逐步多变量)用于开发肺癌风险预测的算法。在表7中报告逻辑回归分析的结果以进行预测报告恶性肺结节:表7:单变量和多变量逻辑回归预测肺癌(n=1005)如表7中所示,使用所有6种生物标志物(吸烟状态、患者年龄、结节大小、cea、cyfra和nse)的“任何标志物高”单变量模型或多变量模型两者中的生物标记的组合比单独考虑的个体生物标志物更准确(auc0.51-0.77对比0.74和0.84)。然而,与具有所有6种生物标志物的多变量模型(0.84)相比,具有0.74auc的单变量“任何标志物高”模型显然不如预测模型好。对于新模型开发,我们将临床参数加入组合6种生物标志物(cea、cyfra、nse、pro-grp、scc、ca19-9)和7种临床变量(肺癌家族史、结节大小、记录的症状(例如、与早期或晚期肺癌相关的那些,例如与肺癌相关的症状和体征:咳嗽、咳血、呼吸短促、喘息或呼吸嘈杂、食欲不振、疲劳、反复感染等)、吸烟指数、患者年龄、吸烟状况、咳嗽)的生物标志物组。该模型产生最高的auc为0.87。当特异性固定在80%时,1)“任何标志物高”模型,2)仅有6种生物标志物的模型,3)组合6种生物标志物和7种临床因素的模型的灵敏度分别为46.0%、70.4%和75.2%。基于单变量和多变量结果,选择六种预测因素(3种生物标志物和3种临床因素)的组:cea、cyfra、nse、吸烟状态、检查时的患者年龄和结节大小。6种预测因素的该组产生最佳鉴别准确度在80%特异性的0.88auc和76%灵敏度(图13,表7)。在该模型中计算风险(即肺癌的概率)的算法是:f(p)=α+β吸烟状态x吸烟状态+β检查时的患者年龄x检查时的患者年龄+β结节大小x结节大小+β测试值_ceax测试值_cea+β测试值_cyfra+β测试值_nsex测试值_nse使用组合的生物标志物临床模型,我们通过癌症分期和组织学进行测试准确度的评价。表8示出了随着癌症阶段增加,测试灵敏度得到了改善。最普遍的类型nsclc(腺癌和鳞状细胞癌(scc))证明了在该研究中类似的性能(分别地,灵敏度为72%和77%;auc0.85和0.87,p<0.0001)(表8)。小细胞肺癌(sclc)是一种快速增长的癌症类型,其代表了在早期检测和诊断的挑战,以在80%特异性的0.95auc和82%灵敏度得到检测。表8:多变量逻辑结果包括变量吸烟状况、患者年龄、结节大小、cea、cyfra和nse,通过分期和组织学亚型进行分类基于3种生物标志物加3种临床因素模型,计算患有肺癌的患者的相对风险(病例中“阳性”结果与对照的比例的比较)。患者的测量的生物标志物的浓度和数值临床预测器(例如0或1用于有或无临床参数,或者相关数字,如年龄、吸烟指数、结节大小)乘以来自逻辑回归模型的最大可能性估计。然后将这些值求和并乘以100来计算患者的癌症风险%的概率。这可能是为了让医生基于我们所使用的模型知道他们的患者患有癌症的可能性的诊断工具。此外,那些肺癌增加的风险的患者可以用ct进行筛选或提供治疗性处理。高级认知计算方法模型我们还使用整个数据集(n=1005)来评估深度学习神经网络(dnn)方法以及其他建模方法(随机森林、分类和回归树、支持向量机)(表9)。这些方法已被用于开发算法,其将组中最具预测性的生物标志物和临床参数的测量组合在一起以实现最高的诊断准确度。表9中总结的结果证明,与其他方法相比,dnn方法在鉴别肺癌和良性肺结节方面提供了更好的预测准确度。表9:使用3种生物标志物和3种临床变量(吸烟状况、患者年龄、结节大小、cea、cyfra和nse)从不同的建模方法(随机森林、svm、决策树和深度学习神经网络)来预测肺癌的结果对比方法auc*95%ci#在80%特异性的灵敏度随机森林0.8620.821-0.90275svm0.8480.805-0.89169决策树0.8060.759-0.85271深度学习(dnn)0.8900.832-0.91079模型交叉验证:交叉验证是用于评估结果如何能够推广到独立的数据组中的一个重要的模型验证技术。我们采用重复随机亚抽样验证,其中我们将数据集随机拆分为不同比例的训练和验证集。对结果在拆分上进行平均并在表9中提供。与结节大小的关系对来自n=1005群组的数据的进一步分析集中于恶性结节的结节大小和概率结节的关系。图14中的直方图显示了n=1005的群组中“癌症”和“对照”参与者的结节大小的分布。该组中的535个患者具有直径为30mm或更高的结节。一般而言,患有肺癌(恶性结节)的患者的肺结节大小大于良性结节。整个数据集分类为3个结节大小:0-14、15-29和≥30mm。在n=1005群组数据集的3个子样品上进行单变量然后多变量和逐步多变量逻辑回归分析。基于这些结果,针对每个结节大小类别,选择组合生物标记值和临床因素的最佳模型。参见表10。第一个结节类别(低于14mm)的mlr模型包括4种生物标志物(cea、cyfra、nse、pro-grp)和4种临床参数(检查时的患者年龄、咳嗽、吸烟持续时间、症状的存在)。pro-grp没有提高结节组2和3的测试准确度,并且从模型中省略。表10:由结节大小类别的模型性能图15显示了三个结节亚组的roc图。如表10和图15所示,具有小结节(0-14mm)的患者中组合的生物标志物-临床因素评估的auc为0.84,具有中等大小结节(15-29mm)的那些为0.79,并且具有大结节(3cm以上)的那些为0.91。最佳模型是3种生物标志物(cea、cyfra、nse)+4种临床参数(患者年龄、咳嗽和吸烟持续时间)的组合,以区分恶性中等大小结节(15-29mm)和良性,具有62.8%的灵敏度和77.2%的特异性。参见表10。相同的生物标志物和临床参数组合用于大的结节(≥30mm)并分类良性和恶性结节之间的差异,具有更高的灵敏度和特异性分别为83.7%和81.9%。参见表10。对于最小的结节(0-14mm),最佳模型是4种生物标志物(cea、cyfra、nse和pro-grp)和4种临床参数(症状、患者年龄、咳嗽和吸烟持续时间)。为了计算每个结节大小类别中肺癌的%概率,使用来自mlr模型的最大可能性估计。图16中的散点图显示了每个结节大小类别的肺癌概率。讨论ldct的高灵敏度以检测许多假阳性为代价,包括良性肺结节。研究表明,放射科医生很难有效区分真(恶性)结节和假阳性。此外,对在筛选ct扫描中发现的小的肺结节的管理已成为一个非常困难的问题。当发现结节的大小在8mm至15-20mm之间时(lung-rads1.0版评估类别4a、4b和4x),医生面临各种各样的选择并平衡复杂的临床图像。分类为lung-rads4类的患者(在美国所有ldct中约6%明显存在)给医生带来的困惑是,是否包括附加的ldct、有或没有造影的全曝光ct、pet-ct、穿刺活检或切除。血液生物标志物测试能够识别具有较高风险的患者,备选地,较低风险的肺癌(具有显著的灰色区域),将有益地改善处理患有肺癌的患者的护理和成本。我们现在具有令人信服的证据,即通过使用算法方法,我们能够生成风险分数(增加的肺癌风险),其比从任何个体标志物或通过“多重截止值”方法获得的风险评估更准确。在本研究中,我们分析了来自中国的高风险患者的回顾性群组的大数据集(n=1005),并在该训练集中证明了使用整合生物标志物值和临床因素的算法显著提高了生物标志物测试的准确性。组合的基于mlr的生物标志物-临床模型的总体灵敏度为76%在80%的特异性和0.88auc。该性能明显优于单变量“任何标志物高”模型,其auc为0.74,在80%的特异性的灵敏度为46%。本研究中早期疾病(i和ii)的灵敏度在80%的特异性为约66%(基于3种生物标志物加3种临床因素mlr模型),而晚期(iii和iv)灵敏度为约90%。深度学习神经网络方法的使用进一步改善了测试性能,导致在80%的特异性的灵敏度为77%。初步结果表明,深度神经网络提供了比其他方法更好的预测准确度结果。我们还在具有不确定的单肺结节的患者的意图测试群体中建立了算法。大小超过30mm的肺结节被假定是恶性的并且通过手术除去。5-30mm的结节可能是良性或恶性的,恶性肿瘤的可能性随着大小而增加。因此,需要能够减少假阳性的数量并减少不必要的活检的次数的血液测试。n=1005组群集包括具有15-29mm结节的371个患者。在美国,根据结节大小分类到该组的患者被积极跟踪,因为具有这种大小结节的患者(例如15-29mm)肺癌的发生率较高,而且由于小于30mm,他们并经常不送去手术切除结节。本发明血液生物标志物算法可以以63%的灵敏度和77%的特异性识别该群组(15-29mm)中的肺癌患者。n=1005群组中的近100个患者的结节大小小于15mm。在美国,根据结节大小分类到该组的患者是保守治疗的。本发明组合的生物标志物-临床因素算法可以以61%的灵敏度和89%的特异性识别该组中具有高癌症风险的患者的亚群体(0-14mm结节)。这种算法的使用可能有效地指示进一步的诊断和/或侵入性程序,例如ct扫描、针刺活检或组织切除。总之,该病例对照研究证明,通过添加临床因素和高级数据处理(算法)可以显著改善免疫测定标志物的性能。我们开发了一种具有生物标记物和临床变量的不连续的多变量模型,可区分恶性结节和良性结节。实施例3:使用癌系统的神经分析(nacs)来区分良性和恶性肺结节如上文实施例1中所做的,可以收集来自个体患者的数据,包括血清生物标志物和临床参数。可以通过网络应用收集包括临床/数字人口统计数据、成像诊断和相应的文本笔记以及生物标记数据的患者信息,并将其存储在电子记录数据库中。基于从该表格收集的信息,nacs可以分析数据,确定群组群体(来自训练数据集),构建风险类别,并为患者生成相应的风险分数。根据患者被分类到哪个类别,从风险分数中,肺结节是良性或恶性的可能性。在实施方案中,nacs可以分析数据,确定群组群体(来自训练数据集),构建阈值,生成恶性结节的概率值,并且如果概率值高于阈值,则将患者中的放射线照相明显肺结节分类为恶性,或者如果概率值低于阈值,则将患者中的放射线照相明显肺结节分类为良性。因此,作为输出,可以由nacs生成指示相对于患者群组的个体患者的风险的报告。风险可以报告为百分比、乘数或任何等价物。报告还可列出误差范围,例如72%的机会加上或减去10%。通常,报告将列出用于构建群组群体的参数。例如如果nacs确定群组的参数是结节大小、年龄、家族史、吸烟状况、吸烟史,那么报告列出了群组参数,例如年龄53、10年吸烟史每天2包、亲戚(父亲)60岁时死于肺癌。应当理解,这些群组参数是实例,并且通过nacs可以选择许多其他组的群组参数,例如基于对系统的输入的任何组合。在一些实施方案中,提供群组大小,例如群组可以是525个个体。此外,可以提供遗传风险因素的列表,例如来自基因测试的突变,例如[egfr,kras],家族史和生物标志物分数[生物标志物和相应的浓度(如果适用),例如cyfra8ng/ml,ca15-345u/ml]。因此,来自个体患者的生物标记数据可以被提供给nacs,并且nacs可以分析数据(例如临床和数值数据、症状等)以输出患者预测的患有癌症的可能性的报告。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1