用于预测患有癌症的可能性或风险的方法和机器学习系统与流程

文档序号:37261811发布日期:2024-03-12 20:41阅读:11来源:国知局
用于预测患有癌症的可能性或风险的方法和机器学习系统与流程

本发明的实施方案一般涉及使用人工智能/机器学习系统来分析数据并基于该数据进行预测,并且更具体地涉及预测患有例如癌症这样的疾病、尤其是在另外无症状或不明显症状的患者中的可能性或风险。


背景技术:

0、背景

1、癌症的早期检测

2、对于许多类型的癌症,如果手术和其它治疗性干预在肿瘤已经转移之前开始,则患者结果显著改善。因此,已经将成像和诊断试验引入医疗实践中,试图帮助临床医生早期发现癌症。这些包括各种成像模式,例如乳房x线照相术以及诊断试验,以鉴定血液和其它体液中的癌症特异性“生物标志物”,例如前列腺特异性抗原(psa)测试。许多这些测试的价值经常受到质疑,尤其是关于与假阳性、假阴性等相关的成本和风险是否超过了挽救实际寿命的潜在收益。此外,为了证明这一价值,必须在现实世界(前瞻性)研究而不是实验室存储的(回顾性)研究中产生大量-数以千计乃至数以万计-的患者数据。不幸的是,开展大规模的筛查工具的前瞻性研究的成本超过了合理预期的财务回报,因此这些大型的前瞻性研究几乎从未由私营部门完成,而仅是偶尔由政府提供赞助。因此,用于早期检测大多数癌症的血液测试的使用范例在几十年内进展甚微。例如,在美国,psa仍然是唯一广泛使用的用于癌症筛查的血液试验,且甚至其使用已成为有争议的。在世界上其它地区,尤其是远东地区,检测各种癌症的血液检测更为普遍,但几乎没有标准化或经验性方法来确定或改善世界这类地区这类测试的准确性。

3、因此,期望在其常见的那些区域中改善癌症筛查的准确性和标准化,并且因此生成可改善和/或鼓励在其较不常见的那些区域中的癌症筛查的工具和技术。

4、与检测病毒或细菌感染相比,癌症检测带来显著的技术挑战,因为与病毒和细菌不同,癌细胞与正常健康细胞在生物学上相似并且难以区分。出于这个原因,用于癌症早期检测的试验通常比用于病毒或细菌感染的可比试验或用于测量遗传、酶或激素异常的试验的假阳性和假阴性数量更高。这经常在医疗保健从业人员和他们的患者中导致混淆,导致在某些情况下进行不必要的、昂贵的和侵入性的后续测试,而在其它情况下完全忽视后续测试,导致癌症被检测过晚而无法进行有效干预。临床医生和患者欢迎产生二元判定或结果的试验,例如,患者的病症是阳性还是阴性,例如在非处方妊娠试验试剂盒中观察到的,其例如呈现形式为正号或负号的免疫测定结果,指示是否妊娠。但是,除非诊断的灵敏度和特异性接近99%,即对于大部分癌症试验无法达到的水平,否则这类二元输出可能具有高度误导性或不准确性。

5、因此,尽管二元输出不切实际,但是仍期望为医疗保健从业人员及其患者提供关于患有特定癌症的可能性的更多定量信息。

6、由于与现代医学实践相关的因素,检测早期癌症也是具有挑战性的。特别是初级保健提供者典型地每天看到大量患者,并且医疗费用控制的需求显著缩短了他们与每个患者一起度过的时间。因此,医生通常缺乏足够的时间去深入探索家庭和生活方式的历史,为患者提供健康生活方式的咨询,或者对那些被推荐进行超出门诊实践所提供的测试的患者进行随访。

7、因此,希望向尤其是大量初级保健提供者提供有用的工具以帮助他们对患有癌症的患者进行分类或比较相对风险,以便他们可以对处于最高风险中的那些患者预定额外的测试。

8、肺癌和早期检测

9、迄今为止,肺癌是造成北美和世界大部分地区癌症死亡的主要原因,比接下来三种最致命的癌症(即乳腺癌、前列腺癌和结肠直肠癌)共同造成的死亡人数更多。仅在美国,肺癌每年导致超过156,000人死亡(american cancer society.cancer facts&figures2011.atlanta:american cancer society;2011)。烟草使用已被确定为肺癌的主要致病因素,并被认为占约90%的病例。因此,年龄超过50岁且超过20的吸烟史的个体一生中有七分之一发生该疾病的风险。肺癌是一种相对沉默的疾病,如果有任何特殊症状,直到达到更晚期阶段之前几乎不显示。因此,大多数患者直到其癌症转移出肺部之后才会被诊断出来,并且该癌症不再可以单独通过手术治疗。因此,尽管预防肺癌的最佳方法可能是戒烟或停止吸烟,但对于许多目前和过去的吸烟者来说,已经发生了转变性致癌事件,并且尽管癌症尚未显现,但损害已经完成。因此,或许降低肺癌死亡率的最有效手段是当肿瘤仍然局部化并且顺从治愈目的的手术时的早期检测。

10、早期检测的重要性最近在大型7-年临床研究-国家肺癌筛查试验(national lungcancer screening trial)(nlst)中得到证实,该试验比较了胸部x射线和胸部电子计算机断层(ct)扫描作为肺癌早期检测的潜在形式(national lung screening trial researchteam,aberle d.r.,adams a.m.,berg c.d.,black w.c.,clapp j.d.,fagerstrom r.m.,gareen i.f.,gatsonis c.,marcus p.m.,sicks j.d.reduced lung-cancer mortalitywith low-dose computed tomographic screening.n.engl.j.med.2011aug.4;365(5):395-409)。该试验得出的结论是,使用胸部ct扫描来筛查高危人群比胸部x射线显著地鉴定更早期的肺癌并导致疾病死亡率总体降低20%。这项研究清楚地表明,早期鉴定肺癌可挽救生命。不幸的是,ct扫描作为肺癌筛查方法的广泛应用是有问题的。nlst设计采用了系列ct筛查范例,其中患者每年接受ct扫描,仅需三年。接受年度ct扫描超过3年的参与者中,近40%至少有一次筛查结果为阳性,且这些阳性筛查结果的96.4%为假阳性。这种非常高的假阳性率会导致患者焦虑并给医疗保健系统带来负担,因为使用低剂量ct扫描的阳性发现后的随访通常包括高级成像和活检。虽然ct扫描是肺癌早期检测的重要工具,但在nlst结果公布后两年以上,极少数因吸烟史而处于肺癌高风险中的患者启动了年度ct扫描计划。这种不情愿每年进行ct扫描的原因可能是由于许多因素,包括成本、感知的辐射暴露风险(尤其是通过系列ct扫描)、给放射中心安排单独诊断程序的无症状患者造成的不便或负担以及医生对ct扫描作为独立试验的假阳性率极高的担忧,这将导致大量不必要的随访诊断试验和侵入性操作。

11、虽然吸烟者中肺癌的总体终生风险很高,但任何个体吸烟者在特定时间点患有癌症的几率为1.5-2.7%[bach,p.b.等人,screening for lung cancer*accp evidence-based clinical practice guidelines(第2版).chest journal,2007.132(3_增刊):p.69s-77s.]。由于这种疾病流行率低,所以鉴定哪些患者处于最高风险中是具有挑战性和复杂性的。

12、期望进行血液试验来补充使用射线照相筛查来早期检测肺癌。

13、人工智能/机器学习系统

14、人工智能/机器学习系统对于分析信息是有用的,并且可以帮助人类专家进行决策。例如,包括诊断决策支持系统的机器学习系统可以使用临床决策公式,规则,树或其它过程来帮助医师进行诊断。

15、尽管已经开发了决策系统,但是这样的系统在医疗实践中并未广泛使用,因为这些系统遭受了限制,从而无法将其融入到卫生组织的日常操作中。例如,决策系统可能会提供难以管理的数据量,依赖于具有极小的显著性的分析,并且不与复杂的多发病良好相关(greenhalgh,t.evidence based medicine:a movement in crisis?bmj(2014)348:g3725)

16、许多不同的医护人员可以看到患者,并且患者数据可能以结构化和非结构化形式分散在不同计算机系统中。此外,这些系统很难与之互动(berner,2006;shortliffe,2006)。患者数据的录入困难,诊断建议的列表可能太长,且诊断建议背后的推理并不总是透明的。此外,这些系统对下一步行动的重视程度不够,并且不能帮助临床医生弄清楚如何帮助患者(shortliffe,2006)。

17、因此,期望提供允许人工智能/机器学习系统用于帮助癌症的早期检测、尤其是使用血液测试的方法和技术。


技术实现思路

0、概述

1、本发明的实施方案一般涉及测量生物标志物(例如肿瘤抗原)的非侵入性方法、诊断试验、特别是血液(包括血清或血浆)试验,以及计算机执行的机器学习方法、装置、系统和计算机可读介质,其用于相对于患者群体或组群评估患者患有疾病例如癌症的可能性,以确定是否应当对患者追踪进行额外的更有侵入性的测试。

2、在实施方案中提供了一种计算机执行的方法,用于在计算机系统中预测患者中患有癌症的可能性,所述计算机系统具有耦合到存储器的一个或多个处理器,所述存储器存储一个或多个计算机可读指令以供一个或多个处理器执行,所述一个或多个计算机可读指令包含用于以下操作的指令:存储包含多个患者记录的一个数据集,每个患者记录包括患者的多个参数和相应值,并且其中所述数据集还包括诊断指示符,其指示该患者是否已被诊断出患有癌症。在实施方案中,患者记录是回顾性数据,其包括诊断和患者数据,例如测量的生物标志物和临床参数。计算机执行的方法包括选择用于输入到机器学习系统中的多个参数的子集,其中该子集包括由至少两种不同生物标志物和至少一种临床参数组成的组;将该数据集随机分成训练数据和验证数据;基于训练数据和输入子集使用机器学习系统生成分类器,其中每个输入值具有相关联的权重;并确定分类器是否符合预定的接收器操作者特征(receiver operator characteristic)(roc)统计值,指定灵敏度和特异性,用于患者的正确分类。

3、在实施方案中,预定的roc统计值具有至少70%的灵敏度与至少80%的特异性。在某些实施方案中,具有80%特异性的灵敏度为至少75%、80%、82%、85%、87%、90%、91%、92%、93%、94%、95%、96%、97%或98%。在其它实施方案中,具有85%特异性的灵敏度为至少70%、75%、80%、82%、85%、87%、90%、91%、92%、93%、94%、95%、96%、97%或98%。在实施方案中,具有90%特异性的灵敏度为至少70%、75%、80%、82%、85%、87%、90%、91%、92%、93%、94%、95%、96%、97%或98%。

4、在实施方案中,计算机执行的方法还包括:当分类器不满足预定的roc统计值时,通过使用输入的不同子集和/或通过调整输入的相关联的权重反复地再生分类器直到再生的分类器满足预定的roc统计值。在某些实施方案中,计算机执行的方法还包括当机器学习系统满足预定的roc统计值时生成分类器的静态配置。当分类器是静态的、半静态的(例如分类器可以以指定的时间间隔更新)或动态的(例如当患者的附加数据被输入到作为诊断包括的系统中时,分类器被更新,分类器可以例如由医生使用)时,例如,可以由临床医师使用该分类器。典型地,用射线照相筛查和/或活组织检查样品的组织学来证实对癌症存在的诊断。

5、在实施方案中,该方法包括使用分类器分类验证数据;确定分类器是否满足预定的roc统计值;并且当分类器不满足预定的roc统计值时,通过使用不同的输入子集和/或通过调整输入的相关联的权重反复地再生分类器,直到再生的分类器满足预定的roc统计值。在实施方案中,该方法进一步包括:用静态分类器配置用户可访问的计算装置;将对应于患者的所述多个参数的子集值输入到所述计算装置中;以及使用静态分类器将患者分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别。

6、在实施方案中,指示患有癌症的可能性的类别被进一步分类为定性组,例如低,中,高或其一些组合或子组合。在替代实施方案中,指示患有癌症的可能性的类别被进一步分类为定量组。这些定量组可以作为百分比,乘数值,综合分数或用于患有癌症的可能性或患有癌症的风险增加的风险分数提供给使用者。在某些实施方案中,所述方法还包括当患者被分类为指示患有癌症的可能性的类别时向用户提供推荐诊断测试的通知。在实施方案中,诊断测试是射线照相筛查或活检样本的分析。

7、在其中分类器被更新的实施方案中,该方法进一步包括从诊断测试获得确认或否定癌症存在的测试结果,将测试结果并入训练数据以用于机器学习系统的进一步训练;并通过机器学习系统生成改进的分类器。

8、在实施方案中,生物标志物可以是与癌症存在相关的任何两种,任何三种,任何四种,任何五种或任何六种或更多种生物标志物。在实施方案中,生物标志物组选自:afp,ca125,ca 15-3,ca 19-19,cea,cyfra 21-1,he-4,nse,pro-grp,psa,scc,抗-细胞周期蛋白e2,抗-mapkapk3,抗-ny-eso-1和抗p53。在实施方案中,从患者获得样品用于测量生物标志物,其中样品是血液,血清,血浆或其成分。在实施方案中,临床参数可以是如下的一个或多个:年龄;性别;吸烟状况(如肺癌);吸烟指数(pack years);症状;癌症家族史;伴随疾病;结节数量(如肺结节);结节大小;和成像数据。参见实施例4的肺癌生物标志物和临床因素的排名。在实施方案中,肺癌的临床参数包括吸烟状况,吸烟指数和年龄。在某些实施方案中,肺癌的临床参数包括至少50岁;和至少20吸烟指数的吸烟史。

9、在实施方案中,分类器是支持向量机,决策树,随机森林,神经网络或深度学习神经网络。在某些实施方案中,分类器是具有以下特征中的任何一个或多个的神经网络:至少两个隐藏层;至少两个输出,其中第一输出指示肺癌可能并且第二输出指示肺癌不可能;和20-30个节点。参见实施例3肺癌回顾性患者数据的神经网络的训练。

10、在实施方案中,癌症选自:乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌和睾丸癌。在说明性实施方案中,癌症是肺癌。

11、在实施方案中,使用计算机系统来提供用于预测受试者中的癌症的可能性的计算机执行的方法,所述计算机系统具有耦合到存储器的一个或多个处理器,所述存储器存储供所述一个或多个处理器执行的一个或多个计算机可读指令,所述一个或多个计算机可读指令包含用于以下操作的指令:存储包含多个患者记录的一组数据,每个患者记录包括用于患者的多个参数,并且其中所述数据集还包括诊断指示符,所述诊断指示符指示是否该患者已被诊断患有癌症;选择用于输入到机器学习系统的多个参数,其中所述参数包括具有至少两种不同生物标志物值和至少一种类型的临床数据的组;以及使用机器学习系统生成分类器,其中分类器包含至少70%的灵敏度和至少80%的特异性,并且其中分类器基于输入的子集。

12、在其它实施方案中,提供了分类器在评估患者相对于人群患肺癌的可能性的方法中的用途,包括测量来自患者的样品中的一组生物标志物的值并从该患者获得临床参数;利用由机器学习系统生成的分类器将患者分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别,其中分类器包含至少70%的灵敏度和至少80%的特异性,并且其中使用包含至少两种不同生物标志物和至少一种临床参数的一组生物标志物产生分类器;并且当患者被分类为指示患有癌症的可能性的类别时,向用户提供用于诊断测试的通知。

13、在其它实施方案中,提供了使用人工智能/机器学习系统的技术,该系统可以并入和分析结构化的数据并且优选地还有非结构化的数据以进行风险分析,从而确定患有癌症的可能性,最初是肺癌、而且还有其它类型的癌症,包括泛癌症检测(即从单个患者样本测试多种肿瘤)。通过利用来自大量纵向或前瞻采集的血样(例如来自基于血液的肿瘤生物标志物癌症筛查常见的一个或多个区域的真实世界数据)的生物标志物水平(例如肿瘤抗原)产生的算法以及一个或多个临床参数(例如年龄,吸烟史,疾病迹象或症状),提供了患有癌症类型的患者的风险水平或百分比。机器学习系统根据群体的增加(例如组群)来确定患者中存在癌症的可量化风险,优选在他们患有症状或晚期疾病之前。通过确定个体患者相对于组群的风险,临床医师可能会建议相对于组群具有更高风险的那些患者进一步的后续测试(例如射线照相术),并且还希望改变可能增加癌症风险的患者行为。

14、在另一个实施方案中,除了上述生物标志物水平和一个或多个临床参数,生物标志物在系列测试之后随时间变化-“速度”-也被包括在算法中。

15、在又一个实施方案中,除了上述生物标志物水平和一个或多个临床参数,算法中还包括环境和/或职业(工作场所)暴露于致癌物的情况。

16、在又一个实施方案中,除了上述生物标志物水平和一个或多个临床参数,患者的癌症个人家族史也被包括在算法中。

17、在又一个实施方案中,除了上述生物标志物水平和一个或多个临床参数,来自医学和科学文献的公开信息作为非结构化数据也被包括在算法中。

18、根据本发明的实施方案,机器学习系统利用多个数据源,确定来自数据源的哪些类型的数据对于确定患有癌症的风险具有最大的预测性,并且输出相对于人群或组群发生癌症的可能性(例如,以百分比风险得分或乘数的形式等)。不是简单地基于单一标志物或多个生物标志物的癌症风险做出决定,其中相对于固定的阈值浓度评估生物标志物的浓度,机器学习系统而是可以任选地考量多个不同类型的数据,包括电子医疗记录(emr)、公众可利用的数据、生物标志物、生物标志物速度和与发生癌症相关的其它因素,以生成患有癌症的可能性。指定个体中存在癌症的风险可以定量为相对相同风险群体(例如组群)中的其它个体增加的风险。相对于组群的风险提供了提供发生癌症风险的明确和量化的方式,而避免与假阳性或假阴性相关的二元或绝对的“是”或“否”的结果。通过在系统中使用一个以上神经网络确定何种风险因素是最重要的(例如最具预测性的),可以得到改进的确定患者处于患有癌症的风险增加的方式。

19、本发明的另外的多个具体实施方案可以包括血液检验以评估患者相对于个体人群或组群患有肺癌的可能性,所述个体例如相似年龄范围和吸烟史的个体。在该实例中,分析来自患者流体样品例如血样的一种或多种生物标志物,其至少部分用于确定与已知患有肺癌的组群以及非癌和另外的对照组相比的生物标志物综合分数和风险分数。这允许患者处于具有使用为低、中、高、极高等的识别符分类的肺癌的风险中。当生成足够的数据时,系统将计算风险百分比以及误差界限。基于该信息,临床医师和其它医疗保健从业者、患者和健康保险公司可以更好地确定哪些患者最可能得益于随访测试,包括ct筛查。这类方法减少了成本、焦虑和与较低风险患者进行ct扫描相关的射线照射,同时有助于处于患有肺癌的较高风险中的患者进行ct扫描,以便当治愈性手术作为选择时希望在早期阶段检测到肿瘤。

20、根据本发明的另一特定实施方案,上述人工智能/机器学习系统可用于增强或改善血液测试,以同时检测来自单个血液或血清样品的多个肿瘤类型。这类“泛癌症”测试在远东很常见,例如y.-h.wen等人“cancer screening through a multi-analyte serumbiomarker panel during health check-up examinations;results from a 12-yearexperience,”clinica chimica acta 450(2015)273-276所公开的测试。作为另一个实例,鉴定了与肺癌的存在相关的六种生物标志物cea,cyfra,scc,ca15.3,nse和progrp[molina,r.等人“assessment of a combined panel of six serum tumor markers forlung cancer”,am.j.respir.crit.care med.(2015)]。例如,可以使用在中国台湾生成的用于创建发表的报告的真实世界的预期性原始患者数据来生成根据本发明的算法,该算法可以改善在测试运行的区域或临床中心以及其中这类筛查范例较不常见的区域(如美国)中的测试。

21、通过参考以下描述、附图和权利要求,可以更好地理解本文呈现的技术的这些和其它优点。以下陈述的实施方案使得人们能够实施本发明的实施方式,这些实施方案旨在是非限制性的。本领域技术人员应当易于理解,本文公开的理念和具体实施方案可以用作修改或设计用于实现本发明的相同目的的其它方法和系统的基础。本领域技术人员还应当认识到,这类等同的组合不会偏离最广泛形式的本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1