使用个性化的预测模型识别并评级个体层面的风险因子的制作方法

文档序号:10655662阅读:461来源:国知局
使用个性化的预测模型识别并评级个体层面的风险因子的制作方法
【专利摘要】实施例涉及识别个体层面的风险因子的方法。该方法包括从人口数据识别风险目标的一组全局风险因子,并且基于该组全局风险因子来从人口数据中识别成员,该成员具有感兴趣的个体的至少一种临床特性的预定范围内的至少一种临床特性。该方法基于该组全局风险因子以及具有预定范围内的至少一种临床特性的、人口数据中的成员,训练风险目标的个性化预测模型。该方法基于感兴趣的个体的该组全局风险因子中的每一个的相关性评价,确定该组全局风险因子的子集,其中所述子集包括感兴趣的个体的一组个体风险因子。
【专利说明】
使用个性化的预测模型识别并评级个体层面的风险因子
技术领域
[0001]本公开总的涉及特定的疾病状态的风险因子。更具体地,本公开涉及用于使用个性化的预测模型识别并评级个体层面的风险因子的系统和方法。
【背景技术】
[0002]预测建模经常用在临床以及医疗保健研究。例如,预测建模已经成功应用到病发的早期检测以及更好的个性化护理。预测建模中的常规方式是构建使用所有可用的训练数据的单一的“全局”预测模型,然后其用于计算个体患者的风险分数并识别人口广泛风险因子。在个体化医药领域的近期研究中显示出患者人群趋向于异质性(heterogeneous)。相应地,每个患者具有独特的特性,因此目标化的、患者特定的预测、建议和治疗是有帮助的。

【发明内容】

[0003]本发明的实施例涉及识别个体层面的风险因子的计算机实现方法。该方法包括由至少一个处理器电路从一组人口数据识别至少一个风险目标的一组全局风险因子。该方法还包括由至少一个处理器电路至少部分基于该组全局风险因子来从该组人口数据中识别至少一个成员,其中所述至少一个成员具有感兴趣的个体的至少一种临床特性的预定范围内的至少一种临床特性。该方法还包括由至少一个处理器至少部分基于该组全局风险因子以及具有预定范围内的至少一种临床特性的、该组人口数据中的至少一个成员,训练至少一个风险目标的至少一个个性化预测模型。该方法还包括由至少一个处理器至少部分基于感兴趣的个体的该组全局风险因子中的每一个的相关性评价,确定该组全局风险因子的子集,其中所述子集包括感兴趣的个体的一组个体风险因子。
[0004]实施例还涉及用于识别个体层面的风险因子的计算机程序产品。该计算机程序产品包括在其中体现了程序指令的计算机可读存储介质,其中计算机可读存储介质本质上不是短暂的信号。该程序指令可由至少一个处理器电路读取以使该至少一个处理器电路执行以下方法,包括:从一组人口数据识别至少一个风险目标的一组全局风险因子。该方法还包括至少部分基于该组全局风险因子来从该组人口数据中识别至少一个成员,其中所述至少一个成员具有感兴趣的个体的至少一种临床特性的预定范围内的至少一种临床特性。该方法还包括至少部分基于该组全局风险因子以及具有预定范围内的至少一种临床特性的、该组人口数据中的至少一个成员,训练至少一个风险目标的至少一个个性化预测模型。该方法还包括至少部分基于感兴趣的个体的该组全局风险因子中的每一个的相关性评价,确定该组全局风险因子的子集,其中所述子集包括感兴趣的个体的一组个体风险因子。
[0005]实施例进一步涉及用于识别个体层面的风险因子的计算机系统。该计算机系统包括至少一个处理器电路,配置来从一组人口数据中识别至少一个风险目标的一组全局风险因子。该系统进一步包括至少一个处理器电路,配置来至少部分基于该组全局风险因子来从该组人口数据中识别至少一个成员,其中所述至少一个成员具有感兴趣的个体的至少一种临床特性的预定范围内的至少一种临床特性。该系统还包括至少一个处理器,配置来至少部分基于该组全局风险因子以及具有预定范围内的至少一种临床特性的、该组人口数据中的至少一个成员,训练至少一个风险目标的至少一个个性化预测模型。该系统还包括至少一个处理器,配置来至少部分基于感兴趣的个体的该组全局风险因子中的每一个的相关性评价,确定该组全局风险因子的子集,其中所述子集包括感兴趣的个体的一组个体风险因子。
[0006]通过这里描述的技术实现附加的特征以及优点。这里详细描述了其它实施例和方面。为了更好地理解,请参照具体描述以及附图。
【附图说明】
[0007]在所附的权利要求中特别指出并毫无疑义地声明了本公开的主题。通过结合下面的附图,上述以及其它特征和优点将在下面的详细描述中变得更加清楚。
[0008]图1描述图解根据一个多个实施例的系统的不意图;
[0009]图2描述图解图1所示的系统的更具体的实现的示意图;
[0010]图3描述能够实现本公开的一个或多个实施例的示例性计算机系统;
[0011 ]图4描述图解根据一个多个实施例的方法的流程图;
[0012]图5描述图解全局风险因子的示例的示意图,其中从关于所有训练患者训练的逻辑回归模型确定该全局风险因子;
[0013]图6描述图解根据一个或多个实施例确定的个体化风险因子的示例的示意图;
[0014]图7描述图解根据一个或多个实施例的个体化逻辑回归分类器的性能的示意图;
[0015]图8描述根据一个或多个实施例的计算机程序产品。
[0016]在附图以及下面的公开实施例的详细说明中,向附图中示出的各种元件设置三或四位附图标记。每个附图标记的最左侧的数字对应于第一次图解其元件的图。
【具体实施方式】
[0017]将参照附图描述本公开的各个实施例。在不背离本公开的范围的情况下可以设计出替代实施例。应当注意,在下面的描述和附图中的元件之间详细阐述了各个实施例。除非另行说明,这些连接可以是直接或间接的,并且本公开不意欲在这方面进行限定。因此实体间的耦合可以指直接或间接连接。
[0018]如之前在这里说明的那样,预测建模已经成功地应用到病发的早期检测以及更好的个性化护理。预测建模是赋予数学技术的集合的名称,这类数学技术具有找到目标、响应或“因变量(dependent)”以及可变预测符或“自变量(independent)”之间的数学关系的共同目标,并且具有测量那些预测符的未来值并将其插入数学关系来预测目标变量的未来值的目标。由于这些关系在实践中是不完美的,因此希望对预测的不确定性给予一些度量。例如可以向预测区间赋予置信度(如,95%)。处理中的另一任务是建模。通常可用的潜在预测符变量可被分类为三组:那些不太可能影响响应的变量、那些几乎确定影响响应并因此注定包含在预测方程中的那些变量、以及那些在中间的、可能或可能不影响响应的变量。在同时期的患者诊断方法中,预测建模中的途径是使用所有的可用训练数据建立单一的“全局”预测模型,然后该预测模型用于计算个体患者的风险分数并且识别人口广泛风险因子。近来在个性化医疗领域中的研究表明患者人群趋向于异质性。相应地,每个患者具有独特的特性,因此目标化的、患者特定的预测、建议、推荐和治疗是有帮助的。
[0019]因此,本公开涉及用于使用个性化的预测模型识别并评级个体层面的风险因子的系统和方法。本公开的一个或多个实施例针对每个患者提供患者特定的或‘个性化’的预测模型。由于使用来自患者以及来自临床类似的患者的信息构建所公开的模型,因此针对个体的患者定制该模型。由于所公开的个性化预测模型是针对具体的患者动态训练的,因此这样的个性化预测模型可以利用最相关的患者信息,并可能产生更准确的风险评价(如,分数)并识别更相关和信息量更大的患者特定的风险因子。
[0020]现在详细参照附图,其中相同的附图标记指代相同的元件。图1描述图解根据一个或多个实施例的系统100的示意图。如图所配置或排列,系统100包括训练患者数据102、个体患者数据104、预测模型106和个体风险因子108。训练患者数据102从大量患者(如,数千)获取,并且包括用于训练的风险目标标签。训练患者数据102包括电子医学记录(如,诊断、实验室、药物治疗、操作等等)、调查问卷数据、遗传学、活动/饮食跟踪数据等等。与训练患者数据相对,个体患者数据104从感兴趣的患者处获得。个体患者数据104包括电子医学记录(如,诊断、实验室、药物治疗、操作等等)、调查问卷数据、遗传学等等。
[0021]训练患者数据102和个体患者数据104被输入到预测模型106,该预测模型106包括多种类型的预测模型(决策树、逻辑回归、贝叶斯网络、随机森林等等)。预测模型106在类似的患者群上训练,并且用于提供在病例和对照(cases and control)之间区分的重要的风险因子的更强的评估。因此,预测模型106选择并评级个体的患者特定的风险来产生个体的风险因子108。
[0022]图2描述图解系统100A的示意图,其为图1所示的系统100的更详细的实现。更具体地,在系统100A中,预测模型106被实现为全局风险因子选择模块202、类似患者识别模块204、个性化预测模型训练模块206以及个体风险因子选择和评级模块208。全局风险因子选择模块202使用训练患者数据来识别特定的风险目标(如,心力衰竭、糖尿病、慢性阻塞性肺病等等)的全局风险因子。可以使用具有不同的区分度量标准的标准特征选择方式(如,过滤、包覆、嵌入、集合等等)。类似患者表示模块204从训练患者数据集中将临床类似的病例和对照患者群识别为个体目标患者。可以使用基于全局风险因子的多种不同的距离或相似性测量方式,包括但不限于基于规则的相似性限制、目标独立测量方式(诸如,欧几里得、马哈拉诺比斯、曼哈顿距离等等)或者目标特定(度量学习)测量方式,上述测量方式在类似训练患者数据集上训练。识别类似患者的附加细节公开在Wang F1Sun J,Li T1Anerousis N的、名称为〃Two Heads Better Than One:Metric+Active Learning and itsApplicat1ns for IT Service Classificat1n,"ICDM,09(2009),p.1022-7的出版物中,其完整公开通过引用合并在此。
[0023]个性化预测模型训练模块206使用类似患者群中的病例和对照来针对风险目标训练多个不同的预测模型分类器(逻辑回归、决策树、贝叶斯网络、支持向量模型、随机森林)。个体风险因子选择和评级模块208基于从训练过的模型赋予每个风险因子的权重获取的可用性评价(如,分数)通过重新评级全局风险因子来选择个体患者风险因子。例如,这些可以是逻辑回归分类器中的β(ΒΕΤΑ)系数和P值,和/或决策树和随机森林分类器中的变量重要度分数。
[0024]图3图解用于显示实现本公开的一个或多个实施例的基于计算机的信息处理系统300的示例的高级方框图。虽然显示了一个示例性计算机系统300,但是计算机系统300包括通信路径326,该通信路径326将计算机系统300连接到附加的系统(未示出),并且可以包括诸如因特网、内部网之类的一个或多个广域网(WAN)和/或局域网(LAN)和/或无线通信网络。计算机系统300和附加系统经由通信路径326进行通信,以例如,在它们之间通信数据。
[0025]计算机系统300包括诸如处理器302之类的一个或多个处理器。处理器302连接到通信基础结构304(如,通信总线、交换条(cross-over bar)或网络)。计算机系统300可以包括显示接口 306,其将图形、文字和其他数据从通信基本结构304(或从未示出的帧缓冲器)转发以在显示单元308上显示。计算机系统300还包括主存储器310,优选为随机存取存储器(RAM),并且还可以包括次级存储器312。次级存储器312可以包括,例如,硬盘驱动器314和/或可拆卸存储驱动器316(例如,其代表软盘驱动器、磁带驱动器或光盘驱动器)。可拆卸存储驱动器316以本领域技术人员熟知的方式从可拆卸存储单元读取数据或向其写入数据。例如,可拆卸存储单元318代表软盘、压缩盘、磁带、光盘等等,上述可拆卸存储单元318由可拆卸存储驱动器316读取或写入。可以理解,可拆卸存储单元318包括在其上存储了计算机软件和/或数据的计算机可读介质。
[0026]在替代的实施例中,次级存储器312可以包括允许计算机程序或其它指令被加载到计算机系统的其它类似装置。例如,这样的装置可以包括可拆卸存储单元320和接口 322。这样的装置的实例可以包括程序包和包接口(如,视频游戏设备中的接口)、可拆卸存储条(如,EPROM或PR0M)和相关插口以及其它可拆卸存储单元320和允许软件和数据从可拆卸存储单元320发送到计算机系统300的接口 322。
[0027]计算机系统300还可以包括通信接口324。通信接口 324允许软件和数据在计算机系统和外部设备之间发送。通信接口324的示例可以包括调制解调器、网络接口(如,以太网卡)、通信端口或PCM-CIA插槽和卡等等。经由通信接口 324发送的软件和数据以信号的形式,其可以是例如能够由通信接口 324接收的电、电磁、光学或其它信号。这些信号经由通信路径(如,信道)326被提供给通信接口 324。通信路径326承载信号,并且可以使用线或线缆、光纤、电话线、蜂窝电话链路、RF链路和/或其它通信信道实现。
[0028]在本公开中,术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”总地用于指代诸如主存储器310、次级存储器312、可拆卸存储驱动器316以及安装在硬盘驱动器314中的硬盘。计算机程序(还称为计算机控制逻辑)存储在主存储器310和/或次级存储器312中。还可以经由通信接口 324接收计算机程序。在运行时,这样的计算机程序使计算机系统执行这里讨论的本公开的特征。特别地,在运行时,计算机程序使处理器302执行计算机系统的特征。相应地,这样的计算机程序代表计算机系统的控制器。
[0029]图4描述图解根据一个或多个实施例的方法400的流程图。方法400在方框402开始,该步骤收集从大量患者(如,数千)获取的训练患者数据并包括用于训练的风险目标标签。训练患者数据包括电子医学记录(如,诊断、实验室、药物治疗、操作等等)、调查问卷数据、遗传学、活动/饮食跟踪数据等等。方法400还从方框404开始,该步骤收集个体患者数据,个体患者数据包括电子医学记录(如,诊断、实验室、药物治疗、操作等等)、调查问卷数据、遗传学、活动/饮食跟踪数据等等。方框406从训练患者数据中识别风险目标的一组全局风险因子。方框408使用所识别的该组全局风险因子连同个体患者数据,以至少部分基于全局风险因子,使用可训练的相似性度量来针对个体患者识别临床类似患者群。因此,实际上,方框408从训练患者数据中识别与感兴趣的个体患者类似的训练患者。方框410至少部分基于类似的患者群以及全局风险因子来针对风险目标训练一个或多个个性化预测模型。因此,方框410建立将仅使用被确定为与特定的患者类似的患者的数据来针对特定的患者预测特定的病发的风险的模型。方框412检查(look at)在方框410训练的模型。在方框410训练的模型包括该模型认为对于评价特定的患者的风险非常重要的一组风险因子(其通常为全局风险因子的子集),其采用加权因子的一些形式来识别给定风险因子的重要性。方框412至少部分基于通过组合由训练的预测模型赋予每个风险因子的权重而确定的可用性评价(如,分数),通过方框410中的个性化预测模型训练,通过重新评级全局风险因子来识别被认为是重要的风险因子。在一个或多个实施例中,方框412可以确定每个训练的个性化预测模型中该组风险因子的贡献度,并且将所训练的个性化预测模型组合为组合分数。方框414输出在方框412演化出来的个体风险因子。
[0030 ]图5图解可从系统100 (如图1和2所示)和/或方法400 (如图4所示)的应用得出的全局风险因子简档500。横跨横轴的是特征(或风险因子),而横跨纵轴的是与每个特征相关联的值。在演化全局风险因子简档500中,应用了过滤器,该过滤器包括过滤具有低的统计学显著性的特征的过滤器,例如,排除了具有高P值(如,P值>0.05)的特征。在应用过滤器之后,可以在全局风险因子简档500上绘制特征,从该简档已经识别了最重要的特征。在全局风险因子简档500中所识别的最相关的风险因子的示例被标注出来(如,HCC 312,ICD9790.6 等等)。
[0031 ]图6图解可从系统100 (如图1和2所示)和/或方法400 (如图4所示)的应用得出的个性化风险因子简档600、600A ο针对两个患者LRl和LR2示出了个性化风险因子简档,然而,应当理解的是可以针对多个个体患者演化和图形地比较个性化风险因子简档。不参照每个个性化风险因子简档,横跨横轴的是特征(或风险因子),而横跨纵轴的是与每个特征相关联的值。在演化个性化风险因子简档600、600A中,应用了过滤器,该过滤器包括过滤具有低的统计学显著性的特征的过滤器,例如,排除了具有高P值(如,P值>0.05)的任意特征。在应用过滤器之后,可以在个性化风险因子简档600上绘制特征,从该简档已经识别了最重要的特征。在个性化风险因子简档600中所识别的最相关的风险因子的示例被标注出来(如,HCC076,HCC066 等等)。
[0032]将描述一个或多个实施例的示例性实现以便进一步说明本公开。本公开沿多个维度扩展个性化预测模型的调查和分析,包括使用可训练的相似性度量来找出临床上类似的患者,通过分析训练的个性化模型的参数来创建个性化风险因子简档,以及聚集风险因子简档来帮助分析患者特定的风险因子的特性以及分布。从匿名的纵向医疗索赔数据库(其由300000个以上的患者的四年数据组成)构建15038个患者的患者群。具有最近两年中的糖尿病诊断但是前两年未被诊断患糖尿病的7519个患者被识别为新发病例(incidentcases)。基于年龄(+/-5岁)、性别以及初级护理医师(导致7519个对照患者在四年内未诊断出糖尿病),将每个病例与匹配的对照患者配对。在本示例中使用头两年中的患者的诊断信息、用药医嘱、医疗操作和实验室测试。
[0033]基于患者的纵向数据产生针对每个患者的特征向量表达式。该数据可以被看作时间上的多个事件序列(如,患者可以具有不同日期的高血压的多个诊断)。为了将这样的事件序列转换为特征变量(或风险因子),指定了观察窗(如,头两年)。然后,在窗口内的相同特征的所有事件被合计在单一的或很小的一组值中。合计功能可以产生类似计数和平均的简单的特征值,或考虑时间的信息的复杂特征值(如,趋势和时间变化)。在该示例中,使用基本的合计功能,例如用于分类的变量(如,诊断、药物治疗和操作)的计数以及用于数字变量(实验室测试)的均值。这导致8500个以上的唯一的特征变量。为了减少特征空间的大小,使用信息增益测量执行特征选择来选择每个特征类型的主要特征,例如50个诊断、50个操作、15次药物治疗和15个实验室测试,总计130个特征。
[0034]个性化预测建模涉及以下处理步骤:接收新的测试患者;使用患者相似性测量从训练集中识别K个类似患者的群;使用来自测试患者以及K个类似患者的群的信息选择特征的子集;使用类似的患者群训练个性化的预测模型;使用训练的个性化预测模型针对新的测试患者计算风险值;以及分析所训练的个性化预测模型来创建个性化风险简档。
[0035]可以使用多种不同的相似性测量来从训练集识别患者群,该患者群与测试患者临床上最相似。通常,相似性测量至少部分基于该组全局风险因子,识别来自该组人口数据(其具有感兴趣的个体的至少一个临床特点的预定范围内的至少一个临床特点)的至少一个成员。该组人口数据包括,但不限于诊断、实验室结果、药物治疗、操作、住院记录、调查问卷的回答、遗传学信息、微生物数据和自跟踪体动数据。在本示例中,使用了称为局部监控的度量学习(Locally Supervised Metric Learning,LSML)的可训练相似性测量,其可针对特定的目标条件定制。(见Wang F,Sun J,Li T,Anerousis N.,〃Two Heads Better ThanOne: Metric + Active Learning and its Applicat1ns for IT ServiceClassificat1n,〃Ninth IEEE Internat1nal Conference on Data Mining,(2009)ICDMp.1022-7)。由于不同的临床场景有可能要求不同的患者相似性测量,因此可训练度量是非常重要的。例如,相对于一个疾病目标(如,糖尿病)相互类似的两个病人可能对于不同的疾病目标(如,肺癌)是完全不同的。对于所有的目标条件,静态的相似性测量(如,欧几里得或马哈拉诺比斯)的使用可能不是最优的。在本示例中,针对糖尿病发目标训练LSML相似性测量,然后将其用于找出临床上类似的患者。将其与基于欧几里得距离测量选择患者以及随机选择进行比较。
[0036]从训练集中仅使用K个最相似的患者可以减少用于训练个性化预测模型的数据变量的数量。通过选择初始特征的子集减少特征向量的维度可以有助于对其补偿。可以使用多种途径来进行,包括使用信息增益或Fisher分数对类似的患者训练群执行常规的特征选择。在本示例中,使用简单的过滤探试,使得所选择的特征由测试患者特征向量中出现的特征连同在K个最相似的患者中的两个或多个特征向量中出现的所有特征的联合组成。这里,目的是确保能只有能够影响测试患者的特征被包括进来。
[0037]对于每个患者,基于LSML相似性测量,使用来自与目标患者临床上类似的病例和对照患者的数据动态地训练逻辑回归(LR)预测模型。然后个性化预测模型用于计算该患者的分数(糖尿病发的风险)。使用十倍交叉验证执行预测建模实验,并且使用标准AUC(R0C曲线下面积)度量来测量性能。报告AUC和95%置信区间。
[0038]在训练之后,分析预测模型中的参数来识别由模型获取的重要风险因子,并且用于针对由模型代表的患者创建“风险因子简档”。针对逻辑回归模型,针对每个特征的贝塔系数获取该特征的单位变化的对数优势(log odds)中的变化。除了系数值之外,可以通过计算瓦尔德统计(wald statistic)以及对应的P值来评价系数的重要性。重要的风险因子是具有统计重要的、大幅度的系数的特征。这些所选择的特征的贝塔系数值可被用于创建风险因子简档。对于全局预测模型,可以仅获取单一的“人口广泛”的风险因子简档。针对个性化的预测模型,针对每个患者获取风险因子简档,而这导致大量的简档。在这种情况下,可以独立地检查风险简档以及风险简档跨患者人口的分布。个体简档的探索和比较允许准确地找到患者间的风险因子的差异。简档的分布的检查提供它们的行为和关系的全局视角。可以支持个体比较和全局分布分析二者的一种可扩展的方式是对风险简档执行合成分层聚类(agglomerative hierarchical clustering)。聚类结果的分析可以提供简档的特征和分布的洞察。可以针对不同的患者评价风险因子的相似性和差异。此外,可以关于个性化模型识别的共同风险因子,发现患者人口中的任意结构关系。
[0039]在图7中显示了作为最接近相邻训练患者的数量的函数的、根据AUC的个性化逻辑回归分类器的性能。存在与四个不同配置对应的四条曲线。此外,还显示的全局逻辑回归模型(~)的性能以供参考。首先,作为基线,K个随机选择的患者被用于训练个性化模型(O)。随着训练患者的增加,性能稳定地向全局模型性能增加。由于对于诸如逻辑回归之类的参数模型来说,针对模型参数需要足够的数据来进行核实的训练,因此这样情况是可预见的。其次,代替随机选择患者,欧几里得距离度量用于选择K个最类似的患者U)。对于固定数量的训练患者,基于相似性的选择始终优于随机选择。此外,性能开始在3000个训练患者之后持平,而这暗示使用更多的不同患者的增益很小。第三,LSML相似性度量被用于选择用于训练的K个最类似的患者(Δ )。对于K的所有值,使用定制训练的相似性测量的性能要优于使用静态测量。第四,使用之前描述的过滤途径减少特征向量的维度(O)。这减少模型的训练数据需求,并且导致明显的性能改善,特别是对更小的K值。再次,在性能针对大于2000的K值持平时,使用更多的不同训练患者的边际效益递减。个性化模型的性能在K=100时可与全局模型相比较(AUC: 0.611,95 % Cl: 0.605-0.617),并且在更大的K值上好于全局模型(AUC:0.624,95%C1:0.617-0.631 在K = 2000时)。
[0040]为了方便患者特定的风险因子的特性和分布的分析,可以对个性化风险因子简档执行合成分层聚类(使用欧几里得距离测量)。例如,可以构建分层的热图绘制,其显示多达500个随机选择的患者的、由个性化模型识别的顶部风险因子。患者特定的风险因子简档(如,热图中的列)沿横轴聚类。沿纵轴聚类个体风险因子。可以选择热图中的颜色以与患者风险简档中的风险因子分数值(如,β系数值)对应。风险因子简档簇的分析显示一些患者共享非常类似的风险因子,并且被一起分组到相同的簇中,而其他患者具有非常不同且几乎不重叠的风险因子并且属于簇树中相互远离的组。具有特定风险因子简档的患者具有一致的高风险分数(其可被显示为沿横轴底部的竖条)。例如,在他们的风险简档中具有“操作:CPT:83086[糖化血红蛋白测试]”以及“实验室:血红蛋白alc/全血红蛋白”的高值的患者具有比低值的患者更高的风险分数。针对每个患者的个性化风险因子还可以与全局模型获取的风险因子不同。实际上,未由全局模型获取的大量风险因子可以在个性化模型中被识别为有用的预测符。沿纵轴的风险因子簇可以用于识别具有跨患者的、高共同出现率的高风险因子组。图6描述个性化风险简档600的一个示例,其形成一列分层的热图,其显示由多个随机选择的患者的个性化预测模型识别的顶部风险因子。
[0041]因此,可以从上述描述和图示中看出本公开的一个或多个实施例提供技术特征以及有益效果。对于给定的个体患者,使用患者相似性来动态地确定用于风险目标的病例和对照训练患者的唯一组(类似的患者群)。针对类似患者群训练多种类型的预测模型(决策树、逻辑回归、贝叶斯网络、随机森林等等),并将其用于提供在病例和对照之间区分的重要的风险因子的更强健的评估。基于通过将不同训练的个性化预测模型分配给每个风险因子的权重组合而确定的可用性分数来选择和评级个体患者特定的风险。
[0042]因此,根据本公开的一个或多个实施例的、使用来自与调查患者临床上类似的患者的更小数据组训练的患者特定的个性化预测模型可以比使用所示的训练数据训练的全局预测模型更好地运行。与静态训练的全局模型不同,个性化模型是动态训练的,并且可以利用患者记录中可用的最相关的信息。可以分析个性化预测模型来识别对于个体患者重要的风险因子,并且可以用于创建个性化的风险因子简档。风险简档的簇分析显示具有类似风险的患者的不同组以及个体和全局风险因子之间的差别。一旦识别,可以利用患者特定的风险因子来支持更好的目标化治疗、定制的治疗方案以及其它个性化的药物应用。因此,可以改善实现所公开的一个或多个实施例的计算机系统的操作。
[0043]现在参照图8,显示了根据实施例的计算机程序产品800,其包括计算机可读存储介质802以及程序指令804。
[0044]本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0045]计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是一一但不限于一一电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0046]这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0047]用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言一诸如Smalltalk、C++等,以及常规的过程式编程语言一诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
[0048]这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0049]这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0050]也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0051]附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0052]这里使用的术语是仅用于描述特定实施例的目的,并且不意欲限制本公开。如这里使用的那样,除非上下文明确指出,单数形式意欲涵盖复数形式。将理解术语“包括”在说明书中使用时,指代所陈述的特征、整数、步骤、操作、元件和/或组成部分的存在,但是不排除附加的一个或多个特征、整数、步骤、操作、元件和/或它们的组合的存在。
[0053]在权利要求中的对应的结构、材料、行为以及所有装置或步骤加功能元件的等效物意欲涵盖用于与具体声明的其它声明的元件执行功能的任何结构、材料或动作。为了图示和说明的目的呈现了本公开的描述,但是不意欲是排他的或限制到所公开的形式。在不背离本公开的范围和精神的前提下,本领域技术人员可以进行多种修改和变形。选择并描述实施例以便最好地解释本公开的原理和实际应用,并且使本领域技术人员理解本公开的各个实施例,并且可以进行各种修改以适合特殊使用。
[0054]本领域技术人员将理解,现在或将来可以进行各种改进和提高,其落入权利要求的保护范围内。
【主权项】
1.一种识别个体层面的风险因子的计算机实现方法,该方法包括: 由至少一个处理器电路从一组人口数据识别至少一个风险目标的一组全局风险因子;由至少一个处理器电路至少部分基于该组全局风险因子来从该组人口数据中识别至少一个成员,其中所述至少一个成员具有感兴趣的个体的至少一种临床特性的预定范围内的至少一种临床特性; 由至少一个处理器至少部分基于该组全局风险因子以及具有预定范围内的至少一种临床特性的、该组人口数据中的至少一个成员,训练至少一个风险目标的至少一个个性化预测模型; 由至少一个处理器至少部分基于感兴趣的个体的该组全局风险因子中的每一个的相关性评价,确定该组全局风险因子的子集,其中所述子集包括感兴趣的个体的一组个体风险因子。2.如权利要求1所述的方法,其中所述相关性评价包括代表所述子集与所述感兴趣的个体的相关性等级的分数。3.如权利要求1所述的方法,其中从所述人口数据识别至少一个成员包括使用利用所述人口数据训练的目标特定的度量学习测量。4.如权利要求1所述的方法,其中从所述人口数据识别至少一个成员包括分别识别病例和对照个体并归并他们。5.如权利要求1所述的方法,其中训练至少一个个性化预测模型包括至少一个下列统计分类方法: 逻辑回归; 决策树; 随机森林;以及 贝叶斯网络。6.如权利要求1所述的方法,其中所述确定包括确定该组风险因子在至少一个训练的个性化模型的每一个中的至少一个贡献度,并且将所述至少一个贡献度组合为复合分数。7.如权利要求1所述的方法,其中该组人口数据包括以下至少一种:诊断、实验室结果、药物治疗、操作、住院记录、调查问卷的回答、遗传学信息、微生物数据和自跟踪体动数据。8.—种用于识别个体层面的风险因子的计算机系统,该系统包括: 至少一个处理器电路,配置来从一组人口数据中识别至少一个风险目标的一组全局风险因子; 所述至少一个处理器电路,进一步配置来至少部分基于该组全局风险因子来从该组人口数据中识别至少一个成员,其中所述至少一个成员具有感兴趣的个体的至少一种临床特性的预定范围内的至少一种临床特性; 所述至少一个处理器,进一步配置来至少部分基于该组全局风险因子以及具有预定范围内的至少一种临床特性的、该组人口数据中的至少一个成员,训练至少一个风险目标的至少一个个性化预测模型;以及 所述至少一个处理器,进一步配置来至少部分基于感兴趣的个体的该组全局风险因子中的每一个的相关性评价,确定该组全局风险因子的子集,其中所述子集包括感兴趣的个体的一组个体风险因子。9.如权利要求8所述的系统,其中所述相关性评价包括代表所述子集与所述感兴趣的个体的相关性等级的分数。10.如权利要求8所述的系统,其中从所述人口数据识别至少一个成员包括使用利用所述人口数据训练的目标特定的度量学习测量。11.如权利要求8所述的系统,其中从所述人口数据识别至少一个成员包括分别识别病例和对照个体并归并他们。12.如权利要求8所述的系统,其中训练至少一个个性化预测模型包括至少一个下列统计分类方法: 逻辑回归; 决策树; 随机森林;以及 贝叶斯网络。13.如权利要求8所述的系统,其中所述全局风险因子的子集的确定包括确定该组风险因子在至少一个训练的个性化模型的每一个中的至少一个贡献度,并且将所述至少一个贡献度组合为复合分数。
【文档编号】G06F19/00GK106021843SQ201610169189
【公开日】2016年10月12日
【申请日】2016年3月23日
【发明人】胡建英, K.恩格, 王飞
【申请人】国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1