用于诊断和计划病人状态的病人数据挖掘的制作方法

文档序号:6434440阅读:131来源:国知局
专利名称:用于诊断和计划病人状态的病人数据挖掘的制作方法
技术领域
本发明涉及医疗信息处理系统,更具体而言,涉及一种用于诊断病人的目前状态或状况、根据各种可用的治疗选择来计划(project)病人的未来状态、以及推荐一种疗法过程的计算机化的系统和方法。
背景技术
卫生保健提供商在目前环境下所面临的主要难题是实现在降低成本的愿望与维持病人保健质量的首要需要之间达到平衡。在不折衷质量的情况下降低成本的尝试集中于花费两倍的努力,用来消除无用举措和用来把资源集中在鉴别那些最有可能存在不良结果的病人上。由于它们的特殊性质,这两种努力都需要使用准确而全面且能够被提取和分析的数据库,以便提供干预的基础。具有干预可能性的两种这样的领域是例如通过确定病人的未来状态来鉴别将受益于主动方法的高危病人,以及例如通过准确地诊断病人的目前状态来消除在无相应质量改进的情况下而增加成本或者拖延停留时间的无用举措。
然而,面临任何此类努力的问题是由于多数医院数据库都是以基于文本的格式或其它非结构化的格式创建的,因此缺乏能够以任何有意义的或可靠的方式而被提取和分析的高质量数据。多数的医院要么诉诸于采取使用随机抽样来人工检查小部分的病人图表,要么集中于相对容易地可获得的结构化的信息(例如,基于DRG或ICD-9代码)以便指导他们作出决策。这样一来,任何事实上地全面改变被遗留给不完善的处理,或者必须等待预期的数据输入系统,该系统具有充当一个所有不同格式的充足的存储库(repository)的能力,采用所述格式来存储病人数据。目前,管理所有这些不同的格式带来了艰巨的挑战,即使是在一个医院数据库中也是如此,就更不用说在不同的系统中了。
鉴于上述原因,存在对这样一种技术的需要,即从各种源收集病人信息以便迅速而有效地诊断病人的目前状态或状况,并且计划病人的未来状态以便帮助迅速地鉴别高危病人,并确定成本有效的治疗和/或疗法。

发明内容
提供了一种用于确定病人的状态或状况的系统和方法。
根据本发明的一个方面,提供了一种用于确定病人状态的方法,该方法包括以下步骤利用与感兴趣疾病有关的领域知识库来对病人记录进行数据挖掘;把挖掘出的数据输入到感兴趣疾病的模型中;以及根据模型来确定病人的状态。
根据本发明的另一个方面,提供了一种用于确定病人状态的系统,包括数据挖掘器,用于利用与感兴趣疾病有关的领域知识库来从病人记录中挖掘信息;和处理器,用于创建感兴趣疾病的病人模型和处理模型中挖掘出的数据,以便针对治疗的不同过程而确定病人的目前状态及未来状态,以及根据所估计的未来的疾病状态来推荐一种疗法。


本发明的上述及其它方面、特征和优势当结合附图,从下面结合附图描述的详细说明中将变得更加明显,在附图中图1是一个计算机处理系统框图,根据本发明的一个实施例可以将本发明应用于它;图2举例说明了示例性的计算机化的病人记录(CPR);和图3举例说明了用于挖掘高质量结构化的医疗信息的示例性数据挖掘框架;图4举例说明了一个根据本发明实施例的示例性诊断和计划系统的框图;图5举例说明了根据本发明一个实施例的用于诊断和计划病人状态的流程图;和图6是用于诊断目前病人状态、计划未来病人状态以及根据病人状态来建议疗法和治疗的工作流程图。
具体实施例方式
为了辅助对本发明的清晰理解,这里提供了一些说明性示例,它们描述了本发明的某些方面。但是,应该理解这些说明并不是为了限制本发明的范围,而是为了描述与本发明相关的确定概念。
提供了一种用于确定病人的状态或状况系统和方法。通过对来自于各种源的信息进行数据挖掘,例如,结构化的和非结构化的,本发明能够采集病人记录当中的全部可获得的信息,并使用此采集后的信息来产生关于特定病人的早先状态和目前状态的概率性断言。然后,将病人的早先状态和目前状态用在病人模型中,以便确定该病人的未来状态。
应该理解本发明可以用硬件、软件、固件、专用处理器或它们的组合各种形式来实现。优选地,本发明以作为确实包括在程序存储设备上的程序的软件加以实现。程序可被上载到包含任意合适的体系结构的机器上并由其执行。优选地,该机器被实现在拥有下列硬件的计算机平台上例如一个或多个中央处理单元(CPU)、一个随机访问存储器(RAM)和输入/输出(I/O)接口。该计算机平台还包括操作系统和微指令代码。这里所描述的多个过程和功能可以是通过操作系统执行的微指令代码的一部分或者程序的一部分(或者是它们的组合)。另外,多种其它外围设备可以被连接到该计算机平台,诸如附加数据存储设备和打印设备。
应该理解,因为附图中所描绘的组成系统部件和方法步骤中的一些优选地是以软件实现的,系统部件(或过程步骤)之间的实际连接会有所不同,取决于随编程本发明的方式。
图1是计算机处理系统100的框图,根据本发明的一个实施例,可以将本发明应用于它。系统100包括至少一个处理器(下文称处理器)102,它通过系统总线104和其它部件可操作地相耦合。只读存储器(ROM)106、随机访问存储器(RAM)108、I/O接口110、网络接口112和外部存储器114都与系统总线104可操作地相耦合。各种外围设备,例如显示设备、盘式存储设备(例如,磁盘或光盘存储设备)、键盘和鼠标,可以通过I/O接口110或网络接口112与系统总线104可操作地相耦合。
计算机系统100可以是独立系统或通过网络接口112与网络相连。网络接口112可以是硬布线接口。然而,在多种示例性实施例中,网络接口112可以包括适于向另一设备传送信息或从另一设备传出信息的任意设备,诸如通用异步收发器(UART)、并行数字接口、软件接口或已知或后来开发的软件和硬件的任意组合。网络接口可以连接到各种类型的网络,包括局域网(LAN)、广域网(WAN)、内联网、虚拟专用网(VPN)和因特网。
外部存储器114可以用数据库管理系统(DBMS)来实现,其由处理器102加以管理并驻留在像硬盘这样的存储器上。但是,应该意识到外部存储器114可以实现在一个或多个附加计算机系统上。例如,外部存储器114可以包括驻留在一个单独的计算机系统上的数据仓库系统。
本领域的技术人员将会理解在不偏离本发明的精神和范围的前提下也可以使用其它替代的计算环境。
卫生保健提供商越来越多地使用自动化的技术来存储和检索信息。使用计算机化的病人记录(CPR)来维护病人信息就是一个这样的例子。如图2所示,示例性CPR(200)包括在病人治疗过程期间收集到的信息。这一信息可以包括,例如,计算机层析造影(CT)图像、X-光图像、实验室测试结果、医生进展注释、与医疗过程有关的细节、处方药信息、放疗报告、其它专家报告、人口统计学信息和计帐(财务)信息。
一个CPR通常来自多个数据源,每个数据源通常反映病人保健的不同方面。结构化的数据源,例如财务、实验室和药房数据库,通常用数据库表维护病人信息。信息也可存储在非结构化的数据源中,例如自由文本、图像和波形。通常,关键的临床发现都只存储在医师报告中,例如口述。
图3说明了用于利用如下数据挖掘技术来挖掘高质量结构化的临床信息的示例性数据挖掘系统,所述数据挖掘技术在同本申请一起提交的Rao等人的“病人数据挖掘(Patient Data Mining)”的共同待审美国专利申请序列号10/__,__,(代理人证号8706-600)中作了描述,将其全部内容引入于此以供参考。该数据挖掘系统包括数据挖掘器(350),它使用知识库(330)中包含的领域专用知识从CPR(310)挖掘信息。数据挖掘器(350)包括从CPR提取信息的部件(352)、随时间用有原则的方式组合所有可用证据的部件(354)以及从这个组合过程得出推理的部件(356)。挖掘出的信息可以被存储在结构化的CPR(380)中。照此,包含在CPR中的所有信息,不论它们是来自于结构化的源还是非结构化的源,都将以结构化的方式加以存储。
提取部件(352)负责从与病人有关的每个数据源收集小块信息,这些信息被表示为在特定时间的、与病人有关的概率断言。这些概率断言被称为元素。组合部件(354)组合在相同时间周期中引用相同变量的所有元素以形成一个与该变量有关的统一的概率断言。这些统一的概率断言被称为仿真陈述(factoid)。推理部件(356)在相同和/或不同的时间点上处理对这些仿真陈述的组合,以产生病人状态随时间进展的连贯且简洁的图片。病人状态的这种进展被称为状态序列。
本发明能够建立病人状态的个体模式。病人状态仅仅是人们能够关心的、与病人有关的变量的集合。所感兴趣的信息可能包括一个状态序列,即病人状态在病人治疗期间不同时间点上的值。
上述组件中的每一个都使用与感兴趣的领域(诸如,例如,感兴趣的疾病)有关的详细知识。这个领域知识库(330)可以有两种形式。它可被编码为系统的输入,或者编码为产生能够被系统所理解的信息的程序。领域知识库(330)中被输入系统的当前形式的那部分也可从数据获悉。
如上所述,提取部件(352)从CPR(310)获取信息以产生与病人有关的概率断言(元素),这些断言与时刻或与时段有关。这个过程在领域知识库(330)中所包含的领域知识的引导下实施。提取所需的领域知识对每个数据源来说通常是具体的。
参照图4,举例说明了根据本发明一个实施例的示例性诊断和计划系统400。该系统400包括处理器402,用于从结构化的CPR数据库380中提取信息,用于创建感兴趣疾病的模型,以及用于处理在模型中已提取出的信息,以便计划病人的未来状态。
该处理器进一步耦合于第二数据库412,该第二数据库包括与感兴趣疾病有关的“现有技术状态”的信息。这种信息可以包括标准过程、用于治疗的已制定的方针、用于评估的标准化试验等等。另外,该处理器402适合于接收人工输入的病人数据414,可以处理所述病人数据并将其存储在结构化的数据库380中。
由系统400执行的每个任务都是通过可执行模块来执行的,所述可执行模块驻留在系统402的处理器中和/或驻留在该系统的存储设备中(例如,RAM、ROM、外部存储器等)。
参照图4和5,将连同如下方法一起来进一步描述所述诊断和计划系统,所述方法用于诊断病人的目前状态,用于根据感兴趣疾病来创建病人模型,以及用于根据该病人的目前状态和该模型来计划病人的未来状态。
首先,在随时间治疗病人的过程中,汇集病人记录310。另外,可以为特定医院汇集不同病人的多个病人记录(即,基于群体的数据),并将其作为单独的病人记录310而存储在公用数据存储区中。利用与感兴趣疾病有关的领域知识库来挖掘这种历史资料,并且将其编制到结构化的CPR数据库380中(步骤502)。把病人的目前数据人工地414或者通过从现行测试中挖掘数据而输入到系统中(步骤504)。
创建一个模型来仿真一个与正在诊断的病人有相似特征的病人。处理器402利用感兴趣疾病的领域知识库330、通过经由数据挖掘器350从基于群体的数据源中挖掘相似病人的数据,来生成用于模型的数据(步骤506)。然后,处理器402将根据已挖掘的数据来创建感兴趣疾病的模型(步骤510)。另外,处理器可以从第二医疗知识数据库412中编制关于感兴趣疾病的知识(步骤508),并且利用这种知识来精炼该模型。
一旦创建了病人模型,所有可用的病人数据(即从结构化的源和非结构化的源中挖掘的数据或人工输入的数据)将被输入到模型中,并且将会进行各种仿真。处理器将根据该模型来为病人确定随时间的状态序列(步骤512)。处理器能够进一步根据该状态序列来确定在特定时间t的未来状态,以便为该病人确定优选的治疗方针(步骤514)。
现在将在下面详细描述根据本发明优选实施例的所述方法的展开。
假设S是采用表示系统状态的∑中的值的连续时间随机过程。假设T={t1,t2,...,tn},其中ti<ti+1,n是当必须推理S时的“感兴趣的次数”。假设Si指的是在时间ti∈T时S的样本。假设V是依赖于S的变量集合。假设O是对所有变量v∈V的所有(概率)观察的集合。假设O1是“指派”给ti∈T的所有观察的集合;即,与和这个时间步长ti相关的变量v∈V有关的所有观察。同样,假设Oji(v)是指派给ti的变量v的第j个观察。假设seq=<S1,S2,...,Sn>是∑n中的随机变量;即,seq的每个实现是跨越T的一个状态序列。目标给定O,估计最可能的状态序列seqMAP,(seq的最大后验(MAP)估计)seqMAP=arg maxseqP[seq|O]我们感兴趣的主要焦点是估计跨越感兴趣的持续时间T、在病人身上发生了什么。对MAP状态序列的估计可以按两步进行,其中第一步是在固定时间点上观察的一个组合,第二步是这些推理跨越时间的传播。
每个(平滑的)Oi采用在给定变量从其被提取的小的上下文环境(context)的情况下变量的后验概率的形式。通过利用贝叶斯定理,以直接的方式将针对单个时间ti变量的所有观察Oji(v)组合到一个断言中P[vi|Oil(vi),...,Oik(vi)]∝P[vi]·Πj=1kP[Oij(vi)|vi]∝Πj=1kP[vi|Oij(vi)]P[vi]k-1]]>在每个ti∈T,使用贝叶斯网络建立Si和V之间关系的模型。因为该状态过程的模型被建立成马尔可夫,并且该状态是我们观察的所有变量的起因(直接或间接),我们有下列方程P[seq|O]∝P[S0]·Πi=2nP[Si|Si-1]·Πi=1nP[Oi|Si]]]>∝Πi=2nP[Si|Si-1]P[Si]·Πi=1nP[Si|Oi]]]>这个方程把给定所有观察时seq(跨时间的状态过程的样本的任意序列)的后验概率连接到给定对应每个时刻的观察时该状态的时间局部-一个后验概率P(Si|Oi)。基本上,我们通过把每个状态样本Si的模型建立成下一个样本Si+1的起因来把时间局部的贝叶斯网络串在一起。
所述诊断问题是在时间tn处按照如下来估计病人的疾病状态P[Sn|O]=∑P[seq|O]其中对那些顺序seq求和,其中最后状态等于Sn。
此外,所述方法将估计(预测)在未来时间tf时病人的状态(或任意其它的病人变量)。下列表达式源自于上述方程,用于执行对于病人的预测P[Sf|O]=∑P[Sf|Sn]P[Sn|O]其中Sf是病人的未来状态,并且P[Vf|O]=∑P[Vf|Sf]P[Sf|Sn]P[Sn|O]其中Vf是病人的未来变量。
此外,所述方法还可以用于利用相同的病人疾病状态模型及其它感兴趣的变量来预测病人可能经历的各种治疗选择的结果(包括治疗选择与其结果之间的关系)。所述方法确定每个疗法选择Ti的P[Sf|O,Ti],然后向医师展现这一信息,以便他们可以作出关于病人未来治疗的更理性决策。
图6是用于诊断目前病人状态、计划未来病人状态以及根据病人状态来建议疗法和治疗的工作流程图。
首先,通过数据挖掘器612来实施多个CPR 610的追溯性分析602,所述数据挖掘器也称为REMIND(从非结构化的数据进行可靠的提取与有意义的推理)系统。数据挖掘器612使用近似知识库614来编制结构化的CPR 616。该结构化的CPR 616用来精炼近似知识库614,以便编制将要用在诊断阶段604中的精炼知识库618。
在诊断阶段604中,数据挖掘器612(即,REMIND系统)使用精炼知识库618来与特定个体的CPR 620进行交互,以便确定个体的目前状态622,如上所述。另外,该系统可以被配置成根据病人的症状来确定导致病人处于危险的疾病,并且在病人记录中向医师展现与上述疾病有关的全部信息。例如,如果有胸痛的病人进入急诊室,那么该系统将识别出该病人很可能有急性心肌梗塞(心脏病发作)并向医生展现关于病人肌钙蛋白水平、ECG报告等任何有用的信息。
一旦追溯性分析和诊断阶段结束,本发明的所述系统和方法就能够被动地606或主动地608推荐疗法。在被动治疗阶段606中,该系统将提取相似病人624的CPR来编制特定病人群体的知识库626,以便确定治疗方式和相似病人的结果。该系统将通过查找与该病人相似的病人来给未来状态指派一个结果。该系统将通过求出相似病人的加权结果的平均结果来给未来状态指派一个概率。然后,这个知识库626将被用于根据最良好的结果来为个体病人建议治疗和疗法。
作为选择,将通过改变可能的未来治疗来主动地确定疗法,且又依次根据未来治疗630来计划未来病人状态。数据挖掘器612将使用来自于个体病人记录620的信息,以便利用疗法知识628来进行各种仿真,所述疗法知识是从结构化的数据库616、疗法领域知识加上主动反馈中学习到的。基本上,该系统评估许多可能的未来治疗选择(其中一个就是“什么也不做”)并把疾病状态的投入到未来,即如果我们给病人用药物1的话则将会发生什么。
然后,该系统通过考察病人的未来状态来评估这些治疗中的每一种。简单来讲,如果使用药物1的话则他有95%的死亡概率,但如果使用药物2的话则他有10%的死亡概率,那么该系统就建议使用药物2。该系统还将考虑到其它问题,比如像成本。如果药物1确定P(不良结果)=84%,而“什么也不做”(治疗2)是P(不良结果)=85%,并且药物1花费5,000,000美元,那么该系统可能会不推荐给定的药物1。同样,该系统将考察生活质量量度,其中如果药物1具有严重的副作用且仅提高了1%的生存几率,则它就不会被推荐,或者可以使用结果、成本、生活质量及其它测算的组合来挑选最好的治疗方法。
尽管在这里已经参考附图描述了本发明的说明性实施例,应该理解本发明并不受限于那些具体的实施例,在不偏离本发明的范围和精神的前提下本领域的技术人员可以进行多种其它的改动和变更。
权利要求
1.一种用于确定病人状态的方法,该方法包括以下步骤利用与感兴趣疾病有关的领域知识库来对病人记录进行数据挖掘;把挖掘出的数据输入到感兴趣疾病的模型中;以及根据该模型来确定病人的状态。
2.如权利要求1所述的方法,其中给所述病人状态指派一个概率。
3.如权利要求1所述的方法,还包括确定病人状态序列的步骤。
4.如权利要求3所述的方法,其中给所述状态序列指派一个概率。
5.如权利要求1所述的方法,还包括确定病人的未来状态的步骤。
6.如权利要求5所述的方法,其中给所述未来状态指派一个概率。
7.如权利要求1所述的方法,还包括利用感兴趣疾病的领域知识,通过挖掘基于群体的数据来创建感兴趣疾病的模型的步骤。
8.如权利要求1所述的方法,还包括确定病人状态的变量的步骤。
9.如权利要求8所述的方法,其中给所述变量指派一个概率。
10.一种用于确定病人状态的系统,包括数据挖掘器,用于利用与感兴趣疾病有关的领域知识库来从病人记录中挖掘信息;和处理器,用于创建感兴趣疾病的病人模型,并处理模型中挖掘出的数据以便确定病人的状态。
11.如权利要求10所述的系统,其中所述处理器给病人状态指派一个概率。
12.如权利要求10所述的系统,其中所述处理器确定病人的状态序列。
13.如权利要求12所述的系统,其中所述处理器给状态序列指派一个概率。
14.如权利要求10所述的系统,其中所述处理器确定病人的未来状态。
15.如权利要求14所述的系统,其中所述处理器给未来状态指派一个概率。
16.如权利要求10所述的系统,其中所述数据挖掘器利用感兴趣疾病的领域知识来挖掘基于群体的数据,并且所述处理器根据基于群体的挖掘出的数据来创建感兴趣疾病的模型。
17.如权利要求14所述的系统,其中所述处理器通过查找与该病人相似的病人来给未来状态指派一个结果。
18.如权利要求14所述的系统,其中所述处理器确定多个相似的病人,并且通过求出相似病人的平均结果来给未来状态指派概率。
19.如权利要求18所述的系统,其中所述处理器给多个相似病人的结果指派权值。
20.如权利要求10所述的系统,其中所述处理器确定与病人状态相关的变量。
21.如权利要求20所述的系统,其中给所述变量指派一个概率。
22.如权利要求14所述的系统,其中所述处理器根据挖掘出的病人数据、通过仿真多种治疗来确定多个结果。
23.如权利要求22所述的系统,其中所述处理器给结果指派概率并建议疗法。
24.一种机器可读的程序存储设备,确实地包括一个指令程序,该指令程序可由机器执行以执行用于确定病人状态的方法步骤,所述方法步骤包括利用与感兴趣疾病有关的领域知识库来对病人记录进行数据挖掘;把挖掘出的数据输入到感兴趣疾病的模型中;以及根据该模型来确定病人的状态。
全文摘要
提供了一种用于确定病人状态的方法和系统。该方法包括以下步骤利用与感兴趣疾病有关的领域知识库来对病人记录进行数据挖掘(502);把挖掘出的数据输入到感兴趣疾病的模型中(512);以及根据该模型来确定病人的状态(514)。该系统包括数据挖掘器(350),用于利用与感兴趣疾病有关的领域知识库(330)来从病人记录(310)中挖掘信息;和处理器(402),用于创建感兴趣疾病的病人模型,处理模型中已挖掘出的数据以便针对不同治疗过程确定病人的目前状态及未来状态,以及根据所确定的未来状态来推荐疗法。
文档编号G06F19/00GK1613068SQ02826659
公开日2005年5月4日 申请日期2002年11月4日 优先权日2001年11月2日
发明者B·R·劳, S·桑迪亚, R·S·尼库莱斯库, A·K·格尔 申请人:美国西门子医疗解决公司, 西门子共同研究公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1