面向诊疗数据的症状层次关联及预测方法与流程

文档序号:11808839阅读:307来源:国知局
面向诊疗数据的症状层次关联及预测方法与流程



背景技术:
随着医疗信息化的发展,医院为病人建立诊疗病历,详细记录病人的诊疗信息,以方便对病人诊疗信息进行跟踪与管理,大量病人多次诊疗信息形成了疾病诊疗信息空间,面向诊疗信息进行数据挖掘,从中挖掘出疾病、症状间的关联,获得诊疗记录及病人间的关联关系,以科学地实现对诊疗记录、病人的管理、跟踪及预测,为病人提供更好的信息服务是当前医疗数据分析领域新兴的研究课题,有重要的理论和应用价值。

诊疗记录中通常记录着医生为病人历次进行检查诊疗的信息,其中既包括病人的就诊时间、地点、年龄、性别这类结构化的属性信息,也包含着病人对于疾病症状的描述、医生对于该疾病所提出的治疗方案等以关键词描述的非结构化信息。现有面向诊疗记录中的非结构化数据的挖掘方法缺少统一、集成的框架。Parikshit Sondhi等人在该方向做出了有意义的尝试,面向非结构化文本诊疗数据,提出了基于图模型的症状联想方法,用于发现疾病间平面结构的关联关系,然而其无法发现疾病主题间的层级关联,层次化的关联可以更直观、形象地发现疾病主题间的关联。另外,诊疗记录中的结构化属性为非结构化的诊疗文本信息提供了关于疾病丰富的描述,例如诊疗时间、年龄、地点信息可便于跟踪疾病关联随时间、地点的动态演化,在挖掘过程中充分考虑这些元素可更准确地发现疾病间的关联,有助于发现疾病症状及其影响因素的关系,便于对于疾病进行跟踪、管理及预测。

层次主题模型为发现层级关联提供了有效的途径,David M.Blei等利用层次主题模型发现文献摘要中隐含的主题层次结构,本发明针对现有非结构化诊疗记录挖掘方法中集成化、层次化、动态性考虑较少的特点,基于层次主题模型,提出融合多种要素的症状层级关联及预测方法,综合考虑多种因素,从而更加直观、形象、准确地发现症状间的主题层次关联,实现疾病的高效、准确预测,该方法首先基于每个病人的诊疗历史记录的症状词集合,利用层次主题模型挖掘其中潜在的症状层次主题结构;基于此层次主题结构,利用最大概率映射规则,将病人的每个诊疗记录映射至对应的节点上,实现了诊疗信息的层级组织和病人群体的聚类;最后基于此层次结构进行预测,对于已有病人,根据该病人所在树状层级的路径以及对应诊疗的节点信息,预测病人可能存在的健康危机,对于新病人,将其已有诊疗记录映射至对应节点,按照最大概率原则确定其所在路径,从而实现预测。



技术实现要素:

为解决现有非结构化诊疗记录挖掘方法中集成化、层次化、动态性考虑较少的特点,本发明提出了基于层次主题模型的症状关联及预测方法,面向非结构化的诊疗数据,构建症状主题层次空间,采用最大概率准则实现诊疗记录及病人的层次化映射,并综合考虑病人的多种属性信息实现疾病的动态预测。

本发明公开了一种症状层次关联及预测方法,其包括:

步骤 1、根据病人的诊疗记录信息构建诊疗信息空间;

步骤 2、基于诊疗信息空间,利用层次主题模型获得症状主题层次空间;

步骤 3、根据所获得的症状主题层次空间,利用最大概率准则对诊疗记录和病人进行层次化映射;

步骤 4、综合考虑病人的多种属性信息实现疾病的动态预测;

步骤 5、根据疾病预测结果进行拓展应用。

本发明提出的上述方法,提供了从疾病、诊疗记录、病人三个层面自动挖掘诊疗信息的集成化统一框架,进而增强病人及医生对于疾病不同时期症状、影响要素、诊治方法及其关联、动态发展与演化有深入了解与直观形象的认识,便于实现对于疾病、诊疗记录及病人的管理、跟踪及预测,为病人提供疾病的早期预防、预测及诊治等更好的信息服务。

附图说明

图1 是本发明的总体框架图;

图2 诊疗信息空间组成示意图;

图3 症状主题层次生成示意图;

图4 诊疗记录及病人映射示意图;

图5 症状预测过程流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

图1 是本发明中症状层次关联及预测方法的步骤流程图,如图1所示,本发明提出了一种症状层次关联及预测方法,该方法包括以下步骤:

步骤 S1、根据病人的诊疗记录信息构建诊疗信息空间;

步骤 S2、基于步骤S1的诊疗信息空间,利用层次主题模型获得症状主题层次空间,获得症状及诊疗词在层次主题空间中所属的层级信息;

步骤 S3、根据步骤S2所获得的症状主题层次空间,利用最大概率准则对诊疗记录和病人进行层次化映射,获得诊疗记录及病人所属的层级信息;

步骤 S4、利用步骤S3获得的诊疗记录及病人所属的层级集合信息,综合考虑病人诊疗记录的年龄、诊疗时间、地点、性别多种属性信息计算待诊疗病历在病人历史病历中出现的概率,进而实现疾病的动态预测;

步骤 S5、疾病预测结果进行拓展应用。由步骤S4获得的诊疗记录间的相似度关联及病人间的相似度关联,可以有效实现病人及记录的层级管理,便于医生和病人对疾病的影响因素进行深入分析,获得疾病演变的认识,同时,便于更科学化的对记录及病人进行跟踪管理,为病人提供更好的信息服务。

下面详细叙述上述各个步骤。

步骤 S1、根据病人的诊疗记录信息构建诊疗信息空间;

每个病人的病历是其每次诊疗信息的集合,诊疗信息由描述疾病、症状、治疗方案等的词组成,词集合组成了诊疗信息词表CVV表示词表的长度,则每个诊疗信息可以表示成一个向量di=(li; agei; gi; ti; pi1, pi2, ..., pin,, ..., piV, ),li表示诊疗di地点信息,agei表示di出现时病人的年龄,gi表示病人的性别,ti表示诊疗di的时间,pij表示词wj在诊疗di中出现的频率。每个病人的病历记录patn=(dn,1, dn,2, ..., dn,Kn), Kn表示病人patn的诊疗个数。病人的集合{pat1, pat2 , ..., patN},其中,N表示病人集合中病人的数目,组成了诊疗信息空间。图2所示为由疾病、诊疗记录、病人组成的诊疗信息空间示意图。

步骤 S2、基于步骤S1的诊疗信息空间,利用层次主题模型获得症状主题层次空间;

所述步骤S2症状主题层次空间如图3所示,基于层级主题模型,通过引入嵌套式中国餐馆过程作为层级结构/树结构的先验,将诊疗信息空间构建成症状潜在主题层次树,层次树中每个节点代表的主题表示为诊疗记录中症状/治疗词表上的分布,高层级的节点代表比较泛的疾病症状主题,低层级的节点代表比较细致的疾病症状主题。所述步骤S2具体包括:

步骤S21、采样主题在诊疗记录词表上的概率分布;

对深度为L的主题树结构T中的每一个主题k ∈ T:采样k在词表上的概率分布βk,满足βk~Dirichlet(η),其中超参数η控制主题-诊疗词分布的平滑性;

步骤S22、对每个病人采样树结构中从根节点到叶节点的路径;

对于病人的集合{pat1, pat2 , ..., patN}中的每一个病人patn(n ∈ {1,2,3, ...,N}),从树结构采样一条从根节点到叶节点的路径cn,满足cn~nCRP(γ),其中γ为nCRP中控制树结构的参数;

步骤S23、采样病人的每个诊疗记录在各层上的分布向量;

patn的诊疗记录dn,i( i∈{1,2,3, ..., Kn}),采样诊疗记录dn,i在各层上的分布向量θi,满足θi | {m, π}~GEM(m, π),GEM(·)为使用木棒分割构造方法(Stick-Breaking constructions)时的GEM分布函数,其中参数m控制在各主题层上分布的均衡性,π决定服从参数m的严格性;

步骤S24、对诊疗记录中的每个症状词代表的位置采样一个症状词;

对诊疗记录di中的每一个词代表的位置

——依据上一步采样得到的分布向量θi为该位置采样一个层级zij,满足zij | θ~Mult(θi),Mult(·)为多项式分布;

——依据已经采样得到的zjr, cn,为该位置采样一个词wij,满足wij | {zij, cn, β} ~Mult(βcn[zij]),其中β控制主题-词的分布;

其中,4个超参数{η, γ, m, π}的设定将影响症状层次树型主题结构的形状以及分布,因此可以通过调整超参数获取预期的症状层次树结构。

步骤 S3、根据步骤S2所获得的症状主题层次空间,利用最大概率准则对诊疗记录和病人进行层次化映射;

图4所示为步骤S3对诊疗记录和病人进行层次化映射的示意图,旨在基于获得的症状潜在主题层次树,将每个病人的诊疗记录映射到树结构中的节点上,形成病人诊疗记录的层级结构, 根据诊疗记录的映射结果进一步将病人映射到树结构中的节点上,形成症状、诊疗记录、病人三个层面的层次化关联组织与管理。所述步骤S3具体包括:

步骤S31、根据诊疗记录中症状词对应的层级分布,计算病人诊疗记录出现在不同层级的概率分布,将诊疗记录映射到概率最大的层级主题节点上;

病人的诊疗记录出现在不同层级的概率分布p(zj | dn,i)的计算如下:

其中,Ndn,i表示诊疗记录dn,i中词的个数,wik表示dn,i中的第k个词,p(zj|wik,cn)表示dn,i中的词wik出现在路径cn中层级zj的概率;

步骤S32、根据病人各个诊疗记录的层级,计算病人在不同层级的概率分布,将病人映射到概率最大的层级主题节点上;

病人出现在不同层级的概率分布p(zj | patn)的计算公式如下:

步骤 S4、综合考虑病人的多种属性信息实现疾病的动态预测:

图5所示为融合多种属性信息实现疾病的动态预测的流程图。首先定位到病人所映射到的潜在主题层次树对应的节点,将该病人新的记录与该节点上其他诊疗记录进行相似概率分布计算,以预测新的诊疗记录在病人历史病历中出现的概率分布,特征在于综合考虑病人诊疗地点、年龄、性别、时间多个属性信息的记录相似度计算方法。所述步骤S4具体包括:

步骤S41、如果待预测病人已经存在于症状主题层次树中,则直接将其定位到层次树中对应的节点;如不存在于主题层次树中,则根据其新的诊疗记录,根据步骤S2获得的症状主题层级结构,基于步骤S3所示方法,利用最大主题概率映射规则将其诊疗记录分别映射至相应的节点;

步骤S42、将待预测病人的诊疗记录与所定位节点上的其他记录进行相似度计算,相似度计算过程中,综合考虑病人的诊疗地点、年龄、性别、时间多个属性信息及诊疗记录中的疾病描述及诊疗信息,该计算方式可以有效度量多因素对于疾病的影响,从而实现更准确的疾病预测与诊疗;

计算dk和同一节点其他诊疗记录dj的相似度计算函数为:

其中,ə 表示不同诊疗记录在同层级的概率差值的权重,

表示属性计算分段函数,sk表示诊疗记录dk中的某个属性,λs表示属性s分段对应的阈值,as表示属性s超出范围时对应的函数值;

步骤S43、基于计算得到的诊疗记录相似度,获得新的诊疗记录在病人历史病历中出现的概率分布,实现对病人疾病的预测,并基于相似诊疗记录中疾病的治疗信息对病人进行疾病治疗方案方面的信息推荐;

根据映射规则,得到病人疾病范围对应的主题节点后,综合同一节点对应的此病人与其他诊疗记录的时间、地点、性别、年龄属性以及其他病人诊疗记录出现在此节点的概率分布计算预测概率p(dj|patn),预测诊疗记录dj未来在病人patn病历中出现的概率分值,计算公式如下:

其中,表示病人patn的诊疗记录映射至其路径的层级z的个数,dk表示patn在层级z的第k个诊疗记录。

步骤 S5、根据疾病预测结果进行拓展应用:

对待预测病人的疾病进行预测后,还可借鉴与其相似疾病其他病人的治疗方案对其进行早期防治与治疗,综合分析相似诊疗记录的结构化属性及非结构化属性,可进而增强病人及医生对于疾病不同时期症状、影响要素、诊治方法及其关联、动态发展与演化有深入了解与直观形象的认识,便于实现对于疾病、诊疗记录及病人的管理、跟踪及预测,为病人提供疾病的早期预防、预测及诊治等更好的信息服务。同时,本专利提出的方法生成的疾病、诊疗记录、病人三个层面的层次关联发现也为医院更科学管理病历提供了有效的途径。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1