基于异质医疗数据挖掘的甲状腺癌风险预测方法与流程

文档序号:15205539发布日期:2018-08-21 08:23阅读:338来源:国知局

本发明涉及一种基于异质医疗数据挖掘的甲状腺癌风险预测方法。



背景技术:

随着电子病历与电子健康档案的数字化累积,医疗大数据研究得到了医学界和计算机领域研究人员的高度重视。医疗数据本身集合了大量性,多样性,快速性,产生价值四项大数据的基本特性,更具备易变性,准确性,复杂性和异质性的特性。医疗大数据中蕴含着丰富的医学知识,其中有些知识是尚未被医学界所认知的,利用这些知识不仅可以辅助医疗,提升医疗质量,而且可以预测医疗现象,有效防控疾病。传统医学是小数据的判断和决策,完全依靠医生的经验和能力,正确率很难保证。

结合医疗数据的自身特性及相关研究情况,目前工作还存在一些问题有待研究,体现在三个方面:1)利用同质信息网络图构建医疗数据描述模型,忽略了数据异质性特点,造成很大程度的语义丢失;2)现有分类模型在已有类别空间中进行预测文分类,没有发现未知风险的能力,而且会导致异常数据被归为常规类别;3)已有的推理模型主要为定量推理,缺乏对于基于因果关系的定性推理的研究及应用。

以上所述问题限制了对医疗数据的学习能力及相关应用的发展。鉴于此,探索基于异质信息网络构建医疗数据的描述模型,探索改进具有发现潜在新类别能力的半监督学习模型,探索定性bayesian的医学推理模型的可靠方法是以上为本发明要解决的主要问题。

国内外学术界都在积极探索利用医疗大数据开发疾病诊断及疾病分析预测系统,近年来,数据挖掘和机器学习领域中的众多方法也广泛应用于分析电子病历记录。总体而言,现有技术的主要类别和优缺点列举如下:

1)医疗数据建模

基于同质图的半监督学习模型,信息之间的差异性很可能会被丢失,即不同类型的信息及他们之间的连接携带不同的语义都被忽略了。异质信息网络可抽象出现实世界中不同类型对象及其之间不同的连接关系,因此可以有效刻画医疗数据的复杂性和异质性。在医疗应用中,利用基因表型网络中的异质结构的方法已经研究发展起来。但将异质信息网络的用于医疗数据建模还相对较少,在此基础之上,异质病历信息图需要进化和变异成为后续学习模型可处理的数据模式,此类问题还需要深入探讨解决方案。

2)面向未知类别发现及无标记医疗数据的学习

从未知类别发现角度,在预测分类过程中,未标记数据极有可能属于未知或潜在的其他类别。在医疗数据分析中,半监督学习方法具有发现新类别的能力极为重要。目前,此类模型在理论研究层面还相对较少,也少见其应用于医疗数据分析应用之中,因此,还需要进一步研究和探索。

3)基于定性bayesian的医学推理模型

医疗推理是根据医疗现象推测医疗结论的过程,其逆向过程称为朔因,面向医疗领域的正向推理和逆向推理一直是专家系统研究的热点,其推理基础是后端的知识库。面向一般应用的定性推理模型主要分为两类:一类采用量词定性表示关联强度,另一类采用区间代数表达关联强度。量词方法在推理运算中超出最大值时强制定义其上界值,因而容易造成精度损失;区间代数方法在合并区间包含时导致数值无法比较产生不确定值。近年来研究者较多地关注结构简单的推理方法,并在细致的医疗推理-决策问题上取得了成果,但用于医疗专家系统,能够明确表征因果关系进而进行推理的通用推理结构研究则缺乏进展。

结合医疗数据的自身特性及相关研究情况,目前工作还存在一些问题有待研究:

一、医疗数据描述模型的不足:在众多特性中,医疗数据的异质性最为突出,数据的覆盖范围前所未有,数据的格式五花八门,数据的来源也纷繁复杂。理顺多源头,多格式,多类型的医疗大数据,对呈爆炸式增长的医疗大数据进行整合和分析,首先需要建立恰当的描述模型,即要求描述模型具有刻画数据之间差异的能力。例如通过一组关连多种类型节点的路径,描述不同类型对象之间连接的不同语义,从而捕捉到更为丰富的语义信息,这样的处理也体现了现实世界中的真实规律。而传统的基于同质图的描述方法,将众多不同类型的数据模型化为无区别的节点,节点之间的连接也不做区别,这样的处理往往忽略了数据类型间差异性,甚至导致很大程度的语义丢失。

二、学习模型发现未知类别能力不足:传统医疗诊断过程中,由于缺乏对过往数据的比较分析,使得医生对绝大多数患者的病情缺乏合理的预判。而现在可以通过机器学习和数据挖掘等技术手段,对影响疾病的因素包括疾病本身,患者的既往情况、合并症以及遗传背景,生活方式,甚至环境因素等多重因素进行综合考量。

然后,构建模型对于所累积的数据进行分析,从而发现高风险指标,避免过度治疗或治疗不足。已有的分析预测模型中,基于半监督学习的模型在医疗数据分析中应用较多。直推式的半监督学习模型只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签,它相当于一个封闭的模型。而医疗发现的过程不仅需要预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签,它需要一个开放式的模型。目前,可预测未知类别的模型无论是理论研究本身,还是在医疗数据分析中的应用都相对较少,导致分析预测模型发现新类别的能力不足,这也一定程度上影响了疾病风险预测模型的预判能力。

三、推理模型能力的不足:在定性推理模型中,不确定性(表示为极性问号或区间问号)往往被过分夸大,且易于传播,成为推理算律中的吸收元,导致精度损失过大。近年来研究者较多地关注结构简单的推理方法,并在细致的医疗推理-决策问题上取得了成果,但用于医疗专家系统,能够明确表征因果关系进而进行推理的通用推理结构研究则缺乏进展。



技术实现要素:

本发明为解决现有技术存在医疗数据模型不足、学习模型发现未知类别能力差,影响了疾病风险预测模型的预判能力等问题,提供一种基于异质医疗数据挖掘的甲状腺癌风险预测方法。

基于异质医疗数据挖掘的甲状腺癌风险预测方法,该方法由以下步骤实现:

步骤一、收集医疗数据,并构建异质病历信息网络模型;

设定样本集合和标签集合,所述样本集合包括n个患者s={s1,...,sl,sl+1,...sn},为患者i的ni条记录,rij为元组(xij,tij),其中为在时间tij的一个d维向量;标签集合为c={1,...c},前l个患者si(i≤l)被标记为yi∈c,剩余u=n-l个患者sl+1,...,sl+u为未标记数据,通常l<<u;目标是为未标记的患者si预测标记

步骤一一、二进制化:将所有检查类别里的各条目值进行编码,即二进制转化,1和0分别用来表示具体检查类别下的某一条目值存在或不存在;

步骤一二、节点插入:在二进制转化步骤中,所有被标记为1的条目,在节点插入步骤中都将被插入到异质数据图中,相应的检查条目名称作为此数据图中相应节点名称,与检查条目关联的不同记录也将作为节点插入,并且以相应的边进行关联;

步骤一三、节点编辑:节点编辑将插入后的节点根据检查类别及具体条目进行类型编辑,异质患者数据信息网络中包括表示患者记录不同年份的节点及相应的检查类别节点,上述节点最终被进一步抽象为变异网络,检查条目对应具体的检查类别,健康检查记录被抽象为两个层次,即基本的异质信息网络和一个抽象的变异结构;

步骤一四、连接插入:把每条数据记录与不同检查类别下相应条目之间的连接权重插入数据图,即通过设置连接权重函数为相应的边赋以权重;

连接权重函数;

在某患者的某条记录中,类型为v的节点中的某个条目,被表示为患者该条记录节点和检查类别下对应的条目节点之间的连接,对于异质图中节点之间的连接权重,根据记录年份远近,对其重要性加以区别。具体计算公式如下:

g(t)=(t-starttime+1)/windowlength

其中,t为当前记录所示时间,windowlength为时间长度窗口,starttime为时间窗口的开始时间,最终生成的变异网络结构描述了患者记录与不同类型节点之间最终生成连接,获得任意两类节点所构成稀疏矩阵的集合;

标准化权重:对输出矩阵进行标准化处理,公式如下:

其中,d为对角矩阵;

步骤二、建立基于未知类别发现的学习模型;实现对未标记医疗数据的学习;

步骤二一、在步骤一中的标签集合中加入c+1类别标记,为步骤一的网络模型提供预测未知类别的机制;

定义

其中,为类型为v的节点标签,xvp为类型为v的节点p的类别标签;

当xvp已被标记,令

其中,为向量yvp的第k个类别对应的元素;

xvp未被标记时,令

步骤二二、设定计算标签作为软标签,计算导致高风险的相关疾病或致病相关因素的可能性;

为m个节点类型的计算的软标签,其中,为表示xvp属于任意c+1个类别的可能性的向量,xvp的类别标签由计算得到;

当输入为n个患者的系列检查记录,输出为优化的f,根据f的值预测风险。

本发明的有益效果:本发明面向his系统中电子病历,针对其异质性特性,以文本数据为挖掘对象,对数据全局性建模,实现基于异质医疗数据可定制的疾病风险因素预测及推理验证。本发明基于异质患者病历信息网络的数据表示模型,准确描述患者在不同时间维度下的数据记录中所包含的各类语义信息及多重关系;进一步,结合一个可发现“未知类别”的半监督预测模型,通过设置可计算标签作为软标签,实现对大量未标记医疗数据的学习,解决疾病风险因素预测问题;最后,提出一种性质优良可用于医疗推理的定性推理模型,该推理模型兼容bayesian理论,可以进行双向推理,同时推断的结果具有正负极性,可用区间值表达其因果强度。

1)构建异质病历信息网络模型;

本发明针对特定医疗数据建模,提出在异质信息网络的基本原理基础上改进,建立异质病历信息网络为医疗数据构建描述模型,该描述模型引入了对时间维度的考量,能够较全面的刻画原始数据所携带的多种语义信息,并且具有较强的泛化能力,从而解决了传统数据表示模型中存在的语义丢失等问题。

2)具有新类别发现机制的无标记医疗数据学习模型;

利用新类别发现机制,进一步对大量未标记数据进行学习,训练疾病风险预测模型,学习和发现疾病内在的高风险致病因素及其他潜在关系,从而更加充分地利用医疗数据资源揭示深层次医疗规律。本发明对无标记医疗数据的学习,可发现存在于医学大数据中的负关联关系。而对负关联的认知与发现的意义不亚于对正关联认识,对于一个医学结论,同时考虑影响它的多个原因变量,可得到训练完备的预测模型。

3)面向医疗领域的定性推理模型;

该模型将经典bayesian模型以单一概率值表达的精准测度拓展为区间测度,不仅可以推断医疗因果关系,还可给出推导结论的置信度(强度),以及因果关系的极性(正影响、负影响);不仅可以正向推理,而且可以逆向推理,并对推理结论给出解释。推理规则满足交换律和结合律,确保推理结果的惟一性和正确性,该模型与现有医学推理模型相比具有明显优势。

附图说明

图1为本发明所述的基于异质医疗数据挖掘的甲状腺癌风险预测方法模型图;

图2为患者检查记录追踪示意图;

图3为异质患者数据信息网络图;

图4为风险预测算法整体流程图。

具体实施方式

具体实施方式一、结合图1至图4说明本实施方式,基于异质医疗数据挖掘的甲状腺癌风险预测方法;该方法具体实现过程为:

本实施方式的数据来源为吉林大学第一医院医院信息系统(his)中甲状腺癌患者的各类数据,分别来自于检验信息系统(lis)、电子病历(emr)、医学影像存档和传输系统(pacs)等各类子系统,对于如pacs系统来说,本实施方式主要采用其中的结构化及非结构化的文本数据。具体技术路线为:首先,对数据进行收集和预处理包括去噪、补缺、融合等;然后,对医疗数据建立描述模型;接下来通过加入未知类别发现机制改进传统的模型,实现未知致病因素发现;最后,在推理模型所确定推理机的控制下,形成致病因素分析系统,进一步对所发现的未知致病因素与疾病的相关性进行推理验证。整个研究方案通过对研究问题进行整体建模,训练得到用于疾病风险预测、辅助诊疗的预测模型。以下将根据前文所提出的研究内容,对具体的研究方法进行介绍,本实施方式所提出总体技术路线如图1所示:

1)异质医疗数据信息网络的构建

为解决基于异质性及大量未标记数据问题的疾病风险预测,利用基于异质病例信息网络的半监督学习策略,首先对问题进行表示:设定样本集合和标签集合,所述样本集合包括n个患者s={s1,...,sl,sl+1,...sn},为患者i的ni条记录,rij为元组(xij,tij),其中为在时间tij的一个d维向量;标签集合为c={1,...c},前l个患者si(i≤l)被标记为yi∈c,剩余u=n-l个患者sl+1,...,sl+u为未标记数据,通常l<<u;目标是为未标记的患者si预测标记

数据表示模型构建方法对未来学习效果的影响极大,如果数据图的性质与数据内在规律相背离,无论采用何种半监督学习方法,都难以获得满意的学习结果。把被研究对象抽象为节点,把个体间的联系抽象成边构成一个关系网络,这样的网络中包含了对象之间的关联,也就是一个信息网络。通过分析和挖掘这个信息图,可以发现其内部隐含的模式与信息,当这个关系网络中的节点或边具有不同的类型,就得到了一个异质患者病例信息网络,这样的数据图中,不同的数据对象之间存在不同的语义关系,其所包含的结构信息及语义信息更加丰富,将利于产生更有意义的知识发现。仅甲状腺癌患者随访系统中存在的数据来看,其中五类信息类别中共包括将近210个检查条目的数据,院方对每位癌症患者定期随访,因此每位患者的210个检查条目随时序变化,以该子系统中数据为例,数据描述模型需能刻画这种随时序变化的数据模式。

将患者时序检查记录抽象出来即为图2所示,患者具有一系列携带不同时间戳的长期数据记录,每条记录包含不同类型的检查类别,每一类别中还包含众多检查条目,异常条目用黑色标记出来,整个数据分布稀疏且分布情况复杂;所有检查条目可以分为不同检查类别,每个类别覆盖不同的语义,并且对致病风险贡献不同,需要按其重要性差异区别对待,这种异质性需要在数据图构建过程中充分考虑。

可描述患者病例记录数据的异质图构建包括以下几个步骤:

一、二进制化:二进制化作为异质图构建的预处理步骤,将所有检查类别里的各条目值进行编码,即二进制转化,1和0分别用来表示具体检查类别下的某一条目值存在或不存在;

二、节点插入:在二进制转化步骤中,所有被标记为1的条目,在节点插入步骤中都将被插入到异质数据图中,相应的检查条目名称作为此数据图中相应节点名称,与这些检查条目关联的不同记录也将作为节点插入,并且以相应的边进行关联;

三、节点编辑:节点编辑将插入后的节点根据检查类别及具体条目进行类型编辑,如图3所示,异质患者数据信息网络中包括表示患者记录不同年份的节点及相应的检查类别节点,这些节点最终可以被进一步抽象为右侧的变异网络,检查条目对应进具体的检查类别,如a、b、c,而同一患者的所有记录也可被归纳到患者记录节点r,此时,图3中所示的健康检查记录被抽象为两个层次,即基本的异质信息网络和一个更为抽象的变异结构;

四、连接插入:把每条数据记录与不同检查类别下相应条目之间的连接权重插入数据图,即通过设置合适的权重函数,为相应的边赋以权重。

所述连接权重函数具体为:

在某患者的某条记录中,类型为v的节点中的某个条目,被表示为患者该条记录节点和检查类别下对应的条目节点之间的连接,对于异质图中节点之间的连接权重,根据记录年份远近,对其重要性加以区别。具体计算公式如下:

g(t)=(t-starttime+1)/windowlength

其中,t为当前记录所示时间,windowlength为时间长度窗口,starttime为时间窗口的开始时间,图4最终生成的变异网络结构描述了患者记录与不同类型节点之间最终生成连接,由此可以获得任意两类节点所构成稀疏矩阵的集合。

为了进一步加强图中低密度区域的权重,削弱高密度区域的权重,需对输出矩阵进行标准化处理,其计算公式如下:

其,d为对角矩阵。

2)基于未知类别发现的学习模型

本实施方式提出的半监督学习模型需要满足两点要求:首先,需要具有发现新类别的能力;其次,需要具有对大量未标记医疗数据进行多类别分类学习的能力。下图4所示即为风险预测算法的整体流程。

为体现已有标签集合中不存在的类别,需要设置一个未知类别的发现机制,因此,除利用原有标记对未标记数据进行标记,还需要增加未知标记类别。将前文问题表示调整为:所述的样本集合中包括n个患者s={s1,...,sl,sl+1,...sn},为患者i的ni条记录,rj为元组(xj,tj),其中为在时间tj的一个d维向量。标签集合为c={1,...c},前l个患者si(i≤l)被标记为yi∈c,剩余u=n-l个患者sl+1,...,sl+u为未标记数据,通常l<<u。目标是为未标记患者si预测标记其中,通过加入c+1类别标记,为模型提供一个预测未知类别的机制。

为方便讨论以下模型,首先对相关定义及注释进行说明。假定有c个已知类别及一个未知类别,该未知类别表示未知的疾病或致病因素。将已知标记信息关联到代表患者检查记录的记录节点。该模型具有一定的可扩展性,可泛化到各种类型节点。定义其中,为类型为v的节点标签。为利用少量已标记数据及大量未标记数据进行学习:

①当类型为v的节点p,即xvp已被标记,令

其中,为向量yvp的第k个类别对应的元素;

②当类型为v的节点p,即xvp未被标记,令

通过这样的设置,为无标记数据设置最初的标记,暂时将其归为未知类别中,这样的初始设置不影响最终学习结果。另外,设计可计算标签作为软标签,这样的设置在一定程度上得到导致高风险的相关疾病或致病相关因素的可能性。令为m个节点类型的可计算的软标签,其中,为表示xvp属于任意c+1个类别的可能性的向量。xvp的类别标签可由计算得到。当输入为n个患者的系列检查记录,输出为优化的f,并以此作为可计算的软标签,计算软标签f的过程为:

a、采用患者记录构建异质图得到相应矩阵;

b、计算标准化的权重;

c、对于节点类型初始化;

d、迭代计算更新软标签的值,直到各个标签值不再变化,算法收敛。

3)基于定性bayesian的医学推理模型

本实施方式在传统定性贝叶斯网络(qualitativebayesiannetworks)的基础上构建区间定性网络作为医疗推理模型,主要解决定性影响和定性协作两个方面的问题:

定性影响。定性影响描述了定性贝叶斯网络中两个变量间的直接关系,标注在网络的有向边上,分为正影响(符号+)、负影响(符号-)、零影响(符号0)、不确定影响(符号?)四种。一般地,在构成定性推理网络基础的有向无环图(directedacyclicgraph,dag)中,忽略零影响边。约定出现的变量均为二元随机变量,以大写英文字母表示;对应的小写英文字母为该变量的“真”取值。为计算网络中随机变量a对随机变量b的初始定性影响,本发明引入定性影响的新定义:

s(a,b)=δi

式中,δ取{+,-,?}中的元素,而i是定义在定性贝叶斯网络上的区间概率函数值;对任意考察随机变量e的区间概率函数值i(e),它满足:

i(e)=[l(e),u(e)](l(e)≤u(e)),

l(e)≤p(e)≤u(e)

以及

式中,p是定义在定性贝叶斯网络上的概率测度函数,ω是随机事件的样本空间。本发明使用定义中的区间概率值i描述影响δ的不确定性:i越松散,则δ的不确定性越大;传统的定性贝叶斯网络,其影响符号在本发明所扩展的网络定义中均可以视作是取i=[1](即勒贝格测度为零的区间[1,1])时的特例。在区间定性网络中,若存在有向边(e,h),则应根据知识库中已有的条件概率或其估算结果推出e对h的初始定性影响,其计算方法如下:

其中,

对区间i1=[p,q],i2=[s,t],定义i1>i2,当且仅当s>q。把>号替换成<号,即得到i1<i2的定义。除此之外的情况,都称这两个区间是不可比较的。判定函数s’(e,h)的区间概率:

是对经典贝叶斯网络中初步判定定性影响时,所产生的不确定性之量化。这一对区间概率函数假定客观意义上的不确定性度量被函数值所给出的区间包括,区间的勒贝格测度则衡量了对此不确定性真值的认知清晰度。

另一方面,经典定性贝叶斯网络要求定性影响具有对称性,即对有定义的s(a,b),必有定义s(b,a),且s(a,b)=s(b,a)。在本发明扩展的定义中,这一要求不总能满足。从经典定性网络的要求出发,容易得出结论:若s(a,b)=δ[1],则s(a,b)=s(b,a)一定满足。若s(a,b)=δi(u|v),i≠[1],则有:

即假定a对b的影响是充分条件,则b对a的影响是必要条件。

定性协作。记网络中正在传递的信息为δi,待合成的定性影响为δi,则复合性;

协作的合成结果定义为:

特别地,若多于两个影响参与复合性协作,先合成所有相同符号的影响,再合成+和-,最后将此结果与?合成。传递性协作的合成结果定义为:

式中,对任意合法的区间i1=[p,q],i2=[s,t],定义其乘法为:

i1·i2=[min{l(i1)l(i2),l(i1)u(i2),u(i1)l(i2),u(i1)u(i2)},

max{l(i1)l(i2),l(i1)u(i2),u(i1)l(i2),u(i1)u(i2)}]

这里使用∪运算和区间乘法的合理性,在于所涉及的区间在概率近似的意义上都是足够紧致的:区间包含不确定性的真值,这一真值在独立事件的相互作用中仍然被区间的上下确界包夹,故只要保证上下确界的意义明确,使用∪运算和区间乘法就是合理的。由于扩展的定义能够完全涵盖经典定性贝叶斯网络的对称性、复合性和传递性三种性质,又针对经典网络没有定义的情况补充了完备的定义,故经典的符号传播算法可以直接修改为使用区间定性网络重新定义之算符的版本,且仍然能保持其正确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1