基于相似病例库的健康医疗知识检索方法和系统与流程

文档序号:20604635发布日期:2020-05-01 21:58阅读:299来源:国知局
基于相似病例库的健康医疗知识检索方法和系统与流程

本发明涉及数据处理技术领域,具体涉及一种基于相似病例库的健康医疗知识检索方法和系统。



背景技术:

随着医疗信息化的进一步推进,医疗信息资源的规模也随之庞大起来,这为医疗信息资源管理的发展提出来挑战,也为辅助决策专家系统的性能改进提供了思路,例如基于案例的推理。以cbr技术为核心的案例推理系统能够有效地实现人类推理思维的模拟,成为医疗智能决策支持系统的新的发展方向。

目前常见的cbr技术为基于集成角度与距离的相似案例检索方法改进的案例推理流程。该技术方案是在医疗信息化的环境下,将角度与距离的相似度检索方法集成为一个新的相似度检索方法,并通过收集的实验数据,对该方法的实验结果与仅基于角度或距离的相似度检索方法的实验结果进行对比,验证该技术方案所用的相似度检索方法更加有效,最后提出这种基于集成角度与距离的相似案例检索方法的新的案例推理流程,利用这种改进的案例推理流程来检索相似的案例。

然而,大数据时代的来临,促使医疗类信息资源的数量出现爆发式增长,在这些大量的医疗数据中总会有利用率低,质量差,水平低下的医疗诊断信息。这些质量差、水平低的信息可能误导医生进行医疗诊断,损害诊断决策的正确性;再者,因为病毒、疾病等都在不断的进化、发展,并且这些疾病还具有可变性、演化性的特点,导致现有的相似病例的知识检索方法准确率低。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于相似病例库的健康医疗知识检索方法和系统,解决了现有相似病例的知识检索方法准确率低的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

本发明提供一种基于相似病例库的健康医疗知识检索方法,所述方法由计算机执行,包括以下步骤:

s1、获取医疗病例数据,并对所述医疗病例数据进行预处理;

s2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;

s3、基于特征权重获取jaccard相似度;

s4、基于jaccard相似度获取相似病例。

优选的,所述医疗病例数据包括医疗案例内部特征数据、案例来源权威性数据和医生案例评价数据。

优选的,所述预处理包括标准化处理和特征选择处理。

优选的,所述标准化处理的方法包括:0-1标准化方法和最大最小值0-1标准化方法。

优选的,所述特征选择处理的方法包括:

计算每个特征的f-score值,并根据f-score值进行降序排序;

确定一个被选特征子集,利用svm的分类正确率对当前特征集合进行评估;

迭代,每一次从未被选择的特征中选取一个f-score值最大的特征加入上一阶段的待选集合中,再利用svm对当前集合进行评价;

迭代完所有特征之后,根据svm的分类准确率选取关键特征。

优选的,所述f-score值计算公式包括:

其中:

n+为正类样本的个数,n-为负类样本的个数,为第j个特征在全部医疗案例数据样本上的特征平均值;为在正类样本中的特征平均值,为在负类样本中的特征平均值;代表的是第i个正类样本中第j个特征的特征值,为第i个负类样本中第j个特征的特征值;公式中的分子表明的是正类样本和负类样本之间的差别,公式中的分母部分则表明的是每个样本类的总差别。

优选的,在s3中,所述获取jaccard相似度的计算公式如下:

其中:

x和y表示向量空间中的两个医疗病例,n是向量空间的维数;

x=(a1,a2,a3,……,ai,……,an);

y=(b1,b2,b3,……,bi,……,bn);

s(x,y)表示x和y之间的相似性。

本发明还提供一种基于相似病例库的健康医疗知识检索系统,所述系统包括计算机,所述计算机包括:

至少一个存储单元;

至少一个处理单元;

其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:

s1、获取医疗病例数据,并对所述医疗病例数据进行预处理;

s2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;

s3、基于特征权重获取jaccard相似度;

s4、基于jaccard相似度获取相似病例。

(三)有益效果

本发明提供了一种基于相似病例库的健康医疗知识检索方法和系统。与现有技术相比,具备以下有益效果:

本发明首先获取医疗病例数据,并对所述医疗病例数据进行预处理;再基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;基于特征权重获取jaccard相似度;最后基于jaccard相似度获取相似病例。本发明中运用jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明中不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。本发明融合jaccard算法和遗传算法,能够检索到更准确和合适的案例信息,为医院诊疗决策提供更加准确合理的知识支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于相似病例库的健康医疗知识检索方法的框图;

图2为本发明实施例中的roc曲线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种基于相似病例库的健康医疗知识检索方法和系统,解决了解决了现有的相似病例的知识检索方法准确率低的技术问题问题,实现提高相似病例的知识检索的准确率。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本发明实施例首先获取医疗病例数据,并对医疗病例数据进行预处理;再基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;基于特征权重获取jaccard相似度;最后基于jaccard相似度获取相似病例。本发明实施例中运用jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明实施例中的jaccard相似度不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种基于相似病例库的健康医疗知识检索方法,该方法由计算机执行,如图1所示,包括步骤s1~s4:

s1、获取医疗病例数据,并对医疗病例数据进行预处理;

s2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;

s3、基于特征权重获取jaccard相似度;

s4、基于jaccard相似度获取相似病例。

本发明实施例中运用jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明实施例中的不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。本发明实施例融合jaccard算法和遗传算法,能够检索到更准确和合适的案例信息,为医院诊疗决策提供更加准确合理的知识支持。

下面对各个步骤进行详细描述:

在步骤s1中,获取医疗病例数据,并对所述医疗病例数据进行预处理。具体实施过程如下:

s101、获取医疗病例数据,上述医疗病例数据包括医疗案例内部特征数据、案例来源权威性数据和医生案例评价数据。

获取数据平台uci中的数据作为医疗案例内部特征数据,在本发明实施例中,获取303条医疗案列数据,其中,有216个为cad患者,87个为正常,每条记录共59个特征,对这59个特征进行描述。具体如下:

第一类:人口、病史特征17个,详细信息如表1所示;

第二类:症状、体检特征14个,详细信息如表2所示;

第三类:心电图特征7个,详细信息如表3所示;

第四类:化验、超声心动图特征17个,详细信息如表4所示;

第五类:血管照影特征3个,详细信息如表5所示;

第六类:cad分类特征1个,即cad患者和normal患者。

此外,cad患者的临床诊断流程为:通过血管照影技术对冠状动脉的整体变化情况进行探测,并找到病变的部位,确定病变的程度,如果患者的动脉直径狭窄程度等于或大于50%,则判定其为cad患者,否则为正常。

表1人口统计与病史特征

表2躯体症状与体检特征

表3心电图ecg特征

表4血液化验与超声心动图特征

表5血管照影与cad分类特征

s102、对医疗病例数据进行标准化处理。具有为:

在医疗病例数据当中会存在许多不同的特征,而不同的特征之间又会有不同的尺度和数值差别,因此,需要先对进行试验的医疗病例数据进行标准化处理,把医疗病例数据转化为没有单位限制的无量纲数值,这样才能对不同量纲不同类别的数据进行加权和比较分析,更加有利于实验的进行。在本发明实施例中,共选择了两种数据标准化方法,需要说明的是,在标准化处理之前,需要对每个特征进行定义赋值。

第一种方法是0-1标准化方法,主要是面向于序数型变量来进行,这个变量主要来于案例来源权威性数据和医生案例评价的信息数据,其公式如下:

其中:

rif为第i个对象的等级排序;mf为所有对象的有序状态数。

第二种方法是最大最小值0-1标准化方法,主要是是面向连续型和离散型变量来进行,该变量主要来于医疗案例内部特征,其公式如下:

其中:

x'ij为当前特征的特征值;min{x'ij}为最小特征值;max{x'ij}为最大特征值。

s103、对经过标准化处理后的医疗病例数据进行特征选择处理。

具体实施过程如下:

s10301、计算每个特征的f-score值,并根据f-score值进行降序排序。f-score值计算公式如下:

其中:

n+为正类样本的个数,n-为负类样本的个数,为第j个特征在全部医疗案例数据样本上的特征平均值;为在正类样本中的特征平均值,为在负类样本中的特征平均值;代表的是第i个正类样本中第j个特征的特征值,为第i个负类样本中第j个特征的特征值;公式中的分子表明的是正类样本和负类样本之间的差别,公式中的分母部分则表明的是每个样本类的总差别。

s10302、确定一个被选特征子集,利用svm的分类正确率对当前特征集合进行评估。

s10303、迭代,每一次从未被选择的特征中选取一个f-score值最大的特征加入上一阶段的待选集合中,再利用svm对当前集合进行评价.

s10304、迭代完所有特征之后,根据svm的分类准确率选取关键特征。

在本发明实施例中,最终得到的22个关键特征,如表6所示。

表6关键特征

在步骤s2中,基于遗传算法来获取经过预处理后的医疗病例数据的特征权重。具体实施过程如下:

首先,将医疗病例数据化分为十组,每次实验只选择一组数据来作为实验组,其余剩下的九组数据作为实验对照组,该实验一共进行十次,最后十组权重取平均值;接着,进行2000次的迭代;并将适应度函数作为相似度计算方法的分类准确率。具体为:算法在开始阶段,将需要确定属性权值的数据库的数据分成两部分,即产生参考案例集ref和测试案例集test,ref[i]∈ref,test[j]∈test,i=0,,m,j=0,,n,其中ref[i]test[j]分别表示参考集和测试集中的第i、j个案例,m为参考集中的案例数,n为测试集中的案例数。一个染色体代表一个权矢量,一个染色体由多个基因组成,每个基因表示的就是单个基因项的权重。一个染色体所含的基因个数,等同于在案例集中独立特征项的个数。对于每个权矢量weight[i],找到与每个测试案例test[j]距离最近的训练案例,利用所有的测试案例与它们在参考集中最近邻的距离dist(j,k)之和作为适应度函数iter[i],并以此来评估每一个权矢量的遗传能力。最后的得到的特征权重如表7所示。

表7特征权重

在步骤s3中,基于特征权重获取jaccard相似度。计算公式如下:

其中:

x和y表示向量空间中的两个医疗病例,n是向量空间的维数;

x=(a1,a2,a3,……,ai,……,an);

y=(b1,b2,b3,……,bi,……,bn);

s(x,y)表示x和y之间的相似性。

在步骤s4中,基于jaccard相似度获取相似病例。在具体实施过程中,选择相似度排名靠前的医疗病例数据为相似案例,为医生进行病情诊断和医疗方案决策提供知识支持。

为了验证本发明实施例提供的方法的有效性,通过基于欧式距离的knn算法和基于余弦距离的knn算法作为对照组,和本发实施例的方法进行对比。

表8和图2为三种方法比较所得出的实验结果。较之前两种方法,本文方法总体效果略有改善,实验结果表明,本文方法具有一定的有效性。

表8评估指标结果对比

从结合评估指标、roc曲线,本发明实施例的方法明显优于另外两种方法。

本发明实施例还提供一种基于相似病例库的健康医疗知识检索系统,上述系统包括计算机,上述计算机包括:

至少一个存储单元;

至少一个处理单元;

其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:

s1、获取医疗病例数据,并对上述医疗病例数据进行预处理;

s2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;

s3、基于特征权重获取jaccard相似度;

s4、基于jaccard相似度获取相似病例。

可理解的是,本发明实施例提供的上述基于相似病例库的健康医疗知识检索系统与上述基于相似病例库的健康医疗知识检索方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于相似病例库的健康医疗知识检索方法中的相应内容,此处不再赘述。

综上所述,与现有技术相比,具备以下有益效果:

本发明实施例中运用jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明实施例中的不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。本发明实施例融合jaccard算法和遗传算法,能够检索到更准确和合适的案例信息,为医院诊疗决策提供更加准确合理的知识支持。

需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1