诊断信息处理分析的方法和系统与流程

文档序号:14011752阅读:656来源:国知局

本发明涉及医疗系统技术领域,特别是涉及一种诊断信息处理分析的方法和系统。



背景技术:

在大数据时代,人们已经逐渐接受使用健康大数据来协助诊断和治疗的方法。随着许多产业应用在利用大数据上获得的成功,健康服务产业也开始利用医疗大数据来提升服务效率和质量。

健康信息工具和机器学习技术已经成功地用于帮助医生更高效地诊断疾病和制定治疗方案。临床决策支持应用包括提供诊断、个性化药物评估、治疗方案、相关医学知识的系统。临床决策支持应用旨在为医护人员提供专业的知识、病人的信息和智能化手段从而提高医护人员做决策的效率和效用。通过临床决策支持应用,可以减少医疗过失和提升医疗服务质量。在医学领域,高质量的临床决策支持系统的需求日益提升。

临床医生通过他们的经验和知识来区分病人并为病人做诊断。因此,如果临床医生没有丰富的经验和准确的判断能力,将会造成不可避免的医疗失误。建立临床决策支持系统的目标是通过机器学习技术提升临床医生的准确性和效率。该系统可以通过个人健康记录,如生理数据、电子病历、3d图像、放射图像、基因组测序、临床和收费等数据,来提取患者的特征、根据患者的特征对患者分类并提供相应的临床建议给医生。在医疗场景中的评分标准和医学领域的复杂性是临床决策支持系统的难题。目前,市场上已经开发了许多临床决策支持系统来为医生提供帮助。

由于一些疾病带有并发症,一个患者同时患有多种疾病的情况很常见。为了估计参考疾病给临床医生,需要临床支持决策系统更加复杂。分析真实的临床诊断信息后发现,同时患有多个疾病的患者数量占了所有患者数量的很大一部分。所以临床决策支持系统需要推荐多个参考疾病给临床医生。因此,推荐疾病转换为了多标签分类参考疾病的问题。

由于ml-knn(懒惰的多标签分类方法)步骤简单和效果突出,该算法受到了广泛的应用和研究。然而该算法通过独立地估计每一个标签的可能性,忽略了标签之间的关联。而实际诊断疾病中,很多标签之间是有联系的,对于标签之间有关联的应用场景,ml-knn方法缺乏有效性。



技术实现要素:

本发明的主要目的在于提供一种诊断信息处理分析的方法和系统,旨在利用疾病之间的相关性有效提高诊断疾病的准确性。

为实现上述目的,本发明提供一种诊断信息处理分析的方法,包括以下步骤:

通过多个样本特征以及多个样本的标签信息建立多标签信息的特征空间和标签空间,并根据每个样本特征和每个标签信息建立所述样本的特征向量和第一标签向量;

计算所述每个标签信息的出现次数;计算每两个标签信息同时出现在一个样本中的次数;

计算每两个标签信息的相似度,建立标签-标签的相似度矩阵;

通过所述标签-标签相似矩阵重构所述样本的第一标签向量以得到第二标签向量,并根据所述第二标签向量计算目标样本的标签信息出现概率;

降序排序所述目标样本标签信息出现的概率,选取预设数量的标签信息作为所述目标样本的推荐标签信息。

优选地,所述通过多个样本特征以及多个样本的标签信息建立多标签信息的特征空间和标签空间还包括:

预设f={f1,f2...fb}为多个标签信息b维特征空间,预设l={l1,l2,...lq}为所述多个标签信息q维的标签空间;

预设t={(x1,y1),(x2,y2),...,(xn,yn)}为多个标签信息的集,预设为所述样本的b维特征向量;则

为所述样本xi对应的标签向量;若特征向量xi有标签空间lj,则标签向量否则

优选地,所述计算所述每个标签信息的出现次数包括:根据所述标签信息在每个样本中出现的次数,计算该标签信息对应的样本,设值为rij;若所述特征向量xk中有标签空间li,则rij=1,否则rij=0。

优选地,所述计算每两个标签的相似度,建立标签-标签的相似度矩阵还包括:

利用余弦相似度计算方法计算每两个标签的相似度。

优选地,所述利用余弦相似度计算方法计算每两个标签的相似度包括:

通过计算公式计算每两个标签的相似度,

其中,pij是同时包括标签空间li与标签空间lj的集合,为标签空间li与标签空间lj的同时出现在样本xk中的次数;分别为标签空间li出现的总次数和标签空间lj出现的总次数。

优选地,所述计算每两个标签信息的相似度,建立标签-标签的相似度矩阵包括:

所述标签-标签的相似度矩阵为

其中,矩阵中的元素sij=sim(ii,ij)表示标签li与标签lj的相似度。

优选地,所述通过标签-标签相似度矩阵重构所述样本的标签信息矩阵为:y=g(x),

其中g(x)为:

优选地,所述根据所述第二标签向量计算目标样本的标签信息出现概率包括:

根据所述第二标签向量,使用懒惰的多标签分类算法计算目标样本中每个标签信息出现概率。

本发明还提供一种诊断信息处理分析系统,所述系统包括:

用于根据多个样本特征以及多个样本的标签信息建立多标签信息的特征空间和标签空间的模块;

用于根据每个样本特征和每个标签信息建立所述样本的特征向量和第一标签向量的模块;

用于计算所述每个标签信息的出现次数的模块;

用于计算每两个标签信息同时出现在一个样本中的次数的模块;

用于计算每两个标签信息的相似度,建立标签-标签的相似度矩阵的模块;

用于通过所述标签-标签相似矩阵重构所述样本的标签信息矩阵、重构样本的第一标签向量以得到第二标签向量的模块,以及用于根据所述第二标签向量计算目标样本的标签信息出现概率的模块;

用于降序排序所述目标样本标签信息出现的概率的模块‘

用于选取预设数量的标签信息作为所述目标样本的推荐标签信息的模块。

优选地,所述系统还包括:所述用于计算每两个标签信息的相似度,建立标签-标签的相似度矩阵的模块为余弦相似度计算模块。

本发明的技术方案通过利用病人所患疾病对应的特征构成多标签学习算法中的特征空间、以及根据所患疾病作为多标签学习算法中的标签信息,通过对标签信息进行计算分析,得出每两个标签信息共同出现在一个病患上的次数,并利用标签相似度矩阵重构标签矩阵以更新每个病人对应的标签向量,再利用多标签学习算法来为目标病人预测可能的疾病,可有效地利用疾病与其并发症的关联来发现更多潜在疾病,提高诊断决策支持的精度。

附图说明

图1为本发明诊断信息处理分析的方法的流程示意图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供一种诊断信息处理分析的方法,包括以下步骤:

通过多个样本特征以及多个样本的标签信息建立多标签信息的特征空间和标签空间,并根据每个样本特征和每个标签信息建立所述样本的特征向量和第一标签向量;计算所述每个标签信息的出现次数;计算每两个标签信息同时出现在一个样本中的次数;计算每两个标签信息的相似度,建立标签-标签的相似度矩阵;通过所述标签-标签相似矩阵重构样本的第一标签向量以得到第二标签向量,并根据所述第二标签向量计算目标样本的标签信息出现概率;降序排序所述目标样本标签信息出现的概率,选取预设数量的标签信息作为所述目标样本的推荐标签信息。

本发明的原理是:并发症是指一种疾病的发展过程中引起的另一种疾病或者症状。医生在为病患诊断时,如果确诊了一种疾病,会考虑该患者是否也患了该疾病的并发症,以确保能发现病患的更多疾病。同时,一种疾病通过与其他疾病的共同出现的次数能够发映出其自身与其他疾病之间的关系,所以,可利用两两疾病之间的共现频率来反映疾病之间的相似性,利用计算出的疾病相似性并结合懒惰多标签分类方法,最终推荐病患可能患的疾病的信息。

在具体实施例中,根据患者诊断记录预设为多标签数据集,(basicmultiplelabelsdataset,记为bmlds);同时,在bmlds中分离出样本的特征集和标签集,分别记为f和l,并对bmlds按照7:3的比例或分为训练集和测试集,本发明的方法包括:

s1、通过多个样本特征以及多个样本的标签信息建立多标签信息的特征空间和标签空间:

预设f={f1,f2...fb}为多个标签信息b维特征空间,预设l={l1,l2,...lq}为所述多个标签信息q维的标签空间;

预设t={(x1,y1),(x2,y2),...,(xn,yn)}为多个标签信息的集,预设为所述样本的b维特征向量;则

为所述样本xi对应的标签向量;若特征向量xi有标签空间lj,则标签向量否则

s2、计算所述每个标签信息的出现次数:根据所述标签信息在每个样本中出现的次数,计算该标签信息对应的样本,设值为rij;若所述特征向量xk中有标签空间li,则rij=1,否则rij=0。

s3、计算每两个标签的相似度,建立标签-标签的相似度矩阵:

利用余弦相似度计算方法计算每两个标签的相似度。

相似度计算方法包括三种,余弦相似度计算方法、皮尔森相关系数计算方法以及jaccard相似系数计算方法。

具体地,利用余弦相似度计算方法计算每两个标签的相似度包括:

通过计算公式计算每两个标签的相似度,其中,pij是同时包括标签空间li与标签空间lj的集合,为标签空间li与标签空间lj的同时出现在样本xk中的次数;分别为标签空间li出现的总次数和标签空间lj出现的总次数;

皮尔森相关系数计算方法为:

其中i和j分别是标签li与标签lj对应的样本向量,皮尔森相关系数是分别对向量i和向量j自身总体标准化后计算空间向量的余弦夹角。

jaccard相似系数计算方法为:

其中i和j分别是标签li与标签lj对应的样本向量。

s4、计算每两个标签信息的相似度,建立标签-标签的相似度矩阵:

所述标签-标签的相似度矩阵为

其中,矩阵中的元素sij=sim(ii,ij)表示标签li与标签lj的相似度。

s5、通过标签-标签相似度矩阵重构所述样本的标签信息矩阵

y=g(x),其中g(x)为:

s6、根据第二标签向量计算目标样本的标签信息出现概率:

根据所述第二标签向量,使用懒惰的多标签分类算法计算目标样本中每个标签信息出现概率。具体地,每个标签信息在目标样本中出现的概率值范围在[0,1]之间。

懒惰的多标签分类算法的分类函数如下:

首先统计每个样本的k个近邻(knn)样本中每个标签出现的次数,用最大化后验概率的方法来估计可能出现在无标签样本中的标签。对一个包含m个样本的样本空间x,其标签空间记为l。事件表示第i个标签信息取值为b的概率,其中b为0或者1,b为0表示标签不出现,b为1表示标签出现。事件表示k个近邻中恰好有j个li标签,通过计算等式值的大小来确定标签l是否出现在样本x中。

其中,由公式计算,

yj(li)表示样本j是否有标签li,s∈(0,1)。因此,

条件概率的计算需要在遍历训练样本集时,统计每个样本的k近邻的样本中包含标签li的情况。数组c[j]统计每个样本标签li取值为1时,该样本的k近邻样本中包含标签li的个数;数组c'[j]标签li取值为0时,该样本的k近邻样本中包含标签li的个数。p表示标签的个数。条件概率由下面的等式计算:

s7、降序排序所述目标样本标签信息出现的概率,选取预设数量的标签信息作为所述目标样本的推荐标签信息。

根据标签信息在目标样本中出现的概率值,由大到小排列标签,选取排练前n个标签信息作为目标样本的推荐标签。在为病人看病时,推荐概率值最大的前n个可能的并发症标签信息,n的具体数值可根据不同疾病进行预设。

在具体实施例中,病人是多标签学习算法中的样本,每个病人的疾病对应的特征构成了多标签学习算法中的特征空间,所有病人所患的疾病作为多标签学习算法中的标签信息。通过对标签信息的分析,得出每两个标签信息的共同出现的次数;当两个不同标签信息同时出现在同一样本中的次数越多,则这两个标签信息关联越大;根据余弦相似度来计算每两个标签信息之间的相似度,根据标签的相似度,重新计算样本对应的标签向量,其中某个标签对应的向量值等于或者超过0.5的,该标签的向量值重设为1,否则该标签的向量值仍然为0;通过重构样本对应的标签向量,发现训练样本潜在的可能标签,关联训练样本的标签,利用标签相似度矩阵重构标签空间中的标签矩阵,以更新每个样本对应的标签向量,最后利用多标签学习算法来为目标样本预测可能的标签。

在具体实施例中,选择9种常见的疾病(包括2型糖尿病、高血脂症、脂肪肝、高钾血症、低蛋白血症、糖尿病肾病、脑梗塞、冠心病和骨质疏松症)。从医院挑选患有这些疾病中的一个或者多个患者作为实验样本;收集患者的化验报告和基本信息作为样本特征,得到包含5种病人基本信息和278种检验项目的459个病患样本。在病患样本中提取出性别、年龄、体温、身高和体重作为病患的基本属性。性别的取值是二进制型,如男性是0,女性是1。然而,年龄、体温、身高和体重的取值是数值型的,保留它们的实际值;对于化验值是数值型的项目,如果它的化验值在正常的参考范围内,它的取值设为1;如果它的化验值超出正常范围,它的取值设为实际的化验值。对于化验值是文本描述形式的项目,收集该项目的不同的文本描述值然后利用数组排列它们。若项目的文本描述值等于参考值,则取值为0;若项目的文本描述不等于参考值,则取值设置为该文本描述在数组中的排列值。

如表1和表2所示,分别列出了特征的统计和疾病的统计。总体上说,60%的患者是男性,40%的患者是女性。患者的平均年龄、体温、身高和体重分别是64.64、36.5、167.81和67.75。从疾病的统计中可知,在这9种疾病中,2型糖尿病和脑梗塞是最常见的两种疾病。实际上,这些疾病也是老年人群中最常见的疾病。我们随机选择70%的患者作为训练样本,剩余的30%的患者作为测试样本。

表1

表2

多标签分类问题的评价标准分为两类:a、基于排名的评价标准:目标是把相关的样例排列在不相关的样例之前。b、二进制预测评估:目标是对每个目标样本做一个严格的是/否分类。使用hammingloss(汉明损失)、准确率、召回率和f1-score(f1分数)来评估本发明的效果。

hammingloss评估测试样本的推荐标签和它的实际标签的平均差异:

其中,h(xi)是测试样本xi的推荐标签集合;p是测试样本的个数;yi是测试样本xi的实际标签集合;δ是对称差异。

准确率定义为在标签推荐列表中命中的标签个数与标签推荐列表的总数的比值。即准确率表示测试样本有推荐标签的准确率的概率。准确率的公式如下:

召回率定义为命中的标签个数与测试样本的真实标签个数的比值。换句话说,召回率代表真实的标签被推荐的准确率的概率。召回率的公式如下:

f1-score同时考虑了准确率和召回率,它的公式如下:

对比本发明的效果与两种经典的多标签分类方法的效果来分析方法的效果。两种经典的多标签分类方法分别是一种懒惰的多标签分类方法(ml-knn)和结合br方法和knn方法的多标签分类方法(br-knn)。在表3中主要和经典的多标签分类算法进行了对比,根据各自稳定性好、准确度高的最近邻数,近邻数都设置为10,本发明的平滑因子与ml-knn的平滑因子都设置为1。在所有方法中,推荐的标签数量都为2。采用10折交叉验证来执行实验,最后的结果是这些实验结果的平均值。在表3中,对于本发明,它的精确率是0.236,召回率是0.3793以及f1-score为0.2915,这些都优于其他两个方法。对比实验结果排在第二的ml-knn,本发明的精确率、召回率和f1-score分别提高了11%、13%和12%。本发明的hammingloss是0.2117,也优于其他两种方法。因此,本发明的性能是优于其他两种方法的。

表3

↓:值越小效果越好↑:值越大效果越好

本发明还提供一种诊断信息处理分析系统,所述系统包括:

用于根据多个样本特征以及多个样本的标签信息建立多标签信息的特征空间和标签空间的模块;

用于根据每个样本特征和每个标签信息建立所述样本的特征向量和第一标签向量的模块;

用于计算所述每个标签信息的出现次数的模块;

用于计算每两个标签信息同时出现在一个样本中的次数的模块;

用于计算每两个标签信息的相似度,建立标签-标签的相似度矩阵的模块;

用于通过所述标签-标签相似矩阵重构所述样本的标签信息矩阵、重构样本的第一标签向量以得到第二标签向量的模块,以及用于根据所述第二标签向量计算目标样本的标签信息出现概率的模块;

用于降序排序所述目标样本标签信息出现的概率的模块‘

用于选取预设数量的标签信息作为所述目标样本的推荐标签信息的模块。

优选地,所述系统还包括:所述用于计算每两个标签信息的相似度,建立标签-标签的相似度矩阵的模块为余弦相似度计算的模块。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1