疾病特征智能匹配方法

文档序号:9200575阅读:541来源:国知局
疾病特征智能匹配方法
【技术领域】
[0001] 本发明属于医学数据挖掘领域,涉及一种用于辅助诊断的疾病特征智能匹配方 法。
【背景技术】
[0002] 医生在日常工作中,常常需要根据当前患者的症状参考已有病例的治疗方案。患 者的体征数据和检验检查数据共同构成了多维的疾病特征向量,相似病例的搜索意味着从 庞大的病例数据库中找到相匹配的特征向量,显然传统的基于关键词的搜索方式无法满足 多维特征快速匹配的需求。
[0003] 另一方面,数据挖掘技术作为数据库知识发现的重要过程,已被广泛应用在诸多 领域,通过建立相应的挖掘模型,可以解决现实中的分类、预测、推荐等各类问题。

【发明内容】

[0004] 本发明的目的是利用患者的体征和检验检查数据来构建疾病特征的智能匹配模 型,用于辅助诊断和治疗方案推荐。
[0005] 为了达到上述目的,本发明的技术方案是提供了一种疾病特征智能匹配方法,其 特征在于,包括以下步骤:
[0006] 步骤1、对电子病例库中已有的患者数据按照事先建立的疾病体征集和检验检查 指标集提取相应的值构成每位患者的特征向量,将所有患者的特征向量整合成病例特征矩 阵D ;
[0007] 步骤2、采用主成分分析提取病例特征矩阵D的主成分,并按照主成分所在方向进 行数据变换,变换后的空间称为病例特征矩阵D的特征空间F ;
[0008] 步骤3、将待匹配患者的疾病体征数据和检验检查数据投影到特征空间F中,并计 算待匹配患者与病例特征矩阵D中每一位患者的特征向量的相似度,排序选择相似度最大 的前N个患者的特征向量作为待匹配患者的最近邻特征集U ;
[0009] 步骤4、以相似度为权值,计算待匹配患者的各疾病体征指标和检验检查指标的得 分,选取排序后得分贡献度在一定百分比以上的疾病体征指标和/或检验检查指标作为判 断病症的主要特征,用于辅助诊断,其中,第i个待匹配患者的第a个指标的得分为Pia,则 有:
[0010]
式中,I;为第i个待匹配患者的指标的平均值,Simij 为第i个待匹配患者与最近邻特征集U中第j个患者的相似度,Zja表示最近邻特征集U中 第j个患者的第a个指标的得分,&为最近邻特征集U中第j个患者的指标的平均值。
[0011] 优选地,所述疾病体征集和检验检查指标集通过以下方法得到:
[0012] 以包含患者基本信息、体征信息、检验检查信息和诊断信息的电子病历为基础,结 合疾病防治指南和国内外研宄现状构建的疾病体征词袋,将电子病历中的非结构化体征信 息进行结构化处理,得到疾病体征集和检验检查指标集。
[0013] 优选地,在所述步骤3中,采用余弦相似性度量计算待匹配患者与病例特征矩阵D 中每一位患者的特征向量的相似度,则在所述步骤4中,第i个待匹配患者与最近邻特征集 U中第j个患者的相似度为
式中,A为第i个待匹配患者的特征向量,fj为 最近邻特征集U中第j个患者的特征向量。
[0014] 优选地,在所述步骤4后还包括:
[0015] 步骤5、采用数据稀疏性评估和匹配模型评估进行性能评估。
[0016] 优选地,在所述步骤2之前并所述步骤1之后还包括:
[0017] 步骤A、将所述病例特征矩阵D分块,即分为患者疾病体征指标矩阵X和患者检验 检查指标矩阵Y,则所述步骤2为:
[0018] 分别对患者疾病体征指标矩阵X和患者检验检查指标矩阵Y执行主成分分析,并 按照主成分所在方向进行数据变换,将分别变换后获得的特征空间串型组合成病例特征矩 阵D的特征空间F。
[0019] 优选地,在所述步骤2之前并所述步骤A之后还包括:
[0020] 步骤B、将所述病例特征矩阵D中的数据进行标准化,以消除量纲和数量级的影 响。
[0021] 优选地,采用相同的方法分别将所述患者疾病体征指标矩阵X和患者检验检查指 标矩阵Y中的数据标准化,其中,设患者疾病体征指标矩阵X有η行m列,则将患者疾病体 征指标矩阵X中的体征指标值Xu标准化为;的方法为:
[0022]
[0023] 式中,μ #第j项体征指标的均值,
》4为第j项体征指标的方差,
[0024] 优选地,在所述步骤2中,选取主成分时选择累积方差贡献度大于0. 85的成分作 为主成分,且主成分相应的特征值必须大于1,以保证所选主成分足以解释原变量。
[0025] 本发明的有益效果是,与传统的基于关键词搜索的方法不同,本发明所涉及的疾 病特征的智能匹配方法和系统,能根据患者体征和检验检查指标信息诊断病情,同时获取 相应治疗方案推荐,为医生的诊治提供参考,同时提尚诊治的效率。
【附图说明】
[0026] 图1为本发明的整体逻辑图;
[0027] 图2为本发明性能评估过程中覆盖率的累积概率分布函数曲线。
[0028] 图中:1.数据集成过程、2.电子病历库、3.患者体征数据、4.患者检验检查数据、 5.非结构化数据结构化处理、6.患者体征指标特征矩阵、7.患者检验检查指标特征矩阵、 8.集成后的病例特征矩阵(包括体征指标特征矩阵和检验检查指标特征矩阵)、9.维数约 简过程、10.标准化、11.分块进行主成分分析、12.稀疏度计算、13.约简后的病例特征矩 阵、14.待匹配患者特征向量、15.相似度量过程、16.计算相似性、17.待匹配患者最近邻特 征集、18.智能匹配过程、19.计算匹配特征得分、20.匹配体征集、21.性能评估过程。
【具体实施方式】
[0029] 为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0030] 本发明涉及一种用于辅助诊断的疾病特征智能匹配方法和系统。其基本思想是: 在医疗大数据背景下,根据单一疾病患者的临床表现具有相似性,通过匹配当前患者与数 据库中的已有病例,得到对于当前患者的疾病诊断的额外临床决策支持及治疗方案推荐, 起到提高医生诊断效率的辅助作用。本发明以住院高血压患者为例,具体介绍实施过程。值 得一提的是,因为所获取的疾病特征具有严重的稀疏性,因此本发明中首先采用高维数据 维数约简的思想来减弱因稀疏性和冗余性造成的匹配率下降问题。结合图1,本发明的具体 步骤为:
[0031] 步骤1、以包含患者基本信息、体征信息、检验检查信息和诊断信息的电子病历为 基础,结合疾病防治指南和国内外研宄现状构建的疾病体征词袋,将电子病历中的非结构 化体征信息进行结构化处理,得到疾病体征集和检验检查指标集。
[0032] 对电子病例库中已有的患者数据按照事先建立的疾病体征集和检验检查指标集 提取相应的值构成每位患者的特征向量,将所有患者的特征向量整合成病例特征矩阵D,表 述如下:
[0033]
[0034] 式中,X为患者疾病体征指标矩阵,Y为患者检验检查指标矩阵,Xu为第i个患者 的第j项体征指标,yit为第i个患者的第t项检验检查指标。
[0035] 步骤2、将病例特征矩阵D中的数据进行标准化,以消除量纲和数量级的影响。采 用相同的方法分别将患者疾病体征指标矩阵X和患者检验检查指标矩阵Y中的数据标准 化,其中,将患者疾病体征指标矩阵X中的体征指标值Xu标准化为的方法为:
[0036]
[0037] 式中,μ」为第j项体征指标的均值,
^ CT12为第j项体征指标的方差,
[0038] 步骤3、维数约简过程:因数据集成过程得到的病例特征矩阵D是非对称的稀疏矩 阵,直接进行相似性度量将导致冗余的计算量,并且算法精度不高。因此,本发明采用主成 分分析分别提取病例特征矩阵D中患者疾病体征指标矩阵X和患者检验检查指标矩阵Y的 主成分,选取主成分时选择累积方差贡献度大于〇. 85的成分作为主成分,且主成分相应的 特征值必须大于1,以保证所选主成分足以解释原变量,并按照主成分所在方向进行数据变 换,将分别变换后获得的特征空间串型组合成病例特征矩阵D的特征空间F。
[0039] 步骤4、将待匹配患者的疾病体征数据和检验检查数据投影到特征空间F中,并采 用余弦相似性度量计算待匹配患者与病例特征矩阵D中每一位患者的特征向量的相似度, 排序选择相似度最大的前N个患者的特征向量作为待匹配患者的最近邻特征集U ;
[0040] 步骤5、以以余弦相似度为权值,计算待匹配患者的各疾病体征指标和检验检查指 标的得分,选取排序后得分贡献度在95%以上的疾病体征指标和检验检查指标作为判断病 症的主要特征,用于辅助诊断,其中,第i个待匹配患者的第a个指标的得分为Pia,则有:
[0041]
式中,ζ为第i个待匹配患者的指标的平均值,Zja 表示最近邻特征集U中第j个患者的第a个指标的得分,&为最近邻特征集U中第j个患 者的指标的平均值,Simij为第i个待匹配患者与最近邻特征集U中第j个患者的相似度,
,式中,A为第i个待匹配患者的特征向量,f」为最近邻特征集U中第j个 患者的特征向量。
[0042] 步骤6、性能评估过程:这里的性能评估包含数据稀疏性评估和匹配模型评估,其 中数据的稀疏性通过如下的稀疏度sparse来评价:
[0043]
[0044] 式中,Ncie D表示病例特征矩阵D中所有的零元的个数。sparse越接近于1表示数 据的稀疏性越尚。
[0045] 匹配模型评估采取覆盖率COV来衡量疾病特征匹配的覆盖程度,其定义为给定匹 配原则的前提下,匹配集中覆盖实际体征的个数占实际体征的比。同时采用累积概率分布 来分析整个匹配系统的精度。
[0046] 以下以具体实施来进一步说明本发明。
[0047] 步骤1、依据电子病历库2中上海市2011年度各医院汇总的57297
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1