疾病特征智能匹配方法

文档序号：9200575阅读：541来源：国知局

疾病特征智能匹配方法
【技术领域】
[0001] 本发明属于医学数据挖掘领域，涉及一种用于辅助诊断的疾病特征智能匹配方法。
【背景技术】
[0002] 医生在日常工作中，常常需要根据当前患者的症状参考已有病例的治疗方案。患者的体征数据和检验检查数据共同构成了多维的疾病特征向量，相似病例的搜索意味着从庞大的病例数据库中找到相匹配的特征向量，显然传统的基于关键词的搜索方式无法满足多维特征快速匹配的需求。
[0003] 另一方面，数据挖掘技术作为数据库知识发现的重要过程，已被广泛应用在诸多领域，通过建立相应的挖掘模型，可以解决现实中的分类、预测、推荐等各类问题。

【发明内容】

[0004] 本发明的目的是利用患者的体征和检验检查数据来构建疾病特征的智能匹配模型，用于辅助诊断和治疗方案推荐。
[0005] 为了达到上述目的，本发明的技术方案是提供了一种疾病特征智能匹配方法，其特征在于，包括以下步骤：
[0006] 步骤1、对电子病例库中已有的患者数据按照事先建立的疾病体征集和检验检查指标集提取相应的值构成每位患者的特征向量，将所有患者的特征向量整合成病例特征矩阵D ;
[0007] 步骤2、采用主成分分析提取病例特征矩阵D的主成分，并按照主成分所在方向进行数据变换，变换后的空间称为病例特征矩阵D的特征空间F ;
[0008] 步骤3、将待匹配患者的疾病体征数据和检验检查数据投影到特征空间F中，并计算待匹配患者与病例特征矩阵D中每一位患者的特征向量的相似度，排序选择相似度最大的前N个患者的特征向量作为待匹配患者的最近邻特征集U ;
[0009] 步骤4、以相似度为权值，计算待匹配患者的各疾病体征指标和检验检查指标的得分，选取排序后得分贡献度在一定百分比以上的疾病体征指标和/或检验检查指标作为判断病症的主要特征，用于辅助诊断，其中，第i个待匹配患者的第a个指标的得分为Pia，则有：
[0010]
式中，I；为第i个待匹配患者的指标的平均值，Simij 为第i个待匹配患者与最近邻特征集U中第j个患者的相似度，Zja表示最近邻特征集U中第j个患者的第a个指标的得分，&为最近邻特征集U中第j个患者的指标的平均值。
[0011] 优选地，所述疾病体征集和检验检查指标集通过以下方法得到：
[0012] 以包含患者基本信息、体征信息、检验检查信息和诊断信息的电子病历为基础，结合疾病防治指南和国内外研宄现状构建的疾病体征词袋，将电子病历中的非结构化体征信息进行结构化处理，得到疾病体征集和检验检查指标集。
[0013] 优选地，在所述步骤3中，采用余弦相似性度量计算待匹配患者与病例特征矩阵D 中每一位患者的特征向量的相似度，则在所述步骤4中，第i个待匹配患者与最近邻特征集 U中第j个患者的相似度为
式中，A为第i个待匹配患者的特征向量，fj为最近邻特征集U中第j个患者的特征向量。
[0014] 优选地，在所述步骤4后还包括：
[0015] 步骤5、采用数据稀疏性评估和匹配模型评估进行性能评估。
[0016] 优选地，在所述步骤2之前并所述步骤1之后还包括：
[0017] 步骤A、将所述病例特征矩阵D分块，即分为患者疾病体征指标矩阵X和患者检验检查指标矩阵Y，则所述步骤2为：
[0018] 分别对患者疾病体征指标矩阵X和患者检验检查指标矩阵Y执行主成分分析，并按照主成分所在方向进行数据变换，将分别变换后获得的特征空间串型组合成病例特征矩阵D的特征空间F。
[0019] 优选地，在所述步骤2之前并所述步骤A之后还包括：
[0020] 步骤B、将所述病例特征矩阵D中的数据进行标准化，以消除量纲和数量级的影响。
[0021] 优选地，采用相同的方法分别将所述患者疾病体征指标矩阵X和患者检验检查指标矩阵Y中的数据标准化，其中，设患者疾病体征指标矩阵X有η行m列，则将患者疾病体征指标矩阵X中的体征指标值Xu标准化为；的方法为：
[0022]
[0023] 式中，μ #第j项体征指标的均值，
》4为第j项体征指标的方差，
[0024] 优选地，在所述步骤2中，选取主成分时选择累积方差贡献度大于0. 85的成分作为主成分，且主成分相应的特征值必须大于1，以保证所选主成分足以解释原变量。
[0025] 本发明的有益效果是，与传统的基于关键词搜索的方法不同，本发明所涉及的疾病特征的智能匹配方法和系统，能根据患者体征和检验检查指标信息诊断病情，同时获取相应治疗方案推荐，为医生的诊治提供参考，同时提尚诊治的效率。
【附图说明】
[0026] 图1为本发明的整体逻辑图；
[0027] 图2为本发明性能评估过程中覆盖率的累积概率分布函数曲线。
[0028] 图中：1.数据集成过程、2.电子病历库、3.患者体征数据、4.患者检验检查数据、 5.非结构化数据结构化处理、6.患者体征指标特征矩阵、7.患者检验检查指标特征矩阵、 8.集成后的病例特征矩阵（包括体征指标特征矩阵和检验检查指标特征矩阵）、9.维数约简过程、10.标准化、11.分块进行主成分分析、12.稀疏度计算、13.约简后的病例特征矩阵、14.待匹配患者特征向量、15.相似度量过程、16.计算相似性、17.待匹配患者最近邻特征集、18.智能匹配过程、19.计算匹配特征得分、20.匹配体征集、21.性能评估过程。
【具体实施方式】
[0029] 为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。
[0030] 本发明涉及一种用于辅助诊断的疾病特征智能匹配方法和系统。其基本思想是：在医疗大数据背景下，根据单一疾病患者的临床表现具有相似性，通过匹配当前患者与数据库中的已有病例，得到对于当前患者的疾病诊断的额外临床决策支持及治疗方案推荐，起到提高医生诊断效率的辅助作用。本发明以住院高血压患者为例，具体介绍实施过程。值得一提的是，因为所获取的疾病特征具有严重的稀疏性，因此本发明中首先采用高维数据维数约简的思想来减弱因稀疏性和冗余性造成的匹配率下降问题。结合图1，本发明的具体步骤为：
[0031] 步骤1、以包含患者基本信息、体征信息、检验检查信息和诊断信息的电子病历为基础，结合疾病防治指南和国内外研宄现状构建的疾病体征词袋，将电子病历中的非结构化体征信息进行结构化处理，得到疾病体征集和检验检查指标集。
[0032] 对电子病例库中已有的患者数据按照事先建立的疾病体征集和检验检查指标集提取相应的值构成每位患者的特征向量，将所有患者的特征向量整合成病例特征矩阵D，表述如下：
[0033]
[0034] 式中，X为患者疾病体征指标矩阵，Y为患者检验检查指标矩阵，Xu为第i个患者的第j项体征指标，yit为第i个患者的第t项检验检查指标。
[0035] 步骤2、将病例特征矩阵D中的数据进行标准化，以消除量纲和数量级的影响。采用相同的方法分别将患者疾病体征指标矩阵X和患者检验检查指标矩阵Y中的数据标准化，其中，将患者疾病体征指标矩阵X中的体征指标值Xu标准化为的方法为：
[0036]
[0037] 式中，μ」为第j项体征指标的均值，
^ CT12为第j项体征指标的方差，
[0038] 步骤3、维数约简过程：因数据集成过程得到的病例特征矩阵D是非对称的稀疏矩阵，直接进行相似性度量将导致冗余的计算量，并且算法精度不高。因此，本发明采用主成分分析分别提取病例特征矩阵D中患者疾病体征指标矩阵X和患者检验检查指标矩阵Y的主成分，选取主成分时选择累积方差贡献度大于〇. 85的成分作为主成分，且主成分相应的特征值必须大于1，以保证所选主成分足以解释原变量，并按照主成分所在方向进行数据变换，将分别变换后获得的特征空间串型组合成病例特征矩阵D的特征空间F。
[0039] 步骤4、将待匹配患者的疾病体征数据和检验检查数据投影到特征空间F中，并采用余弦相似性度量计算待匹配患者与病例特征矩阵D中每一位患者的特征向量的相似度，排序选择相似度最大的前N个患者的特征向量作为待匹配患者的最近邻特征集U ;
[0040] 步骤5、以以余弦相似度为权值，计算待匹配患者的各疾病体征指标和检验检查指标的得分，选取排序后得分贡献度在95%以上的疾病体征指标和检验检查指标作为判断病症的主要特征，用于辅助诊断，其中，第i个待匹配患者的第a个指标的得分为Pia，则有：
[0041]
式中，ζ为第i个待匹配患者的指标的平均值，Zja 表示最近邻特征集U中第j个患者的第a个指标的得分，&为最近邻特征集U中第j个患者的指标的平均值，Simij为第i个待匹配患者与最近邻特征集U中第j个患者的相似度，
，式中，A为第i个待匹配患者的特征向量，f」为最近邻特征集U中第j个患者的特征向量。
[0042] 步骤6、性能评估过程：这里的性能评估包含数据稀疏性评估和匹配模型评估，其中数据的稀疏性通过如下的稀疏度sparse来评价：
[0043]
[0044] 式中，Ncie D表示病例特征矩阵D中所有的零元的个数。sparse越接近于1表示数据的稀疏性越尚。
[0045] 匹配模型评估采取覆盖率COV来衡量疾病特征匹配的覆盖程度，其定义为给定匹配原则的前提下，匹配集中覆盖实际体征的个数占实际体征的比。同时采用累积概率分布来分析整个匹配系统的精度。
[0046] 以下以具体实施来进一步说明本发明。
[0047] 步骤1、依据电子病历库2中上海市2011年度各医院汇总的57297

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张敬谊;何萍;张鑫金;杨冬艳;李光亚;陈诚
技术所有人：万达信息股份有限公司;上海卫生信息工程技术研究中心有限公司
我是此专利的发明人

上一篇：建筑能效诊断方法和系统的制作方法
上一篇：一种基于广义神经网络聚类的疾病病种诊疗方案预测方法