医疗大数据挖掘方法和系统与流程

文档序号：16395079发布日期：2018-12-25 19:43阅读：1470来源：国知局

本发明属于医疗大数据的技术领域，具体涉及医疗大数据挖掘方法和系统。

背景技术

如今是一个大数据的时代，将大数据运用到医学领域已成为科学研究的热点；医疗大数据具有极大的价值，挖掘医疗大数据中的价值信息对于疾病诊断、治疗方案确定、流行病预测、医学研究和药物副作用分析等方面具有重要的意义；从某种意义上讲，医疗大数据系统对于改善人类生活环境、提高生活质量、获得更高的幸福指均有重要的作用。

想要更好的将大数据运用到医学领域，医疗大数据关联挖掘方法的准确运用显得尤为重要，一个不适合的关联挖掘方法，可能得出疾病与疾病之间、疾病与症状之间、症状与指标之间以及其他关系之间的错误关联，从而使最终的研究成果出现偏差。

然而，目前现有的医疗大数据关联规则挖掘方法大多仅限使用一种兴趣度度量，大多数研究关注于不同度量方式的属性和行为的研究，但不同兴趣度度量在不同的应用场景下，性能表现不一，其使用局限性限制了在医疗大数据关联规则挖掘的能力；与此同时，为了使获得的医疗大数据更具价值，需要尽可能多的整合多方面的医疗相关的数据源，传统的单一的兴趣度度量不能很好地满足其关联规则挖掘需求。

技术实现要素：

本发明克服现有技术存在的不足，所要解决的技术问题为：提供一种有效降低兴趣度量选择的主观性影响、降低漏判率/错误率的医疗大数据挖掘方法和系统。

为了解决上述技术问题，本发明采用的技术方案为：

医疗大数据挖掘方法，包括下列步骤：采集患者的医疗数据，其中：所述患者的医疗数据包括：行为数据、临床数据、费用数据和保险数据；将每位患者的医疗数据转化为结构化数据；建立以患者为中心的关系型数据库；对数据库进行清洗，将缺失值填充或者滤除；将清洗过的数据，基于不同种的兴趣度度量标准进行计算，获得不同的趣味规则；利用模糊c均值聚类算法对不同的兴趣度量进行聚类，得到优化后的每种兴趣度量的隶属度。

优选地，所述将每位患者的医疗数据转化为结构化数据，具体包括：将每位患者的医疗数据划分为结构化数据和非结构化数据；将非结构化数据转化为结构化数据。

优选地，对数据库进行清洗，将缺失值填充或者滤除，具体包括：利用线性差值算法或者根据数据分布特征，用众数、中位数、平均值、最大值、最小值中的一个来填充；数据缺失严重的，直接滤除。

相应地，医疗大数据挖掘系统，包括：采集模块，用于采集患者的医疗数据，其中：所述患者的医疗数据包括：行为数据、临床数据、费用数据和保险数据；数据转换模块，用于将每位患者的医疗数据转化为结构化数据；建立模块，用于建立以患者为中心的关系型数据库；清洗模块，用于对数据库进行清洗，将缺失值填充或者滤除；提取模块，用于将清洗过的数据，基于不同种的兴趣度度量标准进行计算，获得不同的趣味规则；整合模块，用于利用模糊c均值聚类算法对不同的兴趣度量进行聚类，得到优化后的每种兴趣度量的隶属度。

优选地，所述数据转换模块包括：将每位患者的医疗数据划分为结构化数据和非结构化数据；将非结构化数据转化为结构化数据。

优选地，所述清洗模块具体包括：填充模块，用于利用线性差值算法或者根据数据分布特征，用众数、中位数、平均值、最大值、最小值中的一个来填充；滤除模块，用于对数据缺失严重的，直接滤除。

本发明与现有技术相比具有以下有益效果：

本发明基于患者医疗数据，通过不同种兴趣度量标准计算，并利用模糊c均值聚类算法，得到优化后的每种兴趣度量的率数值，计算了各兴趣度量的贡献排名行为；整个方法基于数据驱动，针对特定的医疗数据挖掘任务，合成或选择最合适的兴趣度度量，能够有效降低兴趣度量选择的主观性影响、降低漏判率/错误率。

附图说明

下面结合附图对本发明做进一步详细的说明；

图1为本发明实施例一提供的医疗大数据挖掘方法的流程示意图；

图2为本发明实施例一提供的医疗大数据挖掘系统的结构示意图；

图3为本发明实施例二提供的医疗大数据挖掘系统的结构示意图；

图4为本发明实施例二提供的建立模块的存储方式示意图；

图中：10为采集模块，20为数据转换模块，30为建立模块，40为清洗模块，50为提取模块，60为整合模块，401为填充模块，402为滤除模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的医疗大数据挖掘方法的流程示意图，如图1所示，医疗大数据挖掘方法，包括下列步骤：采集患者的医疗数据，其中：所述患者的医疗数据包括：行为数据、临床数据、费用数据和保险数据；将每位患者的医疗数据转化为结构化数据；建立以患者为中心的关系型数据库；对数据库进行清洗，将缺失值填充或者滤除；将清洗过的数据，基于不同种的兴趣度度量标准进行计算，获得不同的趣味规则；利用模糊c均值聚类算法对不同的兴趣度量进行聚类，得到优化后的每种兴趣度量的隶属度。

本实施例一中，所述采集患者的医疗数据，可通过使用不同种类的医学设备或系统，如：b超、ct、磁共振、心电、脑电、便携式佩戴设备、医院信息系统等，采集海量患者相关信息；如：通过挂号、问卷等，获得患者的基本信息；通过读入病历等方式获得患者的就诊及用药信息；通过连接医院信息管理系统，获取病人的花费以及保险信息；最终组成以患者为中心的各个不同信息块。

具体地，所述将每位患者的医疗数据转化为结构化数据，具体包括：将每位患者的医疗数据划分为结构化数据和非结构化数据；将非结构化数据转化为结构化数据；本实施例一中，采集的患者医疗数据包括：结构化数据(如：患者的基本信息，各类临床检查指标等)，以及非结构化数据(比如病历档案(e.g.xml),临床医学图片，各种文字版的检查报告等)；需要针对不同的非结构化数据类型，选用特定的信息提取方式来将非结构化数据转化为结构化数据；如：基于深度学习的算法，将患者相关数据中的图片、视频进行结构化处理，使用自然语言处理技术将文字表述类型的数据进行处理转换。

进一步地，对数据库进行清洗，将缺失值填充或者滤除，具体包括：利用线性差值算法或者根据数据分布特征，用众数、中位数、平均值、最大值、最小值中的一个来填充；数据缺失严重的，直接滤除。

本发明中，通过建立以患者为中心的关系型数据库，通过来自医院管理系统的病人就诊码(可作为识别一个患者的主键，主键约束可以唯一识别数据库表中记录的每一个患者)。

为有效降低兴趣度量选择的主观性影响、降低漏判率/错误率为，不同医疗场景下产生的医疗相关数据不能仅仅用单一的兴趣度量来挖掘相关规则。

以下用等式a→b来表示在集合a中出现的医疗相关数据有很大可能出现在集合b中；这里我们所用到的部分兴趣度量如下表所列：

表1本发明涉及的部分兴趣度量表

当两个兴趣度量之间的成对距离得到之后，不同种类兴趣度量的相对行为是本发明的关注的重点，本发明中，选用模糊c均值聚类算法对不同的兴趣度量进行聚类，因为其产生的隶属度不仅能够度量不同兴趣度量在不同聚类之间的差别还可以度量即使在同一个聚类里，不同兴趣度量之间的差别。

模糊c均值聚类算法的目标函数如下所示：

这里n，c和m分别是兴趣度量的种类，聚类的个数和模糊因子。xi和vj分别表示了第i种兴趣度量和第j个兴趣度量的聚类中心；模糊c均值聚类算法本质上是为了最小化上述目标函数q；可以通过不断迭代的方法如下所示：

从而得到优化后的每种兴趣度量的隶属度。

本发明中的隶属度反映了不同兴趣度量在规则关联过程中的相对行为以及他们之间的差别；基于隶属度的值，综合分析不同兴趣度量在医疗大数据关联规则挖掘过程中的所起的作用，从而针对不同的医疗问题，选择或整合更加合适的兴趣度量方式，能够降低兴趣度量选择的主观性影响，降低漏判率/错误率。提高数据全面性，准确性以及处理数据的效率。

图2为本发明实施例一提供的医疗大数据挖掘系统的结构示意图，如图2所示，医疗大数据挖掘系统，包括：

采集模块(10)，用于采集患者的医疗数据，其中：所述患者的医疗数据包括：行为数据、临床数据、费用数据和保险数据；

数据转换模块(20)，用于将每位患者的医疗数据转化为结构化数据；

建立模块(30)，用于建立以患者为中心的关系型数据库；

清洗模块(40)，用于对数据库进行清洗，将缺失值填充或者滤除；

提取模块(50)，用于将清洗过的数据，基于不同种的兴趣度度量标准进行计算，获得不同的趣味规则；

整合模块(60)，用于利用模糊c均值聚类算法对不同的兴趣度量进行聚类，得到优化后的每种兴趣度量的隶属度。

具体地，所述数据转换模块(20)包括：

将每位患者的医疗数据划分为结构化数据和非结构化数据；

将非结构化数据转化为结构化数据。

图3为本发明实施例二提供的医疗大数据挖掘系统的结构示意图，如图3所示，在实施例一的基础上，所述清洗模块(40)具体包括：填充模块(401)，用于利用线性差值算法或者根据数据分布特征，用众数、中位数、平均值、最大值、最小值中的一个来填充；滤除模块(402)，用于对数据缺失严重的，直接滤除。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵杰;李金博;李砺锋;张腾飞;薛文华;翟运开;宋晓琴;孙东旭;范智蕊;沈志博;朱子家
技术所有人：郑州大学第一附属医院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。