一种面向医疗质量评价的大数据挖掘方法与流程

文档序号:11951308阅读:329来源:国知局
一种面向医疗质量评价的大数据挖掘方法与流程
本发明涉及数据挖掘在医疗大数据
技术领域
,尤其涉及了一种面向医疗质量评价的大数据挖掘方法。
背景技术
:随着大数据时代的来临,各行各业的数据量都在极速增长。而医疗大数据作为最有价值的行业大数据之一,人们对于它的研究层出不穷。将数据挖掘的方法应用到医疗大数据是这个领域最火热的研究内容之一。大数据作为医疗大数据中最重要、覆盖面最广、最真实的数据之一,有着海量性、高维度、高价值等特点。数据挖掘一般包含离群点检测、聚类、分类、推荐、关联等方法,本发明将大数据挖掘的相关算法思想运用到医疗质量评价模型中,具体将聚类算法应用到提出的医疗质量评价模型。从而得到一种准确、新颖的医疗质量评价方法。随着我国的医疗卫生事业的快速发展,医院作为整个医疗领域最重要的一环,医院的医疗质量也越来越重要,它代表了这个医院的健康程度。目前我国常用到的医疗质量评价方法主要分为医院评审法、综合评审法、病种质量评审法、顾客满意度评审法。但是以上方法都有着传统的医疗质量评价方法的共性缺点。一是经验主义,人工干预判断太多,有些判断相对比较草率武断;二是多是基于抽样调查,在医疗数据量极速增长的当下,越来越显的缺乏说服力。技术实现要素:本发明基于大数据挖掘,针对以上缺点提出了一种面向医疗质量评价的大数据挖掘方法,其旨在解决现有技术中数据采样值选取过于经验化、数据处理结构中冗余数据过多且医疗质量评定模型与病例数据关联度过低等技术问题。为了达到上述目的,本发明方法如下。一种面向医疗质量评价的大数据挖掘方法,包括以下步骤步骤1、对源数据进行噪声处理,再根据数据库,完成源数据的数据格式化和对应源数据属性参数的数值化,获得预处理数据;步骤2、利用X均值聚类算法,对应预处理数据,通过循环迭代的方式计算聚类最优解,再根据聚类最优解按照病例进行聚类,获得病例缺陷因素聚类结果集;步骤3、对病例缺陷因素聚类结果集进行分类计算,获得病例参数值,再根据病例参数值,利用病例质量模型计算出病例质量分数;步骤4、根据病例质量分数,通过病例优良率公式计算出医疗单位的医疗质量分数,最后通过划分医疗质量分数等级完成医疗质量评价。上述方法中,所述的步骤1包括如下步骤,步骤1.1、将源数据中的红字相冲或数据逻辑错误进行噪声清洗处理;步骤1.2、根据数据库,将1.1处理后的数据进行数据格式化和对应源数据属性参数的数值化,获得预处理数据。上述方法中,所述的步骤2包括如下步骤,步骤2.1、设置参数K值取值范围;步骤2.2、随机选取聚类中心;步骤2.3、将对应的预处理数据分配到各自欧氏距离最近的聚类中心;步骤2.4、再重新计算新的聚类中心;步骤2.5、根据新的聚类中心所属的聚类簇,设置两个子类,再利用贝叶斯信息准则进行关于各个聚类簇父类和子类贝叶斯信息准则得分的比较处理,在循环迭代后,当聚类阈值或聚类条件满足时,该聚类簇取为聚类最优解;步骤2.6、再根据聚类最优解按照病例进行聚类,获得病例缺陷因素聚类结果集。上述方法中,所述的步骤3,包括如下步骤,步骤3.1、对病例缺陷因素聚类结果集进行分类计算,获得分类的数据集;步骤3.2、根据分类的数据集,依次计算出三个病例参数值,分别为中心点值、排序数据集中心点和缺陷值;步骤3.3、根据病例参数值,分别对病例质量模型内病例分级、医疗缺陷和医疗转归的三个参数进行打分,再代入病例质量模型计算出病例质量分数。上述方法中,所述的步骤3.3,其中所述的病例质量分数,按照病例质量分数比例预先划分为优、良、中、低、劣的五个病例评级。上述方法中,所述的步骤4,包括如下步骤,步骤4.1、根据病例质量分数,统计医疗单元病例总数和病例评级为优和良的病例总数,计算出其病例优良率,作为医疗质量分数;步骤4.2、按照医疗质量分数比例预先划分为最好、较好、一般和不好的五个医疗质量分级,最后通过医疗单位的医疗质量分数所在医疗质量分级完成医疗质量评价。与现有技术相比,本发明的有益效果:将数据挖掘中的聚类算法应用到医疗大数据中,从而取代了传统的医疗数据分析中人工干预过多、经验性数据采用太多、耗时耗力的弊端,从数据本身的角度处理进行分类,使得结果和模型计算更加具有说服力;提出了一种综合的、新颖的、准确的医疗质量评价方法,使得医疗大数据处理更加简单有效,对海量数据有着很好的支持,而不需要再通过抽样的方法进行计算;本发明立足大数据,在医疗质量评价方面进行了深入研究,有着很大的实用价值。附图说明图1为本发明的总体流程图;图2为本发明的预处理流程图;图3为本发明的聚类过程流程图;图4为本发明的病例质量计算流程图;图5为本发明的医疗质量评价流程图。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。下面结合附图对本发明做进一步说明:实施例1实例数据来源为某地的医疗数据,包含就诊人员的个人信息,医疗记录,费用信息等,具体分析属性包括PID、ID、年龄、性别、参保地点编号、治疗医院编号、治疗医院等级、医疗总费用、药占比、住院时长、入院时间、日均费用、是否有并发症、出院原因,30天是否再住院。具体解释如下所示:如图1所示,为整个方法的总体流程图,本发明包括预处理、模型聚类分级、模型病例质量计算、模型结果输出四大步骤,每个大步骤下包含2-3个小步骤。其中预处理是为了后续的步骤进行准备,而模型聚类分级是将数据挖掘中的聚类思想应用到医疗大数据中,模型病例质量计算和模型结果输出是指本发明提出的一种综合的、准确的针对医疗单位医疗质量评价方法的具体体现。如图2所示,首先对源数据进行噪声处理,指对红字相冲、数据逻辑错误等“脏数据”进行处理。之后对数据进行数据格式化处理,使之满足后续步骤的输入要求。具体如下:1.1噪声处理,针对不同数据数据库设计和具体问题,消除明显错误,会影响到结果准确度的问题。在本发明中的问题主要是指红字相冲、明显逻辑错误两类,根据相应的规则进行处理。1.2数据格式化,针对用到的具体数据属性(数据库字段),分别进行数据格式化处理。对于有明确划分的如性别等进行数值化处理如下:1.2.1治疗医院等级,若数据库该字段值为0101,即三甲医院设置为1;若数据库该字段值为0102,即三乙医院设置为2;若数据库该字段值为0201,即二甲医院设置为3;若数据库该字段值为0202,即二乙医院设置为4;若数据库该字段值为0301,即一甲医院设置为5;若数据库该字段值为0302,即一乙医院设置为6;1.2.2性别,若性别字段值为男,设置为1;若性别字段值为女,设置为0;1.2.3是否有并发症,若第二到第八诊断都为空,即为无并发症,设为0;若第二到第八诊断至少一个不为空,即有并发症,设为1;1.2.4入院时间,由于本数据是从10年-14年的数据,故设置若为10年,设置为0;若为11年,设置为1;若为12年,设置为2;若为13年,设置为3;若为14年,设置为4;1.2.5出院原因,若为治愈,设置为1;若为正常,设置为2;若为其他,设置为3;若为转院,设置为4;若为死亡,设置为5;1.2.630天内是否再住院,若再住院,设置为1;若没有再住院,设置为0;其余字段保持不变,通过以上的数据预处理,所需字段都变为数值型数据,满足并便于后续步骤。如图3所示,是本发明的聚类过程流程图,本发明根据具体需求采用了X-means算法进行聚类,首先进行参数设置,主要是设置X-means的初始聚类个数范围,进而进行自动聚类得到在聚类个数范围内的最优解。其次是对需要聚类的各个属性(字段)进行聚类。具体如下所示:2.1设置参数,根据X-means的特性,进行初始聚类中心点范围的设置,本发明根据具体性能和实际的需要该范围不宜过大或过小,这里一般设置为2到5,在此范围内进行求解最优解。其中,X-means聚类算法的具体步骤如下所示:2.1.1设置参数K值为[2,5];2.1.2从给定的K值取值范围[K1,K2]中的最小值K1开始,调用一次K-means;2.1.3随机选取聚类中心;2.1.4对于每一个数据,将它分配到最近的聚类中心;2.1.5再重新计算新的聚类中心;2.1.6将得到的每一个类都划分为两个子类,比较每一对父类和子类的BIC得分。其中BIC是指贝叶斯信息准则(BayesianInformationCriterion,BIC),通过BIC进行自动判断聚类的类别数;2.1.7计算得出BIC分数相差最大的一对父类和子类;2.1.8保存2.1.6中的这对父类子类。将剩余的父类都保持不变,这样使得聚类个数变成Ki+1;2.1.9再次调用K-means运行刚刚得到的两个子类的类心,以及剩余Ki-1个类心,跳到步骤2.1.2;2.1.10若K值达到上限值K2或者连续两次循环结果相同(没有聚类中心需要分裂操作)结束得到最优结果。2.2聚类,根据需要将1.2得到的某些格式化属性进行聚类,得到具体的聚类结果集。具体如下所示:2.2.1是否有并发症,二分法,无须再聚类;2.2.230天是否再住院,二分法,无须再聚类;2.2.3住院时长,采用X-means进行聚类,若得到3类结果集,则根据中心点的大小从小到大设置为第1,2,3结果集;2.2.4住院总费用,采用X-means进行聚类,若得到4类结果集,则根据中心点的大小从小到大设置为第1,2,3,4结果集;2.2.5药占比,采用X-means进行聚类,若得到3类结果集,则根据中心点的大小从小到大设置为第1,2,3结果集;以上五类聚类结果,代表了在质量评价模型中的病例缺陷因素,下面的聚类主要针对病例分级。2.2.6住院总费用/住院时长,对这这组二维数据进行K-means聚类,设置K=4,则根据4个聚类结果中心点的值可以将数据分为低费用高时长、低费用低时长、高费用高时长、高费用低时长、四类,并分别对这四类进行赋值为5、4、3、2,旨在根据费用中最重要的费用信息去给病例进行分级。再进行2中的聚类得到聚类结果集后,本发明进入了病例质量计算这一步骤,如图4所示,整个的病例质量计算分为数据格式化、模型计算、病例评级三个步骤,每个步骤具体实施情况如下所示:3.1数据格式化,得到聚类结果集之后,实际上是分成几类的数据集。之后要对分类的数据集进行打分。对于住院时长、住院总费用、药占比三个病例缺陷值,具体步骤如下:3.1.1中心点值计算,将数据集中的所有点的数据值去平均值作为整个数据集的中心点值。具体计算过程如下:X‾=X1+X2+...+Xnn=Σi=1nXin]]>3.1.2排序数据集中心点,将3.1.1中的中心点值进行计算快速排序,根据聚类个数从小到大依次赋值。若分类3类则为Xmin(X1),X2,Xmax(X3)。3.1.3计算缺陷值,根据中心点值进行最后的缺陷值的计算,计算公式如下:其中a=0.05是为了实现四舍五入,使每个结果保留一位小数,Xi为聚类结果集中的第i个结果集中心值,若为3,则为X1,X2,X3。3.2模型计算在医疗行业中,一般将死亡率、平均住院天数、病例好转率、治愈率等作为对一个医疗机构的治疗质量评价指标。基于病例的研究相对比较少,本发明定义了一种新型的针对病例的分级分型综合性的质量评价模型。病例医疗质量模型计算公式:由以上模型中的各个取值结果带入到病例医疗质量计算公式中。表示为公式如下:P=(1-C×D×TA)×100]]>其中,P为医疗质量代用值。A=Cmax×Dmax×Tmax=5×5×5=125,其中C、D、T具体计算结果如下。3.2.1病例分级(Class),一般来说,根据病情的轻缓程度和所需要的医疗措施等特点,本发明把病例分为A、B、C、D四种类型,分别对应一般病例、一般急诊病例、疑难杂症病例和危重病例四种类型,对应赋值5到2,由2.2.6中具体进行计算赋值。这里为了模型准确,对病例数超过20个的医院才进行分析。聚类结果簇平均值病例分型(M)对应原病例类型意义Cluster1X1A一般病型Cluster2X2B一般急诊病型Cluster3X3C疑难杂症病型Cluster4X4D病危病型3.2.2医疗缺陷(Defect),本发明选取了五个变量分别是:住院时长、药占比、医疗费用总额、是否有并发症,30天是否再住院。其中是否有并发症和30天是否再住院是二分问题,不需要再聚类,住院时长、住院总费用、药占比三个因素,根据聚类结果进行相应的赋值操作,如下所示:3.2.3医疗转归(Trend),本发明根据已有的数据和字段出院原因的内容对医疗转归(Trend)的确定如表下所示,也见预处理步骤中的1.2.5处理:病例转归分类死亡转诊其他好转治愈(T)赋值543213.3病例评级,求出病例的医疗质量P值后,就可进行病例医疗质量分级,每个病例医疗质量得分标准如下所示:如图5所示,医疗质量评价分为医疗单位分级、病例优良率计算、模型结果输出三个步骤。具体如下,4.1医疗单位分级,根据医疗等级进行划分,旨在消除不同级别的医疗质量治疗差异。本发明中分别在三甲、三乙、二甲、二乙、二乙下浮10%、二乙下浮20%六类下进行后续计算,使得计算结果更加公平。4.2病例优良率计算,而在得到每个病例的医疗质量的数据值之后,可以计算每个医院的的病例优良率。计算公式如下所示:p=(S+G)T×100%]]>其中p为该医院的病例优良率,S为该医院优级病例数,G为该医院良级病例数,T为该医院总病例数。4.3医疗质量分级,将4.2得到的病例优良率进行从大到小进行排序,取其四分位点,即前25%区间的数值规定为A类,25%到50%区间的数值规定为B类,50%到75%区间的数值规定为C类,后25%区间的数值规定为D。具体对应规则如下:A类,代表优秀,即医疗质量最好的一类医院;B类,代表良好,即医疗质量较好的一类医院;C类,代表中等,即医疗质量一般的一类医院;D类,代表差等,即医疗质量不好的一类医院。本发明是通过预处理对数据进行噪声处理和格式化处理之后,使之满足后续步骤的输入结果。之后通过聚类对模型所需要的数据进行聚类,进而取代如总费用>20000,赋值为1,<20000赋值为0的这种经验主义情况,通过X-means算法设置参数,从而找到在参数范围内的最优解,这样保证了结果更加的精确。之后的模型计算,通过对模型中的病例分级、医疗缺陷、医疗转归三个步骤进行分析计算,然后根据模型公式最后得到病例的医疗质量评分。再通过医疗质量评分进而计算医疗质量评价,首先确保在同一等级下进行计算,即进行医疗单位分级,如都在三甲医院下进行分析,然后计算每个医疗单位的病例优良率,进行进行排序后,根据四分位点对医疗质量进行分级,以得到一种在相同等级下的医疗质量评价结果。本发明基于大数据,将数据挖掘的相关思想(聚类等)融入到传统的医疗质量评价方法中,用从数据出发的科学的方法去取代原来有人工经验判断的方法,在人力、时间成本上大大减少。从而使得结果更加的准确,有效,实验证明,该方法具有很好的评价效果,且使用范围高,运行时间少。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1