基于大数据分析建立医疗诊费点阵模型的方法与流程

文档序号:12599874阅读:463来源:国知局
基于大数据分析建立医疗诊费点阵模型的方法与流程

本发明涉及诊费异常检测技术领域,尤其涉及基于大数据分析建立医疗诊费点阵模型的方法。



背景技术:

如今民众对医疗体系多有非议,尤其是乱检查、乱开药等问题。医生乱检查、乱开药不仅伤了民众的钱包,浪费了我国本就有限的医疗资源,也是对民众健康的不负责任。对医疗费用有效、及时、全面的监控是患者、医院、管理部门关心的热点问题,直接影响医疗质量和医疗健康的发展,及时有效全面地监控管理,有助于完善监督机制,对建立有效的医院管理机制,提高医院竞争力,起到推动作用。对于医疗费用的监控是研究学者们普遍关心和重视的问题。



技术实现要素:

本发明旨在提供基于大数据分析建立医疗诊费点阵模型的方法,可挖掘找出罕见数据,找出异常收费项目点。

为实现上述目的,本发明采用的技术方案如下:

基于大数据分析建立医疗诊费点阵模型的方法,包括以下步骤:

步骤1,获取费用原始表中的数据;患者ID、各收费项目,以及收费项目金额的记录值;

步骤2,数据预处理:将费用原始表中各收费项目的金额的记录值转化为量化值,然后对同一个患者的相同收费项目的量化值进行求和计算,并将处理后的数据存储在量化值表中;

步骤3,采用基于距离的多指标的异常数据挖掘技术对数据预处理后的数据进行聚类分析,挖掘出数据记录中的躁点。

进一步的,还包括步骤4,利用echart的散点图控件,将挖掘出来的躁点相关联,展示出诊疗费用中的异常数据。

进一步的,所述步骤2中采用以下方式将量化值转换为效用值,假设量化值表中有n条记录,第t个字段的各个记录值为:Xst,其中s=1,2,…,n;t=1,2,…,m;n为行数,m为列数;

方式1:越大越好型,记Xtmax=max{Xst},Xtmin=min{Xst),其中1≤s≤n,将Xst转化为Xst~,将最大值转化为效用值1,最小值转化为效用值0;

方式2:越小越好型,则将最小值转化为效用值1,最大值转化为效用值0;

方式3:适中型,记最佳适中值为X0

则此时靠近适中值的数据的效用值较大,接近于1,远离的数据的效用值较小,接近于0。

进一步的,所述步骤3具体包括以下步骤:

步骤3.1,采用公式(1)计算各效用点之间的距离:

<mrow> <msub> <mi>D</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mo>|</mo> <msub> <mi>X</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>X</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> <msup> <mo>|</mo> <mi>k</mi> </msup> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

式(1)中,Dk为效用点之间的距离,Xpi为第p行第i列的效用值,Xqi为第q行第i列的效用值;1<<p<<n,1<<q<<n;n为行数,m为列数;

步骤3.2,对于效用点p,所有满足Dk<δ的点构成效用点p的δ领域,δ为给定的一个正数;

步骤3.3,统计Np,Np为所述领域内效用点的个数;

步骤3.4,若Np<N0,则该效用点p为在距离意义下的异常点,N0为给定的临界值。

进一步的,将Dk存储在距离表中,设定δ和N0,对距离表中进行两次嵌套扫描,外层扫描从上往下进行,内层扫描从左至右进行,统计每一行Dk<δ的个数,若Np<N0,则该点为异常点;否则,进入下一循环。

进一步的,k=2,δ=3,N0=5。

本发明具有以下有益效果:

本发明针对医疗诊费建立模型数据分析,通过离群挖掘找出那些和大多数对象有非常不同的行为的罕见数据,研究离群点的异常行为,分析各类病症、人群接受的治疗项目、处方用药及收费,找出异常收费项目点,形成的费用异常散点图可以为医院决策层管理医生临床用药和合理收费提供参考,从而督促医生坚持合理用药,合理检查、合理治疗、合理收费。

附图说明

图1是胃脘痛诊费的量化值表;

图2是胃脘痛诊费的效用值表;

图3是胃脘痛诊费的距离表;

图4是费用异常检测散点图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明作进一步详细说明。

大数据分析平台处理框架是构建基于大数据分析的医疗诊费点阵模型的核心功能,建立大数据采集平台,采用云计算模式的医疗数据采集技术,采集80多家医院的临床病历资料,数据采用xml文件形式处理,提供统一、便捷的上传接口,支持实时文件处理情况查询、上传批次管理以及问题数据回滚。同时兼容其他数据格式处理和接口方。通过采集数据,提供临床数据的预处理ETL(清洗、转换、加载)操作,搭建大数据分布式Hadoop集群,分布式存储和计算;流计算等对数据整合后进行数据挖掘算法的计算,实现医疗诊费点阵应用模型。其中数据清洗,是一个减少错误和不一致性、解决对象识别的过程,包括检查数据一致性,处理无效值和缺失值等;转换是主要进行不一致的数据转换,包括数据格式、误写等。转换以保证数据的准确性,转换为目标数据结构,实现汇总,并装入数据仓库。

本发明的技术流程为:清洗数据,按病症、人群进行ETL数据整合分类;建立模型数据分析,基于聚类算法进行离群检测,通过离群挖掘找出那些和大多数对象有非常不同的行为的罕见数据,研究离群点的异常行为,分析各类病症、人群接受的治疗项目、处方用药及收费,找出异常收费项目点。

本发明公开的基于大数据分析建立医疗诊费点阵模型的方法,在上述大数据分析平台处理框架的基础上,采用聚类方法,进行离群检测,寻找异常点。在这基础上进一步利用散点图的形式,展现医生的药方收费情况。

实施例1

基于大数据分析建立医疗诊费点阵模型的方法,包括以下步骤:

步骤1,获取费用原始表中的数据;患者ID、各收费项目,以及收费项目金额的记录值;

步骤2,数据预处理:将费用原始表中各收费项目的金额的记录值转化为量化值,然后对同一个患者的相同收费项目的量化值进行求和计算,并将处理后的数据存储在量化值表中。例如,费用原始表中的记录值存在不规范的现象,如“35元”,所以本步骤将“35元”转化为量化值“35”。

步骤3,采用基于距离的多指标的异常数据挖掘技术对数据预处理后的数据进行聚类分析,挖掘出数据记录中的躁点。

进一步的,还包括步骤4,利用echart的散点图控件,将挖掘出来的躁点相关联,展示出诊疗费用中的异常数据。

为便于计算,在步骤2中采用以下方式将量化值转换为效用值,。假设量化值表中有n条记录,第t个字段的各个记录值为:Xst,其中s=1,2,…,n;t=1,2,…,m;n为行数,m为列数;

方式1:越大越好型,记Xtmax=max{Xst},Xtmin=min{Xst},其中1≤s≤n,将Xst转化为Xst~,将最大值转化为效用值1,最小值转化为效用值0;

方式2:越小越好型,则将最小值转化为效用值1,最大值转化为效用值0;

方式3:适中型,记最佳适中值为X0

则此时靠近适中值的数据的效用值较大,接近于1,远离的数据的效用值较小,接近于0。

步骤3具体包括以下步骤:

步骤3.1,采用公式(1)计算各效用点之间的距离:

<mrow> <msub> <mi>D</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mo>|</mo> <msub> <mi>X</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>X</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> <msup> <mo>|</mo> <mi>k</mi> </msup> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

式(1)中,Dk为效用点之间的距离,Xpi为第p行第i列的效用值,Xqi为第q行第i列的效用值;1<<p<<n,1<<q<<n;n为行数,m为列数。当然,如果没有将量化值转换为效用值,那么公式(1)中的Xpi可以为第p行第i列的量化值,Xqi为第q行第i列的量化值,这样也是可以计算出数据点之间的距离的。k一般取值为2。

步骤3.2,对于效用点p,所有满足Dk<δ的点构成效用点p的δ领域,δ为给定的一个正数;

步骤3.3,统计Np,Np为所述领域内效用点的个数;

步骤3.4,若Np<N0,则该效用点p为在距离意义下的异常点,N0为给定的临界值。

进一步的,将Dk存储在距离表中,设定δ和N0,对距离表中进行两次嵌套扫描,外层扫描从上往下进行,内层扫描从左至右进行,统计每一行Dk<δ的个数,若Np<N0,则该点为异常点;否则,进入下一循环。

实施例2

本实施例以胃脘痛的医疗诊费为例,对本发明进行详细的说明。

获取某个时间段某个年龄段胃脘痛患者的费用原始表中的数据;将费用原始表中各收费项目的金额的记录值转化为量化值,然后对同一个患者的相同收费项目的量化值进行求和计算,并将处理后的数据存储在量化值表中,量化值表的表头包括患者ID及各收费项目的名称;如图1所示的胃脘痛诊费的量化值表;

将量化值表中的量化值转换为效用值,得到如图2所示的效用值表,效用值表的表头包括患者ID及各收费项目的名称;然后扫描效用值表,采用公式(1)计算效用值表中各效用点之间的距离。因为记录条数量大,因此,将距离参数另存在如图3所示的距离表中。

为便于分析各种不同的情况,设定一个比较小的正数δ=3和一个给定经验临界值N0=5,在距离表中进行两次嵌套扫描。外层扫描从上往下进行,内层扫描从左至右进行,对每一行统计距离d<δ的个数,若小于给定值N0,则可判断该点为异常点。否则,进入下一循环。由于可以任意地修改邻域的半径δ和临界值N0,此时只需调用距离参数表而不用计算相互间的距离。这样可以动态地确定在不同的领域半径和临界值意义下的异常点。

在邻域半径δ=3和经验临界值N0=5的情况下,挖掘出19个异常点,即19位患者。这些患者的异常是指他们的费用相对于其他患者来说差异较大。

利用echart的散点图控件,将挖掘出来的躁点相关联,展示出诊疗费用中的异常数据,费用异常检测散点图如图4所示。图4中纵坐标是医生开药开单的治疗平均治疗费用(单位:元),横坐标是医生医院地区的分布,圆点大小表示医生就诊人数情况,圆点区域越偏离,说明医生平均收费越高。通过费用异常检测散点图,不仅能看到医生所在医院,还能看到平均收费和最高收费,以及诊疗人数。

本发明通过实时采集医院的电子病历,对80多家医院30多万条病历按病症、人群进行分类,利用聚类算法,进行离群检测,形成的费用异常散点图可以为医院决策层管理医生临床用药和合理收费提供参考。从很大程度上督促医生坚持合理用药,合理检查、合理治疗、合理收费。

当然,本发明还可有其它多种实施方式,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1