一种基于大数据挖掘的医保反欺诈系统的制作方法

文档序号:11230664阅读:1052来源:国知局
一种基于大数据挖掘的医保反欺诈系统的制造方法与工艺

本发明涉及大数据分析处理技术技术领域,具体涉及一种基于大数据挖掘的医保反欺诈系统。



背景技术:

人社部公布的《2014年度人力资源和社会保障事业发展统计公报》显示,2014年全年城镇基本医疗保险基金总收入9687亿元,支出8134亿元,分别比上年增长17.4%和19.6%,尽管收仍然大于支,但收入增幅明显低于支出增幅,且很多地区的城镇职工医保资金出现收不抵支的情况,医保资金已不堪重负,而且现在各项医疗保险基金支出增长率均超过收入增长率。导致医保资金紧张局面的原因除了人口基数庞大和人口老龄化外,通过各种手段骗取医保资金造成的浪费尤为重要,据初步统计,医保欺诈造成的资金浪费占总医保资金支出的5%~10%左右。这些欺诈手段包括:挂床住院;病人和医生合谋伪造资料,倒卖高利润药品;使用医保卡套取现金、有价证券或购买日用品、食品;伪造、变造诊断证明、病历、处方等证明材料或虚假医疗票据、收费明细骗取基本医保基金支出等。

为监管医保资金支出,各地政府建立了医保反欺诈系统,这些系统主要是由熟知医保业务知识并有反欺诈侦测经验的专家建立的一系列规则库,这类系统称为基于商业规则的专家系统。这类反欺诈系统的规则一般较为简单,比如普通感冒病人的医保报销费用显著超过当地感冒治疗的平均费用时,认为是欺诈。此类医保反欺诈系统存在以下的缺限:只对已知的欺诈策略起作用,无法自动发现新的欺诈策略;难于维护和更新,当新政策出台时,必须手动更新规则库;新的欺诈策略很容易绕过内部定义的规则;受限于专家的知识水平,通常无法识别如医生和病人合谋欺诈的等场景。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于大数据的医保反欺诈系统,解决了基于商业规则的医保反欺诈系统过度依赖专家知识水平和新的医保政策和新的欺诈策略对已有系统造成冲击的问题。

本发明的目的是通过以下技术方案来实现的:一种基于大数据挖掘的医保欺诈系统,它包括以下子系统:数据抽取、转换、加载子系统(etl)、大数据存储子系统、数据挖掘子系统、规则库和知识库子系统、实时流计算子系统和可视化子系统,所述数据抽取、转换、加载子系统(etl)与大数据存储子系统连接,大数据存储子系统与数据挖掘子系统连接,数据挖掘子系统与规则库和知识库子系统连接,规则库和知识库子系统与实时流子系统连接,大数据存储子系统、规则库和知识库子系统以及实时流计算子系统再分别与可视化子系统连接。

数据抽取、转换、加载子系统(etl)从系统外部数据库抽取、转换所需要的数据,并将处理后的数据加载到大数据存储子系统中;所述外部数据库包括关系型数据库、非关系型数据库和日志文件。

大数据存储子系统用于存储经过数据抽取、转换、加载子系统(etl)处理后的数据,存储数据类型包括结构化、非结构化以及半结构化数据;所用存储方式包括分布式关系型方式、非关系型数据库方式和分布式文件系统方式。

数据挖掘子系统包括分类、聚类、关联规则和社交网络图分析模块;其挖掘所需要的数据来自上述大数据存储子系统、规则库和知识库子系统,对存储在大数据存储子系统和规则库和知识库子系统中的数据运用预测、聚类、社交网络图分析等技术进行挖掘,形成模型、规则或知识,挖掘出的规则、模型和知识存储到规则库和知识库子系统;数据挖掘子系统还包括调度更新规则、模型和知识的功能。

规则库用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式;知识库子系统用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式,存储技术包括关系或非关系型数据库和文件存储系统。

实时流计算子系统运用规则库和知识库子系统中的规则或知识对新的医保报销数据进打标,标记为正常或欺诈,实时流计算子系统输入的数据包括上述存储在规则库和知识库子系统中的规则、模型或知识和外部业务系统新的报销数据;与外部业务系统的数据传输接口包括:消息队列接口和websocket接口;单独采用storm框架、单独采用spark框架和storm框架、spark框架两者均采用。

实时流计算子系统中带有标记结果的报销数据有三个流向:实时返回给医保业务系统,医保业务系统可根据标记结果进行相关处理,比如拒绝支付医保资金等;存储到大数据存储系统中作为历史数据供数据挖掘子系统使用;标记为欺诈的报销记录将在可视化子系统中的欺诈记分板上显示。

可视化子系统用于对系统数据进行可视化显示,可视化显示的数据来源于大数据存储子系统、规则库和知识库子系统和实时流计算子系统,可视化展示的方式包括各类图、表,显示的硬件设备为外部显示设备;所述可视化子系统包括显示经实时流计算子系统打标的欺诈报销记录的欺诈记分板,还包括对可视化显示的数据项上探、下钻的交互功能。

可视化子系统对大数据存储子系统中历史进行简单的统计分析并用图或表的形式进行显示;对规则库和知识库按表或图的形式进行显示;对实时流计算子系统打标为欺诈的医保报销记录进行可视化显示。

欺诈记分板使用但不限于红色、粗体的醒目方式显示欺诈报销记录,还可以将欺诈报销记录相关信息以短信和语音的方式推送到外部终端。

存储库包括关系数据库、非关系型数据库和文件存储系统。

本发明的有益效果是:

1)本发明是基于大数据挖掘技术的医保反欺诈侦测系统,解决了传统基于商业规则的专家系统中高于依赖于专家知识水平的限制,通过数据挖掘建立的规则较专家建立的规则更客观;

2)本发明基于数据挖掘的技术解决了传统基于商业规则的专家系统难以适应业务场景变化的情况,比如新的医保政策、新的欺诈策略和场景,解决了基于商业规则的专家系统面对变化需要手动更新规则库导致在规则更新之前系统处于无效状态的难题,由于近实时的模型学习和更新使这系统能对各种变化近实时地作出反映;

3)本发明从包括医保报销数据、医院门诊、住院数据、病人电子病历、药店销售数据等多维大数据中运用机器学习、神经网络、社交网络分析等数据挖掘技术挖掘出专家们难以发现的模型或知识,使用系统能识别出更复杂、更隐蔽的欺诈手段;

4)本发明解决了基于商业规则的专家系统将规则建立和规则更新与整个反欺诈系统分离的难题,基于数据挖掘的技术可以自动建立和更新规则库,无需外部的干扰。

附图说明

图1为本发明系统架构图;

图2为本发明系统数据流向图。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。如图1所示,一种基于大数据挖掘的医保反欺诈系统,它包括以下子系统:

1.数据抽取、转换、加载(etl)子系统

etl子系统的主要作用是从系统外部的数据库(包括各种存储业务数据的关系型数据库、文档型、键值型、图型等nosql数据库)或文件(如记录用户访问ip地址等信息的系统或业务日志文件)中抽取所需要的数据,并对数据进行必要的清洗和转换,再存储到到大数据存储系统中。

抽取的方法包括但不限于以下技术:

1)从同一数据库的多个表中合并数据

2)从多个同类型的数据库的不同表、集合中合并数据

3)从多个不同类型的数据库合并数据

4)从非结构化或半结构化数据中抽取结构化数据

5)从原记录或文档中抽取所用字段或属性的子集

清洗和转换的方法包括但不限于以下技术:

1)去除重复的记录

2)删除缺失具有重要意义的字段或属性的记录

3)去除不同字段名或属性名但含义相同的字段或属性

4)转换字段或属性的类型,如将日期类型转换成utc整型

5)将连续的数值类型转换为离散型,如将百分制成绩转换为等级

etl系统的组成包括但不限于以下技术:

1)flume

2)kafka

3)sqoop

2.大数据存储模块

用于存储经过etl子系统处理后的数据。

大数据存储系统包括但不限于以下分布式存储技术:

1)hdfs

2)hive

3)hbase

4)elasticsearch

5)cassandra

3.数据挖掘子系统

对存储在大数据存储子系统和规则库和知识库子系统中的数据运用预测、聚类、社交网络图分析等技术进行挖掘,形成模型、规则或知识,并将挖掘得到的模型、规则或知识存储或更新到规则库和知识库子系统中。

数据挖掘子系统包括但不限于以于机器学习和数据挖掘算法及其变种:

1)经典决策树

2)朴素贝叶斯

3)支持向量机

4)dbscan

5)kmeans

6)knn

7)fp-growth

8)各类神经网络

4.规则库和知识库子系统

用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识。

规则和知识库包括但不限于以下技术:

1)关系型数据库

2)hdfs

3)hive

4)hbase

5)elasticsearch

6)pmml文件

7)其它规则和知识存储格式

5.实时流计算子系统

主要运用规则库和知识库子系统中的规则或知识对新的医保报销数据进打标,标记为正常或欺诈。带有标记结果的报销数据有三个流向:实时返回给医保业务系统,医保业务系统可根据标记结果进行相关处理,比如拒绝支付医保资金等;存储到大数据存储系统中作为历史数据供数据挖掘子系统使用;标记为欺诈的报销记录将在可视化子系统中的欺诈记分板上显示。

实时流计算子系统可以采用包含但不限于以下技术:

1)spark

2)storm

6.可视化子系统

主要对大数据存储子系统中历史进行简单的统计分析并用图或表的形式进行显示;对规则库和知识库按表或图的形式进行显示;对实时流计算子系统打标为欺诈的医保报销记录进行可视化显示。

如图2所示,反欺诈系统与业务数据流向为:通过基于大数据挖掘的医保反欺诈系统处理后的打标的报销记录输入到医保报销业务系统,医保报销业务系统将新报销记录传输给基于大数据挖掘的医保反欺诈系统中处理。

实施例1

如图1所示的基于大数据挖掘的医保反欺诈系统,在实际构建系统时,etl子系统可以用flume和kafka组成,大数据存储子系统可以选择hbase,通过将kafka部署系统外部的各个业务数据库服务器上,可以实时的抽取、转换各个业务数据库中的数据,并将处理后的数据存储到hbase中供数据挖掘子系统使用。

在系统初始时,规则库和知识库的内容为空,可以将已有的基于商业规则的专家系统中的规则库导入到系统的规则库中,数据挖掘子系统运用数据挖掘技术从存储在大数据存储子系统中的数据进行挖掘。针对大数据存储子系统中的数据是否有标记为欺诈或正常的特征,可分为二种挖掘方法:

1)无带是否欺诈特征的标记样本

运用包括但不限于如kmeas聚类算法,对报销的记录进行聚类,少数类的记录交由人工审计调查确定是否为欺诈,并将该标记字段追加到原数据中去,从而形成可以用于训练预测模型的带标记的样本集;然后运用这些样本训练预测模型。

2)有带是否欺诈特征的标记样本

运用包括但不限于如决策树算法,直接建立预测模型。

除了预测算法外,数据挖掘子系统可以运用社交网络图分析技术包括但不限于个性化pagerank等算法挖掘医生与病人之间的社交关系,发现可疑欺诈团伙,为原来的样本增加新的特征。

上面建立的预测模型若可以转换成规则,则存储或更新规则库;若不能,则直接将模型以包含但不限于pmml文件的形式存储到知识库中。

医保报销业务系统与基于大数据挖掘的医保反欺诈系统之间可以用包括但不限于kafka等消息系统传递数据。当医保反欺诈系统中的实时流计算子系统收到业务系统新的医保报销新数据后,实时流计算系统运用规则库和知识库对报销记录进行预测,并将预测后的报销记录实时返回给医保业务系统(如附图二所示),医保业务系统根据预测结果做相应的处理,包括但不限于如:拒绝支付,补充资料,延迟支持等。实时流计算子系统将标记为欺诈的报销记录推送到可视化子系统中的欺诈记分板,欺诈记分板可以用包含但不限于如用红色字体的列表显示,审计人员可以对欺诈记分板上的报销记录进行更详细的操作,包含但不限于如浏览该病人的历史报销记录或统计信息,该报销所涉及的医生的历史记录或统计信息。同时,实时流计算子系统将处理的新报销数据存储到大数据存储子系统中,并更新其它信息,包含但不限于如更新该记录所涉及病人与医生的相关统计信息等。

可视化子系统除上述的欺诈记分板功能外,还包括但不限于用图表等形式显示大数据存储子系统中的历史统计信息:

1)某一病人的历史报销的总金额、涉及的医生人数、不同的医院数等信息

2)某一医生涉及的历史报销总金额、涉及的病人人数等信息

可视化子系统还可以展示规则库和知识库中的信息,包括但不限于

1)具体的规则

2)模型的相关信息

3)可疑的欺诈团伙社交网络关系

基于大数据挖掘的医保反欺诈系统内部有两种方式更新规则、模型或知识:

1)周期性更新

数据挖掘子系统可以通过调度算法定期更新,该方法又包括两种:

a、固定时间频率,比如每天更新一次固定新增数据量,比如新增加的报销数据达到1万条时更新一次模型或规则;

b、实时更新。

基于大数据挖掘的医保反欺诈系统各个子系统以及子系统之间的数据交互可以根据不同的软硬件环境灵活的选择不同的技术,如实时流计算子系统可以选择storm,也可以选择spark。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的方法、系统和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明所揭露的方法、系统和模块,可以通过其它的方式实现。例如,以上所描述的实施例仅是示意性的,例如,所述模块的划分,可以仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以说通过一些接口,系统或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述分立部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例的方案目的。

另外,在本发明各个实施例中的各功能子系统可以集成在一个系统中,也可以是各个子系统单独物理存在,也可以两个或两个以上子系统集成在一个系统中。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1