基于改进生成对抗网络的存在骗保行为的患者识别方法

文档序号:27318639发布日期:2021-11-10 00:19阅读:100来源:国知局
基于改进生成对抗网络的存在骗保行为的患者识别方法

1.本发明涉及数据挖掘技术领域,具体涉及一种基于改进生成对抗网络的存在骗保行为的患者识别方法。


背景技术:

2.医疗保险是我国社会保险的重要组成部分,医保资金有着保障民生的重要作用,国家对其财政补助金额也日益增长。对于医保基金的欺诈盗用会对基金的正常运行造成影响,是一种十分恶劣的行为,造成的社会影响非常不好。在我国医保覆盖范围广,医保基金监管难度大的情况下,医院患者欺诈骗取医保基金的违规行为频发。由于骗保存在主体多,环节多,行为隐秘性强,骗保方式层出不穷的特点,因此打击治理欺诈骗保形势依然严峻。传统的基金监管方式多以依靠监管人员已有经验与规则进行人工监管,但这类规则一般较为简单,只对已知的欺诈策略起作用,无法自动发现新的欺诈策略;难于维护和更新,当新政策出台时,必须手动更新规则库,新的欺诈策略很容易绕过内部定义的规则。cn107145587a设计了一种基于大数据挖掘的医保反欺诈系统,但其系统涉及的内部结构及调度算法复杂,且搭建成本较高。cn111028088设计了一种基于频繁集挖掘的团伙骗保行为识别,但由于识别目标不明确,并且未将医院结算信息用于骗保识别,在面对新的骗保行为出现时缺乏灵活性。


技术实现要素:

3.因此,本发明要解决的技术问题在于克服现有技术中的上述缺陷,从而提供一种基于改进生成对抗网络的存在骗保行为的患者识别方法。
4.为此,所述基于改进生成对抗网络的存在骗保行为的患者识别方法,具体包括如下步骤:s1:获取普通住院与普通门诊类型的发生骗保行为医院的年度医保报销数据,数据属性包括患者就诊行为信息字段、医保目录内患者费用组成字段、患者医疗费用组成字段;s2:对该医院所有患者普通住院和普通门诊的报销数据进行预处理;s3:构建患者训练数据集d1和测试数据集d2;s4:利用训练数据集d1训练改进生成对抗网络模型;s5:利用训练后的改进生成对抗网络模型,输入测试数据集d2,得到异常分值集合,据此挑选异常阈值;s6:利用异常阈值构建分类识别模型;s7:定期更新医院新的报销数据,更新训练集与测试集中的样本,重复s4至s6,分别对应更新改进生成对抗网络模型的参数和分类识别模型的参数。
5.优选地,步骤s1中,所述患者就诊行为信息字段包括就诊时间、住院天数,所述医保目录内患者费用组成字段包括甲类药品费用、乙类药品费用,所述患者医疗费用组成字
段包括西药费、材料费。
6.优选地,步骤s2具体包括如下步骤:s21:删除普通门诊和普通住院报销数据单笔报销费用中显著异常费用;s22:删除重复记录;s23:0值填充各类费用字段为空的记录;s24:从0到总类别数对类别型数据进行字典编码,将其转变为数值型数据;s25:数值归一化数值型数据,其具体计算公式为:,a表示数据缩放区间上限,b表示数据缩放区间的下限。
7.优选地,步骤s3具体包括如下步骤:s31:依据就诊时间将单个患者的多条报销记录组成患者特征矩阵x
w
×
h
,w为报销数据字段个数,h为患者年度报销记录最大维度,对于年度报销记录维度少于h样本进行0值填充;s32:构建仅含正常患者特征矩阵训练集以及同时包含正常患者和具有骗保行为患者的特征矩阵测试集,其中x
i
为患者特征矩阵,为样本标签,其中1表示具有骗保行为的样本,0表示正常样本。
8.优选地,步骤s4具体包括如下步骤:s41:利用改进生成对抗网络模型的生成器网络g,生成器网络g设置编码器网络g
e
和解码器网络g
d
两个子网络,通过输入正常患者费用特征矩阵x,得到向量z=g
e
(x)以及患者特征矩阵;s42:利用改进生成对抗网络模型的编码器网络e,通过输入患者特征矩阵,得到特征表示;s43:利用改进生成对抗网络模型的判别器网络d,通过输入患者特征矩阵,得到判别函数;s44:构建损失函数,其中,,其中,,其中,w
adv
为判别器损失函数权重,w
con
为编码器损失函数权重,w
enc
为解码器损失函数权重,e(*)为分布函数的期望值,
x~p(x)表示正常样本的分布;s45:利用输入训练数据集,通过最小化损失函数,得到训练后改进生成对抗网络模型。
9.优选地,步骤s41具体包括如下步骤:s411:生成器网络g首先读取一个正常患者费用特征矩阵并将其转为x,其中x∈r
w
×
h
,r
w
×
h
为x的维度;s412:将x向传递给其编码器网络g
e
,使用卷积层分别进行批规范化处理和leakyrelu函数激活,g
e
将其特征矩阵压缩为向量z,其中z∈r
d
,r
d
为z的维度,z为具有包含单个正常患者费用特征矩阵x的最佳表示的最小维度;s413:将z传递给生成器网络g的解码器网络g
d
,g
d
采用dcgan生成器的架构,使用卷积转置层、relu激活函数和批规范化处理以及最末端的tanh层将向量z向上缩放,将正常患者费用特征矩阵x重构为;s414:基于以上步骤,生成器网络g通过生成患者特征矩阵,其中z=g
e
(x),该网络设置损失函数l
con
将输入的正常患者费用特征矩阵x与生成的患者特征矩阵差距最小化:。
10.优选地,步骤s42具体包括如下步骤:s421:将患者特征矩阵传递到编码器网络e,用于压缩由生成器网络g重构的,它的网络结构具有与g
e
相同的网络架构;s422:e压缩以找到其特征表示,向量的维数与z的维数相同,该子网络e通过学习z的参数并利用编码损失函数l
enc
最小化z与差距:。
11.优选地,步骤s43具体包括如下步骤:s431:将输入x和输出输入到判别器网络d,d判别输入的图片为真实样本或者生成样本,这个子网络结构采用dcgan的标准判别器网络;s432:该子网络结构的利用对抗性损失函数l
adv
计算判别误差:x是服从高斯分布的一个随机值,l
adv
用于使得生成样本欺骗判别器网络。
12.优选地,步骤s5具体包括如下步骤:s51:利用训练后改进生成对抗网络模型,输入测试集样本,得到该样本的异常分值a(x),其中,最终得到整个测试集d2异常分值集合;s52:利用步骤s25中的公式,将异常分数集合s数值区间转换到区间[0,1];s53:将测试样本异常分值升序排列,选择将测试样本中正常患者样本与骗保患者
样本区分开的异常分值阈值。
[0013]
优选地,步骤s6具体包括:其中0表示正常标识,1表示骗保标识。
[0014]
本发明提供的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,在获取医院端患者医疗数据较难的情况下充分利用医保结算数据对具有骗保行为的患者进行识别,能够在骗保样本较少的情况下训练识别模型,极大缩小了当地医保部门基金监管审查数据的范围,提高工作效率;在面对医院与患者骗保方式多变的情况下,通过学习正常行为为患者结算数据识别未标识的骗保患者,为当地医保部门挖掘新的骗保对象提供参考。
附图说明
[0015]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]
图1为本发明提供的基于改进生成对抗网络的存在骗保行为的患者识别方法的流程图;图2为本发明提供的对抗生成网络模型的结构图。
具体实施方式
[0017]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0018]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0019]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0020]
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0021]
如图1至图2所示,本实施例提供一种基于改进生成对抗网络的存在骗保行为的患者识别方法,具体包括如下步骤:
s1:获取普通住院与普通门诊类型的发生骗保行为医院的年度医保报销数据,数据属性包括患者就诊行为信息字段如就诊时间、住院天数,医保目录内患者费用组成字段如甲类药品费用、乙类药品费用,患者医疗费用组成字段如西药费、材料费;在本实施例中,选取的字段如下表所示:起付线数值型业务类型分类型实际住院天数数值型就诊日期日期型总费用数值型个人现金支付数值型职工统筹基金支付数值型职工大病基金支付数值型居民统筹支付数值型居民大病支付数值型甲类药品金额数值型甲类诊疗项目金额数值型乙类药品金额数值型乙类诊疗项目金额数值型丙类药品金额数值型丙类诊疗项目金额数值型西药费数值型中成药费数值型中草药费数值型材料费数值型治疗费数值型输血费数值型输氧费数值型诊察费数值型特治费数值型护理费数值型检查费数值型化验费数值型特检费数值型手术费数值型麻醉费数值型医疗服务费数值型s2:对该医院所有患者普通住院和普通门诊的报销数据进行预处理,具体包括如下步骤:s21:删除普通门诊和普通住院报销数据单笔报销费用中显著异常费用;
s22:删除重复记录;s23:0值填充各类费用字段为空的记录;s24:从0到总类别数对类别型数据进行字典编码,将其转变为数值型数据;s25:数值归一化数值型数据,其具体计算公式为:,a表示数据缩放区间上限,b表示数据缩放区间的下限。
[0022]
s3:构建患者训练数据集d1和测试数据集d2,具体包括如下步骤:s31:依据就诊时间将单个患者的多条报销记录组成患者特征矩阵x
w
×
h
,w为报销数据字段个数,h为患者年度报销记录最大维度,对于年度报销记录维度少于h样本进行0值填充;s32:构建仅含正常患者特征矩阵训练集以及同时包含正常患者和具有骗保行为患者的特征矩阵测试集,其中x
i
为患者特征矩阵,为样本标签,其中1表示具有骗保行为的样本,0表示正常样本。
[0023]
s4:利用训练数据集d1训练改进生成对抗网络模型,具体包括如下步骤:s41:利用改进生成对抗网络模型的生成器网络g,生成器网络g设置编码器网络g
e
和解码器网络g
d
两个子网络,通过输入正常患者费用特征矩阵x,得到向量z=g
e
(x)以及患者特征矩阵;s42:利用改进生成对抗网络模型的编码器网络e,通过输入患者特征矩阵,得到特征表示;s43:利用改进生成对抗网络模型的判别器网络d,通过输入患者特征矩阵,得到判别函数;s44:构建损失函数,其中,,其中,,其中,w
adv
为判别器损失函数权重,w
con
为编码器损失函数权重,w
enc
为解码器损失函数权重,e(*)为分布函数的期望值,x~p(x)表示正常样本的分布;s45:利用输入训练数据集,通过最小化损失函数,得到训练后改进生成对抗网络模型。
[0024]
其中,步骤s41具体包括如下步骤:s411:生成器网络g首先读取一个正常患者费用特征矩阵并将其转为x,其中x∈r
w
×
h
,r
w
×
h
为x的维度;s412:将x向传递给其编码器网络g
e
,使用卷积层分别进行批规范化处理和leakyrelu函数激活,g
e
将其特征矩阵压缩为向量z,其中z∈r
d
,r
d
为z的维度,z为具有包含单个正常患者费用特征矩阵x的最佳表示的最小维度;s413:将z传递给生成器网络g的解码器网络g
d
,g
d
采用dcgan生成器的架构,使用卷积转置层、relu激活函数和批规范化处理以及最末端的tanh层将向量z向上缩放,将正常患者费用特征矩阵x重构为;s414:基于以上步骤,生成器网络g通过生成患者特征矩阵,其中z=g
e
(x),该网络设置损失函数l
con
将输入的正常患者费用特征矩阵x与生成的患者特征矩阵差距最小化:。
[0025]
步骤s42具体包括如下步骤:s421:将患者特征矩阵传递到编码器网络e,用于压缩由生成器网络g重构的,它的网络结构具有与g
e
相同的网络架构;s422:e压缩以找到其特征表示,向量的维数与z的维数相同,该子网络e通过学习z的参数并利用编码损失函数l
enc
最小化z与差距:。
[0026]
步骤s43具体包括如下步骤:s431:将输入x和输出输入到判别器网络d,d判别输入的图片为真实样本或者生成样本,这个子网络结构采用dcgan的标准判别器网络;s432:该子网络结构的利用对抗性损失函数l
adv
计算判别误差:x是服从高斯分布的一个随机值,l
adv
用于使得生成样本欺骗判别器网络。
[0027]
s5:利用训练后的改进生成对抗网络模型,输入测试数据集d2,得到异常分值集合,据此挑选异常阈值。当一个骗保患者向前传递到g网络中时,即使g
e
编码器网络将输入x映射成潜在向量z,由于g
d
子网络在训练过程中仅基于正常样本建模,其训练后的参数无法还原样本中的异常特征。因此输出会导致网络e将映射成的向量也遗漏样本异常特征表示,导致z和之间存在较大的差异性。当z与中存在这种不相似性时,模型输出样本的异常分值。
[0028]
具体包括如下步骤:s51:利用训练后改进生成对抗网络模型,输入测试集样本,得到该样本的异常分值a(x),其中,最终得到整个测试集d2异常分值集合;
s52:利用步骤s25中的公式,将异常分数集合s数值区间转换到区间[0,1];s53:将测试样本异常分值升序排列,选择将测试样本中正常患者样本与骗保患者样本区分开的异常分值阈值。
[0029]
s6:利用异常阈值构建分类识别模型,其中0表示正常标识,1表示骗保标识。本实施例中,异常阈值设置为0.3。
[0030]
s7:定期更新医院新的结算数据,更新训练集与测试集中的样本,重复s4至s6,分别对应更新改进生成对抗网络模型的参数和分类识别模型的参数。
[0031]
本发明提供的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,在获取医院端患者医疗数据较难的情况下充分利用医保结算数据对具有骗保行为的患者进行识别,能够在骗保样本较少的情况下训练识别模型,极大缩小了当地医保部门基金监管审查数据的范围,提高工作效率;在面对医院与患者骗保方式多变的情况下,通过学习正常行为为患者结算数据识别未标识的骗保患者,为当地医保部门挖掘新的骗保对象提供参考。
[0032]
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1