一种医保诈骗行为检测方法和装置与流程

文档序号：17744048发布日期：2019-05-24 20:29阅读：239来源：国知局

本发明涉及计算机技术领域，特别是涉及一种医保诈骗行为检测方法和装置。

背景技术：

众所周知，我国现行的医疗补助力度是非常大的，人民的医保福利水平也在日益提高，与此同时，一些医保体系中的问题也日益显著，其中焦点问题之一就是医保诈骗行为。

关于医保诈骗，主要是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中，故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

医保诈骗形成的微观机制则是由于健康和疾病风险的不确定性以及高度专业化的医疗服务，导致消费者和医疗服务的提供者之间信息的严重不对称。这种信息不对称使得医疗服务的供给方缺少内在的成本约束机制和激励机制，产生了诱导性需求，使得医疗费用上涨的趋势必然得不到有效控制。

针对现有的医疗骗保事件的调研以及实际数据的分析，医保诈骗行为一般较多地表现以下三个方面：

1)单张单据的价格过高：药物单据与医嘱不符(得了小病却开了大量昂贵的药物)、大量购买相同药物等行为造成的高价单据。

2)同类型小额帐单出现多次：医患勾结，将一个完整连续的医疗服务项目拆分成多个服务项目分别进行收费、将骗保额度过大的单据拆成多个小药方等导致的短时间内反复多次拿药。

3)冒用他人医保卡：使用他人的医保卡来办理自己的医疗保险业务。

这些年本应作为公民福利项目的医疗保险被滥用，给国家造成的损失巨大，因此通过参保人员在医院就医后缴费的单据，发现其骗保行为，进行及时追责与后期预防，避免医疗保险基金的损失，成为了现阶段极为重要的问题。

针对这些方面已有对医保账单数据处理的多种方式，其中一种方式是通过训练好的模型对医保账单数据进行检测，以得到医保账单数据是否是可疑医疗账单数据，其中，可疑医疗账单数据是可能存在医保诈骗行为的医疗账单数据。现有这种方式中，训练模型的过程中，需要人工对大量的样本医疗账单数据进行标记，具体地，获取多个样本单据，人工对样本单据进行标记，如标记该样本单据是可疑医疗账单数据或者不是可疑医疗账单数据，然后基于标记后的多个样本单据训练用于检测的模型。可以看出，现有这种方式中，标记过程会消耗过多的人力，人工工作量较大。

技术实现要素：

本发明实施例的目的在于提供一种医保诈骗行为检测方法和装置，以减轻人工工作量。具体技术方案如下：

第一方面，本发明实施例提供了一种医保诈骗行为检测方法，包括：

确定多个待分析医疗账单数据，所述待分析医疗账单数据包括多个评价指标；

将多个待分析医疗账单数据进行划分得到多个数据子集；

针对各个数据子集，确定该数据子集对应的子集权重集；并根据该数据子集对应的子集权重集对该数据子集中包括的待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员；

确定所有待分析医疗账单数据构成的全集对应的全集权重集；

根据所述全集权重集对所有聚类成员进行融合，其中，所述所有聚类成员由各个数据子集分别对应的聚类成员组成；

确定进行融合后得到的孤立待分析医疗账单数据，并将所述孤立待分析医疗账单数据作为可疑医疗账单数据。

第二方面，本发明实施例提供了一种医保诈骗行为检测装置，包括：

第一确定模块，用于确定多个待分析医疗账单数据，所述待分析医疗账单数据包括多个评价指标；

划分模块，用于将多个待分析医疗账单数据进行划分得到多个数据子集；

第二确定模块，用于针对各个数据子集，确定该数据子集对应的子集权重集；

聚类模块，用于根据该数据子集对应的子集权重集对该数据子集中包括的待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员；

第三确定模块，用于确定所有待分析医疗账单数据构成的全集对应的全集权重集；

融合模块，用于根据所述全集权重集对所有聚类成员进行融合，其中，所述所有聚类成员由多个数据子集分别对应的聚类成员组成；

第四确定模块，用于确定进行融合后得到的孤立待分析医疗账单数据，并将所述孤立待分析医疗账单数据作为可疑医疗账单数据。

本发明实施例提供的医保诈骗行为检测方法和装置，在医保诈骗行为检测过程中无需人工进行标注，能够减轻人工工作量。同时，能够提高计算效率。且降低了主观干扰，进一步能够提高计算的准确性。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的医保诈骗行为检测方法的流程示意图；

图2为本发明实施例中融合过程的流程示意图；

图3(a)为本发明实施例中子系统示意图；

图3(b)为本发明实施例中医疗数据采集和整理模块示意图；

图3(c)为本发明实施例中医疗数据预处理模块示意图；

图3(d)为本发明实施例中医保诈骗评价指标权重制定模块示意图；

图3(e)为本发明实施例中聚类成员生成模块示意图；

图3(f)为本发明实施例中聚类融合模块示意图；

图3(g)为本发明实施例中医保诈骗结果输出模块示意图；

图3(h)为本发明实施例中聚类成员存储模块示意图；

图4(a)为本发明实施例提供的具体实施例的流程示意图；

图4(b)为本发明具体实施例中数据流向示意图；

图5为本发明实施例提供的医保诈骗行为检测装置的结构示意图；

图6为本发明实施例提供的医保诈骗行为检测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的医保诈骗行为检测方法可以应用于电子设备。具体地，电子设备可以包括终端、服务器、处理器等等。

本发明实施例提供了一种医保诈骗行为检测方法，如图1所示，可以包括：

s101，确定多个待分析医疗账单数据。

待分析医疗账单数据包括多个评价指标。评价指标可以包括帐单总价、药物类型、拿药次数、医嘱类型、开具医嘱医生编号、医保手册号、执行科室、执行医生编号、病人死亡标志和/或病人身份证号等等。

具体地，确定多个待分析医疗账单数据，可以包括：

获取多个原始医疗账单数据；针对各个原始医疗账单数据，对该原始医疗账单数据进行预处理，得到该原始医疗账单数据对应的待分析医疗账单数据。

原始医疗账单数据可以为从医院数据库中获取的医疗账单数据。一种可实现方式中，在获取原始医疗账单数据后，还可以包括数据整理的过程，如将从医院数据库中获取的原始医疗账单数据整理成预定格式的数据，以便于后续方便处理。

预处理可以包括医疗数据清洗、医疗数据集成、医疗数据降维、医疗数据标准化等一系列操作。

s102，将多个待分析医疗账单数据进行划分得到多个数据子集。

将多个待分析医疗账单数据划分至多个数据子集。

一种可实现方式中，将多个待分析医疗账单数据通过随机抽样的方法产生同等量级的数据子集。如共获取得到150个待分析医疗账单数据，将其中每50个划分至一个数据子集，则可以得到3个数据子集。

s103，针对各个数据子集，确定该数据子集对应的子集权重集；并根据该数据子集对应的子集权重集对该数据子集中包括的待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员。

确定子集权重集，即为数据子集中待分析医疗账单数据的各个评价指标确定权重值。本发明实施例中一种可实现方式中随机确定各个评价指标对应的权重值；或者也可以获取人工确定的各个评价指标对应的权重值。另一种可实现方式中，可以基于数据子集中包括的待分析医疗账单数据自适应地确定该数据子集对应的子集权重集。

针对数据子集进行聚类的过程，可以理解为根据数据子集中包括的各个待分析医疗账单数据之间的相似度进行聚类，如可以理解为将相似度比较大的，如大于相似度阈值的多个待分析医疗账单数据聚类得到一个聚类成员。

s104，确定所有待分析医疗账单数据构成的全集对应的全集权重集。

确定全集权重集的过程类似于确定数据子集对应的子集权重集的过程，具体地确定过程可以参照确定数据子集对应的子集权重集的过程。不同在于，确定全集权重集的过程是基于所有待分析医疗账单数据构成的全集的。本发明一种可选的实施例中，可以基于所有待分析医疗账单数据构成的全集自适应地确定该全集对应的全集权重集。

s105，根据全集权重集对所有聚类成员进行融合。

其中，所有聚类成员由各个数据子集分别对应的聚类成员组成。

为了改进采用单一聚类算法的弊端，引入了融合的过程。具体地，可以计算聚类成员之间的相似度，根据聚类成员之间的相似度对相似度大于阈值的进行融合。其中，计算聚类成员之间的相似度，可以通过计算聚类成员的聚类中心的相似度，或者聚类成员的边缘数据的相似度。

s106，确定进行融合后得到的孤立待分析医疗账单数据，并将孤立待分析医疗账单数据作为可疑医疗账单数据。

由于医保诈骗情况的比例远小于正常使用医保的情况，因此以聚类、融合后的得到的结果中出现的孤立点作为存在医保诈骗嫌疑的条例，即将融合后得到的孤立待分析医疗账单数据作为可疑医疗账单数据。

在确定进行融合后得到的孤立待分析医疗账单数据，并将孤立待分析医疗账单数据作为可疑医疗账单数据之后，还可以包括：

展示可疑医疗账单数据。

另外，可以对可疑医疗账单数据进行人工复查，对于实际存在医疗保险诈骗行为的涉案人员等进行追责，实现全过程、全环节智能的医保诈骗行为的检测。

本发明实施例中，医保诈骗行为检测过程中无需人工进行标注，能够减轻人工工作量。同时，能够提高计算效率。且降低了主观干扰，进一步能够提高计算的准确性。

另外，本发明实施例中针对医疗保险诈骗场景将大数据集分成多个小数据子集进行多线程并行计算，加快计算过程。

本发明一种可选的实施例中，s103：确定该数据子集对应的子集权重集，可以包括：

根据该数据子集中包括的各个待分析医疗账单数据，构建第一评价指标权重函数；根据第一评价指标权重函数，通过粒子群优化算法，确定该数据子集对应的子集权重集。

其中，子集权重集中包括各个评价指标分别对应的第一权重值。

具体地，将数据子集设为xa＝{xa1，xa2，...，xan}，(1≤i≤n)，其中xa1，xa2，...，xan为该数据子集中包括的n个待分析医疗账单数据，xai＝(xai1，xai2，...，xaim)，xaik(k∈[1，m])是xai的第k个评价指标。引入评价指标的权重ωa＝(ωa1，ωa2，...，ωam)，其中ωak(k∈[1，m])表示第a个数据子集中第k维评价指标的权重。得到对应的欧式距离计算公式表示待分析医疗账单数据xai和待分析医疗账单数据xaj在数据子集上的相似程度daij。

然后，引入代表相似程度的函数saij，定义其相似性关系函数为：

其中，γ值由下式确定：

其中，当saij趋近于1时表示相似程度越大，两点之间的距离越小；当saij趋近于0时表示数据的相似度越低，两点之间的距离越大；当saij在0.5附近时说明模糊性较大。

为让聚类结果具有模糊性相对较小的性质，通过调整属性权重，使相似数据间的距离减小，不相似数据间的距离增大，即找到一个属性评价函数，综合评价各个点之间的相似程度，使总体达到模糊性最小。对相似关系矩阵进行优化，使相似性较大的数据的相似性关系函数saij趋近于1，同理使相似性较小的数据的相似性关系函数趋近于0。为此引入第一评价指标权重函数，定义如下：

其中，当weighta(ω)趋近于0时表示模糊性最小。

为了最小化weighta(ω)函数，采用粒子群优化算法，针对数据量较小的数据子集产生的weighta(ω)并行使用收敛速度较慢但特征明显的粒子群优化算法，流程如下：

(1)初始化阶段：首先，定义目标空间的维度为医保诈骗评价指标权重的维度k，粒子的初始位置和初始速度为默认值，最后根据数据子集的数量设置粒子群的大小和作为终止条件的最大迭代次数。

(2)计算个体值和全局最优解：个体极值为每个粒子找到的最优解，从这些最优解找到一个全局值，叫做本次全局最优解。与历史全局最优比较，进行更新。

(3)更新粒子速度和位置。

(4)判断是否达到终止条件：当达到最大迭代数目时停止迭代，输出结果。

通过上述的粒子群优化算法流程可以得到weighta(ω)函数的最小值，进而获得最优分配的各个评价指标的权重ωa。

本发明一种可选的实施例中，s104：确定所有待分析医疗账单数据构成的全集对应的全集权重集，可以包括：

根据所有待分析医疗账单数据，构建第二评价指标权重函数；根据第二评价指标权重函数，通过差分进化算法，确定全集对应的全集权重集。

其中，所述全集权重集包括各个评价指标分别对应的第二权重值。

将各个数据子集合并后得到全集为x＝{x1，x2，...，xn}，(1≤i≤n)，xi＝(xi1，xi2，...，xim)，xik是xi的第k个评价指标，引入评价指标权重ω＝(ω1，ω2，...，ωm)，其中ωk(k∈[1，m])表示医保帐单数据全集中第k维评价指标的权重，最终得到第二评价指标权重函数为：

其中，

针对数据量较大的数据全集产生的weighta(ω)使用收敛速度快，更易达到全局最优解的差分进化算法，流程如下：

(1)设置基本参数包括种群规模为100、缩放因子为0.5和交叉概率为0.8。

(2)初始化种群，设置维度为医保诈骗评价指标权重的维度k，初始化代数为1。

(3)计算种群适应度值。

(4)终止条件不满足时，进行循环，依次执行变异、交叉、选择运算，直到终止运算。

最终得到基于数据全集的评价指标的权重ω。

本发明实施例中，对于数据量较小的数据子集和数据量较大的数据全集分别采用粒子群优化和差分进化算法这两个具有针对性的算法，使数据量较小的数据能突出数据特征，数据量较大的数据能快速收敛，得到的评价指标权重集分别应用于聚类成员产生和聚类融合，提高最终的聚类融合性能。

本发明一种可选的实施例中，s103：根据该数据子集对应的子集权重集对该数据子集中包括的待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员，可以包括：

a1，基于各个评价指标，分别确定该数据子集中包括的各个待分析医疗账单数据两两之间的子相似度。

a2，分别根据子集权重集中包括的各个评价指标分别对应的第一权重值，对基于各个评价指标确定的各个评价指标分别对应的子相似度进行加权，得到各个待分析医疗账单数据两两之间的总相似度。

a3，根据总相似度，对该数据子集中包括的各个待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员。

具体地，分别针对各个数据子集主要并行采用加权的canopy粗聚类后再根据得到的聚类中心点和聚类簇个数进行加权凝聚层次算法。

使用canopy粗聚类，定义两个阈值t1和t2，并令t1＞t2；

(1)随机从待分析医疗账单数据中选择一个点x，通过如下加权欧式距离计算在数据子集a中该点到其他待分析医疗账单数据的距离daij。

(2)若判断得到daij＜t1，则说明是弱关联，将这些点归为一类；

(3)再继续判断，若daij＜t2，则说明是强关联，将这些点从数据子集中移除不需要再进行计算。

(4)重复上面三个步骤直到数据子集为空，此时可以快速得到类别数量wa和每个类的聚类中心caw。

然后在a个并行计算单元上进行加权的凝聚层次聚类算法，对数据进行深层次聚类。

(1)将样本空间中的每个数据看成一个类簇，这时设定共有n类，取类p和类q之间的平均加权距离为两个类间距离。

nap，naq分别表示数据子集a中类p和类q中包含的数据量。

(2)在每次迭代中，将两个类合并成一个类。选出的两个类为平均连接最小的类。即根据我们选择的距离度量，这两个类之间的d(p，q)距离最小，因此是最相似的，将其被合并起来。

(3)不断重复上面的步骤，最终得到canopy粗聚类类别数量wa后停止聚类，a个并行单元最终得到a个聚类成员ma。

(4)将深层次聚类后得到的a个聚类成员ma中wa个类簇和聚类中心caw一一对应整合，将聚类中心caw作为其所在类簇wa的中心，若出现多个中心caw在同一类簇或者不在任何类簇中这些无法对应的情况时，将对应的类簇数据和聚类中心返回给粗聚类单元重新进行粗聚类确定聚类中心caw和类簇数wa后传回当前凝聚层次聚类单元执行深层次聚类，将聚类结果得到的wa个类簇与聚类中心caw再次对应，不断重复此步骤，直到完成类簇与聚类中心一一对应。最后将结果合并，得到a个聚类成员ma中以caw为聚类中心的wa个聚类簇。

(4)聚类簇中的各个点为xawi，表示第a个聚类成员中的第k个聚类簇中的第i个数据，xawi＝(xawi1，xawi2，...，xawim)，xawik(k∈[1，m])是xawi的第k个评价指标，计算每个到簇中聚类中心caw的距离dawi，表示第a个聚类成员中的第k个聚类簇中的第i个数据距离其聚类簇中聚类中心的距离。

通过比较同一类簇边缘距离的相近程度，对于边缘距离较远且数量极少的点规定为b个孤立点slolitaryab。每个聚类成员中的每个类可以得到一个最近点距离dawmin和最远边缘距离dawmax，为后续的融合策略做准备。

本发明实施例中，针对医疗保险诈骗场景采用canopy粗聚类和凝聚层次聚类算法进行聚类成员的聚类训练，可以快速得到聚类簇中心和聚类簇数目，不需要预先设定聚类簇个数，步步迭代产生可见的最优效果。且针对数据子集产生的聚类成员具有层次结构并可以恢复其层次结构，使聚类中的每次迭代过程都可以还原，便于后期分析。

本发明一种可选的实施例中，在s103：针对各个数据子集，确定该数据子集对应的子集权重集；并根据该数据子集对应的子集权重集对该数据子集中包括的待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员之后，方法还包括：

保存各个数据子集分别对应的聚类成员。

针对新产生的需要进行医保诈骗信息发现的小数据集的加入可以使用原有的同一结构和类型训练集训练聚类成员进行共同融合，省去了重新训练所有数据集的过程，有较好的可扩展性。

本发明一种可选的实施例中，s105，根据全集权重集对所有聚类成员进行融合，可以包括：

b1，确定融合策略。

确定融合策略的过程也可以理解为确定共识函数的过程。本发明实施例中不对确定融合策略的方式做限定，任何可以实现对各个聚类成员进行融合的方式均在本发明实施例的保护范围内。

b2，基于各个评价指标，分别确定各个聚类中心两两之间的相似度，其中，各个聚类中心是所有聚类成员中的各个聚类成员分别对应的。

具体地，在确定聚类成员的过程中，针对所有聚类成员中的各个聚类成员，确定该聚类成员的聚类中心。

b3，根据全集权重集包括的各个评价指标分别对应的第二权重值，以及各个聚类中心两两之间的第二相似度，通过融合策略，对所有聚类成员进行融合。

为了改进采用单一聚类算法的弊端，引入了聚类融合算法，如图2所示，具体地，确定共识函数策略如下：

(1)对于聚类成员生成模块传来的a个聚类成员ma和m个基于医保帐单数据全集的医保诈骗评价指标权重ω＝(ω1，ω2，...，ωm)，其中ωk(k∈[1，m])代表第k个医保诈骗评价指标权重，分别进行聚类中心ceg和cfh之间距离degfh的计算(这里a取e和f表示两个聚类成员，w取g和h表示两个聚类成员中的聚类簇)。

若两个聚类中心之间的距离degfh小于两个聚类中心的最近点距离dewmin和dfwmin中的一个则将两个聚类簇归为一类簇，定义其中一个聚类中心作为融合后的聚类中心，并按新的聚类中心更新最近点距离和最远边缘距离。若不满足条件则不进行融合，重复进行直到完成所有的聚类簇合并，得到新的多个聚类中心cneww、最近点距离dnewwmin和最远边缘距离dnewwmin。

(2)对于聚类成员中出现的孤立点slolitaryab分别对各个新的聚类中心cneww计算距离dawb，表示之前聚类成员a中的孤立点b到新聚类簇w聚类中心的距离。

对于距离小于最远边缘距离dnewwmin的孤立点将其归为该类簇。若不满足条件则仍作为孤立点，得到最终的孤立点snewb，孤立点也可以理解为孤立医疗账单数据。如此，可以得到最终的融合结果。

本发明实施例中，在医保诈骗行为检测的过程中引入了加权聚类融合算法，相较于传统的仅考虑聚类算法，可以针对孤立点和聚类簇边缘数据进行再次分析，在数据集中的平稳性上更为优秀。

本发明实施例中具体地可以通过不同的子系统实现上述医保诈骗行为检测的过程，其中，不同的子系统中可以包括模块。

具体地，如图3(a)所示，可以包括数据采集子系统，数据分析子系统、结果展示终端以及聚类成员存储区。

数据采集子系统主要包含一个模块：医疗数据采集和整理模块，负责医保单据的采集和整理成特定的数据格式便于后续数据的处理和使用。

数据分析子系统主要包括四个模块：医疗数据预处理模块主要进行医疗数据预处理。医保诈骗指标权重制定模块对预处理之后的各项评价指标进行自适应权重划分，针对不同的评价指标完成权重的分配工作。聚类成员的产生模块负责融合算法中产生多个聚类成员的功能。聚类融合模块针对多个聚类成员完成聚类融合算法中的融合操作，得到最终的数据聚类融合结果。

结果展示终端主要包含一个模块：医保诈骗结果输出模块，筛查聚类融合结果中的孤立点，并在终端展示数据聚类结果中的孤立点信息及相关的医保单据条例，作为人工复查后进行涉案人员追责的依据。

聚类成员存储区主要包含一个模块：聚类成员存储模块，负责对聚类成员进行存储，与聚类成员产生模块进行交互，完成聚类成员的重复利用。

整个系统在完成基础设定后可以实现全过程、全环节的智能医保欺诈行为检测，四个子系统之间通过数据接口进行数据交互。

下面分别对不同部分进行介绍。为了介绍简便，下面介绍中将医疗账单数据简称为医疗数据或者数据。

如图3(b)所示，数据采集子系统包含一个模块：医疗数据采集和整理模块。该模块主要从医疗账单数据库中无人工干预地提取数据，并将其转换为适合输入的格式。

该模块主要由4个功能单元组成，分别为医院数据库接口、数据交互控制单元、医疗表单数据整理与格式转换单元以及规定格式数据接口。

医院数据库接口：负责对医院数据库进行封装，屏蔽不同数据库在数据管理方式上的差异；与医院数据库相连接，以简单接口形式给数据整理单元提供数据的读与查询功能，为服务请求单元使用业务数据提供方便。

数据交互控制单元：负责控制和协调其它各单元共同完成数据交互功能。作为该模块的控制核心，控制医院数据库接口向医院数据库发送服务请求与交互数据，并将从医院数据库中得到的数据转发给数据整理与格式转换单元，并控制数据整理与格式转换单元对数据进行格式的整理转换。

医疗数据整理与格式转换单元：负责按照后续预处理需求对数据进行格式的整理转换，保证数据格式的一致性，输出固定格式的多数据。该单元接受数据交互单元的控制指令，将发往数据预处理模块的数据进行整理和转换。

规定格式数据接口：负责与数据预处理模块交互信息，接受数据交互控制单元的控制指令，将规定格式的数据发送给数据分析子系统的预处理模块。

其中，对数据进行格式转换，也可以理解为数据预处理过程中一个过程。

数据分析子系统包含四个模块：医疗数据预处理模块，医保诈骗评价指标权重制定模块，聚类成员生成模块以及聚类融合模块。

如图3(c)所示，医疗数据预处理模块主要完成医疗数据的预处理功能，采用机器学习预处理算法将原始数据变为根据单个标准化低维度医疗表单数据分成的多个数据子集，以供后续模块的处理。

该模块主要由7个功能单元组成，分别为服务及数据接口、数据交互控制单元、医疗数据清洗单元、医疗数据集成单元、医疗数据标准化单元、医疗数据降维单元以及随机抽样单元。

服务及数据接口：负责该模块与数据采集子系统的数据采集和整理模块的交互，将获得的固定格式的多个医疗数据传送给医疗数据清洗单元以便后续处理。

数据交互控制单元：负责控制服务及数据接口向数据采集和整理模块接收结构数据，并将结构数据转发给医疗数据清洗单元进行数据的预处理。预处理主要包含医疗数据的清洗、集成、标准化以及降维过程等。

医疗数据清洗单元：负责将数据中的清洗工作，将得到的数据中有大量评价指标缺失的数据去除；去除诸如家庭住址、籍贯、年龄等对本场景无用的数据指标；去除格式有格式错误指标出现的数据；对于重复出现的数据去除其冗余，缩减数据规模，得到多个完整的无冗余的医疗帐单数据表并传入医疗数据集成单元。

医疗数据集成单元：负责数据的集成工作，将多个关联表单的数据进行合并集成，将同一个账单号以及同一个病患的数据合并，以帐单编号作为唯一的key，得到一个包含所有评价指标信息的数据表单并传入医疗数据标准化单元。

医疗数据标准化单元：负责数据的标准化工作，对数据进行离差标准化处理，将区间规范到大于等于0且小于等于1之间，防止出现由于量纲不同造成的数据权重差异。最后得到一个标准化的医疗数据表并传入医疗数据降维单元。

医疗数据降维单元：负责数据的降维工作，这里主要使用主成分分析方式，求取医疗数据的协方差矩阵，通过计算比较矩阵中的各维参数特征值的大小，保留各维参数中包含信息最多的几项，完成维度的降低工作，最后得到低维度的数据表单。最后将低维度的单个医保数据表单传入随机抽样单元。

随机抽样单元：负责将接收到的低维度的单个医保数据表单通过随机抽样的方法产生同等量级的数据子集，最后将整个预处理完成后的多个数据子集传入后续的医保诈骗评价指标权重制定模块和聚类成员产生模块。

如图3(d)所示，医保诈骗评价指标权重制定模块主要完成各项医保诈骗评价指标权重的自适应制定，便于后续产生聚类成员和聚类融合的使用。

该模块主要由3个功能单元组成，分别为医保诈骗评价指标权重函数生成单元、评价指标权重函数多子集粒子群优化单元以及评价指标权重函数全集差分进化单元。

医保诈骗评价指标权重函数生成单元：负责接收多个医疗数据预处理模块预处理后的标准化低维度的医疗帐单数据子集，并将上述低维度数据表单中的各个维度作为评价指标多线程并行在多个数据子集中分别生成多个在取得最小值时可以得到最好的指标权重分配的医保诈骗评价指标权重函数。另外将数据子集合并为一个合集，在其基础上按上述评价指标生成基于全集的医保诈骗评价指标权重函数，将多个由数据子集生成的医保诈骗评价指标权重函数输入到评价指标权重函数多子集粒子群优化单元，将由全集生成的医保诈骗评价指标权重函数输入到评价指标权重函数全集差分进化单元进行求最优解处理。

评价指标权重函数多子集粒子群优化单元：负责在接收到多个由数据子集生成的医保诈骗评价指标权重函数后多线程并行采用粒子群优化算法根据多个数据子集得到多个评价指标权重集，并将多个基于数据子集得到的医保诈骗评价指标权重集传输给聚类成员产生模块作为加权聚类算法中对应的每项评价指标权重值使用。

评价指标权重函数全集差分进化单元：负责在接收到由全集生成的评价指标权重函数后在其基础上针对评价指标权重函数采用差分进化算法对其进行处理，自适应地得到指标权重函数的全局最优解，得到最优的基于全集的医保诈骗的各个评价指标权重，并将其传输给聚类融合模块作为聚类融合时计算加权距离的权重使用。

如图3(e)，聚类成员生成模块主要完成聚类融合算法的聚类成员的产生和存储步骤，同时还能自动读取之前数据产生的聚类成员进行聚类融合使用。

该模块主要由4个功能单元组成，分别为粗聚类单元、凝聚层次聚类单元、数据交互控制单元以及聚类成员读写接口。

粗聚类单元：负责从医疗数据预处理模块接收多个数据子集以及从医保诈骗评价指标权重制定模块接收到的针对多个数据子集的各个评价指标的权重并将多个评价指标权重集与数据子集对应起来，然后多线程并行进行加权canopy粗聚类运算，得到聚类中心和聚类的簇的个数，并将包含原始信息的粗聚类后结果信息传给凝聚层次聚类单元进行处理。同时接收后续凝聚层次聚类单元传来的聚类中心无法与深层次聚类后得到的聚类簇对应整合的类簇数据，并针对其重新进行加权canopy粗聚类运算得到新的聚类中心和聚类簇的个数后传回凝聚层次聚类单元。

凝聚层次聚类单元：负责聚类融合算法中的聚类成员生成步骤，从粗聚类单元和指标权重制定模块分别读取原始信息和粗聚类后的结果以及各个指标的最优权重值，然后在已知聚类中心和最终聚类簇数量的前提下多线程并行使用凝聚层次聚类算法得到多个聚类成员。同时可以通过与聚类成员读写接口交互实现聚类成员的存取，可以将生成的聚类成员存入聚类成员存储模块作为历史聚类成员以便后续需要进行重新聚类训练的聚类成员或者新传入的少量待验证数据进行训练时可以调出使用，提高少量数据进行聚类时的准确性同时减少重新训练的资源浪费，最后将所有数据子集得到的聚类成员发送给聚类融合模块进行聚类融合的后续步骤。另外对于从粗聚类单元传来的聚类中心若无法与聚类成员中的类簇对应而导致的聚类成员生成失败时将对应的类簇数据和聚类中心返回给粗聚类单元重新进行粗聚类的运算，并接收粗聚类单元返回的聚类中心和类簇个数后重新进行聚类成员生成，直到生成成功。

数据交互控制单元：控制聚类成员读写接口向聚类成员存储模块发送服务请求与交互数据，完成数据交互控制单元和聚类成员存储模块的数据交互转发。

聚类成员读写接口：负责凝聚层次聚类算法单元与聚类成员存储模块的交互，接受数据交互控制单元的控制指令，实现数据在数据交互控制单元和聚类成员存储模块间的交互，并将数据交互结果反馈给数据交互控制单元进行后续处理。

如图3(f)，聚类融合模块主要完成聚类融合算法共识函数构造进而完成聚类融合算法的最后步骤得到最终的数据聚类结果。

该模块主要由3个功能单元组成，分别为构造共识函数单元、数据交互控制单元数据聚类结果接口。

构造共识函数单元：负责从聚类成员生成模块获取聚类成员生成模块中产生的多个聚类成员以及从医保诈骗评价指标权重制定模块获取基于医疗数据全集的医保诈骗的各个评价指标权重，构造相应的共识函数将获取到的聚类成员进行加权融合，并自动对孤立点数据进行再次处理，得到最终的医疗表单数据聚类融合的结果。传输给数据聚类结果接口进行后续处理。

数据交互控制单元：控制数据聚类结果接口向结果输出模块发送服务请求与交互数据，完成数据聚类结果接口和结果输出模块的数据交互转发工作。

数据聚类结果接口：负责构造共识函数单元与结果输出模块的交互，接受数据交互控制单元的控制指令，实现数据在聚类成员融合单元与结果输出模块间的交互，并将数据交互结果反馈给数据交互控制单元进行孤立点筛选和展示的后续处理。

结果展示终端包含一个模块：医保诈骗结果输出模块。如图3(g)所示。

医保诈骗结果输出模块主要完成数据聚类结果中作为存在医保诈骗嫌疑的孤立点的查找以及最终结果的自动展示功能。

该模块主要由4个功能单元组成，分别为服务及数据接口、数据交互控制单元、医保诈骗孤立点寻找单元以及医保诈骗嫌疑条例展示单元。

服务及数据接口：负责构造共识函数模块与结果输出模块的信息交互，接收数据交互控制单元的服务请求，获取聚类融合单元产生的最终聚类结果，并将数据交互结果反馈给数据交互控制单元进行后续处理。

数据交互控制单元：负责控制和协调其它各单元共同完成数据交互功能。控制服务及数据接口向构造共识函数模块接收聚类结果数据，并将聚类结果数据转发给孤立点寻找单元，再控制孤立点寻找单元挑选出聚类结果中作为存在医疗诈骗嫌疑的孤立点。

医保诈骗孤立点寻找单元：负责从接收到的聚类结果中筛选出聚类结果中作为存在医疗诈骗嫌疑的孤立点，并将孤立点包含的医保单据信息传递给医保诈骗嫌疑条例展示单元进行后续处理。

医保诈骗嫌疑条例展示单元：接收孤立点寻找单元传来的医保单据信息，并在终端进行展示，供后续人工复查与用作涉案人员追责依据。

聚类成员存储区包含一个模块：聚类成员存储模块。如图3(h)所示，聚类成员存储模块主要完成聚类成员的自动存取功能，为聚类融合算法提供的扩展性使用提供基础。

该模块主要由3个功能单元组成，分别为服务及数据接口，数据交互控制单元，聚类成员数据库单元。

服务及数据接口：负责聚类成员产生模块与聚类成员存储模块之间聚类成员的数据交互，接受数据交互控制单元的服务请求，完成聚类成员的存取功能，并将数据交互结果反馈给数据交互控制单元进行后续处理。

数据交互控制单元：负责控制和协调其它各单元共同完成数据交互功能。控制服务及数据接口向聚类成员产生模块接收聚类成员数据，可将多次聚类结果数据转发给聚类成员数据库单元并控制其存储，也可以接受聚类成员产生模块的请求从聚类成员数据库单元读取聚类成员数据。

聚类成员数据库单元：负责对聚类成员数据的存储，该单元接受数据交互单元的控制指令，提供读、写和查询功能。

具体地，如图4(a)所示，本发明实施例的具体实施例的流程如下：

c1，读取医院的医疗帐单数据库中需要进行筛选的医保单据，将其整理成多个固定数据格式的医疗数据表单便于后续的预处理时的使用。

c2，将读取到的数据进行数据清洗、数据集成、数据标准化和数据降维后得到低维度、标准化的单个医疗数据表单，并通过随机抽取得到多个医保帐单数据子集，便于之后的数据的处理。

c3，根据得到的预处理后数据子集构造多个基于数据子集的指标权重函数，并将数据合并为全集后构造基于数据全集的指标权重函数，然后并行采用粒子群优化算法使多个基于数据子集的指标权重函数得到全局最优解，进而得到多个基于数据子集的最优分配的医保诈骗评价指标权重集；另外采用差分进化算法使基于数据全集的指标权重函数得到全局最优解，进而得到基于数据全集的最优分配的医保诈骗评价指标权重集，分别应用于后续的聚类成员生成和聚类融合中的权重规定。

c4，首先对于得到的多个医保帐单数据子集和对应的医保诈骗评价指标权重集并行采用加权canopy聚类算法进行粗聚类，得到多个聚类中心和聚类簇的数量，然后并行使用根据已知的聚类中心和聚类数量进行加权(医保诈骗评价指标权重)的凝聚层次聚类算法进行聚类运算，得到多个聚类成员。同时请求聚类成员数据库，读取历史保存的聚类成员，共同作为下一步聚类成员融合的基础。并将生成的聚类成员写入聚类成员数据库中，更新聚类成员，方便下次运行方案时使用。

c5，在得到聚类成员和基于医保帐单数据全集的医保诈骗的评价指标权重集后，构造共识函数，依据聚类中心和边缘点的加权距离将聚类成员进行融合，得到最终的医保单据聚类融合结果。

c6，在聚类融合结果中寻找出孤立点作为医保诈骗嫌疑的调理，将相关的医保单据信息展示在终端页面供人工进行复查，以便用作涉案人员追责依据与后续医疗保险诈骗防护的依赖数据。

整个流程不需要人为干涉，能够实现全环节、全过程的数据智能处理。

其中，如图4(b)所示，数据流向如下：

整个数据流程可以分为6个阶段：医保单据的采集和整理阶段，医疗数据预处理阶段，自适应医保诈骗评价指标权重的制定阶段，读取、生成以及存储聚类成员阶段，构造共识函数完成聚类成员融合阶段以及寻找结果中的孤立点并将其作为医保诈骗嫌疑条例阶段。

医保单据的采集和整理阶段：主要由医疗单据数据采集和整理模块进行处理，从医院帐单数据库读取包含费用明细表、医嘱表、病人基本信息登记表在内的医疗表单数据，采用固定格式转换等方式，将数据转换为固定格式的多个表单数据，并将数据流传入医疗数据预处理阶段。

医疗数据预处理阶段：主要由医疗数据预处理模块进行处理，接收上一阶段传入的固定格式的多个表单数据流后，按顺序进行数据的清洗、集成、标准化以及降维工作，将数据转换为单个标准化低维度的医疗表单数据，并通过随机抽样将其转化为等量的多个数据子集，最后将数据流传入自适应医保诈骗评价指标权重的制定阶段和读取、生成以及存储聚类成员阶段。

自适应医保诈骗评价指标权重的制定阶段：主要由医保诈骗指标权重制定模块进行处理，接收上一阶段传入的根据单个标准化低维度的医疗表单数据分成的多个数据子集，分别针对多个数据子集和数据子集合并后的全集构造医疗指标权重评价函数并分别并行对各个子集使用粒子群优化算法、对全集使用差分进化算法进行处理得到最优的基于数据子集的医保诈骗的各个评价指标的权重和基于数据全集的医保诈骗的各个评价指标的权重，并将其分别传入读取、生成以及存储聚类成员阶段和构造共识函数完成聚类成员融合阶段。

读取、生成以及存储聚类成员阶段：主要由聚类成员生成模块和聚类成员存储模块进行处理，聚类成员生成模块接收自适应医保诈骗评价指标权重的制定阶段传入的医保诈骗的各个评价指标的权重和医疗数据预处理阶段传入的根据单个标准化低维度的医疗表单数据分成的多个数据子集，顺序使用canopy粗聚类和凝聚层次聚类算法对多个数据子集进行并行处理，将数据转换为多个聚类成员。同时与聚类成员存储模块进行交互，完成新聚类成员的存储和历史聚类成员的读取工作。最后将数据流传入构造共识函数完成聚类成员融合阶段。

构造共识函数完成聚类成员融合阶段：主要由聚类融合模块进行处理，针对读取、生成以及存储聚类成员阶段传入的聚类成员和自适应医保诈骗评价指标权重的制定阶段传入的基于全集的各个评价指标权重构造共识函数融合策略，进行聚类融合，将数据转换为最终的医疗帐单数据聚类结果。并将数据流传入寻找结果中的孤立点并将其作为医保诈骗嫌疑条例阶段。

寻找结果中的孤立点并将其作为医保诈骗嫌疑条例阶段：主要由医保诈骗结果输出模块进行处理，针对上一阶段传入的最终的医疗帐单数据聚类结果数据进行孤立点寻找，将数据转换为由医保诈骗嫌疑的孤立点数据，并将数据流传入最终的展示终端进行展示。完成整个数据流程。

本发明是实施例中针对医院的医疗账单数据采用自适应权重聚类融合方法，可以实现全环节、全流程的智能医保诈骗行为的检测。减少了人为主观性干预的情况，使最后的结果正确率更高。

本发明实施例提供了一种医保诈骗行为检测装置，如图5所示，包括：

第一确定模块501，用于确定多个待分析医疗账单数据，待分析医疗账单数据包括多个评价指标；

划分模块502，用于将多个待分析医疗账单数据进行划分得到多个数据子集；

第二确定模块503，用于针对各个数据子集，确定该数据子集对应的子集权重集；

聚类模块504，用于根据该数据子集对应的子集权重集对该数据子集中包括的待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员；

第三确定模块505，用于确定所有待分析医疗账单数据构成的全集对应的全集权重集；

融合模块506，用于根据全集权重集对所有聚类成员进行融合，其中，所有聚类成员由多个数据子集分别对应的聚类成员组成；

第四确定模块507，用于确定进行融合后得到的孤立待分析医疗账单数据，并将孤立待分析医疗账单数据作为可疑医疗账单数据。

可选的，第二确定模块503，具体用于根据该数据子集中包括的各个待分析医疗账单数据，构建第一评价指标权重函数；根据第一评价指标权重函数，通过粒子群优化算法，确定该数据子集对应的子集权重集，其中，子集权重集中包括各个评价指标分别对应的第一权重值。

可选的，聚类模块504，具体用于基于各个评价指标，分别确定该数据子集中包括的各个待分析医疗账单数据两两之间的子相似度；分别根据子集权重集中包括的各个评价指标分别对应的第一权重值，对基于各个评价指标确定的各个评价指标分别对应的子相似度进行加权，得到各个待分析医疗账单数据两两之间的总相似度；根据总相似度，对该数据子集中包括的各个待分析医疗账单数据进行聚类，得到该数据子集对应的聚类成员。

可选的，第三确定模块505，具体用于根据所有待分析医疗账单数据，构建第二评价指标权重函数；根据第二评价指标权重函数，通过差分进化算法，确定全集对应的全集权重集，其中，全集权重集包括各个评价指标分别对应的第二权重值。

可选的，融合模块506，具体用于确定融合策略；基于各个评价指标，分别确定各个聚类中心两两之间的相似度，其中，各个聚类中心是所有聚类成员中的各个聚类成员分别对应的；根据全集权重集包括的各个评价指标分别对应的第二权重值，以及各个聚类中心两两之间的第二相似度，通过融合策略，对所有聚类成员进行融合。

可选的，第一确定模块501，具体用于获取多个原始医疗账单数据；针对各个原始医疗账单数据，对该原始医疗账单数据进行预处理，得到该原始医疗账单数据对应的待分析医疗账单数据。

可选的，该装置还包括：展示模块，用于展示可疑医疗账单数据。

可选的，该装置还包括：保存模块，用于保存各个数据子集分别对应的聚类成员。

需要说明的是，本发明实施例提供的医保诈骗行为检测装置是应用上述医保诈骗行为检测方法的装置，则上述医保诈骗行为检测方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

本发明实施例还提供了一种医保诈骗行为检测设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述医保诈骗行为检测方法的方法步骤。

上述医保诈骗行为检测设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect，pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述医保诈骗行为检测设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory，ram)，也可以包括非易失性存储器(non-volatilememory，nvm)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述医保诈骗行为检测方法的方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王红熳;张东宁;杨放春
技术所有人：北京邮电大学
我是此专利的发明人

上一篇：间隙受控的或零间隙的齿轮减速器的制作方法
上一篇：一种分体式旋转冲水抽吸装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。