一种基于多视图双聚类的就医欺诈行为检测方法及系统与流程

文档序号：22836360发布日期：2020-11-06 16:30阅读：145来源：国知局

本公开涉及计算机技术领域，特别涉及一种基于多视图双聚类的就医欺诈行为检测方法及系统。

背景技术：

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

医疗保险制度是为了补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度。

随着医疗保险事业的蓬勃发展，少数不法人员出于利益考虑，开始了针对医保基金的欺诈行为。

本公开发明人发现，传统的医保反欺诈工作主要依赖制定规则，首先制定医保欺诈规则，基于规则对参保人的就医行为进行鉴别，并确定欺诈人及其欺诈行为；这种方式高度依赖专家的经验，一般都是在欺诈行为发生之后，才能制定相应的规则，无法快速高效地识别医保欺诈行为。

本公开发明人还发现，目前存在异常共现就医欺诈行为，该行为具体是指，有一些欺诈者，通过某种方式收集获取多名参保人的医保卡，利用这些医保卡购买药品然后倒卖，骗取医保基金，这些欺诈者为了降低欺诈成本，通常会在一次欺诈行为中使用多张医保卡购买药品。

针对上述行为，以往的异常共现就医欺诈行为识别方法，仅仅考虑挖掘频繁地在相同时间相同地点就医的可疑患者群体，而没有考虑部分正常患者因长期有规律就医导致被误判的情形，因此检测结果不够准确。

技术实现要素：

为了解决现有技术的不足，本公开提供了一种基于多视图双聚类的就医欺诈行为检测方法及系统，利用双聚类算法，同时引入健康医疗知识库，不仅可以挖掘频繁地在相同时间相同地点就医的可疑患者群体，而且还可以将其中因长期有规律就医导致被误判的正常患者过滤，从而更加精确地识别医保欺诈行为。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于多视图双聚类的就医欺诈行为检测方法。

一种基于多视图双聚类的就医欺诈行为检测方法，包括以下步骤：

获取就诊信息和人口统计学信息，并对获得的数据进行预处理；

根据预处理后得到的医保参保个体的医保就医记录，构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图；

在参保个体集合与就医时间和就医地点信息集合构成的第一视图和参保个体集合与药物信息集合组成的第二视图上同时进行双聚类，得到跨视图一致的患者集群作为就医欺诈行为群体。

本公开第二方面提供了一种基于多视图双聚类的就医欺诈行为检测系统。

一种基于多视图双聚类的就医欺诈行为检测系统，包括：

数据获取模块，被配置为：获取就诊信息和人口统计学信息，并对获得的数据进行预处理；

数据处理模块，被配置为：根据预处理后得到的医保参保个体的医保就医记录，构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图；

就医欺诈判断模块，被配置为：在参保个体集合与就医时间和就医地点信息集合构成的第一视图和参保个体集合与药物信息集合组成的第二视图上同时进行双聚类，得到跨视图一致的患者集群作为就医欺诈行为群体。

本公开第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质及电子设备，利用双聚类算法，同时引入健康医疗知识库，不仅可以挖掘频繁地在相同时间相同地点就医的可疑患者群体，而且还可以将其中因长期有规律就医导致被误判的正常患者过滤，从而更加精确地识别医保欺诈行为。

2、本公开所述的方法、系统、介质及电子设备，不仅考虑多张医保卡频繁同时同地消费这一特征，挖掘频繁地在相同时间和相同地点就医的可疑患者群体，还能够过滤因长期有规律就医导致被误判的正常患者，从而更加精确地识别医保欺诈行为，相较于传统方法的识别准确率为76％，本公开将识别准确率提升至95％，本公开有助于识别异常共现就医欺诈行为，有效保护医疗保险基金。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于双聚类的多视图异常共现就医欺诈行为识别方法的流程图；

图2为本公开实施例1提供的基于双聚类算法在多个视图上挖掘跨视图一致聚类患者的模型图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本公开实施例1提供了一种基于双聚类的多视图异常共现就医欺诈行为识别方法，基于双聚类算法，同时引入健康医疗知识库，在多个视图上挖掘频繁地在相同时间相同地点就医，并且医药处方相似的可疑患者群体；因为将其中因长期有规律就医导致被误判的正常患者过滤，所以更加精确地获得欺诈患者。

具体包括以下步骤：

步骤(1)：就诊信息和人口统计学信息获取步骤。

获取病人的就诊信息，所述的就诊信息主要包括：患病数据、用药数据、诊疗数据；获取病人的人口统计学信息，所述的人口统计学信息主要包括病人的年龄、性别、人员类别、婚姻、文化水平、职业和居住地等；

就诊信息在获取时可利用通信手段从医疗系统获取。

步骤(2)：数据预处理步骤。

用md5算法对敏感数据如身份证号信息、姓名、家庭住址等信息进行消密处理，即将敏感数据处理成没有意义的字符串，避免使用数据时敏感信息泄露；

在医疗数据中，缺失数据是不能被填充的，所以要对缺失率高于设定阈值的数据进行删除。

依据国际疾病分类标准编码icd-10，将就诊信息中的疾病诊断代码转换为对应的国际疾病分类标准编码icd-10中的疾病代码。

依据《中国药典》(2015年版)，将就诊信息中的药物编码转换为对应的《中国药典》(2015年版)中的药物代码。

步骤(3)：根据医保参保人的医保就医记录，构建p-tl-m图。

其中，图中有两类节点，p代表医保就医记录中医保参保人的集合；tl代表医保就医记录中就医时间就医地点信息的集合，由<就医时间，就医地点>表示；m代表医保就医记录中药物的集合。图中有两种类型的边e，一种是医保参保人与药物之间相连的边，由e(pi,mj)表示，其中pi∈p，mi∈m。

对于边e(pi,mj)的权重w(pi,mj)计算，令代表患者pi购买药物mj报销金额，令代表患者pi购买药物mj自费金额，那么权重w(pi,mj)计算方式为：

另一种是医保参保人与就医时间就医地点之间的边，由e(pi,tlj)表示，其中pi∈p，tli∈tl，它的权重w(pi,tlj)与医保参保人的就医时间就医地点有关。

具体如下：

对于边e(pi,tlj)的权重w(pi,tlj)计算，设置时间阈值φ，本实施例设置其为两天。其中tlj＝<tj,lj>，tj代表tlj中的就医时间，lj代表tlj中的就医地点。令ti代表患者pi的就医时间。

当患者pi在与tj相距φ时间间隔内，在lj地点发生就医行为，即，|tj-ti|<φ，那么权重w(pi,tlj)的计算方式为：

否则，当患者pi没有在与tj相距φ时间间隔内，在lj地点发生就医行为，权重w(pi,tlj)的计算方式为：

w(pi,tlj)＝0。

步骤(4)：在步骤(3)中构建的p-tl-m图中，通过新颖的双聚类算法，在多个视图上挖掘频繁即相同时间相同地点就医，又医药处方相似的可疑患者群体。如图2所示。具体如下：

(4.1)构建大小为n×r¹的矩阵x¹，来表示p-tl图。其中，n为医保参保人集合p中包含的元素数目，r¹为就医时间就医地点信息集合tl中包含的元素数目。等于p-tl图中边e(pi,tlj)的权重值，w(pi,tlj)。

(4.2)构建大小为n×r²的矩阵x²，来表示p-m图。其中，n为医保参保人集合p中包含的元素数目，r²为药物集合m中包含的元素数目。等于p-m图中边e(pi,mj)的权重值，w(pi,mj)。

(4.3)双聚类算法可以跨视图同时将矩阵的行进行聚类，通过此方法可以挖掘频繁在相同时间相同地点就医且医药处方相似的可疑患者群体。

在多个视图中，令n维向量u^k和r维向量v^k分别代表矩阵x^k经过矩阵分解后得到的左、右向量。两个向量的外积与矩阵x^k尽可能近似，即，

需要解决的目标函数为：

subjectto

k＝1,...,d,

ω∈bn.

bn表示所有长度为n的二进制向量集合。lω和是提前定义的超参，确保向量ω和向量v^k的稀疏性，向量ω可以使不同视图的行聚集结果相同。向量w^k表示相应视图中的权重，diag(.)表示以相应向量为对角线元素的对角矩阵，d表示视图数量，对于本专利而言，d＝2。

最小化上述目标函数在数学上等价于最小化：

其中λω和对应h最优值时的拉格朗日乘子。

在该实施例子中，需要运用palm算法解决上述的目标函数，具体如下：

(4.2.1)将向量ω，向量v^k和向量u^k的全部元素初始化为1的。令ω^t,(u^k)^t,(v^k)^t代表第t次迭代下的向量。

(4.2.2)使用ω^t,(u^k)^t,(v^k)^t计算(u^k)^t+1。

每一个(u^k)^t+1可以被分别计算，因为它们彼此是相互独立的。用代表h在点ω^t,(u^k)^t,(v^k)^t处关于u^k的偏导数，计算方式为：

其中⊙表示计算两个向量中的对应元素相乘，组成一个新的向量，与原向量的尺度相同。的lipchitz模数是

计算(u^k)^t+1需要解决下述优化目标函数：

其中γu>1是一个常数，被设置为2。该问题在数学上等价于:

它的一个解析解为：

(4.2.3)使用ω^t,(u^k)^t+1,(v^k)^t计算(v^k)^t+1。

每一个v^k向量也能被分别计算。用代表h在点ω^t,(u^k)^t+1,(v^k)^t出关于v^k的偏导数，它的计算方式为：

的lipchitz模数是：

使作为一个指示函数：

为了计算v^k向量本实施例需要计算下列目标函数：

subjectto

该目标函数可转换为：

该问题等价于最小化：

令对于(4.2.3)中目标函数的最优解是保持向量中元素绝对值最大的个元素不变，其他设置为零。本实施例定义阈值α为中元素绝对值第大的元素值，计算(v^k)^t+1的方式为：

(4.2.4)使用ω^t,(u^k)^t+1,(v^k)^t+1计算(ω)^t+1。

用代表h在点ω^t,(u^k)^t+1,(v^k)^t+1出关于ω的偏导数，它的计算方式为：

的lipchitz模数是：

为了更新ω向量需要解决下列优化问题：

subjectto||ω||0≤lω.

该问题转换为：

该问题等价于最小化：

类似于(4.2.3)步骤中更新v^k向量时，本实施例令：

定义阈值β为中元素绝对值第lω大的元素值，计算ω^t+1的方式为：

(4.2.5)反复重复步骤(4.2.2)，步骤(4.2.3)和步骤(4.2.4)，直到结果收敛。比如，直到||ω^t+1-ω^t||≤ε，||(u^k)^t+1-(u^k)^t||≤ε，||(v^k)^t+1-(v^k)^t||≤ε时停止计算，其中ε设置为0.01。

对于最终得到的向量ω，将其中非零项对应的矩阵x¹的行进行聚类，得到可疑患者群体，这些可疑群体即频繁同时同地就医，又医药处方相似。本实施例设置阈值ψ限制可疑患者群体的最小值，如果人数过少就不符合异常共现就医欺诈行为，在本实施例中ψ＝2。

(4.2.6)在步骤(4.2.5)中，只挖掘了一组可疑患者群体。如果想要再次挖掘新的可疑患者群体，那么将已挖掘的患者对应的x^k矩阵中相应行的元素设置为零。比如，矩阵第i行对应的患者已经被挖掘，那么然后再在更新后的矩阵x^k上进行步骤(4.2.5)，挖掘新的可疑患者群体以及他们可疑的就医记录。

以往的检测异常共现就医欺诈检测方法，只考虑了这些欺诈患者多次在相同时间相同地点就医，但是并没有考虑这些欺诈者购买类似的药物，具有医药处方相似的特征。本实施例通过两个视图的设计，视图一是挖掘同时同地就医的欺诈者，视图二是挖掘医药处方相似的欺诈者(体现健康医疗知识库)，最终目标是在两个视图中挖掘即频繁同时同地就医，又医药处方相似的患者群体，极大的提高了就医欺诈的识别准确度。

实施例2：

本公开实施例2提供了一种基于多视图双聚类的就医欺诈行为检测系统，包括：

数据获取模块，被配置为：获取就诊信息和人口统计学信息，并对获得的数据进行预处理；

就医欺诈判断模块，被配置为：在参保人集合与就医时间和就医地点信息集合构成的第一视图和参保人集合与药物信息集合组成的第二视图上同时进行双聚类，得到跨视图一致的患者集群作为就医欺诈行为群体。

所述系统的工作方法与实施例1中的基于多视图双聚类的就医欺诈行为检测方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤，所述步骤为：

获取就诊信息和人口统计学信息，并对获得的数据进行预处理；

在参保人集合与就医时间和就医地点信息集合构成的第一视图和参保人集合与药物信息集合组成的第二视图上同时进行双聚类，得到跨视图一致的患者集群作为就医欺诈行为群体。

详细步骤与实施例1中的基于多视图双聚类的就医欺诈行为检测方法相同，这里不再赘述。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤，所述步骤为：

获取就诊信息和人口统计学信息，并对获得的数据进行预处理；

详细步骤与实施例1中的基于多视图双聚类的就医欺诈行为检测方法相同，这里不再赘述。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭伟;李瑞璨;李晖;闫中敏;崔立真
技术所有人：山东大学
我是此专利的发明人

上一篇：一种应用负压原理的纺织布料用裁剪装置的制作方法
上一篇：一种雨伞原料布加工用裁剪机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。