一种基于主成分分析算法的医保欺诈识别方法与流程

文档序号：12720649阅读：1192来源：国知局

本发明涉及计算机应用技术领域，特别涉及一种基于主成分分析算法的医保欺诈识别方法。

背景技术：

随着社会经济的发展，国家为了给老百姓提供更好的医保环境，医保政策越来越好。然而，一些人通过各种各样的手段骗取医保，导致医保基金不合理流失。另一方面，由于经办机构的监管模式主要以人工审核监管为主，多采用基于简单规则的数据筛选方法，从医疗基金收支监测、简单指标预警等方面开展基金风险管理工作，不仅速度慢，人力成本高，而且难以保证对欺诈行为的识别准确度。

在现有的技术中，专利(申请号：201510760477.4；名称：一种医疗保险异常数据在线智能检测方法)提出，对已标注为异常的医保数据样本进行特征学习，然后运用机器学习算法进行在线检查，然而如何确定目标样本是否异常，该专利并未涉及。

此外，专利(申请号：201410598935.4；名称：一种基于数据挖掘的医保欺诈行为的检测方法)采取对医保参保人的信息记录进行分位数打分的方法确定异常级别，并将多种异常类别简单加总确定总异常分值。该方法把连续性变量人为分段，损失了数据信息，而且忽略了各变量间可能存在的相关性，使总异常分值失去准确性。

技术实现要素：

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于主成分分析算法的医保欺诈识别方法。

为了实现上述目的，本发明的实施例提供一种基于主成分分析算法的医保欺诈识别方法，包括如下步骤：

步骤S1，获取医保基础数据，生成医保结构化数据集X；

步骤S2，对所述医保结构化数据集X中的各项数据进行标准化处理，生成标准化矩阵Z；

步骤S3，计算所述标准化矩阵Z的协方差矩阵R，并求解样本协方差矩阵R的特征方程，确定主成分；

步骤S4，将标准化后的指标变量转换为主成分得分；

步骤S5，分别计算每个主成分得分的均值和标准差，根据切比雪夫定律计算每个主成分维度下的异常阈值；

步骤S6，以每个主成分为坐标，制作二维空间散点图，将每个散点代表实际医保账户，判断大于步骤S5中异常阈值的医保报销账号视为异常帐号，将异常帐号以可视化形式进行呈现。

进一步，在所述步骤S1中，所述医保基础数据，包括：医保基金帐号、每个帐号基金报销总额、门诊天数、基金报销比例和门诊花费总额。

进一步，在所述步骤S1中，计算每个医保基金账号每天门诊花费总额和基金报销总额，进而计算每年门诊报销总天数、基金报销额和基金报销比例，生成医保结构化数据集X。

进一步，在所述步骤S2中，

采集样本向量x＝(X₁,X₂,X₃)^T)，n个样品xi＝(x_i1,x_i2,x_i3)T，i＝1,2,…,n，进行如下标准化变换：

其中p为特征变量个数得到标准化矩阵Z。

进一步，在所述步骤S3中，所述协方差矩阵R为：

其中，k为样本数。

进一步，在所述步骤S3中，所述求解样本协方差矩阵R的特征方程，确定主成分，包括:

计算样本协方差矩阵R的特征方程|R-λI_p|＝0，得到p个特征根,确定主成分；根据λ为特征值、m为待选主成分数、p为变量数，当取2个主成分PC1和PC2时，对每个λj,计算方程组Rb＝λjb，得到单位特征向量其中，j＝1,2。

进一步，在所述步骤S4中，所述将标准化后的指标变量转换为主成分得分，包括：

其中，U_ij为每个样本主成分得分，各样本主成分总得分＝U1+U2。

进一步，在所述步骤S5中，所述根据切比雪夫定律计算每个主成分维度下的异常阈值，包括：

max＝mean+4*std，

其中，max为异常阈值，mean为主成分得分的均值，std为主成分得分的标准差。

根据本发明实施例的基于主成分分析算法的医保欺诈识别方法，对医保数据进行清洗、整理，采取主成分分析方法，对与欺诈行为相关的变量进行特征降维，根据统计学方法计算异常阈值，通过数据可视化方法实现医保欺诈高风险识别。本发明克服了现有方法的不足，基于医保基金持卡人一年中发生门诊报销行为的天数、报销总金额以及报销金额占总费用中的比例，建立门诊报销异常行为识别模型，检索涉嫌欺诈的高风险卡号。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于主成分分析算法的医保欺诈识别方法的流程图；

图2为根据本发明实施例的某地区年度医保数据的示意图；

图3为根据本发明实施例的特征变量的碎石图；

图4为根据本发明实施例的样本得分的示意图；

图5为根据本发明实施例的医保欺诈高风险帐号的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明公开了一种基于主成分分析算法的医保欺诈识别方法，该方法可以实现在医疗保险数据的基础上，快速、准确识别医保欺诈行为。

如图1所示，本发明实施例的基于主成分分析算法的医保欺诈识别方法，包括如下步骤：

步骤S1，获取医保基础数据，生成医保结构化数据集X。其中，医保基础数据，包括：医保基金帐号、每个帐号基金报销总额、门诊天数、基金报销比例和门诊花费总额。

参考图2，计算每个医保基金账号每天门诊花费总额和基金报销总额，进而计算每年门诊报销总天数、基金报销额和基金报销比例，生成医保结构化数据集X。

步骤S2，对医保结构化数据集X中的各项数据进行标准化处理，生成标准化矩阵Z。

具体的，采集样本向量x＝(X₁,X₂,X₃)^T)，n个样品xi＝(x_i1,x_i2,x_i3)T，i＝1,2,…,n，进行如下标准化变换：

其中p为特征变量个数，得到标准化矩阵Z。

步骤S3，计算标准化矩阵Z的协方差矩阵R，并求解样本协方差矩阵R的特征方程，确定主成分。

首先，计算协方差矩阵R为：

其中，k为样本数。

然后，求解样本协方差矩阵R的特征方程，确定主成分，包括:

计算样本协方差矩阵R的特征方程|R-λI_p|＝0，得到p个特征根,确定主成分；根据λ为特征值、m为待选主成分数、p为变量数，当取2个主成分PC1和PC2时，信息的利用率达85％以上。对每个λj,计算方程组Rb＝λjb，得到单位特征向量其中，j＝1,2。

步骤S4，将标准化后的指标变量转换为主成分得分。

在本步骤中，将标准化后的指标变量转换为主成分得分，包括：

其中，U_ij为每个样本主成分得分，各样本主成分总得分＝U1+U2。

步骤S5，分别计算每个主成分得分U₁、U₂的均值和标准差，根据切比雪夫定律计算每个主成分维度下的异常阈值。

在本步骤中，根据切比雪夫定律计算每个主成分维度下的异常阈值，包括：

max＝mean+4*std，

其中，max为异常阈值，mean为主成分得分的均值，std为主成分得分的标准差。

以2个主成分PC1和PC2为例，分别计算主成分得分U1、U2的均值(mean1、mean2)和标准差(std1、std2)，根据切比雪夫定律计算PC1维度的异常阈值max1＝mean1+4*std1、PC2维度的异常阈值max2＝mean2+4*std2。

具体地，以PC1、PC2为坐标，制作二维空间散点图，每个散点代表实际医保账户，大于步骤S5中计算出的max1、max2的医保报销账号视为异常帐号。并且，距离异常阈值越远，则异常程度越高。

基金管理单位可通过上述方式提取异常样本作为欺诈高风险账号，采取实地查阅病例、询问当事人等方法开展后续调查取证工作。

下面结合图3至图5对本发明实施例的基于主成分分析算法的医保欺诈识别方法进行说明。

(1)采集某地区年度医保数据，以卡号id作为唯一标识提取相关变量，如图2所示。

(2)主成分分析建模，参考图3所示的特征变量碎石图，选取2个主成分(PC1,PC2)可代表85％数据样本信息。

(3)计算各个样本在主成分PC1、PC2上的得分，以及总异常得分，如图4所示。

(4)通过分析主成分与原变量特征关系，PC1代表报销基金总额(94％)、门诊报销天数(70％)，PC2代表基金报销比例(99％)。

(5)如图5所示，以PC1、PC2为坐标，制作散点图，左上象限起，顺时针依次为第I至第IV象限。以均值加4倍标准差作为异常阈值，出现在第Ⅱ象限(右上)的样本可视为医保欺诈高风险账号。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢国亮;程岚;孙志强;张宪录;孙广阳
技术所有人：天津艾登科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。