1.一种基于主成分分析算法的医保欺诈识别方法,其特征在于,包括如下步骤:
步骤S1,获取医保基础数据,生成医保结构化数据集X;
步骤S2,对所述医保结构化数据集X中的各项数据进行标准化处理,生成标准化矩阵Z;
步骤S3,计算所述标准化矩阵Z的协方差矩阵R,并求解样本协方差矩阵R的特征方程,确定主成分;
步骤S4,将标准化后的指标变量转换为主成分得分;
步骤S5,分别计算每个主成分得分的均值和标准差,根据切比雪夫定律计算每个主成分维度下的异常阈值;
步骤S6,以每个主成分为坐标,制作二维空间散点图,将每个散点代表实际医保账户,判断大于步骤S5中异常阈值的医保报销账号视为异常帐号,将异常帐号以可视化形式进行呈现。
2.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,所述医保基础数据,包括:医保基金帐号、每个帐号基金报销总额、门诊天数、基金报销比例和门诊花费总额。
3.如权利要求2所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,计算每个医保基金账号每天门诊花费总额和基金报销总额,进而计算每年门诊报销总天数、基金报销额和基金报销比例,生成医保结构化数据集X。
4.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S2中,
采集样本向量x=(X1,X2,X3)T),n个样品xi=(xi1,xi2,xi3)T,i=1,2,…,n,进行如下标准化变换:
其中p为特征变量个数,得到标准化矩阵Z。
5.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S3中,所述协方差矩阵R为:
其中,k为样本数。
6.如权利要求5所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S3中,所述求解样本协方差R的特征方程,确定主成分,包括:
计算样本协方差矩阵R的特征方程|R-λIp|=0,得到p个特征根,确定主成分;根据其中,λ为特征值、m为待选主成分数、p为变量数,当取2个主成分PC1和PC2时,对每个λj,计算方程组Rb=λjb,得到单位特征向量
其中,j=1,2。
7.如权利要求5所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S4中,所述将标准化后的指标变量转换为主成分得分,包括:
其中,Uij为每个样本主成分得分,各样本主成分总得分=U1+U2。
8.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S5中,所述根据切比雪夫定律计算每个主成分维度下的异常阈值,包括:
max=mean+4*std,
其中,max为异常阈值,mean为主成分得分的均值,std为主成分得分的标准差。