一种基于主成分分析算法的医保欺诈识别方法与流程

文档序号:12720649阅读:来源:国知局

技术特征:

1.一种基于主成分分析算法的医保欺诈识别方法,其特征在于,包括如下步骤:

步骤S1,获取医保基础数据,生成医保结构化数据集X;

步骤S2,对所述医保结构化数据集X中的各项数据进行标准化处理,生成标准化矩阵Z;

步骤S3,计算所述标准化矩阵Z的协方差矩阵R,并求解样本协方差矩阵R的特征方程,确定主成分;

步骤S4,将标准化后的指标变量转换为主成分得分;

步骤S5,分别计算每个主成分得分的均值和标准差,根据切比雪夫定律计算每个主成分维度下的异常阈值;

步骤S6,以每个主成分为坐标,制作二维空间散点图,将每个散点代表实际医保账户,判断大于步骤S5中异常阈值的医保报销账号视为异常帐号,将异常帐号以可视化形式进行呈现。

2.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,所述医保基础数据,包括:医保基金帐号、每个帐号基金报销总额、门诊天数、基金报销比例和门诊花费总额。

3.如权利要求2所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,计算每个医保基金账号每天门诊花费总额和基金报销总额,进而计算每年门诊报销总天数、基金报销额和基金报销比例,生成医保结构化数据集X。

4.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S2中,

采集样本向量x=(X1,X2,X3)T),n个样品xi=(xi1,xi2,xi3)T,i=1,2,…,n,进行如下标准化变换:

<mrow> <msub> <mi>Z</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> </msub> </mrow> <msub> <mi>s</mi> <mi>j</mi> </msub> </mfrac> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>p</mi> </mrow>

其中p为特征变量个数,得到标准化矩阵Z。

5.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S3中,所述协方差矩阵R为:

<mrow> <mi>R</mi> <mo>=</mo> <msub> <mrow> <mo>&lsqb;</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&rsqb;</mo> </mrow> <mi>p</mi> </msub> <mi>x</mi> <mi>p</mi> <mo>=</mo> <mfrac> <mrow> <msup> <mi>Z</mi> <mi>T</mi> </msup> <mi>Z</mi> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </mrow>

其中,k为样本数。

6.如权利要求5所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S3中,所述求解样本协方差R的特征方程,确定主成分,包括:

计算样本协方差矩阵R的特征方程|R-λIp|=0,得到p个特征根,确定主成分;根据其中,λ为特征值、m为待选主成分数、p为变量数,当取2个主成分PC1和PC2时,对每个λj,计算方程组Rb=λjb,得到单位特征向量其中,j=1,2。

7.如权利要求5所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S4中,所述将标准化后的指标变量转换为主成分得分,包括:

<mrow> <msub> <mi>U</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>z</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msubsup> <mi>b</mi> <mi>j</mi> <mi>o</mi> </msubsup> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mo>,</mo> </mrow>

其中,Uij为每个样本主成分得分,各样本主成分总得分=U1+U2。

8.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S5中,所述根据切比雪夫定律计算每个主成分维度下的异常阈值,包括:

max=mean+4*std,

其中,max为异常阈值,mean为主成分得分的均值,std为主成分得分的标准差。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1