数据的异常评估方法、装置、计算机设备和介质与流程

文档序号:18872454发布日期:2019-10-14 19:51阅读:155来源:国知局
数据的异常评估方法、装置、计算机设备和介质与流程

本申请涉及保险反欺诈领域,特别涉及一种数据的异常评估方法、装置、计算机设备和介质。



背景技术:

目前保险反欺诈风控评分模型存在以下痛点:大多数保险公司历史理赔数据中欺诈数据的记录很少,大量的正常数据与极少的异常数据的比例极不平衡,导致很多有监督机器学习风控模型无法派上用场或使其学习模式单一,效果欠佳。基于此,亟需一种通过参考大量正常数据即能够识别欺诈数据的方法。



技术实现要素:

本申请的主要目的为提供一种数据的异常评估方法、装置、计算机设备和介质,旨在解决上述问题。

为实现上述目的,本申请提供了一种数据的异常评估方法,包括步骤:

获取预设数量的历史测试数据中的正常数据;

对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据;

对多个所述第一特征数据进行特征还原,得到多个历史还原数据;

计算多个所述第一特征数据与多个所述历史还原数据的第一差异值;

将多个所述第一差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述正常数据的多个风险评分值,并取其最大值得到模型数据评分值s模;

获取需要评测的测试数据;

按照正常数据的必要特征对所述测试数据进行特征筛选,得到所述测试数据的所有必要特征以及每一个所述必要特征相应的第二特征数据;

计算所述第二特征数据与所述历史还原数据的第二差异值;

将所述第二差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述测试数据的多个风险评分值,并取其最大值得到模型数据评分值s测;

将s模、s测通过预设规则进行对比,得到风险结果。

进一步地,所述对所述第一特征数据进行特征还原,得到历史还原数据的步骤,包括:

对所述第一特征数据进行归一化,得到历史数据的归一化模型;

将所述历史数据的归一化模型转化为第一特征矩阵;

对所述第一特征矩阵通过pca逆变换的方法进行特征还原,得到历史还原数据。

进一步地,所述对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的第一特征数据的步骤,包括:

识别出正常数据的所有特征;

若其中的特征数据的特征值数量小于等于3个,则判定为非必要特征;

若其中的特征数据的特征值数量大于3个,则判定为必要特征;

将其中的非必要特征去除,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据。

进一步地,所述将s模、s测通过预设规则进行对比,得到风险结果的步骤包括:

若s测>s模,则判定存在风险;

若s模*90%<s测<s模,则判定可能存在风险;

若s测<s模*90%,则判定不存在风险。

进一步地,所述对所述第一特征数据进行归一化,得到历史数据的归一化模型的步骤包括:

获取同一特征的最大值和最小值,并计算最大值和最小值的差值;

依次将所述特征中的每一个数据减去所述最小值的结果除以所述差值,得到特征归一化数值;

对所有特征中的所有数据求得特征归一化数值,即得到归一化模型。

进一步地,所述将所述历史数据的归一化模型转化为第一特征矩阵的步骤,包括:

将所述历史数据的归一化模型中贡献率超过95%的主成分提取出来,得到由特征向量组成的第一特征矩阵。

进一步地,所述贡献率为:其中,contrib为贡献率,si为特征值。

本申请同时提出一种数据的异常评估装置,包括:

第一获取单元,用于获取预设数量的历史测试数据中的正常数据;

第一筛选单元,用于对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据;

还原单元,用于对多个所述第一特征数据进行特征还原,得到多个历史还原数据;

第一计算单元,用于计算多个所述第一特征数据与多个所述历史还原数据的第一差异值;并将多个所述第一差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述正常数据的多个风险评分值,并取其最大值得到模型数据评分值s模;

第二获取单元,用于获取需要评测的测试数据;

第二筛选单元,用于按照正常数据的必要特征对所述测试数据进行特征筛选,得到所述测试数据的所有必要特征以及每一个所述必要特征相应的第二特征数据;

第二计算单元,用于计算所述第二特征数据与所述历史还原数据的第二差异值;并将所述第二差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述测试数据的多个风险评分并取其最大值得到模型数据评分值s测;

判断单元,用于将s模、s测通过预设规则进行对比,得到风险结果。

本申请同时提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请同时提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的一种数据的异常评估方法、装置、计算机设备和介质,其中的数据的异常评估方法,通过获取需要评测的理赔数据,并将所述理赔数据导入检测系统;提取所述理赔数据的特征数据,通过检测系统的评分模型处理,计算出理赔数据评分值;对比理赔数据评分值与模型数据评分值的数值大小,获得风险值,以及风险结果。本申请使用无监督学习的pca算法能够学习正常数据的总体分布轮廓,基于异常检测的思想,不需要考虑历史欺诈数据的分布和变化,准确性高。

附图说明

图1是本申请一实施例中数据的异常评估方法步骤示意图;

图2是本申请一实施例中数据的异常评估装置示意图;

图3是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参照图1,本申请提出一种数据的异常评估方法,包括步骤:

s1、获取预设数量的历史测试数据中的正常数据;

s2、对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据;

s3、对多个所述第一特征数据进行特征还原,得到多个历史还原数据;

s4、计算多个所述第一特征数据与多个所述历史还原数据的第一差异值;

s5、将多个所述第一差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述正常数据的多个风险评分值,并取其最大值得到模型数据评分值s模;

s6、获取需要评测的测试数据;

s7、按照正常数据的必要特征对所述测试数据进行特征筛选,得到所述测试数据的所有必要特征以及每一个所述必要特征相应的第二特征数据;

s8、计算所述第二特征数据与所述历史还原数据的第二差异值;

s9、将所述第二差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述测试数据的多个风险评分值,并取其最大值得到模型数据评分值s测;

s10、将s模、s测通过预设规则进行对比,得到风险结果。

如上述步骤s1所述,上述历史测试数据中的正常数据指的是保险理赔历史已赔案的正常数据;是保险理赔历史已赔案中去除欺诈异常案件之后的数据。上述历史已赔案的正常数据模型化之后,反映了正常数据的形为轮廓。

如上述步骤s2所述,上述特征筛选指的是,根据业务需要,选取特征子集,特征中包含度量值特征和非度量值特征,筛选就是找出度量值和非度量值,只保留度量值特征,通过特征筛选之后得到所需要的特征数据。上述特征数据是指理赔数据中的属性特征的具体数据的值,例如当理赔数据是一人身保险时,人身保险理赔的属性特征以及具体的数据是【本次住院天数(10),本次住院天数在同类疾病最大住院天数的百分比(67%),本次理赔金额(50000),本次理赔医院数量(1),患者年龄(45),性别……】等等。上述所说的属性特征即是【本次住院天数,本次住院天数在同类疾病最大住院天数的百分比,本次理赔金额,本次理赔医院数量,患者年龄,……】;上述特征数据即是【(10),(67%),(50000),(1),(45),……】。

如上述步骤s3所述,通过自建立算法(具体过程参照下一实施例),对多个所述第一特征数据进行特征还原,得到多个历史还原数据。

如上述步骤s4所述,第一差异值diff表示历史还原数据与第一特征数据之间通过pca算法变换之后的差异,所用公式为:

diff=sum(diff1,diff2,…,diffm),其中,

diff1=(x1–x1')/mean(x1)

diff2=(x2–x2')/mean(x2)

……

diffm=(xm-xm')/mean(xm)

mean()表示求均值。

如上述步骤s5所述,评分公式为:y=n/(1+e^(-a*diff+b))。式中,n为预设倍数,a、b为两个调节因子,s模即为所有正常的训练数据中根据评分公式求得的最大值。

如上述步骤s6所述,上述需要评测的测试数据指的是需要进行保险反欺诈检测的理赔数据,获取方式是通过数据的异常评估系统或模型,系统或模型设置有数据导入接口,可以通过窗口拖拽数据文件、直接输入数据等方式获取理赔数据(需要评测的测试数据)。

如上述步骤s7所述,上述按照正常数据的必要特征对所述测试数据进行特征筛选指的是,对正常数据进行筛选时所得到的所有度量值特征,将理赔数据的上述度量值特征对应的也找出来,剩下的特征去掉即可。

如上述步骤s8所述,第二差异值diff表示历史还原数据与第二特征数据之间通过pca算法变换之后的差异,所用公式与计算第一差异值diff所使用公式相同,不再赘述。

如上述步骤s9所述,评分公式为:y=n/(1+e^(-a*diff+b))。式中,n为预设倍数,a、b为两个调节因子,s测即为所有正常的训练数据中根据评分公式求得的最大值。

如上述步骤s10所述,上述将s模、s测进行对比,就会得到s模、s测的大小以及差距范围,所述预设规则就是通过s模、s测的大小以及差距范围得到相应的风险结果。

在一个实施例中,所述对所述第一特征数据进行特征还原,得到历史还原数据的步骤,包括:

s10、对所述第一特征数据进行归一化,得到历史数据的归一化模型;

s20、将所述历史数据的归一化模型转化为第一特征矩阵;

s30、对所述第一特征矩阵通过pca逆变换的方法进行特征还原,得到历史还原数据。

在本实施例中,上述pca(principalcomponentsanalysis,主成分分析)指的是pca算法,是一种无监督学习算法,本申请中主要用于特征提取和降维。

所述如上述步骤s10所述,在一份理赔数据中,包含多个特征和特征数据,一个特征数据也称之为元素,一个特征的所有特征数据组成该特征的特征子集。上述对所述第一特征数据进行归一化,得到理赔数据的归一化模型指的是对于每一个元素,都需要进行数据归一化计算。当对所有特征数据都进行归一化计算之后,得到归一化模型。

如上述步骤s20所述,基于pca算法,将步骤s20得到的归一化模型转化为特征矩阵。具体的,假设x是一个m*n的矩阵,表示n个对象的m个特征表示数据,即每一列表示一个对象,每一行表示一个特征。我们希望将特征出降为d维,d远小于m。输出结果为y,则y为一个d*n的矩阵。具体算法如下:

(1)记x=[x1,x2...xn],计算每个对象点的平均值

(2)记去中心化结果:对其做矩阵svd(singularvaluedecomposition,简称svd)分解即:x-x0=uλvt

(3)则x0即为新坐标系的原点,矩阵u的前d列即为去中心化后的新的坐标系,不妨记为w。那么,所有点在新坐标系下的表示为:y=wt*(x-x0),同样地,要将新的投影点y还原到原坐标系中(亦即pca逆变换),结果可以写为:x0+w*y。

如上述步骤s30所述,基于用于训练的数据x*通过pca训练后保留95%的信息后得到w和y,然后将y通过pca逆变换:x0+w*y转换为

在一个实施例中,所述对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的第一特征数据的步骤,包括:

识别出正常数据的所有特征;

若其中的特征数据的特征值数量小于等于3个,则判定为非必要特征;

若其中的特征数据的特征值数量大于3个,则判定为必要特征;

将其中的非必要特征去除,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据。

在本实施例中,上述非必要特征即非度量值特征,对正常数据的行为轮廓没有实际影响;上述必要特征即度量值特征,影响正常数据的形为轮廓,因此将上述非必要特征去除,筛选出必要特征,能够使数据的异常评估方法更加的准确,同时减少计算量,降低出错率以及提高评估效率。

在一个实施例中,所述将s模、s测通过预设规则进行对比,得到风险结果的步骤包括:

若s测>s模,则判定存在风险;

若s模*90%<s测<s模,则判定可能存在风险;

若s测<s模*90%,则判定不存在风险。

在本实施例中,模型数据评分值实际上反应的是保险理赔历史已赔案的正常数据的形为轮廓,若理赔数据评分值大于模型数据评分值,则说明理赔数据的形为轮廓与正常数据的形为轮廓存在较大差别,说明存在风险;若理赔数据评分值小于模型数据评分值且大于模型数据评分值的90%,则说明理赔数据的形为轮廓有偏离正常数据的形为轮廓的趋势,说明可能存在风险;若理赔数据评分值小于模型数据评分值的90%,则说明理赔数据的形为轮廓与正常数据的形为轮廓一致,说明不存在风险。

在一个实施例中,所述对所述第一特征数据进行归一化,得到历史数据的归一化模型的步骤包括:

获取同一特征的最大值和最小值,并计算最大值和最小值的差值;

依次将所述特征中的每一个数据减去所述最小值的结果除以所述差值,得到特征归一化数值;

对所有特征中的所有数据求得特征归一化数值,即得到归一化模型。

在本实施例中,归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在一定范围内。首先归一化是为了后续数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在某个区间上是统计的坐标分布。归一化有同一、统一和合一的意思。本实施例中对数据归一化处理所运用的手段是最大值最小值线性归一化法,所运用的公式如下:x*=(x-xmin)/(xmax-xmin)。

在一个实施例中,所述将所述历史数据的归一化模型转化为第一特征矩阵的步骤,包括:

将所述历史数据的归一化模型中贡献率超过95%的主成分提取出来,得到由特征向量组成的第一特征矩阵。

在本实施例中,将矩阵(x-x0)(x-x0)^tu=su的特征值[s1,s2….sm]从大到小排列,特征值si越大,其所对应的特征向量ui包含的数据信息量越多。提取归一化模型中贡献率超过95%的主成分提取出来,理赔数据的归一化模型特征向量组成的第一特征矩阵。

在一个实施例中,所述贡献率为:其中,contrib为贡献率,si为特征值。

本申请中提供的一种数据的异常评估方法,通过获取需要评测的理赔数据,并将所述理赔数据导入检测系统;提取所述理赔数据的特征数据,通过检测系统的评分模型处理,计算出理赔数据评分值;对比理赔数据评分值与模型数据评分值的数值大小,获得风险值,以及风险结果。本申请使用无监督学习的pca算法能够学习正常数据的总体分布轮廓,基于异常检测的思想,不需要考虑欺诈数据的分布和变化,准确性高。

参照图2,本申请实施例中还提出一种数据的异常评估装置,包括:

第一获取单元10,用于获取预设数量的历史测试数据中的正常数据;

第一筛选单元20,用于对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据;

还原单元30,用于对多个所述第一特征数据进行特征还原,得到多个历史还原数据;

第一计算单元40,用于计算多个所述第一特征数据与多个所述历史还原数据的第一差异值;并将多个所述第一差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述正常数据的多个风险评分值,并取其最大值得到模型数据评分值s模;

第二获取单元50,用于获取需要评测的测试数据;

第二筛选单元60,用于按照正常数据的必要特征对所述测试数据进行特征筛选,得到所述测试数据的所有必要特征以及每一个所述必要特征相应的第二特征数据;

第二计算单元70,用于计算所述第二特征数据与所述历史还原数据的第二差异值;并将所述第二差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述测试数据的一个风险评分并取其最大值得到模型数据评分值s测;

判断单元80,用于将s模、s测通过预设规则进行对比,得到风险结果。

在本实施例中,上述pca(principalcomponentsanalysis)指的是pca算法,是一种无监督学习算法,本申请中主要用于特征提取和降维。

在第一获取单元10中,上述保险理赔历史已赔案的正常数据是保险理赔历史已赔案中去除欺诈异常案件之后的数据。上述历史已赔案的正常数据模型化之后,反映了正常数据的形为轮廓。

在第一筛选单元20中,上述特征筛选指的是,根据业务需要,选取特征子集,特征中包含度量值特征和非度量值特征,筛选就是找出度量值和非度量值,只保留度量值特征,通过特征筛选之后得到所需要的特征数据。上述特征数据是指理赔数据中的属性特征的具体数据的值,例如当理赔数据是一人身保险时,人身保险理赔的属性特征以及具体的数据是【本次住院天数(10),本次住院天数在同类疾病最大住院天数的百分比(67%),本次理赔金额(50000),本次理赔医院数量(1),患者年龄(45),性别……】等等。上述所说的属性特征即是【本次住院天数,本次住院天数在同类疾病最大住院天数的百分比,本次理赔金额,本次理赔医院数量,患者年龄,……】;上述特征数据即是【(10),(67%),(50000),(1),(45),……】。

在还原单元30中,通过自建立算法(具体过程参照下一实施例),对多个所述第一特征数据进行特征还原,得到多个历史还原数据。

在第一计算单元40中,第一差异值diff表示历史还原数据与第一特征数据之间通过pca算法变换之后的差异,所用公式为:

diff=sum(diff1,diff2,…,diffm),其中,

diff1=(x1–x1')/mean(x1)

diff2=(x2–x2')/mean(x2)

……

diffm=(xm-xm')/mean(xm)

mean()表示求均值。

评分公式为:y=n/(1+e^(-a*diff+b))。式中,n为预设倍数,a、b为两个调节因子,s模即为所有正常的训练数据中根据评分公式求得的最大值。

在第二获取单元50中,上述需要评测的理赔数据指的是需要进行保险反欺诈检测的理赔数据,获取方式是通过数据的异常评估系统或模型,系统或模型设置有数据导入接口,可以通过窗口拖拽数据文件、直接输入数据等方式获取理赔数据。

在第二筛选单元60中,上述按照正常数据的必要特征对所述理赔数据进行特征筛选指的是,对正常数据进行筛选时所得到的所有度量值特征,将理赔数据的上述度量值特征对应的也找出来,剩下的特征去掉即可。

在第二计算单元70中,第二差异值diff表示历史还原数据与第二特征数据之间通过pca算法变换之后的差异,所用公式与计算第一差异值diff所使用公式相同,不再赘述。

评分公式为:y=n/(1+e^(-a*diff+b))。式中,n为预设倍数,a、b为两个调节因子,s测即为所有正常的训练数据中根据评分公式求得的最大值。

在判断单元80中,上述将s模、s测进行对比,就会得到s模、s测的大小以及差距范围,所述预设规则就是通过s模、s测的大小以及差距范围得到相应的风险结果。

参照图3,本申请实施例中还提出一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史保险理赔案件数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据的异常评估方法。

上述处理器执行上述方法的步骤:

获取预设数量的历史测试数据中的正常数据;

对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据;

对多个所述第一特征数据进行特征还原,得到多个历史还原数据;

计算多个所述第一特征数据与多个所述历史还原数据的第一差异值;

将多个所述第一差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述正常数据的多个风险评分值,并取其最大值得到模型数据评分值s模;

获取需要评测的测试数据;

按照正常数据的必要特征对所述测试数据进行特征筛选,得到所述测试数据的所有必要特征以及每一个所述必要特征相应的第二特征数据;

计算所述第二特征数据与所述历史还原数据的第二差异值;

将所述第二差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述测试数据的多个风险评分值,并取其最大值得到模型数据评分值s测;

将s模、s测通过预设规则进行对比,得到风险结果。

进一步地,所述对所述第一特征数据进行特征还原,得到历史还原数据的步骤,包括:

对所述第一特征数据进行归一化,得到历史数据的归一化模型;

将所述历史数据的归一化模型转化为第一特征矩阵;

对所述第一特征矩阵通过pca逆变换的方法进行特征还原,得到历史还原数据。

进一步地,所述对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的第一特征数据的步骤,包括:

识别出正常数据的所有特征;

若其中的特征数据的特征值数量小于等于3个,则判定为非必要特征;

若其中的特征数据的特征值数量大于3个,则判定为必要特征;

将其中的非必要特征去除,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据。

进一步地,所述将s模、s测通过预设规则进行对比,得到风险结果的步骤包括:

若s测>s模,则判定存在风险;

若s模*90%<s测<s模,则判定可能存在风险;

若s测<s模*90%,则判定不存在风险。

进一步地,所述对所述第一特征数据进行归一化,得到历史数据的归一化模型的步骤包括:

获取同一特征的最大值和最小值,并计算最大值和最小值的差值;

依次将所述特征中的每一个数据减去所述最小值的结果除以所述差值,得到特征归一化数值;

对所有特征中的所有数据求得特征归一化数值,即得到归一化模型。

进一步地,所述将所述历史数据的归一化模型转化为第一特征矩阵的步骤,包括:

将所述历史数据的归一化模型中贡献率超过95%的主成分提取出来,得到由特征向量组成的第一特征矩阵。

进一步地,所述贡献率为:其中,contrib为贡献率,si为特征值。

本申请一实施例还提出一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种数据的异常评估方法,包括步骤:

获取预设数量的历史测试数据中的正常数据;

对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据;

对多个所述第一特征数据进行特征还原,得到多个历史还原数据;

计算多个所述第一特征数据与多个所述历史还原数据的第一差异值;

将多个所述第一差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述正常数据的多个风险评分值,并取其最大值得到模型数据评分值s模;

获取需要评测的测试数据;

按照正常数据的必要特征对所述测试数据进行特征筛选,得到所述测试数据的所有必要特征以及每一个所述必要特征相应的第二特征数据;

计算所述第二特征数据与所述历史还原数据的第二差异值;

将所述第二差异值带入sigmoid函数映射到(0,1)上,然后将结果放大预设倍数,得到所述测试数据的多个风险评分值,并取其最大值得到模型数据评分值s测;

将s模、s测通过预设规则进行对比,得到风险结果。

在一个实施例中,所述对所述第一特征数据进行特征还原,得到历史还原数据的步骤,包括:

对所述第一特征数据进行归一化,得到历史数据的归一化模型;

将所述历史数据的归一化模型转化为第一特征矩阵;

对所述第一特征矩阵通过pca逆变换的方法进行特征还原,得到历史还原数据。

在一个实施例中,所述对所述正常数据进行特征筛选,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的第一特征数据的步骤,包括:

识别出正常数据的所有特征;

若其中的特征数据的特征值数量小于等于3个,则判定为非必要特征;

若其中的特征数据的特征值数量大于3个,则判定为必要特征;

将其中的非必要特征去除,得到所述正常数据的所有必要特征以及每一个所述必要特征相应的多个第一特征数据。

进一步地,所述将s模、s测通过预设规则进行对比,得到风险结果的步骤包括:

若s测>s模,则判定存在风险;

若s模*90%<s测<s模,则判定可能存在风险;

若s测<s模*90%,则判定不存在风险。

在一个实施例中,所述对所述第一特征数据进行归一化,得到历史数据的归一化模型的步骤包括:

获取同一特征的最大值和最小值,并计算最大值和最小值的差值;

依次将所述特征中的每一个数据减去所述最小值的结果除以所述差值,得到特征归一化数值;

对所有特征中的所有数据求得特征归一化数值,即得到归一化模型。

在一个实施例中,所述将所述历史数据的归一化模型转化为第一特征矩阵的步骤,包括:

将所述历史数据的归一化模型中贡献率超过95%的主成分提取出来,得到由特征向量组成的第一特征矩阵。

在一个实施例中,所述贡献率为:其中,contrib为贡献率,si为特征值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1