一种确定数据相关性的方法及装置与流程

文档序号:16888800发布日期:2019-02-15 22:52阅读:292来源:国知局
一种确定数据相关性的方法及装置与流程

本申请涉及计算机技术领域,具体涉及一种确定数据相关性的方法及装置。



背景技术:

为了确定两组数据之间的相关性,可以通过计算两组数据之间的相关系数。在现有技术中,可以计算两组数据之间的皮尔森(pearson)相关系数或者斯皮尔曼(spearman)相关系数,以确定两组数据之间的相关性。其中,皮尔森相关系数适用于两组数据具有线性关联关系的场景下,斯皮尔曼相关系数适用于两组数据具有非线性关联关系的场景下,通常需要人工凭借经验,选择使用皮尔森相关系数或者斯皮尔曼相关系数来表示两组数据之间的相关性。但是,在需要进行数据相关性分析时,如果存在对所分析数据具有何种关联关系不了解的情况,则无法准确从皮尔森相关系数或者斯皮尔曼相关系数中进行选择。



技术实现要素:

有鉴于此,本申请实施例提供一种确定数据相关性的方法及装置,以解决现有技术中在进行数据相关性分析时,无法准确从皮尔森相关系数或者斯皮尔曼相关系数中进行选择的技术问题。

为解决上述问题,本申请实施例提供的技术方案如下:

一种确定数据相关性的方法,所述方法包括:

根据自变量的参数值以及因变量的参数值,计算所述自变量与所述因变量之间的皮尔森相关系数和斯皮尔曼相关系数,所述自变量与所述因变量具有对应关系;

根据所述皮尔森相关系数以及所述斯皮尔曼相关系数,确定所述自变量与所述因变量之间的相关参数,所述自变量与所述因变量之间的相关参数大于或等于第一数值,且小于或等于第二数值,如果所述皮尔森相关系数和所述斯皮尔曼相关系数不相等,所述第一数值为所述皮尔森相关系数和所述斯皮尔曼相关系数中的较小值,所述第二数值为所述皮尔森相关系数和所述斯皮尔曼相关系数中的较大值,如果所述皮尔森相关系数和所述斯皮尔曼相关系数相等,所述第一数值以及所述第二数值为所述皮尔森相关系数或所述斯皮尔曼相关系数。

在一种可能的实现方式中,所述根据所述皮尔森相关系数以及所述斯皮尔曼相关系数,确定所述自变量与所述因变量之间的相关参数,包括:

将所述皮尔森相关系数与所述斯皮尔曼相关系数相乘,得到第三数值;

将所述皮尔森相关系数与所述斯皮尔曼相关系数相加,得到第四数值;

将所述第三数值除以所述第四数值后再乘以2,得到第五数值;

确定所述自变量与所述因变量之间的相关参数为所述第五数值。

在一种可能的实现方式中,所述根据所述皮尔森相关系数以及所述斯皮尔曼相关系数,确定所述自变量与所述因变量之间的相关参数,包括:

当所述皮尔森相关系数与所述斯皮尔曼相关系数的差值的绝对值大于第一阈值时,确定所述自变量与所述因变量之间的相关参数为所述第二数值;

当所述皮尔森相关系数与所述斯皮尔曼相关系数的差值的绝对值小于或等于所述第一阈值时,确定所述自变量与所述因变量之间的相关参数为所述第五数值。

在一种可能的实现方式中,所述方法还包括:

将所述自变量与所述因变量之间的相关参数大于第二阈值的自变量,确定为特征自变量。

在一种可能的实现方式中,所述方法还包括:

建立线性方程,所述线性方程等式一端为所述因变量,所述线性方程等式另一端为各个特征数据项之和,每一所述特征数据项为一个所述特征自变量与该特征自变量对应的回归系数的乘积,各个所述特征数据项中的特征自变量均不相同,所述特征数据项的数量与所述特征自变量的数量相同;

将所述特征自变量的标准化后的参数值与所述因变量的标准化后的参数值带入所述线性方程,求解得到各个所述特征自变量对应的回归系数;

按照各个所述特征自变量对应的回归系数的排序,获得所述特征自变量的第一排序结果;

按照各个所述特征自变量与所述因变量之间的相关参数的排序,获得所述特征自变量的第二排序结果;

当所述特征自变量的第一排序结果与所述特征自变量的第二排序结果均为从小到大排序,则如果目标特征自变量的第二排序结果大于所述目标特征自变量的第一排序结果,将所述目标特征自变量从所述特征自变量中删除,所述目标特征自变量为任意一个所述特征自变量;

当所述特征自变量的第一排序结果与所述特征自变量的第二排序结果均为从大到小排序,则如果目标特征自变量的第二排序结果小于所述目标特征自变量的第一排序结果,将所述目标特征自变量从所述特征自变量中删除。

一种确定数据相关性的装置,所述装置包括:

第一计算单元,用于根据自变量的参数值以及因变量的参数值,计算所述自变量与所述因变量之间的皮尔森相关系数和斯皮尔曼相关系数,所述自变量与所述因变量具有对应关系;

第一确定单元,用于根据所述皮尔森相关系数以及所述斯皮尔曼相关系数,确定所述自变量与所述因变量之间的相关参数,所述自变量与所述因变量之间的相关参数大于或等于第一数值,且小于或等于第二数值,如果所述皮尔森相关系数和所述斯皮尔曼相关系数不相等,所述第一数值为所述皮尔森相关系数和所述斯皮尔曼相关系数中的较小值,所述第二数值为所述皮尔森相关系数和所述斯皮尔曼相关系数中的较大值,如果所述皮尔森相关系数和所述斯皮尔曼相关系数相等,所述第一数值以及所述第二数值为所述皮尔森相关系数或所述斯皮尔曼相关系数。

在一种可能的实现方式中,所述第一确定单元包括:

第一计算子单元,用于将所述皮尔森相关系数与所述斯皮尔曼相关系数相乘,得到第三数值;

第二计算子单元,用于将所述皮尔森相关系数与所述斯皮尔曼相关系数相加,得到第四数值;

第三计算子单元,用于将所述第三数值除以所述第四数值后再乘以2,得到第五数值;

第一确定子单元,用于确定所述自变量与所述因变量之间的相关参数为所述第五数值。

在一种可能的实现方式中,所述第一确定单元包括:

第二确定子单元,用于当所述皮尔森相关系数与所述斯皮尔曼相关系数的差值的绝对值大于第一阈值时,确定所述自变量与所述因变量之间的相关参数为所述第二数值;

第三确定子单元,用于当所述皮尔森相关系数与所述斯皮尔曼相关系数的差值的绝对值小于或等于所述第一阈值时,确定所述自变量与所述因变量之间的相关参数为所述第五数值。

在一种可能的实现方式中,所述装置还包括:

第二确定单元,用于将所述自变量与所述因变量之间的相关参数大于第二阈值的自变量,确定为特征自变量。

在一种可能的实现方式中,所述装置还包括:

建立单元,用于建立线性方程,所述线性方程等式一端为所述因变量,所述线性方程等式另一端为各个特征数据项之和,每一所述特征数据项为一个所述特征自变量与该特征自变量对应的回归系数的乘积,各个所述特征数据项中的特征自变量均不相同,所述特征数据项的数量与所述特征自变量的数量相同;

第二计算单元,用于将所述特征自变量的标准化后的参数值与所述因变量的标准化后的参数值带入所述线性方程,求解得到各个所述特征自变量对应的回归系数;

第一排序单元,用于按照各个所述特征自变量对应的回归系数的排序,获得所述特征自变量的第一排序结果;

第二排序单元,用于按照各个所述特征自变量与所述因变量之间的相关参数的排序,获得所述特征自变量的第二排序结果;

第一删除单元,用于当所述特征自变量的第一排序结果与所述特征自变量的第二排序结果均为从小到大排序,则如果目标特征自变量的第二排序结果大于所述目标特征自变量的第一排序结果,将所述目标特征自变量从所述特征自变量中删除,所述目标特征自变量为任意一个所述特征自变量;

第二删除单元,用于当所述特征自变量的第一排序结果与所述特征自变量的第二排序结果均为从大到小排序,则如果目标特征自变量的第二排序结果小于所述目标特征自变量的第一排序结果,将所述目标特征自变量从所述特征自变量中删除。

一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的确定数据相关性的方法。

一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备上述的确定数据相关性的方法。

由此可见,本申请实施例具有如下有益效果:

本申请实施例同时计算自变量与因变量两组数据之间的皮尔森相关系数和斯皮尔曼相关系数,然后利用计算得到的皮尔森相关系数和斯皮尔曼相关系数,确定出一个新的相关参数来表征自变量与因变量之间的相关性,该相关参数的值处于皮尔森相关系数和斯皮尔曼相关系数之间,由该相关参数表征自变量与因变量之间的相关性,无需再从皮尔森相关系数和斯皮尔曼相关系数进行选择,即使不清楚所分析数据具有何种关联关系,也可以确定出数据之间的相关性。

附图说明

图1为本申请实施例提供的一种确定数据相关性方法的流程图;

图2(a)为本申请实施例提供的自变量与因变量呈线性示例图;

图2(b)为本申请实施例提供的自变量与因变量呈非线性示例图;

图2(c)为本申请实施例提供的自变量与因变量呈非线性示例图;

图2(d)为本申请实施例提供的自变量与因变量呈线性示例图;

图2(e)为本申请实施例提供的自变量与因变量呈非线性示例图;

图3为本申请实施例提供的一种去除强关联的特征自变量的方法的流程图;

图4为本申请实施例提供的一种确定数据相关性装置的结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请的技术方案,下面先对本申请的背景技术进行说明。

发明人在对传统的分析数据之间关联性方法研究中发现,传统的分析方法包括pearson方法和spearman方法。其中,pearson方法用于衡量两个数据集合是否在一条线上面,用来衡量呈线性关系的两组数据之间的关联程度,pearson相关系数的绝对值越大,表明二者之间的相关性越强。然而,该方法比较适用于数据之间呈线性关系的分析,对于呈非线性关系的数据分析效果较差;spearman方法主要用于分析呈非线性关系数据之间的关联程度,但该方法并不能很好地反映呈线性关系数据之间的关联程度。当需要对采集的大量数据进行关联性分析时,对于没有经过专业训练或是对采集的数据不太了解的用户来讲,无法准确从上述两种方法中选择一种方法对数据的关联性进行分析。

基于此,本申请实施例提供了一种确定数据相关性的方法,同时计算自变量和因变量两组数据之间的皮尔森相关系数和斯皮尔曼相关系数,再根据上述两个相关系数确定一个新的相关参数,该相关参数的值处于皮尔森相关系数和斯皮尔曼相关系数之间,用该相关参数来表征自变量与因变量之间的相关性,无需再从皮尔森相关系数和斯皮尔曼相关系数进行选择,即使不清楚所分析数据具有何种关联关系,也可以确定出数据之间的相关性。

为便于理解本申请的技术方案,下面将结合附图对本申请实施例提供的一种确定数据相关性的方法进行说明。

参见图1,该图为本申请实施例提供的一种确定数据相关性的方法流程图,如图1所示,该方法可以包括:

s101:根据自变量的参数值以及因变量的参数值,计算自变量与因变量之间的皮尔森相关系数和斯皮尔曼相关系数。

本实施例中,为获得所采集的大量数据集合中,自变量与因变量之间相关性,可以根据各自变量的参数值以及因变量的参数值,计算每个自变量与因变量之间的皮尔森相关系数和斯皮尔曼相关系数。

其中,自变量与因变量具有对应关系,该对应关系可以为一个因变量对应一个自变量,也可以为一个因变量对应多个自变量,当对应关系为后者时,需要计算每个自变量与因变量之间的皮尔森相关系数和斯皮尔曼相关系数。

例如,为确定患者是否患有疾病a,需要对患者进行多项检查,最后由多项检查数据项来确诊。其中,是否患有疾病a可以看作因变量,每个检查项目可以看作一个自变量,计算每个检查项目对应的检查数据与是否患有疾病a对应的参数值之间的皮尔森相关系数和斯皮尔曼相关系数,在具体实现时,可以将患者患有疾病a对应的参数值设置为1;将患者未患有疾病a对应的参数值设置为0,从而可以计算自变量与因变量之间的两个相关系数。

又例如,银行为确定某交易行为是否为欺诈行为,需要对此次交易行为的交易时间、交易金额、交易地点等多个交易属性进行判断,从而综合判断出此次交易行为是否为欺诈行为。其中,确定交易行为是否为欺诈行为可以为因变量,交易时间、交易金额以及交易地点等多个交易属性可以为自变量,计算每个自变量与因变量之间的两个相关系数。在具体实现时,为方便计算,可以将交易行为确定为欺诈行为设置为1,不是欺诈行为设置为0,交易地点可以用行政代码表示,其中,行政代码是用六位阿拉伯数字分层次代表我国的省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)的名称,从而使得自变量和因变量对应的参数值均为数值型数据,以便计算相关系数。

需要说明的是,上述两个相关系数用于表征自变量与因变量之间的相关性,相关系数绝对值越大,表明该自变量与因变量之间的关联性越强,也就是说,该自变量对因变量的影响越大。例如,检查项目中自变量红细胞分布宽度与因变量是否患有疾病a之间的相关系数较大,表明红细胞分布宽度对确诊患者是否患有疾病a的影响力度较大;或者,自变量交易时间与因变量欺诈行为之间的相关系数较大,表明交易时间对确定交易行为为欺诈行为的影响力度较大。

为便于理解,根据自变量的参数值和因变量的参数值计算皮尔森相关系数和斯皮尔曼相关系数,以因变量为交易行为是否为欺诈行为,自变量为交易时间、交易金额和交易地点为例进行说明,如表1所示,可以获取多条交易数据,每条交易数据中均包括因变量和多个自变量。

如表1所示,获取多条交易数据,每条交易数据中每个自变量和因变量均对应有参数值,在计算自变量与因变量之间的相关系数时,利用自变量对应的一列参数值和因变量对应的一列参数值进行相关系数的计算,下面将结合表1对计算皮尔森相关系数和斯皮尔曼相关系数进行说明。

(一)计算皮尔森相关系数

在具体实现时,可以利用公式(1)计算获得自变量与因变量之间的皮尔森相关系数:

其中,r为自变量xi与因变量y之间的皮尔森相关系数;n为自变量xi对应参数值的个数,xij为自变量xi对应的第j个参数值,yj为因变量y对应的第j个参数值。

以表1为例,i=1、2和3,n=3,当计算自变量x1与因变量y之间的相关系数r时,将x1对应的三个参数值和y对应的三个参数值代入公式(1)中,便可计算得到x1与y的皮尔森相关系数r,同理,将自变量x2、x3分别代入上述公式,均可计算出其与因变量之间的皮尔森相关系数r。

(二)计算斯皮尔曼相关系数

在具体实现时,可以利用公式(2)计算获得自变量与因变量之间的斯皮尔曼相关系数:

其中,ρ为自变量xi与因变量y之间的斯皮尔曼相关系数,n为自变量xi对应参数值的个数,xij为自变量xi对应的第j个参数值,yj为因变量y对应的第j个参数值,为xi对应参数值的平均值,为y对应参数值的平均值。

以表1为例,i=1、2和3,n=3,当计算自变量x1与因变量y之间的相关系数r时,先计算x1对应的三个参数值的平均值以及y对应的三个参数值的平均值,然后代入公式(2)中,便可计算得到x1与y的斯皮尔曼相关系数ρ,同理,将自变量x2、x3分别代入上述公式,均可计算出其与因变量之间的斯皮尔曼相关系数ρ。

通过上述两个计算公式,可以确定自变量与因变量之间的皮尔森相关系数和斯皮尔曼相关系数,然后,根据上述两个相关系数执行s102。

s102:根据皮尔森相关系数以及斯皮尔曼相关系数,确定自变量与因变量之间的相关参数。

本实施例中,利用皮尔森相关系数以及斯皮尔曼相关系数,计算自变量与因变量之间的相关参数,该相关参数大于或等于第一数值,且小于或等于第二数值,其中,如果皮尔森相关系数和斯皮尔曼相关系数不相等,第一数值为皮尔森相关系数和斯皮尔曼相关系数中的较小值,第二数值为皮尔森相关系数和斯皮尔曼相关系数中的较大值,如果皮尔森相关系数和斯皮尔曼相关系数相等,第一数值以及第二数值为皮尔森相关系数或斯皮尔曼相关系数。

也即在本申请实施例中,皮尔森相关系数和斯皮尔曼相关系数不相等时,自变量与因变量之间的相关参数处于皮尔森相关系数和斯皮尔曼相关系数之间,皮尔森相关系数和斯皮尔曼相关系数相等时,自变量与因变量之间的相关参数与皮尔森相关系数或斯皮尔曼相关系数相等。

关于利用皮尔森相关系数以及斯皮尔曼相关系数计算自变量与因变量之间的相关参数,本申请实施例提供了一种计算方法,具体包括:将皮尔森相关系数与斯皮尔曼相关系数相乘,得到第三数值;将皮尔森相关系数与斯皮尔曼相关系数相加,得到第四数值;将第三数值除以第四数值后再乘以2,得到第五数值;确定自变量与因变量之间的相关参数为第五数值。

为便于理解上述计算方法,可以参见公式(3):

其中,r为皮尔森相关系数,ρ为斯皮尔曼相关系数,ρ*r为第三数值,ρ+r为第四数值,coff为第五数值,即自变量与因变量之间的相关参数。

当通过s101获得自变量与因变量的皮尔森相关系数和斯皮尔曼相关系数后,将两个相关系数代入公式(3),便可计算获得自变量与因变量之间的相关参数。

在本实施例中,由于计算获得相关参数位于皮尔森相关系数和斯皮尔曼相关系数之间,可表征自变量与因变量之间的相关性,使得用户即使不清楚所分析数据具有何种关联关系,也可以确定出数据之间的相关性。

下面将结合附图对于相关参数可用于表征自变量与因变量之间的相关性进行说明。

参见图2(a),图中离散点表示采集的某一自变量与因变量的数据,从图中可以看出自变量与因变量之间呈线性关系,计算获得皮尔森相关系数为1,斯皮尔曼相关系数为1,将上述两个相关系数代入公式(3),得到相关参数coff值为1,由于皮尔森相关系数绝对值越大,两个数据之间的关联越强,当皮尔森相关系数为1时,表明自变量与因变量为线性强相关,由于coff值也为1,可以表示自变量与因变量之间具有强相关性。

参见图2(b),图中离散点表示采集的某一自变量与因变量的数据,直线表示变化趋势,该变化趋势也可以在相关系数中体现,当相关系数为正值时,表明因变量随自变量的增大而增大,当相关系数为负值时,表明因变量随自变量的增大而减小,图2(b)中直线为上升趋势,自变量与因变量之间呈非线性关系,计算获得的皮尔森相关系数为0.851,斯皮尔曼相关系数为1,将上述两个相关系数代入公式(3),获得相关参数coff值为0.92,由于斯皮尔曼相关系数的绝对值越大,表明两个数据之间的关联性越强,图2(b)中自变量与因变量的斯皮尔曼相关系数为1,表明自变量与因变量为非线性强关联,但由于计算获得的coff值0.92也较大,仅次于1,也可以表征自变量与因变量之间为强关联。

参见图2(c),从图中可以看出自变量与因变量之间呈非线性关系,计算获得的皮尔森相关系数为-0.093,斯皮尔曼相关系数为-0.093,将上述两个相关系数代入公式(3),获得相关参数coff值为-0.093,其中,负号表明因变量随自变量的增大而减小。由于计算获得斯皮尔曼相关系数的绝对值较小,表明自变量与因变量之间的关联性较小,由于计算获得的相关参数值也较小,也可以表征自变量与因变量之间的为弱关联。

参见图2(d),从图中可以看出自变量与因变量之间呈线性关系,计算获得皮尔森相关系数为-1,斯皮尔曼相关系数为-1,将上述两个相关系数代入公式(3),得到相关参数coff值为-1,由于皮尔森相关系数绝对值越大,两个数据之间的关联越强,当皮尔森相关系数为-1时,表明自变量与因变量为线性强相关,由于coff值也为-1,可以表示自变量与因变量之间具有强相关性。

参将图2(e),从图中可以看出自变量与因变量之间呈非线性关系,计算获得的皮尔森相关系数为-0.799,斯皮尔曼相关系数为-1,将上述两个相关系数代入公式(3),获得相关参数coff值为-0.888,由于斯皮尔曼相关系数的绝对值越大,表明两个数据之间的关联性越强,图2(e)中自变量与因变量的斯皮尔曼相关系数为-1,表明自变量与因变量为非线性强关联,但由于计算获得的coff值-0.88也较大,仅次于-1,也可以表征自变量与因变量之间为强关联。

通过上述分析可知,利用皮尔森相关系数以及斯皮尔曼相关系数计算自变量与因变量之间的相关参数,能够既可以兼顾线性又可以兼顾非线性,能够反映自变量与因变量之间相关性,从而使得用户在面临新数据时,无需再从皮尔森相关系数和斯皮尔曼相关系数进行选择,也可以确定出数据之间的相关性。

通过上述描述可知,当获取一组新数据时,可以利用公式(3)计算新数据中自变量与因变量的相关参数。然而,当采集的新数据分布情况比较离散时,不能直接利用公式(3)获得相关参数,需要更进一步地对皮尔森相关系数与所述斯皮尔曼相关系数的差值进行判断,以根据判断结果确定新数据中自变量与因变量的相关参数,具体为,当皮尔森相关系数与斯皮尔曼相关系数的差值的绝对值大于第一阈值时,确定自变量与因变量之间的相关参数为第二数值;当皮尔森相关系数与斯皮尔曼相关系数的差值的绝对值小于或等于所述第一阈值时,确定自变量与因变量之间的相关参数为第五数值。

在本实施例中,计算皮尔森相关系数与斯皮尔曼相关系数之间的差值,并判断差值是否大于第一预设阈值,当差值大于第一预设阈值,则自变量与因变量之间的相关参数为皮尔森相关系数和斯皮尔曼相关系数中的较大值;当差值不大于第一预设阈值时,则自变量与因变量之间的相关参数为利用公式(3)获得的coff值。其中,第一预设阈值通常情况下可以设置为0.5,在具体实现时,可以根据实际应用情况进行设定,本实施例对于第一预设阈值的设定不进行限定。

通过上述描述可知,本申请实施例可以同时计算自变量与因变量两组数据之间的皮尔森相关系数和斯皮尔曼相关系数,然后利用计算得到的皮尔森相关系数和斯皮尔曼相关系数,确定出一个新的相关参数来表征自变量与因变量之间的相关性,该相关参数的值处于皮尔森相关系数和斯皮尔曼相关系数之间,由该相关参数表征自变量与因变量之间的相关性,无需再从皮尔森相关系数和斯皮尔曼相关系数进行选择,即使不清楚所分析数据具有何种关联关系,也可以确定出数据之间的相关性。

在实际应用中,当利用上述方法实施例计算获得数据集合中自变量与因变量之间的相关参数后,还可以从多个自变量中选择能够表征因变量的特征自变量,该特征自变量为对因变量的变化起较大影响的自变量,基于此,本申请实施例提供了一种选择特征自变量的方法,具体为,将自变量与因变量之间的相关参数大于第二阈值的自变量,确定为特征自变量。

本实施例中,首先判断通过上述方法计算获得的自变量与因变量之间的相关参数是否大于第二预设阈值,如果大于,则将对应的自变量确定为特征自变量。例如,x1与y的相关参数为0.85,x2与y的相关参数为0.78,x3与y的相关参数为0.56,第二预设阈值为0.7,则x1和x2为特征自变量。

其中,第二预设值可以参照皮尔森相关系数与关联强度对应关系进行设定,当皮尔森相关系数位于[0.8,1]时,表明两个数据之间为极强相关;当位于[0.6,0.8]时,表明两个数据之间为强相关;当位于[0.4,0.6]时,表明两个数据之间为中等程度相关;当[0.2,0.4]时,表明两个数据之间为弱相关;[0,0.2]时,表明两个数据之间为极弱相关或无相关。由于选择的特征自变量与因变量之间需要强相关,因此,可以将第二预设阈值设定为0.6,当某一自变量与因变量之间的相关参数大于0.6时,将其确定为特征自变量。

需要说明的是,第二预设阈值还可以根据其他方式进行设定,本实施例对应第二预设阈值的设定不进行限定。

另外,在进行特征自变量选择时,所选择的特征自变量不仅需要满足与因变量之间的强关联,还需要满足各个特征自变量之间为弱关联,即各个特征自变量之间不能为强关联。因此,在确定为特征自变量之后,还需要判断每个特征自变量之间是否为强关联。当选择的特征自变量之间为强关联时,需要去除特征自变量之间的强关联。

基于此,本申请实施例提供了一种判断特征自变量之间是否为强关联以及去除特征自变量间强关联的方法,下面将结合附图对该方法进行说明。

参见图3,该图为本申请实施例提供的一种去除特征自变量之间强关联的方法,如图3所示,该方法可以包括:

s301:建立线性方程。

在本实例中,针对获取的特征自变量和因变量建立线性方程,该线性方程等式一端为因变量,另一端为各个特征数据项之和,每一特征数据项为一个特征自变量与该特征自变量对应的回归系数的乘积,各个特征数据项中的特征自变量均不相同,特征数据项的数量与特征自变量的数量相同。

在实际应用中,每个特征自变量均对应有各自的回归系数,各个特征自变量与其对应的回归系数相乘后再相加,形成线性方程等式的另一端。例如,共有7个自变量x1、x2、x3、x4、x5、x6、x7,通过上述方法选出了特征自变量为x1、x3、x4x5、x7,则建立的线性方程具体可以表现为y=a1*x1+a3*x3+a4*x4+a5*x5+a7*x7,其中,a1、a3、a4、a5和a7分别为特征自变量x1、x3、x4x5、x7对应的回归系数。

s302:将特征自变量的标准化后的参数值与因变量的标准化后的参数值带入线性方程,求解得到各个特征自变量对应的回归系数。

本实例中,为消除不同特征自变量对应不同量纲对后续计算结果的影响,可以先对特征自变量对应的参数值以及因变量对应的参数值进行标准化处理,然后将标准化的参数值代入上述线性方程中,计算各个特征自变量对应的回归系数。

在具体实现时,可以采用0-1标准化方法对特征自变量的参数值和因变量的参数值进行归一化处理,其中,0-1标准化又称离差标准化,是对参数值进行线性变换,使结果落在[0,1]区间,转换函数为:

其中,x*为标准化后的参数值,x为某特征自变量或因变量对应的一个参数值、max为某特征自变量或因变量对应的全部参数值的最大值,min为某特征自变量或因变量对应的全部参数值的最小值。

例如,表1中交易金额为特征自变量,交易金额对应的三个参数值x20、x21、x22,从上述三个参数值中确定一个最大值和一个最小值,然后,代入上述转换函数,对每个参数值进行标准化处理,得到标准化后的参数值。

需要说明的是,也可以采用其他标准化方法进行归一化处理,例如min-max标准化,本申请实施例对归一化处理的具体方式不做限定。

另外,由于表1中交易地点是利用六位阿拉伯数字组成的行政代码表示的,因此,在进行标准化处理时,可以将行政代码看作为具体参数值,然后利用上述转换函数进行标准化处理。

在具体实现时,将经过标准化处理的特征自变量的多个参数值和因变量的多个参数值代入线程方程,从而形成多个线性方程,然后对上述多个线性方程求解,获得每个特征自变量对应的回归系数。

s303:按照各个特征自变量对应的回归系数的排序,获得特征自变量的第一排序结果。

本实例中,对获得的回归系数进行排序,从而根据回归系数的排序结果,获得特征自变量的第一排序结果。在具体实现时,可以按照从大到小的顺序进行排序,也可以按照从小到大的顺序进行排序。

例如,按照从小到大的顺序对a1、a3、a4、a5和a7进行排序,排序结果为a1<a3<a5<a7<a4,则特征自变量的第一排序结果为x1、x3、x5、x7、x4,或者,按照从大到小的顺序对a1、a3、a4、a5和a7进行排序,排序结果为a4>a7>a5>a3>a1,则特征自变量的第一排序结果为x4、x7、x5、x3、x1。

s304:按照各个特征自变量与因变量之间的相关参数的排序,获得特征自变量的第二排序结果。

本实例中,对各个特征自变量与因变量之间的相关参数进行排序,从而根据相关系数的排序结果,获得特征自变量的第二排序结果。在具体实现时,可以按照从大到小的顺序进行排序,也可以按照从小到大的顺序进行排序。

例如,特征自变量x1、x3、x4x5、x7与因变量之间的相关参数分别为c1、c3、c4、c5、c7、按照从小到大的顺序对c1、c3、c4、c5、c7进行排序,排序结果为c1<c3<c4<c7<c5,则特征自变量的第二排序结果为x1、x3、x4、x7、x5;或者,按照从大到小的顺序对c1、c3、c4、c5、c7进行排序,排序结果为c5>c7>c4>c3>c1,则特征自变量的第二排序结果为x5、x7、x4、x3、x1。

s305:当特征自变量的第一排序结果与特征自变量的第二排序结果均为从小到大排序,则如果目标特征自变量的第二排序结果大于目标特征自变量的第一排序结果,将目标特征自变量从特征自变量中删除,目标特征自变量为任意一个特征自变量。

当通过s303和s304获得关于特征自变量的两个排序结果后,当特征自变量的第一排序结果与特征自变量的第二排序结果均为从小到大排序,针对每个特征自变量,均判断该特征自变量在第二排序结果中的顺序是否大于在第一排序结果中的顺序,如果大于,表明该特征自变量与其他特征自变量之间具有强关联,则将该特征自变量删除。

例如,当特征自变量的第一排序结果与特征自变量的第二排序结果均为从小到大排序,则特征自变量x5在第二排序结果中排序为第五,而在第一排序结果中排序为第三,第五大于第三,则将特征自变量x5删除。而对于特征自变量x1、x3、x4和x7,其在第二排序结果中的排序不大于第一排序结果中的排序,表明上述特征自变量间不具有强关联,无需进行删除。

s306:当特征自变量的第一排序结果与特征自变量的第二排序结果均为从大到小排序,则如果目标特征自变量的第二排序结果小于目标特征自变量的第一排序结果,将目标特征自变量从特征自变量中删除。

当通过s303和s304获得关于特征自变量的两个排序结果后,当特征自变量的第一排序结果与特征自变量的第二排序结果均为从大到小排序,针对每个特征自变量,均判断该特征自变量在第二排序结果中的顺序是否小于在第一排序结果中的顺序,如果小于,表明该特征自变量与其他特征自变量之间具有强关联,则将该特征自变量删除。

例如,当特征自变量的第一排序结果与特征自变量的第二排序结果均为从大到小排序,则特征自变量x5在第二排序结果中排序为第一,而在第一排序结果中排序为第三,第一小于第三,则将特征自变量x5删除。而对于特征自变量x1、x3、x4和x7,其在第二排序结果中的排序不小于第一排序结果中的排序,表明上述特征自变量间不具有强关联,无需进行删除。

需要说明的是,当从多个特征自变量中删除某特征自变量时,可以重新获得剩余特征自变量的第二排序结果和第一排序结果,并再次判断每个特征自变量的第二排序结果与第一排序结果,直至每个特征自变量的第二排序结果与第一排序结果均一致时,结束上述判断,从而获得相互之间无强关联的特征自变量。

通过上述方法,可以对获取的特征自变量之间是否具有强关联进行判断,当存在时,去除具有强关联的特征自变量,从而获得相互之间无强关联的特征自变量,以利用上述特征自变量去表征因变量。

基于上述方法实施例,本申请还提供了确定数据相关性的装置,下面将结合附图对该装置进行说明。

参见图4,该图为本申请实施例提供的一种确定数据相关性的装置结构图,如图4所示,该装置可以包括:

第一计算单元401,用于根据自变量的参数值以及因变量的参数值,计算所述自变量与所述因变量之间的皮尔森相关系数和斯皮尔曼相关系数,所述自变量与所述因变量具有对应关系;

第一确定单元402,用于根据所述皮尔森相关系数以及所述斯皮尔曼相关系数,确定所述自变量与所述因变量之间的相关参数,所述自变量与所述因变量之间的相关参数大于或等于第一数值,且小于或等于第二数值,如果所述皮尔森相关系数和所述斯皮尔曼相关系数不相等,所述第一数值为所述皮尔森相关系数和所述斯皮尔曼相关系数中的较小值,所述第二数值为所述皮尔森相关系数和所述斯皮尔曼相关系数中的较大值,如果所述皮尔森相关系数和所述斯皮尔曼相关系数相等,所述第一数值以及所述第二数值为所述皮尔森相关系数或所述斯皮尔曼相关系数。

在一些可能的实现方式中,所述第一确定单元包括:

第一计算子单元,用于将所述皮尔森相关系数与所述斯皮尔曼相关系数相乘,得到第三数值;

第二计算子单元,用于将所述皮尔森相关系数与所述斯皮尔曼相关系数相加,得到第四数值;

第三计算子单元,用于将所述第三数值除以所述第四数值后再乘以2,得到第五数值;

第一确定子单元,用于确定所述自变量与所述因变量之间的相关参数为所述第五数值。

在一些可能的实现方式中,所述第一确定单元包括:

第二确定子单元,用于当所述皮尔森相关系数与所述斯皮尔曼相关系数的差值的绝对值大于第一阈值时,确定所述自变量与所述因变量之间的相关参数为所述第二数值;

第三确定子单元,用于当所述皮尔森相关系数与所述斯皮尔曼相关系数的差值的绝对值小于或等于所述第一阈值时,确定所述自变量与所述因变量之间的相关参数为所述第五数值。

在一些可能的实现方式中,所述装置还包括:

第二确定单元,用于将所述自变量与所述因变量之间的相关参数大于第二阈值的自变量,确定为特征自变量。

在一些可能的实现方式中,所述装置还包括:

建立单元,用于建立线性方程,所述线性方程等式一端为所述因变量,所述线性方程等式另一端为各个特征数据项之和,每一所述特征数据项为一个所述特征自变量与该特征自变量对应的回归系数的乘积,各个所述特征数据项中的特征自变量均不相同,所述特征数据项的数量与所述特征自变量的数量相同;

第二计算单元,用于将所述特征自变量的标准化后的参数值与所述因变量的标准化后的参数值带入所述线性方程,求解得到各个所述特征自变量对应的回归系数;

第一排序单元,用于按照各个所述特征自变量对应的回归系数的排序,获得所述特征自变量的第一排序结果;

第二排序单元,用于按照各个所述特征自变量与所述因变量之间的相关参数的排序,获得所述特征自变量的第二排序结果;

第一删除单元,用于当所述特征自变量的第一排序结果与所述特征自变量的第二排序结果均为从小到大排序,则如果目标特征自变量的第二排序结果大于所述目标特征自变量的第一排序结果,将所述目标特征自变量从所述特征自变量中删除,所述目标特征自变量为任意一个所述特征自变量;

第二删除单元,用于当所述特征自变量的第一排序结果与所述特征自变量的第二排序结果均为从大到小排序,则如果目标特征自变量的第二排序结果小于所述目标特征自变量的第一排序结果,将所述目标特征自变量从所述特征自变量中删除。

需要说明的是,本实施例中各模块或单元的具体实现可以参见图1和图3所述方法的实现,本实施例在此不再赘述。

另外,本申请实施例还提供一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的确定数据相关性的方法。

本申请实施例还提供一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的确定数据相关性的方法。

由上述实施例可知,本申请实施例同时计算自变量与因变量两组数据之间的皮尔森相关系数和斯皮尔曼相关系数,然后利用计算得到的皮尔森相关系数和斯皮尔曼相关系数,确定出一个新的相关参数来表征自变量与因变量之间的相关性,该相关参数的值处于皮尔森相关系数和斯皮尔曼相关系数之间,由该相关参数表征自变量与因变量之间的相关性,无需再从皮尔森相关系数和斯皮尔曼相关系数进行选择,即使不清楚所分析数据具有何种关联关系,也可以确定出数据之间的相关性。

需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1