一种双变量相关性度量方法

文档序号:6538974阅读:290来源:国知局
一种双变量相关性度量方法
【专利摘要】本发明公开了一种双变量相关性度量方法。使用本发明能够在保持MIC方法两个重要特性的前提下,更加逼近于MIC的真实值,更能反映真实的两个变量之间的相关度。本发明对MIC方法进行改进,通过二次寻优的方法改变Y轴的划分方式,从均分Y轴的信息得到X轴最优化的信息,再去寻找Y轴优化的信息,在合理的时间内,找到比原方法更优的解,获得双变量相关度的更加精确的值,从而在信息判断时更精确,更贴合实际。
【专利说明】一种双变量相关性度量方法
【技术领域】
[0001]本发明涉及相关性度量方法,具体涉及一种双变量相关性度量方法。
【背景技术】
[0002]在进行信息分析、信息推荐及信息预测时,由于数据量庞大,在一个大数据集中,如何有效地辨识变量之间的潜在关系显得尤为重要。例如在对世界健康组织的数据进行分析时,判断人的健康系数与什么变量的关系最紧密,是饮食习惯、睡眠规律还是其他因素?在互联网信息推荐时,如何根据一些用户的浏览记录、关注内容判断另一些用户感兴趣的信息?市场分析时,如何根据以往市场分析报告找出市场波动的影响因素,从而根据这些因素的现状预测下一阶段的市场动态?变量之间的相关度获取是否准确至关重要。2011年,David N.Reshef以及Yakir A.Reshef等人在《Science》杂志上发表了题为“DetectingNovel Associations in Large Data Sets”的文章,提出了一种双变量的相关性的度量方法——MIC,该方法使用类拟合的思想,使用网格包围双变量在平面直角坐标系中形成的离散点,即,如果两个变量之间存在某种关系,那么就可以在其散点图上构造某种网格划分,使得大多数的数据点集中在该网格的几个单元格中,这些包含数据点的网格可近似视为某种拟合曲线,从而达到刻画两变量的关系的目的。不同于曲线拟合方法无法应对非函数型关系,容易过拟合,以及计算量大,该方法对函数以及非函数关系均适用,计算量小,且可挖掘出变量间深层关系。该方法依赖于样本的大小,通过搜寻满足一定条件的所有网格划分直至搜寻到最优的网格划分方案,该方案即为其网格拟合方案,最可能揭示出其真实的潜在关系,该网格划分下的互信息的归一化值即为MIC值。
[0003]MIC方法相对于其它的相关性度量方法而言,如Pearson相关系数、Spearman相关系数等,具有两个重要特性:通用性和均匀性。通用性指的是该方法可以评估广泛范围的关系模式,不局限于特定的函数关系或所有的函数关系,它可以发现非函数型的关系;均匀性指的是对于具有相似噪声水平的不同函数类型,即回归决定系数R2值相似的不同函数类型应具有相似的MIC值。
[0004]该方法的提出对于生物学以及其它学科的研究有着极大的促进作用,但目前计算MIC的算法,因考虑到效率性,仅是在有效的时间内逼近MIC的实际值,因此该算法的精度仍然存在一定的缺陷。

【发明内容】

[0005]有鉴于此,本发明提供了一种双变量相关性度量方法,对MIC方法进行改进,能够在保持MIC方法两个重要特性的前提下,更加逼近于MIC的真实值,更能反映真实的两个变量之间的相关度。
[0006]本发明的双变量相关性度量方法,包括如下步骤:
[0007]步骤1,将双变量的数据点信息转换为平面坐标轴的数据点信息(X,Y),令Y轴为主变量轴,以主变量轴的值进行升序排序;[0008]步骤2,采用给定的均分行数I均分Y轴,使得均分区间中数据点的个数相等,其中,均分行数y=2,3,4,…,B/2,其中,B为设定的X,Y划分个数乘积的最大值;
[0009]步骤3,当均分行数y=i时,i=2,3,4,…,B/2,根据给定的划分列数x对X轴进行划分,使得具有同样Y值的连续点划分在同一个区间中,其中,划分列数X分别为2,3,4...,B/y ;
[0010]步骤4,计算均分行数y=1、均分列数x=j时的最大互信息值,记为bu,其中,i=2,3,4,…,B/2,j=2,3,4...,B/y ;将bu归一到[0,I]后记为Bij ;选取y=i时的最大au对应的X轴划分列数为均分行数y=i时的X轴最优划分列数Xei ;
[0011]步骤5,固定X轴划分列数为X=Xei,重新划分Y轴,计算y=i时的最大互信息值并进行归一化,获得屮/;
[0012]步骤6,将aij替换为aj,获得矩阵Eaij];
[0013]步骤7,变换数据点(X,Y)为(Y,X),令Y轴为主变量轴,以主变量的坐标轴的值进行升序排序;重复步骤2~6,获得矩阵[au] ’ ;
[0014]步骤8,选取Laij]和Lai」]’中的元素最大的值为MIC值;
[0015]步骤9,利用步骤8获得的MIC值进行度量。
[0016]其中,可以设B=n°_6,其中,η为数据点的总个数。
[0017]有益效果:
[0018]本发明对MIC方法进行改进,通过二次寻优的方法改变Y轴的划分方式,从均分Y轴的信息得到X轴最优化的信息,再去寻找Y轴优化的信息,在合理的时间内,找到比原方法更优的解,获得双变量相关度的更加精确的值,从而在信息判断时更精确,更贴合实际。
【专利附图】

【附图说明】
[0019]图1为计算MIC的简要算法流程图。
[0020]图2为特征矩阵生成模块的算法流程图。
[0021]图3为本发明算法与传统算法的结果对比图。
【具体实施方式】
[0022]下面结合附图并举实施例,对本发明进行详细描述。
[0023]本发明提供了一种双变量相关性度量方法,具体包括如下步骤:
[0024]步骤1,将双变量的数据点信息转换为平面坐标轴的数据点信息(X,Y),并令Y轴为主变量轴,数据点信息(X,Y)以主变量轴的值(即Y值)进行升序排序。
[0025]步骤2,给定均分行数y均分Y轴,使得均分区间中数据点的个数相等,其中,均分行数y分别为2、3、4、…、B/2,其中,B表示为了减少计算量,人为设定的X,Y划分个数乘积的最大值,Β=η°_6,η为数据点的总个数,0.6为Reshef论文提供的经验数值。
[0026]步骤3,在Y轴的每一种均分情况下(均分行数y分别为2、3、4、…、B/2的情况下),划分X轴,将具有同样Y值的连续点(即Y值相同,X值连续)划分在同一个区间中。
[0027]步骤4,对应于每一个Y轴均分情况,如均分行数y=2,计算X轴的划分列数X分别为2、3、4、…、B/y时的最大互信息值,记最大互信息值为bij;其中,i表示均分行数y=i,1=2,3,4,…,B/2,j 表示划分列数 x=j,j=2,3,4?",B/y。对 bu 进行归一化,归一到[0,1],得到au。选取均分行数y=i时最大au对应的X轴划分列数为y=i时的X轴最优划分列数XeiO这种划分方法尽力使X轴每个划分区间中的数据点集中在X、Y划分构成的一个网格内,从而最大可能地揭示两变量的潜在关系。特征矩阵归一化子模块将互信息值的范围投影到O到I之间,确保不同维度的网格划分的公平比较。
[0028]步骤5,固定X轴划分为最优划分列数x=xei,重新划分Y轴,计算y=i时的最大互
信息值并进行归一化,获得a^。
[0029]步骤6,将步骤4中的Bij替换为aj,获得矩阵EaiJ]。
[0030]步骤7,变换数据点(X,Y)为(Y,X),令Y轴为主变量轴,以主变量轴的值(即X值)进行升序排序;重复步骤2~6,获得矩阵[au] ’。
[0031 ] 步骤8,取变换数据点前后(即以Y为主变量和以X为主变量的两次计算)获得的最优化网格划分方案(即不同主变量方案中互信息值较大的方案)作为最终的特征矩阵[au]输出。其中,au为均分行数y=i,划分列数x=j时的归一化的最大互信息值。选取[au]和[a^]’中元素最大的值为MIC值。
[0032]步骤9,利用步骤8获得的MIC值进行度量。MIC值表明了两变量之间的相关度,MIC值越接近I表明相关度越高,MIC值越接近O表明相关度越低。
[0033]在传统方法中,仅仅是均分Y轴后优化X轴,然后变换坐标轴取得最大值作为特征矩阵,改进的方法通过二次寻优提高了原方法的逼近精度。
[0034]图1为计算MIC的简要算法流程图。其中,ApproxMaxMI (D, X,y)为特征矩阵生成函数,其中的最大值即为MIC。其中:
[0035]图2为特征矩阵生成模块的算法流程图,由于变换坐标轴前后的步骤是一致的,在此仅以未变换坐标轴的情况示例。在原方法中,对于满足x*y〈=B(n)(其中X为网格划分的列数,y为网格划分的行数,B (η)为关于样本数据点数η的函数)的所有划分情况,只是通过均分Y轴和最优化X轴的方案来生成特征矩阵,而本发明的创造性在于,对于给定的I行,首先通过均分Y轴为y行,然后运用X轴取优的算法算出X轴所有可能的最大划分,如2,3,…,B (n) /y,接着从上述情况中找到最优的x轴划分X1 (X1 e [2,B (n) /y]),即网格划分为Xl*y时取到归一化后最大的互信息值,固定X轴的最优位置为X1,然后继续对Y轴运用取优的算法找到最优I行的划分,替换原有的Xl*y网格划分下的的互信息值,即在最优的情况下运用二次寻优求出给定y行下的所有格子划分的最大互信息值。
[0036]该发明依赖的理念为:对于给定的I行,若要无限地逼近MIC的真实值,应当在所有可能的I行的划分下进行X轴的最优化选择,即暴力搜索,但由于时间的不允许,暴力搜索变得不切实际,再者由于互信息的上限取决于Y轴的边缘熵,而Y轴的边缘熵在均分Y轴时取到最大,因此原方法只是采取均分Y轴后进行X轴的最优化选择,在追求效率的前提下,原方法不疑为可能取到最优解的方法,然而,可知均分Y轴不一定能取到最优解,本发明创造性地突破均分Y轴的局限,通过二次寻优的方法改变Y轴的划分方式,从均分Y轴的信息得到X轴最优化的信息,再去寻找Y轴优化的信息,在合理的时间内,找到比原方法更优的解。
[0037]本发明选取了 16类函数,对于每一类函数生成250个双变量的的数据集,每个数据集下有1000个数据点,其中I个数据集无噪声,其余的添加了均匀的垂直噪声,针对每一类函数,实验步骤如下。[0038]a)产生数据集Di, O≤i≤249
[0039]b)计算Di和Dtl之间的回归决定系数R2
[0040]c)计算 Di 的 MIC 值
[0041]d)画图,横轴表示回归决定系数R2,,纵轴表示MIC值
[0042]分别运用原方法和改进的方法进行上述实验,为了对比图的可观测性,本发明增加了 100倍的实验迭代次数,图3为使用改进方案和原方案的结果对比图。
[0043]由上述内容可知,MIC的一个重要特性是均匀性,而该特性的体现主要是对于具有相同R2的不同函数有相似的MIC值,即在R2-MIC的图中的体现应是,图中所有点的分布越趋近于y=x的直线,均匀性越好,即越逼近MIC的真实值,反之亦然。从图3中可以看出改进方法比原方法计算出的MIC值更逼近真实值,均匀性体现得更好。
[0044]综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种双变量相关性度量方法,其特征在于,包括如下步骤: 步骤1,将双变量的数据点信息转换为平面坐标轴的数据点信息(X,Y),令Y轴为主变量轴,以主变量轴的值进行升序排序; 步骤2,采用给定的均分行数y均分Y轴,使得均分区间中数据点的个数相等,其中,均分行数y=2,3,4,…,B/2,其中,B为设定的X,Y划分个数乘积的最大值;步骤3,当均分行数y=i时,i=2,3,4,…,B/2,根据给定的划分列数x对X轴进行划分,使得具有同样Y值的连续点划分在同一个区间中,其中,划分列数X分别为2,3,4...,B/y ;步骤4,计算均分行数y=1、均分列数x=j时的最大互信息值,记为bu,其中,i=2,3,4,…,B/2,j=2,3,4?",B/y ;将bu归一到[O,I]后记为au ;选取y=i时的最大Bij对应的X轴划分列数为均分行数y=i时的X轴最优划分列数Xei ; 步骤5,固定X轴划分列数为x=xei,重新划分Y轴,计算y=i时的最大互信息值并进行归一化,获得aj ; 步骤6,将au替换为屮/,获得矩阵[au]; 步骤7,变换数据点(X,Y)为(Y,X),令Y轴为主变量轴,以主变量的坐标轴的值进行升序排序;重复步骤2~6,获得矩阵[au] ’ ; 步骤8,选取[aj和[aij]’中的元素最大的值为MIC值; 步骤9,利用步 骤8获得的MIC值进行度量。
2.如权利要求1所述的最大信息系数逼近算法,其特征在于,B=n°_6,其中,η为数据点的总个数。
【文档编号】G06F19/00GK103853923SQ201410069009
【公开日】2014年6月11日 申请日期:2014年2月27日 优先权日:2014年2月27日
【发明者】王树良, 赵一萍, 舒悦 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1