一种基于因素间相关关系识别的预测方法

文档序号:6627523阅读:1359来源:国知局
一种基于因素间相关关系识别的预测方法
【专利摘要】本发明公开了一种基于因素间相关关系识别的预测方法,包括以下步骤:获取因素样本数据,将因素指标值存入数据表中,构建样本序列;两两因素指标值序列计算相关性时,对于因素指标值样本长度不一致的,取短截长,对于样本中存在缺失的情况,则删除缺失项和与之对应的另一因素指标样本值;计算因素间相关关系:基于距离相关性,计算因素指标值的距离协方差和方差,得到距离相关相关系数;采用相关关系排序算法对因素间距离相关系数进行排序,最终给出因素间的相关性,识别因素间复杂相关关系;依据因素间相关关系的排序,选定与其他因素相关性强的因素,通过监测该因素的指标值来预测与之关联性强的其他因素指标的变化。
【专利说明】一种基于因素间相关关系识别的预测方法

【技术领域】
[0001] 本发明涉及信息处理【技术领域】,特别涉及一种基于因素间相关关系识别的预测方 法。

【背景技术】
[0002] 随着云计算、物联网技术的发展,多种先进技术和传感器大量应用于数据采集中, 这使得数据来源丰富且多样,且数据类型繁多。在信息量如此庞大的背景下,如何从容量 大且种类繁多的不确定数据中获取价值,识别因素间存在的相关关系,是当前所有行业所 面临的问题。
[0003] 然而面对当前大数据,传统的人工神经网络、专家系统、模糊集理论等因素分析解 析模型和智能算法因受限于复杂模型建模以及模型本身存在的误差问题,或者模型本身不 具有一般性,难以在大量数据中识别关键因素,解释复杂机理并做出准确预测,进而可能造 成误判或者漏判。而现有的相关关系分析法中,皮尔逊相关系数只能分析线性的相关关系, 最大相关系数法和距离相关法虽可以分析线性和非线性的相关关系,但在大量噪声的影响 下,最大相关系数法分析的结果反而不如皮尔逊相关系数法,相比之下,距离相关性对于变 量间相关关系的衡量更为准确。因此本发明基于距离相关性识别因素间的线性和非线性关 系,发现隐藏的因素,提高预测的准确性,为决策提供更为科学的依据。
[0004] 本申请解决的技术问题在于依据相关性识别出数据样本间存在的隐藏的关系,通 过相关性来分析一个现象,进而进行预测。相关关系强是指当一个数据值增加时,另一个数 据值很有可能也会随之增加。比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷 歌搜索特定的词条,该地区就有更多的人患了流感。


【发明内容】

[0005] 为解决现有技术存在的不足,本发明公开了一种基于因素间相关关系识别的预测 方法,基于距离相关性,自动识别因素间复杂相关关系的方法,能够有效分析大数据因素间 存在的隐含的相关关系,提高预测的准确性,为决策者提供决策的依据。
[0006] 为实现上述目的,本发明的具体方案如下:
[0007] -种基于因素间相关关系识别的预测方法,包括以下步骤:
[0008] 步骤一:获取因素样本数据,将因素指标值存入数据表中,构建样本序列;
[0009] 步骤二:两两因素指标值序列计算相关性时,对于因素指标值样本长度不一致 的,取短截长,对于样本中存在缺失的情况,则删除缺失项和与之对应的另一因素指标样本 值;
[0010] 步骤三:计算因素间相关关系:基于距离相关性,计算因素指标值的距离协方差 和方差,根据相关系数定义

【权利要求】
1. 一种基于因素间相关关系识别的预测方法,包括以下步骤: 步骤一:获取因素样本数据,将因素指标值存入数据表中,构建样本序列; 步骤二:两两因素指标值序列计算相关性时,对于因素指标值样本长度不一致的,取短 截长,对于样本中存在缺失的情况,则删除缺失项和与之对应的另一因素指标样本值; 步骤三:计算因素间相关关系:基于距离相关性,计算因素指标值的距离协方差和方 差,根据相关系数定义dCGr(XY) = 得到距离相关相关系数; 步骤四:采用相关关系排序算法对因素间距离相关系数进行排序,最终给出因素间的 相关性,识别因素间复杂相关关系; 步骤五:依据因素间相关关系的排序,选定与其他因素相关性强的因素,通过监测该因 素的指标值来预测与之关联性强的其他因素指标的变化,其中当a<X<b时,即可预测c <y<d,a、b、c、d均为实数,X为事件A的表征因素指标,y可为事件B的表征因素指标。
2. 如权利要求1所述的一种基于因素间相关关系识别的预测方法,其特征是,所述的 样本序列包含时间序列和非时间序列,且为数值化的数据,针对时间序列可直接计算因素 与因素间的相关关系;针对非时间序列,需确定要目标因素,计算目标因素与其他因素间的 相关关系。
3. 如权利要求1所述的一种基于因素间相关关系识别的预测方法,其特征是,所述相 关关系排序算法是指将计算所得的所有变量间相关系数从大到小依次排列,将一组无序的 序列调整成有序的序列,进而得到因素间相关性强弱的排列序列。
4. 如权利要求1所述的一种基于因素间相关关系识别的预测方法,其特征是,距离相 关性用于计算相关系数,具体包括: SI:计算样本内部各元素的欧式距离:aj,k=IIxj-XkII,其中XjXk为样本因素,j,k= 1,2^"11,由3^构成距离矩阵; S2:计算距离矩阵行平均值及距离矩阵列平均值,并利用Sl中计算所得的欧式距离计 算单个因素样本内部的双中心距离:Ay5 = 3*+a>,其中%:表示第j行样本均值, 表示第k行样本均值,SJ样本均值的距离矩阵; S3:利用S2中计算所得的双中心距离计算两因素样本间的距离协方差,单个因素样本 的距离方差; S4:利用S3中计算所得的距离协方差和距离方差计算两两因素样本间距离相关系数。
5. 如权利要求4所述的一种基于因素间相关关系识别的预测方法,其特征是,距离相 关相关系数为
其中,X、Y为样本集中任意对因素指标,dCov(X,Y)表示因素指标间的距离协方差,dVar(X)dVar(Y)表示因素指标的协方差。
【文档编号】G06F19/00GK104239722SQ201410479908
【公开日】2014年12月24日 申请日期:2014年9月18日 优先权日:2014年9月18日
【发明者】于大洋, 李亚锦 申请人:山东大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1