一种基于DWH模型对多关系型数据的多角度度量学习方法与流程

文档序号:15388136发布日期:2018-09-08 00:49阅读:251来源:国知局

本发明涉及数据挖掘技术领域,特别涉及一种基于dwh模型对多关系型数据的多角度度量学习方法。



背景技术:

多关系型数据,作为传统关系型数据一种延伸,随着社交媒体的增长发展迅速,数据量成几何倍数爆炸式增长,因此在此类数据的基础上学习一个好的距离度量函数对于数据挖掘,机器学习应用方面有着非常重要的意义,其中就包括信息检索,聚类,分类,推荐系统等。在传统观念里,因为数据结构的关系,我们不能直接使用欧式距离或者是马氏距离来对数据直接进行度量计算。因此我们需要定义一个好的方式来结合关系型数据结构还有结点的特征,从不同的观察角度来发现信息和我们所需的内容,因此多角度学习似乎能够很好的解决这个问题。

现在已经提出了一些关于多角度度量学习的方法,但是主要针对关系型数据的研究寥寥无几,几乎都是针对图像视频的研究比较多。我们在此基础上,主要针对关系型数据和多角度度量学习的进行了研究,针对高维数据分类聚类问题,传统的方法是对原始数据进行一个数据清洗,其中包括数据处理,数据分析,还有特征选择,特征提取,之后才是建立模型。然而在一般情况下我们首先要对提取的特征进行一个重要性的排序,因为对高维数据的特征我们有一个自己的评判标准,但是这个过程中往往忽略了不同特征之间可能有相关性,而且可能放大了微小变量的影响,因此不能产生最优的特征子集,从而不能得到最优的分类聚类结果。



技术实现要素:

本发明的目的在于克服现有技术中的缺点与不足,提供一种基于dwh模型对多关系型数据的多角度度量学习方法,基于dual-wingharmonium模型采取维度压缩策略,将数据特征集合映射到一个新的空间,提供了一种能在保留数据簇结构的情况下,进行特征选择并建立模型分类的方法,提升了分类速度和分类精确度。

为实现以上目的,本发明采取如下技术方案:

一种基于dwh模型对多关系型数据的多角度度量学习方法,包括以下步骤:

s1、从数据集中选取多关系型数据,对所述多关系型数据进行预处理,并进行特征提取、特征选择和归一化,得到样本数据集;

s2、定义一个距离度量形式,m为距离度量矩阵,且为半正定对阵矩阵;

s3、采用距离度量学习来寻求一个度量矩阵m,使得样本两两之间的距离表示为

s4、建立dwh模型,对于原始数据集进行压缩,将原高维空间嵌入到一个低维空间中,并利用已建立的dwh模型在低维空间中进行学习任务,通过度量学习试图去学习出一个距离度量来等效降维的效果,具体利用对样本数据集的特征选择和特征提取,选取不同的特征集合进行子空间学习,来得到不同的距离度量矩阵m;

s5、用knn算法对步骤s4中得到的距离度量矩阵m来进行分类验证,并判断分类效果的好坏;

s6、通过步骤s5中的实验分类效果对样本数据集的特征属性每个维度的重要性,根据每个特征属性和目标属性之间的计算值对样本数据集的关系型数据的特征属性进行排序。

作为优选的技术方案,所述步骤s1的数据集包括uw_std,mondial_std,mutagenesis_std,financial,movielens五个数据集。

作为优选的技术方案,步骤s1中,对所述多关系型数据进行预处理,具体是利用python对多关系型数据进行关键字提取。

作为优选的技术方案,在步骤s4具体包括下述步骤:

s41、建立dwh模型:在dual-wingharmonium模型的拓扑结构里,输入结点有两个模态x={xi},z={zj}和一系列的映射空间结点h={hk},根据所述的拓扑结构作出三个条件独立性假设,其条件概率密度表达式为:

①给定一个映射空间变量h,原始数据集的模态x和z是相互独立的,

p(x,z|h)=p(x|h)p(z|h)

②给定原始数据集的模态x和z,映射空间的变量h也是相互独立的,

p(h|x,z)=πkp(hk|x,z)

③给定一个映射空间变量h,在每个模态中的每个结点即特征属性也是相互独立的,

p(x|h)=πip(xi|h),p(z|h)=πjp(zj|h),

假设所有的观察到和映射后空间的变量都是指数系,得到每个属性参数以及潜在映射空间里每个属性的概率密度函数:

其中,θi,ηj,λk表示每个结点即属性参数,i,j,k表示对应dwh模型中每个view里的结点编号;t表示矩阵的转置;表示充分统计量;a(·),b(·),c(·)表示对数分割函数;

通过引入附加项将对数域中的随机变量耦合起来得到联合概率分布:

其中,定义单个结点组成的簇上的势函数;φ(xi)ψ(hk),表示由成对链结点组成的簇上的势函数;表示在实际dwh模型计算中势函数的权重;

s42、将建立的dwh模型应用在学习一个多模态的距离度量矩阵m,给定一个数据点y=(x,z),包含两个特征模态x和z,在dwh模型框架下,将数据点y映射到一个新的映射空间并且得到其新的表示形式t,即t为新的距离度量,t是θ的函数:

t=εp(h|x,z;θ)[h]

其中,t是将数据点y=(x,z)嵌入在共享的潜在映射空间中的潜在表示形式;θ表示dwh模型中所有的参数表示在实际模型计算中势函数的权重;h表示隐藏单元结点,从语义上看,隐藏单元结点h看作是潜在关键词的结合,从不同的源观察反映出从不同的角度学习得到不同的中心主题;

s43、用欧式距离来衡量新的映射空间里数据点之间的距离,定义s={(y(i),y(j))}为相似数据对集合,d={(y(i),y(j))}为不相似的数据对集合,最优化问题如下:

其中y表示所有出现在s和d的数据;

再结合距离度量学习和最大似然估计,将最优化问题改写为如下形式:

其中,l(y;θ)是根据参数θ参数化的数据y的负对数似然值,λ是权重参数,|·|表示集合的基数;

用hingeloss处理约束条件得到新的最优化问题:

对于参数θi、ηj、λk,通过求其次梯度求解:

通过计算目标函数来得到最优解:

作为优选的技术方案,步骤s5中,所述分类验证是通过crossvalidation进行验证,将crossvalidation验证的分数即正确率,作为衡量分类效果的好坏。

作为优选的技术方案,步骤s4中,采用welch’st-test来判断所述特征属性和目标属性之间分布的均值方差距离,具体公式如下:

其中t表示均值方差距离;分别表示特征属性的平均值和方差;分别表示目标属性的平均值和方差;n1、n2分别表示对应特征属性和目标属性的样本大小;

然后再通过对t值大小的排序,对关系型数据的特征属性进行一个排序。

本发明相对于现有技术具有如下的优点和效果:

(1)本发明的多角度度量学习方法,针对传统的多关系型高维数据分类方法在特征选择,特征提取的过程中,忽略了不同特征之间可能存在关联从而引起的分类准确度下降的问题,在此基础上我们对每个特征属性,特征变量赋权值,将各指标或各变量差分看待,同时在此基础上,计算各维度沿每个特征向量的相关系数,得到每个维度对于样本数据集的相关系数,将得到的每个维度对于样本数据集的相关系数从大到小进行排序,选择相关系数较大的维度,完成样本数据集的特征选择。

(2)本发明的多角度度量学习方法,基于dual-wingharmonium模型采取维度压缩策略,将数据特征集合映射到一个新的空间,提供了一种能在保留数据簇结构的情况下,进行特征选择并建立模型分类的方法,提升了分类速度和分类精确度。

(3)本发明的多角度度量学习方法,在实际应用场景过程中,面对更大的数据集,更多的特征,实体表以及关系表,本发明将dual-wingharmonium模型扩展为triple-wingharmonium模型,同样将多个特征属性集成到低维映射空间。triple-wingharmonium模型是利用不同的条件概率分布对于harmonium模型的扩展,其不仅包含了基本模型的特征,同时增强了模型捕捉映射空间里特征属性的能力,在实际的电影推荐movielens数据集中显示出了较好的分类聚类效果。

附图说明

图1为本实施例中的基于dwh模型对多关系型数据的多角度度量学习方法流程图;

图2(a)为本实施例中的将数据集映射到共享潜在映射空间的示意图;

图2(b)为本实施例中的对标有相同标签和不同标签的数据对进行分类聚类的示意图;

图3(a)-图3(b)为本实施例中的dual-wingharmonium模型及其扩展,图3(a)为dual-wingharmonium模型;图3(b)为dual-wingharmonium模型扩展到tripleharmonium模型。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不限于本发明。

实施例

如图1所示,一种基于dwh模型对多关系型数据的多角度度量学习方法,包括下述步骤:

s1、从数据集中选取关系型数据,对所述多关系型数据进行预处理,并进行特征提取、特征选择和归一化,得到样本数据集;所述多关系型数据是uci机器学习数据库里的数据集集合,所述数据集在计算机科学领域被引用次数多,在本实施例中,采用的数据集主要包含:uw_std,mondial_std,mutagenesis_std,financial,movielens五个数据集;

在本实施例中,对所述多关系型数据进行预处理,具体是利用python对多关系型数据进行关键字提取;

s2、在高维空间遇到样本稀疏,距离难计算,因此将原高维空间投影到一个合适的低维空间中,然后在低维空间进行学习任务以达到较好的性能。首先要学习距离度量必须先定义一个合适的距离度量形式。对于两个样本xi,xj,其平方欧式距离为经典的马氏距离为标准的马氏距离中m是协方差矩阵的逆,必须考虑属性之间相关性且尺度无关的距离度量,在本实施例中,采用矩阵m也成为度量矩阵,为保证距离度量的非负性与对称性,m必须为半正定对阵矩阵;

s3、采用距离度量学习来寻求一个度量矩阵m,使得样本两两之间的距离表示为

s4、建立dwh模型,对于原始数据集进行压缩,将原高维空间嵌入到一个合适的低维空间t中,低维映射空间t有映射空间结点h={hk},每个结点都是新的属性,本实施例中采用在新的低维映射空间中进行学习任务,对降维后的映射空间进行度量学习试图去学习出一个距离度量矩阵m;在原始数据集的特征选择过程中,本实施例选取不同的特征集合进行子空间学习,故会多次进行dwh模型的运算,得到不同的度量矩阵m;步骤s4具体包括下述步骤:

s41、建立dwh模型:在harmonium理论里,dual-wingharmonium模型是基本harmonium模型的一个扩展,基础harmonium模型是一个无向图模型,如图3(a)所示,从图3(a)中可以看到两层结点,假设:结点x={xi}是观察数据的特征属性,结点h={hk}是数据映射后的特征属性;多关系型数据为观察数据,x代表着多关系型数据的特征属性,具体表现为数据库中的表的列及属性,h代表将高维度特征属性投影到低维度映射空间的结果;

在本实施例dual-wingharmonium模型的拓扑结构里,输入结点包括两个模态x={xi},z={zj}和一系列的映射空间结点h={hk},根据这个拓扑结构作出三个条件独立性假设:

①给定一个映射空间变量h,原始数据集的模态x和z是相互独立的,

p(x,z|h)=p(x|h)p(z|h)

②给定原始数据集的模态x和z,映射空间的变量h也是相互独立的,

p(h|x,z)=πkp(hk|x,z)

③给定一个映射空间变量h,在每个模态中的每个结点即特征属性也是相互独立的,

p(x|h)=πip(xi|h),p(z|h)=πjp(zj|h),

假设所有的观察到和映射后空间的变量都是指数系,得到每个属性参数以及潜在映射空间里每个属性的概率密度函数:

其中,θi,ηj,λk分别表示每个结点即属性参数,i,j,k是对应dwh模型中每个view里的结点编号,在实体表里具体表现形式为一个特征属性;t表示矩阵的转置;本实施中,在实际dwh模型算法运算过程中所有的参数、势函数是根据不同的view即多角度具体设定的,故每次运算的参数并不一样,表示充分统计量;a(·),b(·),c(·)表示对数分割函数;

通过引入附加项将对数域中的随机变量耦合起来得到联合概率分布:

其中,定义单个结点组成的簇上的势函数;φ(xi)ψ(hk),表示由成对链结点组成的簇上的势函数;表示在实际dwh模型计算中势函数的相关权重,其中,θ包含i从0到n的所有θi值,η,λ同理;

s42、如图2(a)所示,将建立的dwh模型应用在学习一个多模态的距离度量矩阵m,给定一个数据点y=(x,z)有两个特征模态x和z,在dwh模型框架下,将数据点y映射到一个新的映射空间并且得到其新的表示形式t,即t为新的距离度量,t是θ的函数:

t=εp(h|x,z;θ)[h]

其中,t是将数据点y=(x,z)嵌入在共享的潜在映射空间中的潜在表示形式;θ表示dwh模型中所有的参数表示在实际模型计算中势函数的相关权重;h表示隐藏单元结点,从语义上看,隐藏单元结点h可看作是潜在关键词的结合,从不同的源观察反映出从不同的角度学习得到不同的中心主题;

s43、如图2(b)所示,给定特定的数据集合,标签为相似或者不相似,本实施例进行度量学习希望得到的结果就是在映射空间里相似的数据对集合距离近,而不相似的数据对集合距离远,这样才可以达到更好的分类聚类的目的;本实施例中用欧式距离来衡量新的映射空间里数据点之间的距离,由于所有数据集的表现形式相同且为(y(i),y(j)),故在本实施例中,定义s={(y(i),y(j))}为相似数据对集合,d={(y(i),y(j))}为不相似的数据对集合,则有如下的最优化问题:

其中y表示所有出现在s和d的数据;

再结合距离度量学习和最大似然估计,将最优化问题改写为如下形式:

其中,l(y;θ)是根据参数θ参数化的数据y的负对数似然值,λ是权重参数,|·|表示集合的基数;

用hingeloss处理约束条件得到新的最优化问题:

对于参数θi、ηj、λk,通过求其次梯度求解:

通过计算目标函数来得到最优解:

s5、在本实施例中,用knn算法对样本数据集的多关系型数据通过步骤s4中得到的距离度量矩阵m来进行分类验证,所述分类验证是通过crossvalidation进行验证,将crossvalidation验证的分数即正确率,作为衡量分类效果的好坏;

s6、通过步骤s5中的实验效果对样本数据集的特征属性每个维度的重要性,根据每个特征属性和目标属性之间的计算值来进行排序选择,在本实施例中,采用welch’st-test来判断两个属性的分布的均值方差距离,具体公式如下:

其中t表示均值方差距离;分别表示特征属性的平均值和方差;分别表示目标属性的平均值和方差;n1、n2分别表示对应特征属性和目标属性的样本大小;

然后再通过对t值大小的排序,对关系型数据的特征属性进行一个排序。

以下是本实施例方法应用的一个实例

在实际应用场景过程中,在基础数据集上可以观察到多角度的特征值输入,最直观的表现形式就是数据集更大,因此有着更多的特征,实体表以及关系表。此时dual-wingharmonium模型可能不足以满足实际需要,因此本实施例将传统的dual-wingharmonium模型扩展到tripleharmonium模型,如图3(b)所示。

例如在movielens数据集里,x={xi},y={yi},z={zi}在实际表现形式上为用户特征,电影特征,评分关系特征,这三种特征通过权值矩阵互相影响,在triplewingharmonium模型中,可以使用条件泊松分布对特征x计算概率分布:

y表代表着电影表,可以用条件伯努利分布针对电影的状态计算概率分布:

其中,{ujk},{vlk}代表着权值矩阵,用来将原始数据特征转化到映射空间;γl表示针对actor特征向量的第j层和第l层的学习参数,可以得到映射空间的特征属性{hk}的条件概率密度表示为:

然后定义联合概率分布和条件概率分布保持一致:

关于(x,y,z)的边缘概率分布可以重新定义:

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1