一种数据转换方法、装置及数据处理系统与流程

文档序号:32944794发布日期:2023-01-14 10:17阅读:37来源:国知局
一种数据转换方法、装置及数据处理系统与流程

1.本发明属于数据转换技术领域,具体涉及一种数据转换方法、装置及数据处理系统。


背景技术:

2.数据转换是将数据从一种形式转换为另一种形式的过程。目前,越来越多的领域需要进行数据转换。随着科学技术的飞速发展和大数据时代的到来,数据规模和复杂性逐渐增加,数据维数通常可达到成百上千维,甚至更多。为了去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,对高维数据进行降维处理也更加必要。
3.数据降维是通过某种映射关系,将数据集从高维空间映射到低维空间,提取高维数据的主要特征,从而实现维度简化。可以说,对高维数据进行降维处理是大数据分析与挖掘的基础与前提。因此,如何对数据进行降维处理,以实现维度简化,去除高维度数据中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,成为本领域技术人员关注的热点。


技术实现要素:

4.为了解决现有技术中存在的上述问题,本发明提出一种数据转换方法、装置及数据处理系统。
5.为了实现上述目的,本发明采用以下技术方案。
6.第一方面,本发明提供一种数据转换方法,包括以下步骤:
7.将待转换高维空间数据集a={xi}建模为高斯分布,将转换后的低维空间数据集b={yi}建模为t分布,yi为xi转换后的数据,i=1,2,

,m,m为a、b中的数据个数;
8.计算a中任意两个高维空间数据xi、xj的欧氏距离r(xi,xj),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;
9.利用加权后的欧氏距离计算高维空间数据xi、xj的联合分布p
ij
,进而得到低维空间数据yi、yj的联合分布q
ij

10.构建目标优化函数,利用梯度下降法求解低维空间数据yi、yj的最优解,从而将高维空间数据集a转换为低维空间数据集b。
11.进一步地,所述两个高维空间数据xi、xj的欧氏距离为:
[0012][0013]
式中,x
in
、x
jn
分别xi、xj的第n维分量,n=1,2,

,n,n为高维数据的维度。
[0014]
更进一步地,所述加权系数的设定方法包括:
[0015]
将所有欧氏距离r(xi,xj)按照从小到大的顺序排序;
[0016]
将排序后的欧氏距离r(xi,xj)按照从前到后的顺序分成k组,依次为第1组、第2
组、

、第k组;
[0017]
为每组的欧氏距离设置一个加权系数ak,且a1《a2《

《ak。
[0018]
更进一步地,所述两个高维空间数据xi、xj的联合分布p
ij
为:
[0019][0020][0021][0022]
式中,p
j︱i
、p
i︱j
为xi、xj的相似性条件概率;k1为第k组的第1个欧氏距离对应的xi的下标i,s-k为第k组的欧氏距离rk(xi,xm)的数量。
[0023]
更进一步地,两个低维空间数据yi、yj的联合分布q
ij
为:
[0024][0025]
式中,r(yi,yj)为yi、yj的欧氏距离。
[0026]
更进一步地,所述目标优化函数m为:
[0027][0028]
式中,kl为k-l散度。
[0029]
更进一步地,所述方法在计算r(xi,xj)之后还包括按下式对r(xi,xj)进行归一化的步骤:
[0030][0031]
式中,为r(xi,xj)的归一化值,r
min
、r
max
分别为r(xi,xj)的最小值和最大值。
[0032]
更进一步地,所述低维空间数据的维度为2。
[0033]
第二方面,本发明提供一种数据转换装置,包括:
[0034]
数据分布设置模块,用于将待转换高维空间数据集a={xi}建模为高斯分布,将转换后的低维空间数据集b={yi}建模为t分布,yi为xi转换后的数据,i=1,2,

,m,m为a、b中的数据个数;
[0035]
欧氏距离加权模块,用于计算a中任意两个高维空间数据xi、xj的欧氏距离r(xi,xj),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;
[0036]
概率分布计算模块,用于利用加权后的欧氏距离计算高维空间数据xi、xj的联合分
布p
ij
,进而得到低维空间数据yi、yj的联合分布q
ij

[0037]
低维空间求解模块,用于构建目标优化函数,利用梯度下降法求解低维空间数据yi、yj的最优解,从而将高维空间数据集a转换为低维空间数据集b。
[0038]
进一步地,所述两个高维空间数据xi、xj的欧氏距离为:
[0039][0040]
式中,x
in
、x
jn
分别xi、xj的第n维分量,n=1,2,

,n,n为高维数据的维度。
[0041]
第三方面,本发明提供一种数据处理系统,包括第二方面任一实施例所述的装置。
[0042]
与现有技术相比,本发明具有以下有益效果。
[0043]
本发明通过将待转换高维空间数据集a={xi}建模为高斯分布,将转换后的低维空间数据集b={yi}建模为t分布,计算a中任意两个高维空间数据xi、xj的欧氏距离r(xi,xj),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小,利用加权后的欧氏距离计算高维空间数据xi、xj的联合分布p
ij
,进而得到低维空间数据yi、yj的联合分布q
ij
,构建目标优化函数,利用梯度下降法求解低维空间数据yi、yj的最优解,从而将高维空间数据集a转换为低维空间数据集b,实现了对高维数据的降维转换。本发明通过对欧氏距离进行加权,且欧氏距离越小加权系数越小,使高相似程度的样本数据的相似程度变得更高,低相似程度的样本数据的相似程度变得更低,从而使降维后的低维样本能够更好地反映高维空间内样本的空间分布情况。
附图说明
[0044]
图1为本发明实施例一种数据处理方法的流程图。
[0045]
图2为高斯分布示意图。
[0046]
图3为t-分布单条曲线示意图。
[0047]
图4为本发明实施例一种数据处理装置的方框图。
具体实施方式
[0048]
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
图1为本发明实施例一种数据转换方法的流程图,包括以下步骤:
[0050]
步骤101,将待转换高维空间数据集a={xi}建模为高斯分布,将转换后的低维空间数据集b={yi}建模为t分布,yi为xi转换后的数据,i=1,2,

,m,m为a、b中的数据个数;
[0051]
步骤102,计算a中任意两个高维空间数据xi、xj的欧氏距离r(xi,xj),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;
[0052]
步骤103,利用加权后的欧氏距离计算高维空间数据xi、xj的联合分布p
ij
,进而得到低维空间数据yi、yj的联合分布q
ij

[0053]
步骤104,构建目标优化函数,利用梯度下降法求解低维空间数据yi、yj的最优解,从而将高维空间数据集a转换为低维空间数据集b。
[0054]
为了更好地理解本实施例的技术方案,在介绍本实施例技术方案之前先介绍一下技术原理。本实施例的数据转换是一种降维处理,也就是将高维空间数据集a转换为低维空间数据集b。本实施例先对待转换的对高维空间数据和转换后的低维空间数据的分布进行建模。在原始高维数据空间中,将高维空间建模为高斯分布;而在低维输出空间中,可以将其建模为t分布。然后求解将高维空间映射到低维空间的变换,并且最小化所有点在这两个分布之间的差距。现有技术的求解方法一般包括以下步骤:先计算出两个数据样本在高维空间中的高斯核函数(即欧氏距离的负指数函数),再根据高维空间中的高斯核函数进行高维相似性度量,高维相似性主要由高维空间内的任意两点之间的条件概率计算其高维空间的联合概率。再通过随机选取低维空间内的样本点,计算低维空间联合概率,进行高维低维联合概率的一一匹配,衡量高低维之间的相似性程度,采用梯度下降法进行寻优计算。现有方法存在的问题是,基于欧氏距离计算高维空间内的任意两点之间的条件概率时,对不同大小的欧氏距离没有进行区分对待,使降维后的低维样本不能很好地反映高维空间内样本的空间分布情况。
[0055]
本实施例中,步骤101主要用于对待转换高维空间数据和转换后的低维空间数据进行数据分布建模。本实施例将高维空间数据建模为高斯分布,将转换后的低维空间数据建模为t分布。高斯分布即正态分布,若随机变量x服从一个总体均值为μ、标准差为σ的概率分布,且其概率密度函数为:
[0056][0057]
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布或高斯分布,记作x~n(μ,σ2)。高斯分布曲线如图2所示。t分布是通过对高斯分布进行变换得到的,是一簇以0为中心左右对称的单峰曲线,其单条曲线如图3所示。与高斯分布相比,t分布有较长的尾部,这有助于数据点在低维空间中更均匀地分布。
[0058]
步骤102主要用于计算任意两个高维空间数据的欧氏距离,并对每个欧氏距离进行加权。常用的距离有欧式距离、马氏距离、曼哈顿距离和汉明距离。欧氏距离又是最常用的一种距离种类,又称为欧几里得度量(euclidean metric),通常在二维平面或者三维空间中两点间的直线距离就是欧氏距离。两个数据之的欧氏距离用于表示它的们相似程度,所述欧氏距离越小,相似程度越高。本实施例通过给较小的欧氏距离(数据相似程度较高)设置一个较小的加权系数,使较小的欧氏距离加权后变得更小,可使较高相似程度的样本数据的相似程度变得更高,同理可使较低相似程度的样本数据的相似程度变得更低,从而使降维后的低维样本能够更好地反映高维空间内样本的空间分布情况。
[0059]
本实施例中,步骤103主要用于计算高、低维空间数据的联合分布。本实施例利用加权后的欧氏距离基于高斯核函数计算任意两个数据点之间的条件概率,进而得到高维空间的联合概率,最后基于t分布得到低维空间的联合概率。后面的实施例将给出联合概率分布具体的计算方法。
[0060]
本实施例中,步骤104主要用于通过求解低维空间数据的最优解得到降维后的数据。本实施例先构建目标优化函数,优化目标是使所有数据点的高维分布和低维分布的差距最小;然后采用梯度下降法来求输入数据对应的低维表达式,通过迭代后求出降维后的最优解。梯度下降法是通过在函数当前点对应梯度(或者是近似梯度)的反方向按照规定步
长距离点进行迭代搜索,找到一个函数的局部极小值。梯度下降法是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数即无约束优化问题时,梯度下降法是最常采用的方法。
[0061]
本实施例通过对欧氏距离进行加权,且欧氏距离越小加权系数越小,使高相似程度的样本数据的相似程度变得更高,使低相似程度的样本数据的相似程度变得更低,从而降维后的低维样本能够更好地反映高维空间内样本的空间分布情况。
[0062]
作为一可选实施例,所述两个高维空间数据xi、xj的欧氏距离为:
[0063][0064]
式中,x
in
、x
jn
分别xi、xj的第n维分量,n=1,2,

,n,n为高维数据的维度。
[0065]
本实施例给出了计算两个高维空间数据欧氏距离的计算公式。上式中,n为高维数据的维度,当n=2时,上式即是平面上任意两点之间的距离公式;当n=3时,上式变成了三维空间内任意两点之间的距离公式。
[0066]
作为一可选实施例,所述加权系数的设定方法包括:
[0067]
将所有欧氏距离r(xi,xj)按照从小到大的顺序排序;
[0068]
将排序后的欧氏距离r(xi,xj)按照从前到后的顺序分成k组,依次为第1组、第2组、

、第k组;
[0069]
为每组的欧氏距离设置一个加权系数ak,且a1《a2《

《ak。
[0070]
本实施例给出了为每个欧氏距离设置加权系数的一种技术方案。如前述,加权系数的设置原则是欧氏距离越小加权系数也越小。由于欧氏距离的数量很大,为了简便,将所有欧氏距离按照从小到大的顺序排序后分成k组,每组的欧氏距离设置一个相同的加权系数,且排在前面的组的欧氏距离的加权系数小于排在后面的组的欧氏距离的加权系数。例如,当k=3时,可取a1=0.5,a2=1,a3=2,也就是将高维空间数据分为强相似、一般相似和弱相似3个档次,加权后使强相似的数据的欧氏距离缩小一半,相似程度更强;一般相似的数据的欧氏距离保持不变,相似程度不变;弱相似的数据的欧氏距离扩大一倍,相似程度更弱。最简单的分组方法是等分或均分法,使每组欧氏距离的数量相等;当然也可以采用非等分法。
[0071]
作为一可选实施例,所述两个高维空间数据xi、xj的联合分布p
ij
为:
[0072][0073][0074][0075]
式中,p
j︱i
、p
i︱j
为xi、xj的相似性条件概率;k1为第k组的第1个欧氏距离对应的xi的下标i,s-k为第k组的欧氏距离rk(xi,xm)的数量。
[0076]
本实施例给出了计算高维空间任意两个数据xi、xj联合分布的公式。上面的公式可根据概率学原理得到,也可参考t-sne算法,这里不再给出详细推导过程。所不同的是,两个条件概率中的欧氏距离进行了加权。
[0077]
作为一可选实施例,两个低维空间数据yi、yj的联合分布q
ij
为:
[0078][0079]
式中,r(yi,yj)为yi、yj的欧氏距离。
[0080]
本实施例给出了低维空间任意两个数据yi、yj的联合分布的计算公式。该公式的推导可参考t-sne算法,这里不再展开详细说明。
[0081]
作为一可选实施例,所述目标优化函数m为:
[0082][0083]
式中,kl为k-l散度。
[0084]
本实施例给出了目标优化函数的表达式。本实施例的目标优化函数采用kl散度(kullback-leiblerdivergence)。kl散度又称为相对熵(relative entropy)或信息散度(information divergence),是两个概率分布间差异的非对称性度量。在信息理论中,kl散度等价于两个概率分布的信息熵(shannon entropy)的差值。上式是用对数表示的信息熵差值——分式的对数等于分子的对数与分母的对数的差。
[0085]
作为一可选实施例,所述方法在计算r(xi,xj)之后还包括按下式对r(xi,xj)进行归一化的步骤:
[0086][0087]
式中,为r(xi,xj)的归一化值,r
min
、r
max
分别为r(xi,xj)的最小值和最大值。
[0088]
本实施例给出了对欧氏距离进行归于化处理的一种技术方案。由于欧氏距离的大小相差很大,如果不进行归一化处理,将不便于加权系数的分配。因此,在计算完任意两点之的欧氏距离后,要先对其进行归一化处理,然后再进行后续步骤。根据上面的归一化公式,当r(xi,xj)=r
min
时,当r(xi,xj)=r
max
时,也就是说,r(xi,xj)经归一化处理后其值被限定在0和1之间。
[0089]
作为一可选实施例,所述低维空间数据的维度为2。
[0090]
本实施例对低维空间数据的维度进行了限定。本实施例的低维空间数据的维度为2,即将高维空间数据转换为二维数据。而二维数据不仅便于进行数据处理,还可以非常方便地进行可视化显示。
[0091]
图4为本发明实施例一种数据转换装置的组成示意图,所述装置包括:
[0092]
数据分布设置模块11,用于将待转换高维空间数据集a={xi}建模为高斯分布,将转换后的低维空间数据集b={yi}建模为t分布,yi为xi转换后的数据,i=1,2,

,m,m为a、b
中的数据个数;
[0093]
欧氏距离加权模块12,用于计算a中任意两个高维空间数据xi、xj的欧氏距离r(xi,xj),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;
[0094]
概率分布计算模块13,用于利用加权后的欧氏距离计算高维空间数据xi、xj的联合分布p
ij
,进而得到低维空间数据yi、yj的联合分布q
ij

[0095]
低维空间求解模块14,用于构建目标优化函数,利用梯度下降法求解低维空间数据yi、yj的最优解,从而将高维空间数据集a转换为低维空间数据集b。
[0096]
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
[0097]
本发明实施例还提供一种数据处理系统,所述数据处理系统包括上述任一装置实施例的所述装置。
[0098]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1