采用最小最大概率机的分离概率的有监督线性降维方法与流程

文档序号:15999198发布日期:2018-11-20 19:14阅读:183来源:国知局

本发明属于计算机机器学习和统计学习技术领域,特别涉及一种采用最小最大概率机的分离概率的有监督线性降维方法。



背景技术:

在机器学习和度量学习领域中,降维方法的作用是非常重要的。降维方法可以将高维的数据映射到一个低维的子空间中,同时尽可能地保留了样本之间(非监督学习)或者类别之间(有监督学习)的分离信息。它经常用作数据的预处理,以提高后续的数据分析的效果,如分类器、数据可视化和回归等。

线性判别分析(LDA)是经典的基于有监督距离度量的特征提取和降维方法。LDA起初由Fisher等提出用于二分类问题中,然后被Rao等扩展到了多类问题。它通过最大化总类间离散度同时最小化总类内离散度,来得到一个最优的投影矩阵。在过去的几十年内,有许多研究人员对LDA进行了改进,来提高它在一些特定数据集上的准确度,比如使用罚函数、递归线性判别、判别学习分析等方法。但是这些降维方法一般是从全局角度上分析了所有不同类的离散度,并没有分别考虑每一个类别对的情况。当应用到多类问题的场景中时,有一些类别对可能会处理的不合适。比如,LDA虽然可以用到多类问题的降维场景中,但是有一个内在的缺点:它求得投影矩阵依赖的是总类内离散度和总类间离散度,其进行距离度量的形式,我们称之为“平方和”形式。LDA的目标函数将所有的平方形式的类间距离和类内距离分别直接相加,其平方函数曲线的性质可能会导致对一些需要重点优化的类别对的忽视,反而去优化已经足够容易相互分离的类别对。比如将LDA应用到不同的类间距的值相差很大的情景时,就会出现不理想的结果。

为了克服此形式带来的缺点,近些年来出现了许多改进LDA应用于多类中的效果的降维方法。这些改进方法通常会有一个共同的特点,即考虑了“成对”的场景,如样本对或类别对等,来克服上述问题。考虑“成对”情况的优势在于,能够针对不同的样本对或类别对,有针对性地做出不同的处理,使得降维方法的结果既能够获得全局的高分离度,也能够达到某些局部的高分离度。这样会使得某些效果不好的状况得到更深层次的优化。但是,这些方法虽然在一定程度上克服了LDA的多类场景下的不足之处,但是通常是启发式的,它们的目标函数缺乏一个准确的实际意义。



技术实现要素:

本发明的目的是为克服已有技术的不足之处,提出一种采用最小最大概率机的分离概率的有监督线性降维方法。本发明首次实现了使用样本间的分离概率作为类别之间距离度量,,能够提高数据的可区分度以及后续分类的准确性和效率,在多类降维问题上能够达到很好的应用效果。

本发明提出一种采用最小最大概率机的分离概率的有监督线性降维方法,其特征在于,该方法包括以下步骤:

1)建立采用最小最大概率机的分离概率的有监督线性降维DR-MPM模型;

令模型的输入为样本集样本集中第i个个样本xi对应的类别标签记为ci,i=1,2,...,n,样本集的类别总数为K,模型的输出为投影矩阵wi为构成投影矩阵的第i个投影向量;其中,n为输入的样本集中的样本序号,d为样本原始维数,p为目标维数,p<d,R表示实数集;

2)对p的取值进行判定:若p=1,则为单一投影向量目标,进入步骤3);若p>1,则为多个投影向量目标,进入步骤4);

3)单一投影向量目标下的降维方法;具体步骤如下:

3-1)确定单一投影向量目标下DR-MPM模型的目标函数;

当p=1时,投影矩阵W变为一个投影向量记为w;则DR-MPM模型为一个无约束的最大化最优问题,模型的目标函数如式(1)所示:

其中,

式中,为第i类样本的集合,为第k类样本的集合,1≤k≤K,∑ij为第i类样本和第j类样本的类间离散度,∑i为第i类样本的类内离散度,为第k类样本的均值;

3-2)对DR-MPM模型求解;

将目标函数式(1)等价为最小化以下目标函数:

式(5)所示的目标函数为一个无约束的最小化非凸问题,采用共轭梯度法对式(5)进行优化求解,具体步骤如下:

3-2-1)设定迭代序号t=0,允许误差ε>0,将投影向量w初始化为一个随机的d×1向量w(0)

3-2-2)计算目标函数式(5)在w(t)上的导数:

其中,

则共轭方向计算如下:

其中,

3-2-3)更新投影向量w;

w(t+1)=w(t)(t)d(k) (10)

其中,α(t)由线性搜索得到,使得f(w(t)(t)d(t))=minαf(w(t)+αd(t));

3-2-4)判定:若达到收敛条件,即||d(t)||<ε或‖w(t+1)-w(t)‖<ε时,则迭代终止,得到DR-MPM模型的最优解为w*=w(t+1),降维完毕;否则,设定t:=t+1,重新返回至步骤3-2-2),继续迭代;

4)多个投影向量目标下的降维方法;具体步骤如下:

4-1)确定多个投影向量目标下DR-MPM模型的目标函数;

当p>1时,构成投影矩阵的每一个投影向量的目标函数与式(1)相同;对于该投影矩阵,增加约束:WTStW=I,即:

其中St=Sw+Sb,且:

其中,对于投影矩阵中第一个投影向量,即投影矩阵的第一列,通过重复步骤3)计算单一投影向量目标下模型的最优解进行获取,然后,利用求解得到第一个投影向量,求得下一个新的投影向量;当已经求解前r个投影向量w1,w2,...,wr之后,r<p,第r+1个投影向量wr+1存在于由矩阵的列向量线性扩张的子空间中,即:

其中,

Wr=(w1,w2,...,wr)

因此,存在一个向量vr,满足:

wr+1=Arvr (14)

将式(14)带入到目标函数式(1)中,得到无约束优化问题如式(15)所示:

其中,

对式(15)求解,得到wr+1;

对wr+1进行归一化:

则由前r个投影向量求得了第r+1个投影向量;

令Wr+1=(Wr,wr+1),继续迭代,直至得到所有p个投影向量,则最终求解得到的投影矩阵为:

W*=Wp

降维完毕。

本发明的特点及有益效果在于:

本发明可以应用于故障诊断、医学图像识别、人工智能等领域的数据降维和分类任务,能够提高数据的可区分度以及后续分类的准确性和效率。

本发明既考虑了成对类别的情况,其优化目标又具有一个准确的实际意义,即分类正确率的最大化。本发明能够将复杂高维的源数据进行有效地降维,提取出样本中最关键的特征,剔除掉冗余特征,进而提高后续的分类、聚类、回归预测等过程的准确度和效率。

本发明使用两类之间的分离概率作为类别之间的距离度量,并使用了共轭梯度法进行优化,且无需对数据分布提前做出假设,适用性广,并且具有较强的鲁棒性,效果更优。

(1)DR-MPM的目标函数会试图寻找到一个投影向量,使得在新的投影子空间中,保证每一个类别对都尽量具有最大的分离概率。并且,由于方法优化的是每一个类别对的分类正确率,因此目标函数的最大值直接对应了后续分类方法(1对1)的分类正确率的最大值,具有直接的实际意义。

(2)本发明方法能够更加注重优化分离度较小的类别对,方法质量高。

附图说明

图1是本发明实施例中采用DR-MPM方法与传统LDA方法的目标函数曲线对比示意图。

图2是本发明实施例中DR-MPM方法与传统LDA方法应用到三个真实的公共数据集USPS、PIE和COIL20上的降维结果示意图。

图3是本发明实施例中DR-MPM方法和当前主流的降维方法法应用到两个真实的公共数据集CIOL20、YaleB上的结果比较示意图。

图4是本发明实施例中DR-MPM方法和当前主流的降维方法应用到“蛟龙号”故障诊断上的结果示意图。

具体实施方式

本发明提出的一种采用最小最大概率机的分离概率的有监督线性降维方法,下面结合附图和具体实施例进一步进行详细说明。

本发明提出的一种采用最小最大概率机的分离概率的有监督线性降维方法,以下简称为DR-MPM,分为单一投影向量目标和多个投影向量目标两种情况(当降维到1维时,属于单一投影向量目标;当降维到多维时,属于多个投影向量目标),该方法包括以下步骤:

1)建立DR-MPM模型;

令模型的输入为样本集样本集中第i个样本xi对应的类别标签记为ci,i=1,2,...,n,样本集的类别总数为K,其中每一个类别可能包含多个样本,也就是说所有样本对应的类别标签中可能存在重复的类别标签;模型的输出为投影矩阵wi为构成投影矩阵的第i个投影向量。其中,n为输入的样本集中的样本序号(n>1),d为样本原始维数,p为所要降到的目标维数(p<d),R表示实数集。xi为第i个样本,wi为构成投影矩阵的第i个投影向量。

本发明中,所有的矩阵都用大写字母表示,所有的向量都用小写字母表示;

2)对p的取值进行判定:若p=1,则为单一投影向量目标,进入步骤3);若p>1,则为多个投影向量目标,进入步骤4);

3)单一投影向量目标下的降维方法;具体步骤如下:

3-1)确定单一投影向量目标下DR-MPM模型的目标函数;

单一投影向量目标要求将输入样本集X降到1维,即p=1,因此投影矩阵W变为一个投影向量,记为w;

此时,DR-MPM模型是一个无约束的最大化最优问题,模型的目标函数如式(1)所示:

其中,

式中,为第i类样本的集合,为第k类样本的集合,1≤k≤K。∑ij为第i类样本和第j类样本的类间离散度,∑i为第i类样本的类内离散度,为第k类样本的均值。

3-2)对DR-MPM模型求解;

在求解式(1)优化问题之前,先将DR-MPM模型的目标函数式(1)等价为最小化以下目标函数:

式(5)所示的目标函数为一个无约束的最小化非凸问题,本发明使用经典的共轭梯度法来式(5)进行优化求解,具体步骤如下:

3-2-1)设定迭代序号t=0,允许误差ε>0,允许误差为接近0的小数,取值越小,最后结果越精确,本实施例取为0.01。将ω初始化为一个随机的d×1向量w(0),其中d为样本原始维数。

3-2-2)计算目标函数式(5)在w(t)这一点上的导数:

其中,

则共轭方向计算如下:

其中,

3-2-3)更新投影向量w;

w(t+1)=w(t)(t)d(k) (10)

其中α(t)由线性搜索得到,使得f(w(t)(t)d(t))=minαf(w(t)+αd(t));

3-2-4)判定:若达到收敛条件,即||d(t)||<ε或‖w(t+1)-w(t)‖<ε时,则迭代终止,得到DR-MPM模型的最优解为w*=w(t+1),降维完毕;否则,设定t:=t+1,重新返回至步骤3-2-2),继续迭代。

共轭梯度法会收敛到一个局部最优解。但是,这不是全局最优解,因此理论上来说,需要采用不同的初始值,来多次运行此方法,最终会得到一系列不同的局部最优解,然后选择对应目标函数值最小的那个局部最优解作为最终结果。

4)多个投影向量目标下的降维方法;具体步骤如下:

4-1)确定多个投影向量目标下DR-MPM模型的目标函数;

当所求投影向量为多个时,即p>1时,需要求出一个投影矩阵构成投影矩阵的每一个投影向量的目标函数与式(1)相同。对于该投影矩阵,需要施加一个约束:WTStW=I,即:

其中St=Sw+Sb,且:

其中,投影矩阵中第一个投影向量(投影矩阵的第一列)通过重复步骤3)计算单一投影向量目标下模型的最优解进行获取,然后,利用求解得到的第一个投影向量,求得下一个新的投影向量。当已经求解到了前r个(r<p)投影向量w1,w2,...,wr之后,第r+1个投影向量wr+1存在于由矩阵的列向量线性扩张的子空间中,即:

其中,

Wr=(w1,w2,...,wr)

因此,存在一个向量vr,满足:

wr+1=Arvr (14)

将式(14)带入到目标函数式(1)中,得到无约束优化问题如式(15)所示:

其中,

式(15)所示问题与式(1)的格式相同,因此可以使用相同的模式vr可以通过求解上述问题来得到,进而得到wr+1,最后将其归一化为:

如此,则由前r个投影向量求得了第r+1个投影向量。令Wr+1=(Wr,wr+1),继续迭代下去,直至所需的p个投影向量全部得到,则最终求解得到的投影矩阵为:

W*=Wp

降维完毕。

本发明的DR-MPM方法与传统LDA方法的目标函数曲线对比如图1所示;图1(a)为本发明的DR-MPM方法的目标函数曲线,图1(b)为传统LDA方法的目标函数曲线;图1(a)和图1(b)的横轴为两类之间的分离程度,纵轴为目标函数值。可以看出,LDA的目标函数斜率逐渐增大的性质,可能会导致对一些需要重点优化的类别对的忽视,反而去优化已经足够容易相互分离的类别对。相反,DR-MPM的目标函数会忽略那些分离概率已经足够大的类别对,并注重优化那些不容易区分的类别对,使其降维之后可以相互分离开。

如图2所示,是本发明的DR-MPM方法与传统LDA方法应用到三个真实的公共数据集USPS、PIE和COIL20上的降至2维的结果示意图。可以看出,LDA的降维结果,通常会有一些局部聚集着许多难以分离的类别,而DR-MPM则能够很好地将这些类别一一分离开来。因此,DR-MPM相对于LDA具有明显的优势。

如图3所示,是本发明的DR-MPM方法和当前主流的降维方法应用到两个真实的公共数据集CIOL20、YaleB上的结果比较示意图。横坐标为目标维数,纵坐标为降维之后使用最近邻分类器的分类正确率。可以看到,DR-MPM在大多数情况下其分类正确率是最大的,尤其是当目标维数很小的时候。随着目标维数的增大,DR-MPM的优势变得不是那么明显,但是仍然保持着高于其他方法或者持平的分类正确率。

本发明的一个实施例用在了对我国首台自主设计的作业型深海载人潜水器“蛟龙号”的故障诊断上。

样本数据为“蛟龙号”海试4天的综合数据,包含了氧气浓度过低故障、舱内压力过低故障、氧气浓度过高故障、备用蓄电池箱油位补偿故障、液压系统漏水故障、主蓄电池电压故障、作业系统接线箱泄露故障等7种故障类型以及正常数据,一共8种类别。

样本来源包括“推进器控制”,“数字量输出”,“多普勒计程仪”,“航行控制操纵盒”,“机械手”,“角速率陀螺”,“控制量”,“罗盘”,“倾角仪”,“深度计”,“生命支持系统”,“声学计算机”,“温盐深”,“液压系统”,“运动传感器”等来源,总特征数为384。

样本数据共有4个数据集,每个样本数据集的特征数为384,如表1所示:

表1本发明应用到“蛟龙号”故障诊断上的数据样本表

使用本发明方法以及其他主流方法对数据集进行降维和特征提取的结果如图4所示,横坐标为目标维数,纵坐标为降维之后使用最近邻分类器的分类正确率,分析如下:

(1)对于4个数据集,本发明的方法DR-MPM的正确率曲线,与其他当前主流的方法相比,通常会要高于它们或与他们持平。这说明了DR-MPM的降维结果,会使得不同类别之间更加容易分离开,从而使得其对后续分类问题的效果一般会优于其他的方法。尤其是当目标维数较小时,本发明方法的优势非常明显。

(2)降维的效果好坏,也在于是否在降低复杂度的同时,能够维持甚至超过对原始数据直接分类的正确率。通过比较降维前后的分类正确率,我们可以看出,当目标维数很低时(如p=1,2),本发明方法降维之后的分类正确率会略低于原始数据的分类正确率;但是随着目标维数的升高,其类正确率也随之升高,通常会达到与原始正确率持平的高度,甚至会高于原始正确率(如数据集2中p≥2的情况)。这说明了,本发明方法的降维过程,能够将数据集的重要信息提取出来,较少的特征数不会影响到后续分类的正确率,甚至可能会使得后续分类的正确率有所提高。

综上所述,对于“蛟龙号”故障诊断数据的应用方面,本发明方法的DR-MPM方法一般会比当前主流的降维方法的效果更好。数据降维之后,每个样本的特征数大大降低,这有利于后续分类方法速度的大幅度提高;同时,方法本发明方法也保证了保留数据的主要信息,过滤掉噪音信息,使得降维之后的分类正确率能够保持甚至高于原始数据的正确率。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1