一种基于奇异值选择的集成学习器的制作方法

文档序号:12272337阅读:412来源:国知局

本发明涉及机器学习和图像处理技术领域,特别涉及以二维及以上的张量数据为输入样本的分类方法,可用于目标检测、模式识别、行为识别。



背景技术:

随着互联网和计算机技术迅猛发展,人类在短短几十年内面临的信息量堪比人类以往所有时代信息量的总和。数据的不断发展给人类的工作、生活和思维带来了重大变革,数据的发展主要体现在两个方面:一是数据的规模越来越大;二是数据的结构越来越复杂,相比于传统的纸张文字信息,网页、黑白图像、彩色图像、医学图像、卫星遥感图像、视频等各种各样的信息格式不能用简单的向量等结构表示,需要更多的维度去表示数据对象的特征,因而导致了数据维数等信息量的增加。因此,可以说,“大数据”是信息时代的主题词。

不同的分类算法可能得到不同的分类性能,但没有一种分类算法能对所有的应用都取得很好的结果。关于分类器的设计,到目前为止,各种各样的分类方法已被数据挖掘、机器学习、统计学、模式识别和神经生物学方面的研究者提出,如专家系统、关联规则、决策树、贝叶斯分类器、支持向量机、神经网络、遗传算法等,这些方法已经被运用到了不同领域,为科研事业的发展做出了贡献。

虽然已经提出的分类方法在某些领域获得了一定的成功,然而在提到的大多数学习方法中,数据一般采用向量模式表示,为了使得基于向量模式下的学习算法能够对二维及以上的张量数据进行学习,通常需要先将张量模式的数据进行向量化展开,然后再用传统的学习算法进行学习。以黑白图像为例,简单通过对图像进行拉伸,转化为向量模式进行处理,忽略原始图像中像素之间的相对位置等数据固有的结构信息,会破坏原始数据的时空结构,丢失数据结构之间的相关信息。如果原始数据的规模较大,处理为向量模式会导致维数增多,有可能会导致“维数灾难”或“小样本高维数”问题,从而使得到的分类器效果不佳。

因此,针对以上问题,有必要提供一种2D SVM集成学习,既能不打破原有数据的时空结构,又能利用集成学习的优点,提升分类器的精度。



技术实现要素:

为了克服现有技术的上述缺点,本发明提供了一种基于奇异值选择的集成学习器,通过对样本的部分奇异值进行随机选取,从而提高了各基分类器间的多样性,获得了泛化能力强的集成效果。

本发明解决其技术问题所采用的技术方案是:一种基于奇异值选择的集成学习器,包括如下步骤:

步骤一、对训练样本集进行归一化预处理;

步骤二、从归一化预处理后的训练样本集中采用Bootstrap随机抽样方法有放回地抽样,产生M个新的样本集;

步骤三、对M个新的样本集中的每个样本进行部分SVD分解,得到每个样本相应的奇异值和左右奇异向量;

步骤四、每次随机抽取k个奇异值及其相应的左右奇异向量,生成2D SVM基学习器,分别对M个新的样本集进行训练,得到M个2D SVM基分类器;

步骤五、根据相对多数投票准则合并基分类器得到集成学习器,用得到的集成学习器对待分类样本进行分类识别。

与现有技术相比,本发明的积极效果是:

(1)本发明解决了现有的分类器对矩阵对象(如图像,EEG等)数据拉伸为高维向量带来的运算量庞大和维灾难以及数据的结构信息丢失和内在相关性破坏等问题。

(2)本发明通过样本的部分奇异值分解,在得到的奇异值和奇异向量中随机选取一定数量的奇异值和奇异向量,在某种程度上对样本进行了压缩降噪。

(3)本发明通过奇异值选择构造了多样性较大的基分类器,从而产生了泛化能力强的集成。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1为本发明的流程示意图。

具体实施方式

一种基于奇异值选择的集成学习器,如图1所示,包括以下步骤:

步骤一、对训练样本集进行归一化预处理得到

对训练样本集进行归一化预处理的方法采用0-1标准化,是对原始样本数据的线性变换,使结果落到[0,1]区间,转换函数如下:

其中,Xi,Xi'∈Rp×q是第i个样本,yi∈Y,Y={C1,C2,…,CN}是样本Xi,Xi'对应的类标签,可以看出样本Xi,Xi'是以二维矩阵的形式表示的;max(Xi)表示取训练样本Xi中元素的最大值,min(Xi)表示取训练样本Xi中元素的最小值,repmat{min(Xi)}∈Rp×q表示样本最小值矩阵,矩阵中的元素都为min(Xi);最后用所有预处理后的训练样本Xi'及其标签yi构成预处理后的训练样本集

步骤二、从归一化后的训练样本集中采用Bootstrap随机抽样方法有放回地抽样,最终产生M个新的样本集

对训练样本集进行有放回地均匀随机抽样,得到和原样本集同样大小的新样本集。由于是有放回地均匀抽样,所以样本一次没有被选中的概率可以表示为,当n→∞时,p≈0.368,因此,每个基学习器只使用了初始训练集中约63.2%的样本,可以利用剩下约36.8%的样本作验证集来对学习器的泛化性能进行“包外估计”(OOB),这已经被经过证明是无偏估计的,所以在集成学习算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

步骤三、对样本集中的每个样本进行部分SVD分解,得到每个样本相应的奇异值和左右奇异向量:

(1)先对样本Xi进行SVD全分解,分解形式为:Xi=UΣVT,其中Xi∈Rp×q是一个二维的矩阵,U∈Rp×p是Xi的左奇异向量组成的矩阵,Σ∈Rp×q是Xi的奇异值组成的对角矩阵,VT∈Rq×q是Xi的右奇异向量组成的矩阵;

(2)大多数情况下,矩阵较大的部分奇异值就可以很好的表示矩阵的基本信息,用前r大的奇异值(即前r个较大的奇异值)来近似描述样本Xi,这样就对矩阵进行了某种程度上的信息压缩,部分奇异值分解形式如下:

其中σip,μip,vip为Xi的第p个奇异值及其对应的左右奇异向量。

步骤四、每次随机抽取k个奇异值及其相应的左右奇异向量,生成2D SVM基学习器:

4.1对于二分类问题

给定一个训练数据集其中Xi∈Rp×q是第i个输入样本,yi∈{-1,1}是样本Xi对应的类标签,可以看出输入样本Xi是以矩阵的形式表示的。

4.1.1 2D SVM支持向量机定义如下:

s.t.yi(<W,Xi>+b)≥1-ξi,i=1,…,n (4)

ξi≥0,i=1,…,n (5)

其中,W为法矩阵决定了分类超平面的方向,b为位移项。

4.1.2通过拉格朗日乘子法可得到式(3)-(5)的拉格朗日函数如下:

其中αi≥0,βi≥0是拉格朗日乘子。

令L(W,b,α,β,ξ)对W,b,ξi的偏导数为零可得:

C=αii,i=1,…,n (9)

将式(7)-(9)代入式(4)即可得到式(3)-(5)的对偶问题如下:

0≤αi≤C,i=1,…,n (12)

其中,<Xi,Xj>是Xi与Xj的内积。

4.1.3当输入样本Xi是向量的形式时,则优化模型(3)-(5)退化为标准的支持向量机。如果我们采用输入样本的原始形式来计算<Xi,Xj>,则(3)-(5)的最优解和线性支持向量机的解一样。由于“维度灾难”和小样本问题,支持向量机不能有效的处理矩阵样本问题,则优化模型(3)-(5)也会遇到同样的问题。确切的说,优化模型(3)-(5)的对偶形式仅依赖于样本数据之间的内积,而(10)中的<Xi,Xj>内积运算没有很好的利用样本数据的结构信息。

考虑到矩阵的SVD分解能够更好地体现矩阵数据的结构信息和内在相关性,利用矩阵的SVD分解来代替原始矩阵输入,从而改进矩阵内积的计算.这样做的好处是:一方面可以提高学习机的识别能力;另一方面可以加快学习机的学习速度。

4.1.4根据步骤三中对样本进行部分SVD分解得到每个样本的r个奇异值和相应的左右奇异向量,从中随机选取k个奇异值及其相应的左右奇异向量,分别为和则矩阵Xi和Xj的内积计算如下:

把(13)代入(10)中,得:

0≤αi≤C,i=1,…,n (16)

由(7)可以看出,分类超平面的权重矩阵W可以表示为训练样本在二维空间上线性组合,优化模型(14)-(16)为2D-SVM,2D-SVM可以看出是线性支持向量机在二维矩阵上的扩展,因此可以用SMO算法对优化模型(14)-(16)进行求解。

基学习器2D SVM分类器f(X)分类决策函数为:

其中σip、σq、uip、uq、vip和vq分别为Xi和X的奇异值以及对应的左奇异向量和右奇异向量。

4.2对于2D SVM多分类问题

采用“一对一”(OvO)的策略,具体如下:

给定数据集yi∈{C1,C2,…,CN},OvO将这N个类别两两配对,从而产生N(N-1)/2个二分类任务,例如OvO将为区分类别Ci和Cj训练一个分类器,该分类器把Dt中的Ci类样例作为正例,Cj类样例作为反例。在测试阶段,新样本将同时提交给所有分类器,于是将得到N(N-1)/2个分类结果,最终结果可通过投票产生:即把被预测的最多的类别作为最终分类结果。

以上是对2D SVM的说明,类似支持向量机(SVM)的定义和推导说明。

<Xi,Xj>这里处理数据维度不同,SVM处理的是向量样本的内积,而本发明提出的2D SVM可以处理矩阵(如图片像素组成的矩阵)样本的内积。

但是不能直接对两个矩阵进行内积,所以进行内积之前,先对矩阵进行SVD分解(对前R大的一部分奇异值进行随机选择,类似随机森林是为了得到多样性好的基分类器),然后用所选的奇异值和奇异向量来代替原矩阵进行内积,这样,1.可以避免矩阵拉成向量造成的结构破坏(如:图片中两像素原来是上下关系,拉成向量后位置关系破坏了)2.可以加快内积的运算速度。

最后,基于步骤二中的Bootstrap随机抽样方法得到M个新的样本集对每个样本集采用以上的训练方法,最终得到M个2D SVM基分类器{h1,h2,…,hM}。

步骤五、根据相对多数投票准则合并基分类器得到集成学习器:

该步骤中,合并基分类器得到一个更强的分类器--集成学习器:

采用相对多数投票准则合并基分类器,组合方式的数学表达如下:

最后,用得到的集成学习器对待分类样本进行分类识别。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1