一种基于低秩表示和流形正则化的零样本分类方法与流程

文档序号:16136834发布日期:2018-12-01 01:06阅读:443来源:国知局

本发明涉及样本分类技术领域,尤其涉及一种基于低秩表示和流形正则化的零样本分类方法。

背景技术

在大规模的分类问题中,缺乏足够的训练样本,或许多样本的标签信息丢失,在一定程度上限制了分类精度的提高。零样本分类是针对这一问题提出的一种有效的解决方法。

现有技术中通常假设样本数据都分布在低维的子空间中且具有低秩的结构。已有方法基于数据分布近似跨越多个低维子空间的假设,专注于寻找数据的低秩表示。它通过l1/l2范数处理离群点,并在一定的技术条件下精确的恢复了样本的子空间结构,同时检测出了离群点。然而当数据分布于联合非线性子空间时,这类方法无法精确地恢复数据的几何结构。在实际的应用中,人脸的面部图像就是位于非线性的流形结构中。

在样本去噪方面,现有技术通常假设样本数据严格分布在流形中,然而在实际应用中,样本数据往往都存在噪声。在这种情况下,一些方法通过惩罚流形中局部或全局的结构来处理噪声问题,然而这种过度的惩罚通常会降低分类器的泛化能力,导致了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的问题。



技术实现要素:

本发明提供了一种基于低秩表示和流形正则化的零样本分类方法,解决了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的技术问题。本发明提供的一种基于低秩表示和流形正则化的零样本分类方法,包括:

步骤1:计算可见类数据集中样本的视觉特征xs和语义表示as之间的映射关系f,即f:xs→as,其中可见类数据集为为可见类数据集中样本的视觉特征,p是样本视觉特征的维度,为可见类数据集中样本的语义表示,q是每个样本对应语义表示的维度,cs为可见类数据集样本的类别总数,m为可见类数据集的样本总数;

步骤2:利用映射关系f计算不可见类数据集中样本的语义表示au,其中不可见类数据集为为不可见类数据集中样本的视觉特征且cu为不可见类数据集样本的类别总数,n为不可见类数据集的样本总数,为计算得到的不可见类数据集xu的语义表示,

步骤3:计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示z;

步骤4:利用低秩表示z计算权重矩阵w和拉普拉斯矩阵l;

步骤5:引入流形正则化,去除不可见类数据集中的语义表示的噪声;

步骤6:利用去噪后的不可见类数据集中的语义表示,预测不可见类数据集中样本的标签,实现样本分类。

优选地,步骤3中计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示z的表达式为:

s.t.xu=xuz+e

z≥0

||z||0≤t

其中e为噪声,α为第一预置可调参数,β为第二预置可调参数,||·||*表示核范数,||·||1表示l1范数,tr(·)表示迹函数,z≥0保证了矩阵z的非负特性,‖z||0≤t保证了矩阵z的稀疏特性。

优选地,步骤5中引入流形正则化,去除不可见类数据集中的语义表示的噪声的公式为:

其中,i为单位矩阵,λ为第三预置可调参数,为去噪后不可见类数据集中的语义表示。

从以上发明内容可以看出,本发明具有以下优点:

本发明在样本数量少、样本标签信息丢失等情况下,通过低秩表示和流形正则化获取不可见类数据集上更准确的语义表示,增强对数据特征的描述能力,能够有效地提高零样本分类的精度,解决了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的问题。

附图说明

图1为本发明实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的流程示意图。

图2为本实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的部分分类结果示意图。

具体实施方式

attributepascalandyahoo(apy)数据集包含32个类别,其中20个类别是可见类,用于训练,12个类别是不可见类,用于测试。每个样本有64个属性信息。本实施例使用apy数据集对本发明提出的方法做示例性说明。为使得本发明的发明目的、特征、优点能够更加明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的方法进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1,本发明实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的一个实施例,包括:

步骤1:计算可见类数据集中样本的视觉特征xs和语义表示as之间的映射关系f,即f:xs→as,其中可见类数据集为为可见类数据集中样本的视觉特征,p是样本视觉特征的维度,为可见类数据集中样本的语义表示,q是每个样本对应语义表示的维度,cs为可见类数据集样本的类别总数,m为可见类数据集的样本总数;

步骤2:利用映射关系f计算不可见类数据集中样本的语义表示au,其中不可见类数据集为为不可见类数据集中样本的视觉特征且cu为不可见类数据集样本的类别总数,n为不可见类数据集的样本总数,为计算得到的不可见类数据集xu的语义表示,

步骤3:计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示z;

需要说明的是,为了更好地获取数据的局部结构,引入稀疏约束项,计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示z的表达式为:

s.t.xu=xuz+e

z≥0

||z||0≤t

其中e为噪声,α为第一预置可调参数,β为第二预置可调参数,‖·‖*表示核范数,||·||1表示l1范数,tr(·)表示迹函数,z≥0保证了矩阵z的非负特性,‖z‖0≤t保证了矩阵z的稀疏特性。

步骤4:利用低秩表示z计算权重矩阵w和拉普拉斯矩阵l;

需要说明的是,计算权重矩阵w的公式为:

计算拉普拉斯矩阵l的公式为:

l=d-w(3)

其中,d为n×n的度矩阵,即包含元素{d1,d2,d3,...,dn}的对角矩阵,其第k个对角元素dk表示无向权重图上与第k个顶点相连的所有边上的权重值之和;

步骤5:引入流形正则化,去除不可见类数据集中的语义表示的噪声;

需要说明的是,引入流形正则化,去除不可见类数据集中的语义表示的噪声的公式为:

其中,i为单位矩阵,λ为第三预置可调参数,为去噪后不可见类数据集中的语义表示。

步骤6:利用去噪后的不可见类数据集中的语义表示,预测不可见类数据集中样本的标签,实现样本分类,其公式为:

请参阅图2,图2为本实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的部分分类结果示意图。图中同一行的样本表示被分到同一类中,其中有错误符号×的样本为分类错误的样本,其他样本为分类正确的样本。

在本实施例中,数据集可选择apy数据集,实验平台可选择matlabr2017a,操作系统可选择windows10教育版,处理器可选择intel(r)core(tm)i7-6700kcpu@4.00ghz,内存可选择32.0gb。

本实施例的基于低秩表示和流形正则化的零样本分类方法,能够有效克服传统分类方法针对样本数量少、样本标签信息丢失等情况下分类精度低的局限性,获得不可见类数据集上更准确的语义表示,增强对数据特征的描述能力,能够有效地提高零样本分类的精度,解决了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的技术问题。

以上所述,以上实施例仅用以说明本发明的方法,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的方法进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应方法的本质脱离本发明方法的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1