一种使用空间稀疏编码的目标识别与角度粗估计算法

文档序号:10687612阅读:295来源:国知局
一种使用空间稀疏编码的目标识别与角度粗估计算法
【专利摘要】本发明提供一种使用空间稀疏编码的目标识别与角度粗估计算法,首先取不同目标的等间隔角度(15°)的图像作为训练集,获取并根据标准差筛选每个图像的空间碎片;继而对每幅独立的图像中的碎片,进行白化与PCA相结合的预处理;然后利用空间碎片分开训练每个目标的字典(子字典);去除每个子字典中无用的基之后,将子字典整体合并成一个大字典,使用此大字典重获训练集图像碎片的稀疏编码系数,并统计每幅图像内的碎片使用大字典中各个基的次数,以此作为各幅训练图像的特征向量;最后通过计算测试目标图像在大字典中的基的使用次数向量(特征向量)与训练集中各幅图像的特征向量的相关系数,实现目标分类与角度粗估计。
【专利说明】
一种使用空间稀疏编码的目标识别与角度粗估计算法
技术领域
[0001] 本发明涉及一种数字图像处理技术,尤其涉及一种使用空间稀疏编码的目标识别 与角度粗估计算法。
【背景技术】
[0002] 人眼在对物体进行识别分类的时候存在几种参量:颜色,形状,位置,姿态,光照条 件,观测点,干扰或者噪声分布等。大数据背景下,如何有效的抽象出这些参量已然成为目 标识别分类的首要问题,稀疏表达是当前应对这个问题较为有效的方法。
[0003]针对计算机视觉应用领域,传统方法有DCT,小波等,以上方法旨在利用大量图像 训练出一个过完备字典进而对目标图像进行稀疏编码。其得到的字典是预先设定好的,而 手动设定一个好的字典非常困难,此外其复杂度和几何特性在表征不同信号时变化很大, 考虑自适应得到字典的方法,PCA就是其中一个代表。PCA方法通过学习的方式,计算正交的 主方向,通过将原始信号表示在以主方向为基准的空间上使问题得到简化。但是PCA对字典 中的"基"要求较为苛刻,须其严格正交,限制了解决问题的灵活性,稀疏表达由此而来,稀 疏编码将原始信号表达为字典元素的一个线性组合。
[0004] 针对目标识别及分类问题多使用正交基,或者之间相关性很小的特征,其目的是 尽可能的减小整个算法系统的冗余性,因此分类器也多集中于SVM或者浅层神经网络。多伦 多大学教授通过研究深度学习网络,伴随着硬件处理器性能的飞跃,使得深度学习网络能 够突飞猛进,其中关键技术就是解决每层神经网络中的传递误差问题。后续学者发现如果 使用完备的特征或者欠完备的特征来训练网络,其隐层数量会被限制在一个很小的范围 内,同时准确率也无法达到要求,因此具有过完备基的稀疏编码被应用于深度学习的目标 分类中。
[0005] 如上所说,稀疏编码在目标识别与分类中多与神经网络联系在一起。两个近期文 献实现了使用稀疏编码对目标进行分类与人体步态识别,都是与神经网络并行使用的,然 而少有人只通过过完备基实现直接对目标进行分类。这样做的好处是,免去对深度神经网 络的训练过程,节约大量的运算时间,但是相应的需要对稀疏编码本身进行较大改进;一种 是针对过完备基的改进,由于基在客观上的过完备性,必将存在信息冗余,要使得其较好的 区分独立物体,困难较大;还有一种是由编码系数着手,过完备基其系数在编码后会有较高 的稀疏性,每种物体的系数稀疏性不同,所对应的稀疏表达也就不同,因此通过辨别系数的 稀疏分布可以达到分类的目的。

【发明内容】

[0006] 本发明的目的是为了提供一种使用空间稀疏编码的目标识别与角度粗估计算法, 将系数编码应用于提取目标独有的具有稀疏性的基,并使用这些独有的基构成的字典来稀 疏表示目标图像,进而实现目标分类及角度粗估计。
[0007] 本发明的目的是这样实现的:包括测试和训练两个阶段,具体其步骤是:
[0008] (1)训练阶段取不同目标的等间隔角度的图像作为训练集,并将训练集中的图像 十字等分成四个象限;
[0009] (2)在每个象限中提取相同数量标准差最大的图像碎片:在每个区域中选择1个 标准差最大的η X η的图像碎片,每幅图像选取m个η X η大小的图像碎片;
[0010] ⑶对训练集中每个目标的图像碎片分别进行白化与PCA相结合的预处理,得到图 像碎片数据集的矩卩
%每个图像碎片预处理后的数据向 量;
[0011] (4)通过对预处理后的碎片稀疏表示训练出属于每个目标的子字典:
[0012] (5)去除子字典中未用到的基函数,更新子字典;
[0013] (6)将每个目标的子字典合并构成一个大字典;
[0014] (7)利用大字典对训练图像碎片进行稀疏编码,同时获取训练集图像的特征向量: 利用得到的大字典对各训练图像碎片进行稀疏编码,求解大字典的系数;
[0015] (8)测试阶段首先重复步骤(1)到步骤(7);
[0016] (9)计算测试图像和训练集中相应图像四个象限的相关系数:
[0017] 对测试图像的特征向量与训练图像的特征向量做相关,一幅图像有对应四个象限 的四个特征向量,分别将这四个特征向量与训练图像集中的每幅图像的四个特征向量根据
-对应做相关,得到相关系数,其中:Xi与Yi分别表 示两个待比较向量,X表示向量Xi的均值,F表示向量Yi的均值;
[0018] (10)分别计算训练集中对应的每幅图像的相关系数均值,确定测试图像分类结 果:取训练集每幅图像四个相关系数的均值,所有平均相关系数中的最大值对应的训练样 本所属目标种类为测试图像分类结果;
[0019] (11)确定测试图像的角度估计范围:根据最大相关训练图像的已知角度,结合训 练图像集的图像角度间隔A ang,将测试图像的角度估计为在最大相关训练图像对应角度 的左右Aang范围中。
[0020] 本发明还包括这样一些结构特征:
[0021] 1.步骤(3)是依次进行PCA降维、白化、与PCA维数还原,免去对深度神经网络的训 练过程:
[0022] -、采用PCA降维,保留数据的主变化方向,具体操作是对输入n2Xm维实矩阵A的 协方差矩阵A · At进行特征分解:
[0023]
[0024] 式中Ai为协方差矩阵A ·六7的特征值: U1 是心的特征向量,1!2是12的特征向量,以此类推;
[0025]以惯常经验法则保留99%的方差,即令ω =99选取满足以下条件的最小1值,
[0026]
[0027] 得到
[0028] 二、将输入数据矩阵A线性投影至1此上,得到降维后的数据A1c^A1ot=U1 tAd
[0029] 然后提取nXn大小的像素碎片,一共有M个训练碎片,则训练图像中所有的碎片序 列将被表示为n2 XM维实矩阵Α,通过对输入数据矩阵J e进行奇异值分解得到正交矩 阵[/ e 9TW和Γ e ,并得到:
[0030] U 'AV= diug( Crl, · · ·, ) e '.K" xXI , p = min {η2, M \
[0031 ] 其中沉表不实数域,〇1多〇2多…^:σρ^:〇;
[0032] 将数据A经过线性投影变换为UtA后数据各维之间的协方差变为零,再计算得到各 维数据的方差均为1的白化矩阵Α? =CliagdAJ1,…,1/σρ)υτΑ;
[0033] 三、将数据还原回到初始的维度η,先使Alm/与矩阵U维数统一,将第η2-1+1行至η 2 行补零,结果记为矩阵Aw,由X = U · Aw将数据映射回原坐标空间,得到最终白化与PCA相结合 的预处理后的矩阵X:
[0034]
[0035] 式中:为每个图像碎片预处理后的数据向量,货表示实数域。
[0036] 2.步骤(4)具体是:
[0037] 已知目标函数J:
[0038]
[0039] 式中:m为每种目标训练集中所有图像提取的碎片数,X1为第i个图象碎片预处理 后数据向量,k为字典所包含的basis的个数,为当表示第i个图像碎片时字典中第j个基 的系数,A为字典中第j个基,第一项
3m个图像碎片的重建误差,表征编码 描述图像的效果,第二项为系数的稀疏惩罚项;采用梯度下降法使目标函数J的最小化,每 个图像碎片可通过完备的基与系数线性稀疏表示,在训练字典的过程中,使用梯度下降法 对系数和基函数轮流更新,从而得到编码字典Φ = ^,…,约丨》
[0040] 3.步骤(5)包括:首先为每一个图像碎片的编码系数以α为比例设置元素阈值 α · a i m a χ,a i m a χ表示第i个图像碎片中稀疏编码后最大的系数根据式
(寸稀疏编码系数进行软稀疏,将数值较小的系数置零,相当于将 稀疏表示时作用很小的成分去除,最后基于软稀疏后的系数检查字典中基的使用情况,去 除那些系数为零的基,更新子字典。
[0041]与现有技术相比,本发明的有益效果是:本发明提供了一种使用空间稀疏编码的 目标识别与角度粗估计算法,增加图像碎片的空间选取方式,并使用PCA与白化相结合的预 处理算法增加识别准确率。最终利用系数的稀疏性,使用大字典的系数分布来实现分类与 角度粗估计。传统方法以神经网络与稀疏编码相结合的方式实现目标分类,本发明直接使 用稀疏编码对目标进行分类,跳过深度神经网络部分,免去了对深度神经网络的训练过程, 节约了大量的运算时间。此外本算法实现了目标不同角度的粗略估计,这在以往的研究中 极少出现。
【附图说明】
[0042]图1为本发明的算法流程图;
[0043] 图2为本发明的空间碎片提取图像;
[0044] 图3为本发明的输入灰度图像;
[0045] 图4为本发明的灰度图像全部碎片;
[0046] 图5为本发明的提取灰度图像部分碎片;
[0047]图6为本发明的图像碎片预处理结果;
[0048]图7为本发明的子字典系数;
[0049] 图8为本发明的更新子字典系数;
[0050] 图9为本发明的大字典生成过程;
[0051] 图10为本发明的大字典生成结果;
[0052] 图11为本发明的实验结果表。
【具体实施方式】
[0053]下面结合附图与【具体实施方式】对本发明作进一步详细描述。
[0054]本发明旨在以稀疏编码的方式来对目标进行特征学习,进而对目标进行分类识 另IJ,同时对图像所对应的目标角度进行粗略的估计。算法首先取不同目标的等间隔角度 (15°)的图像作为训练集,获取并根据标准差筛选每个图像的空间碎片;继而对每幅独立的 图像中的碎片,进行白化与PCA相结合的预处理;然后利用空间碎片分开训练每个目标的字 典(子字典);去除每个子字典中无用的基之后,将子字典整体合并成一个大字典,使用此大 字典重获训练集图像碎片的稀疏编码系数,并统计每幅图像内的碎片使用大字典中各个基 的次数,以此作为各幅训练图像的特征向量;最后通过计算测试目标图像在大字典中的基 的使用次数向量(特征向量)与训练集中各幅图像的特征向量的相关系数,实现目标分类与 角度粗估计。
[0055] 结合图1,本发明包括分为测试和训练两个阶段,具体步骤如下:
[0056] (1)训练阶段将训练集中的图像十字等分成四个区域(象限)
[0057] 首先取不同目标的等间隔角度(15°)的图像作为训练集,将训练集中的图像分别 十字等分成四个区域(象限)。
[0058] (2)在每个象限中提取相同数量标准差最大的图像碎片 m
[0059] 在每个区域中选择j个标准差最大的η X η的图像碎片,每幅图像选取m个η X η大 小的图像碎片。其中空间碎片提取过程(图2所示),输入灰度图像(图3所示),灰度图像全部 碎片(图4所示),提取的灰度图像部分碎片(图5所示)。
[0060] (3)对训练集中每个目标的图像碎片分别进行白化与PCA相结合的预处理
[0061] 首先采用PCA(principal components analysis)降维,保留数据的主变化方向, 具体操作是对输入n2Xm维实矩阵A的协方差矩阵A ·六7进行特征分解,
[0062]
[0063] 其中Ai为协方差矩阵A · At的特征值, 是心的特征向量,1!2是12的特征向量,以此类推。
[0064] 以惯常经验法则保留99%的方差,即令ω =99选取满足以下条件的最小1值,
[0065]
[0066] 得到?7/6识~;
[0067]再将输入数据矩阵A线性投影到也上,得到降维后的数据A1qw,A1qw=U 1tAd
[0068]然后提取ηΧη大小的像素碎片,一共有M个训练碎片,则训练图像中所有的碎片序 列将被表示为n2 XM维实矩阵Α。通过对输入数据矩阵J e況"2^进行奇异值分解得到正交矩
[0070] 其中91表不实数域,〇1多〇2多…^σρ^:〇。
[0071] 将数据A经过线性投影变换为UtA后数据各维之间的协方差变为零,即消除了各维 数据之间的相关性。再计算得到各维数据的方差均为1的白化矩阵Y=diag(l/ 〇1,…, l/〇p)UTA〇
[0072] 最后将数据还原回到初始的维度η,先使Alm/与矩阵U维数统一,将第η2_1+1行至η 2 行补零,结果记为矩阵Aw。由X = U · Aw将数据映射回原坐标空间,得到最终白化与PCA相结合 的预处理后的矩f
,其中\ 为每个图像碎片预处理后的数据向 量。图像碎片预处理结果(图7所示)。
[0073] (4)通过对预处理后的碎片稀疏表示训练出属于每个目标的子字典
[0074]预处理后的图像碎片数据集为
,我们通过采用梯度下降法作 为最优化算法求解目标函I
I的最小值,得到编码字典 Φ =丨仍,…,% }。其中,m为每种目标训练集中所有图像提取的碎片数,X1为第i个碎片预处理 后数据向量,k为字典所包含的basis的个数,为当表示第i个碎片时字典中第j个基的系 数,朽为字典中第j个基。第-
3m个碎片的重建误差,表征编码描述图像 的效果。第二项为系数的稀疏惩罚项。参考有关文献,选择
作为本算 法的稀疏惩罚函数,其中σ为系数的权重,λ为惩罚系数,是一个正的常数。可知当系数a1;j越 大时,稀疏惩罚函数值越大,目标函I
的值越大。当系 数值为零时不会有惩罚,惩罚项的值为零。因此稀疏惩罚项约束了系数向量,使其中的 非零元素及数值较大的元素尽可能的少。
[0075] 当采用梯度下降法使目标函数:
1小化后,每 个图像碎片就可以通过完备的基与系数线性稀疏表示。在训练字典的过程中,使用梯度下 降法对系数和基函数轮流更新。首先固定基函数,采用梯度下降法更新一次系数,再固定系 数,更新一次基函数,使目标函数值逐渐向最小值逼近。每完成一次更新计算一次目标函数 值J。梯度下降法需要调整步长使达到收敛的时间得以缩短。根据梯度下降法使用
分别以更新系数时步长speed与更新基函数时 步长eta的速度更新系数和基朽。由于初始字典中基的个数人为设定,设置个数适当多 一些用以保证字典的冗余性和超完备性。
[0076] (5)去除子字典中未用到的基函数更新子字典
[0077] 在字典训练初步完成之后,我们同时得到了一系列系数向量,每个系数向量对应 一个图像碎片。每个系数向量中总会有一些元素值与其他元素相比很小,也就意味着那些 系数对应的基在表示这幅图像碎片时所起的作用很小,因此我们可以去掉这些成分而不会 影响稀疏表示图像碎片时的重建效果。我们将其称为软系数阈值。具体操作首先为每一个 图像碎片的编码系数ai, j以α为比例设置元素阈值α · aimax,aimax表示第i个图像碎片中稀疏 编码后最大的系数。相当于每次阈值都与当前图像碎片的编码稀疏的最大值相关,根据式:
:寸稀疏编码系数进行软稀疏。将数值较小的系数置零,相当于将稀 疏表示时作用很小的成分去除。最后基于软稀疏后的系数检查字典中基的使用情况,去除 那些系数为零的基。更新前联合大字典系数(图7所示),软稀疏更新后联合大字典系数(图8 所示)。
[0078] (6)将每个目标的子字典合并构成一个大字典
[0079] 在每个目标子字典训练完成之后,我们将所有目标的子字典合并为一个大字典。 大字典合并过程(图9所示),大字典合并结果(图10所示)。
[0080] (7)利用大字典对训练图像碎片进行稀疏编码,同时获取训练集图像的特征向量
[0081] 利用得到的大字典对各训练图像碎片进行稀疏编码,求解大字典的系数,此时的 大字典已经固定,只需采用梯度下降法求解系数,用于目标分类与角度粗估计(图9所示), 也即利用系数的稀疏性,使用大字典的系数分布来实现分类与角度粗估计。
[0082] (8)测试阶段首先重复步骤(1)到步骤(7)处理
[0083] (9)计算测试图像和训练集中相应图像四个象限的相关系数
[0084] 对测试图像的特征向量与训练图像的特征向量做相关,一幅图像有对应四个象限 的四个特征向量,分别将这四个特征向量与训练图像集中的每幅图像的四个特征向量根据
-一对应地做相关,Xi与Yi分别表示两个待比较向量, .Z表示向量Xi的均值,F表示向量Yi的均值。
[0085] (10)分别计算训练集中对应的每幅图像的相关系数均值,确定测试图像分类结果
[0086] 取训练集每幅图像四个相关系数的均值,所有平均相关系数中的最大值对应的训 练样本所属目标种类为测试图像分类结果。
[0087] (11)确定测试图像的角度估计范围
[0088]由上一步得到最大相关训练图像,根据最大相关训练图像的已知角度,结合训练 图像集的图像角度间隔A ang,将测试图像的角度估计为在最大相关训练图像对应角度的 左右Δ ang范围中,即角度分辨率相当于Δ ang。本算法目标分类及角度粗估计结果(图11所 示)。
【主权项】
1. 一种使用空间稀疏编码的目标识别与角度粗估计算法,其特征在于:包括测试和训 练两个阶段,具体其步骤是: (1) 训练阶段取不同目标的等间隔角度的图像作为训练集,并将训练集中的图像十字 等分成四个象限; (2) 在每个象限中提取相同数量标准差最大的图像碎片:在每个区域中选择个标准 差最大的ηΧη的图像碎片,每幅图像选取m个η X η大小的图像碎片;(3) 对训练集中每个目标的图像碎片分别进行白化与PCA相结合的预处理,得到图像碎 片数据集的矩阵X = C.V…,a· J e W:xw ,.卩e为每个图像碎片预处理后的数据向量; (4) 通过对预处理后的碎片稀疏表示训练出属于每个目标的子字典: (5) 去除子字典中未用到的基函数,更新子字典; (6) 将每个目标的子字典合并构成一个大字典; (7) 利用大字典对训练图像碎片进行稀疏编码,同时获取训练集图像的特征向量:利用 得到的大字典对各训练图像碎片进行稀疏编码,求解大字典的系数; (8) 测试阶段首先重复步骤(1)到步骤(7); (9) 计算测试图像和训练集中相应图像四个象限的相关系数: 对测试图像的特征向量与训练图像的特征向量做相关,一幅图像有对应四个象限的四 个特征向量,分别将这四个特征向量与训练图像集中的每幅图像的四个特征向量根据公式一一对应做相关,得到相关系数,其中:11与¥ 1分别表示两 个待比较向量,叉表示向量&的均值,F表示向量1的均值; (10) 分别计算训练集中对应的每幅图像的相关系数均值,确定测试图像分类结果:取 训练集每幅图像四个相关系数的均值,所有平均相关系数中的最大值对应的训练样本所属 目标种类为测试图像分类结果; (11) 确定测试图像的角度估计范围:根据最大相关训练图像的已知角度,结合训练图 像集的图像角度间隔A ang,将测试图像的角度估计为在最大相关训练图像对应角度的左 右Aang范围中。2. 根据权利要求1所述的一种使用空间稀疏编码的目标识别与角度粗估计算法,其特 征在于:步骤(3)是依次进行PCA降维、白化、与PCA维数还原,免去对深度神经网络的训练过 程: 一、采用PCA降维,保留数据的主变化方向,具体操作是对输入n2Xm维实矩阵A的协方差 矩阵A · Ατ进行特征分解:式中Xi为协方差矩阵Α·ΑΤ的特征值,之,," = [*1,"2,. '2:],ui是入工的 特征向量,U2是λ2的特征向量,以此类推; 以惯常经验法则保留99%的方差,即令ω =99选取满足以下条件的最小1值, 得到ReW';二、 将输入数据矩阵A线性投影至IM上,得到降维后的数据A^Mc^UjA。 然后提取ηΧη大小的像素碎片,一共有Μ个训练碎片,则训练图像中所有的碎片序列将 被表示为η2ΧΜ维实矩阵Α,通过对输入数据矩阵」£^\?进行奇异值分解得到正交矩阵 V e 识"、2和F e 9?Λ/χΛ/,并得到: U1 AV = diag{ar· · ,σ ρ) (Ξ^Ι"χ,? ,p=min{n2,M} 其中.?表不实数域,〇1多〇2多…^:σρ^:〇; 将数据Α经过线性投影变换为UTA后数据各维之间的协方差变为零,再计算得到各维数 据的方差均为1的白化矩阵A',A'zdiaga/oi,…,l/op)UTA; 三、 将数据还原回到初始的维度η,先使AlOT '与矩阵U维数统一,将第η2-1+1行至η2行补 零,结果记为矩阵心,由X = U · Aw将数据映射回原坐标空间,得到最终白化与PCA相结合的预 处理后的矩阵X:式中:X e 为每个图像碎片预处理后的数据向量,9?表示实数域。3. 根据权利要求1或2所述的一种使用空间稀疏编码的目标识别与角度粗估计算法,其 特征在于:步骤(4)具体是: 已知目标函数J:式中:m为每种目标训练集中所有图像提取的碎片数,Xl为第i个图象碎片预处理后数据 向量,k为字典所包含的basis的个数,ai,j为当表示第i个图像碎片时字典中第j个基的系 数,A为字典中第j个基,第一项图像碎片的重建误差,表征编码描 述图像的效果,第二项为系数的稀疏惩罚项;采用梯度下降法使目标函数J的最小化,每个 图像碎片可通过完备的基与系数线性稀疏表示,在训练字典的过程中,使用梯度下降法对 系数和基函数轮流更新,从而得到编码字典? = (?,…,魏}。4. 根据权利要求1或2所述的一种使用空间稀疏编码的目标识别与角度粗估计算法,其 特征在于:步骤(5)包括:首先为每一个图像碎片的编码系数以α为比例设置元素阈值 α · a i m a x,a i m a χ表示第i个图像碎片中稀疏编码后最大的系数根据式对稀疏编码系数进行软稀疏,将数值较小的系数置零,相当于将 稀疏表示时作用很小的成分去除,最后基于软稀疏后的系数检查字典中基的使用情况,去 除那些系数为零的基,更新子字典。5.根据权利要求3所述的一种使用空间稀疏编码的目标识别与角度粗估计算法,其特 征在于:步骤(5)包括:首先为每一个图像碎片的编码系数以α为比例设置元素阈值α · aimax,aimax表示第i个图像碎片中稀疏编码后最大的系数根据式稀疏编码系数进行软稀疏,将数值较小的系数置零,相当于将稀疏表示时作用很小的成分 去除,最后基于软稀疏后的系数检查字典中基的使用情况,去除那些系数为零的基,更新子 字典。
【文档编号】G06N3/02GK106056141SQ201610363559
【公开日】2016年10月26日
【申请日】2016年5月27日
【发明人】卞红雨, 陈奕名, 金月, 柳旭
【申请人】哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1