一种图像特征提取方法及行人检测方法及装置的制造方法_4

文档序号：9433079阅读：来源：国知局

原子所组成的字典子集。类似地，在接下来的步骤中，我们每次从字典D剩余的原子中再挑出一个原子，将其与上一步骤中已有的原子组成新的原子集合，使得利用这个原子集合作为字典进行稀疏分解而得到的稀疏编码能够保证目标函数F取得最小值，如此循环反复不停地更新所选的原子集合，直到达到设定的终止条件。这里终止条件可以是预先设定好的用于进行稀疏分解的原子数目，也可以当目标函数F的取值不再减小时即终止。对于字典更新步骤，采用标准K-SVD算法中的字典更新方法来进行计算，这样，通过交替迭代稀疏编码和字典更新步骤，就可以有效求解此优化问题，最终得到基于鉴别力增强的隐含语义特征表示。
[0144] (3)在训练阶段，利用训练集中训练样本的隐含语义特征学习一个行人检测器。
[0145] 在得到所述的训练样本的隐含语义特征X后，本方案中按照类似于HOG特征的方式将这些隐含语义特征在规则图像单元中统计成直方图的形式，具体地，对于X中每个不为零的X1，采用双线性插值方法将其绝对值Ix1I分配给四个与其空间相邻的单元之一。这样在每个图像单元中，通过对局部邻域内的值进行平均，就可以得到一个稠密特征向量FV，最后再对FV进行L2归一化，以减少特征对于图像对比度的依赖，并增强其鲁棒性。基于这些特征，本发明中采用一定深度的决策树作为弱分类器，并将若干个弱分类器通过级联的方式合并为一个强分类器，用以判断样本是否为行人。
[0146] 本方案中采用Adaboost算法实现对弱分类器的迭代优化，和级联合并增强。具体地，Adaboost算法执行T轮选择，每一轮中选择一个分类误差最小的弱分类器，并计算相应的权重。最终，Adaboost算法可以通过线性加权融合T个选择出来的弱分类器得到一个最终的强分类器。在此方式下，只有当样本依次通过了所有弱分类器的检验，才会被判别为行人正例，而只要未通过其中任何一个分类器的检验，则会被判别为负例。
[0147] (4)在检测阶段，使用所述的行人检测器对测试集中的待检测图像进行检测，得到最终的检测结果。
[0148] 对于输入的待检测图像，首先采用图像金字塔缩放方式，将输入图像缩放到若干个不同的尺度，并将这些缩放后的图像重叠在一起组成一个金字塔形式，然后利用滑动窗检测策略按照一定的步长对各个图像进行遍历扫描，将其分为许多窗口作为候选行人区域，然后对于每个候选区域使用所述的分类器判断其是否包含行人，保留包含行人的候选窗，最后使用非极大值抑制方法去除重复的候选窗即得到最终的检测结果。
[0149] 下面的实验结果表明，与现有方法相比，本发明基于隐含语义特征表示的行人检测方法，可以取得更高的检测准确率。
[0150] 本实施例中采用了 Caltech行人检测标准数据集进行实验，该数据集由文献 ^Pedestrian Detection:An Evaluation of the State of the Art'，（作者 P. Dollar, C. Wo jek, B. Schiele和P. Perona，发表在 2012年的 IEEE Transactions on Pattern Analysis and Machine Intelligence)提出，其中包括在11个不同时间段采集的城市交通街景，每个时间段内包含有6~13段不等的一分钟时长的视频，其中的行人都做了标注。前6个时间段的数据作为训练集，后5个时间段的数据作为测试集，在实验时每隔30帧取一帧进行测试，测试集包含4024张图像。以下5种文献中的方法被用来作为实验对比：
[0151] 1、现有方法一：文献"Word Channel based Multi-scale Pedestrian Detection without Image Resizing and Using Only One Classifier'，（作者 A. D. Costea 和 S. Nedevschi，发表在 2014 年的 IEEE Conference on Computer Vision and Pattern Recognition)中的方法，该方法将视觉关键词这一中层特征表示组织成关键词通道特征的形式用来进行行人检测；
[0152] 2、现有方法二：文献"Strengthening the Effectiveness of Pedestrian Detection with Spatially Pooled Features'，（作者 S. Paisitkriangkrai, C. Shen 和 A. van den Hengel，发表在 2014 年的 European Conference on Computer Vision)中的方法，该方法主要利用了协方差描述子和LBP描述子作为特征，并通过空间聚集的方式增强了其鉴别力；
[0153] 3、现有方法三：文献 "Ten Years of Pedestrian Detection, What Have We Learned ?"（作者 R. Benenson, M. Omran, J. H. Hosang 和 B. Schiele，发表在 2014 年的 European Conference on Computer Vision)中的方法，该方法主要利用了基于颜色和梯度信息的积分通道特征，并通过离散余弦变换和运动信息进一步进行了增强；
[0154] 4、现有方法四：文献"Local Decorrelation for Improved Pedestrian Detection"（作者 W. Nam, P. Dollar 和 J. H. Han，发表在 2014 年的 Conference on Neural Information Processing Systems)中的方法，该方法也主要利用了基于颜色和梯度信息的积分通道特征，但是将决策树中有效但计算复杂度相对较高的斜分支用局部去相关数据上的正交分支来替代，得到一种过完备但局部去相关的特征表示用于行人检测；
[0155] 5、现有方法五：文献"Joint Deep Learning for Pedestrian Detection"（作者 W. Ouyang 和 X. Wang，发表在 2013 年的 IEEE International Conference on Computer Vision)中的方法，该方法将特征提取、行人建模和遮挡处理等因素同时考虑，提出了一种联合深度学习框架来最大化每个因素的作用；
[0156] 6、本发明：本实施例的方法。
[0157] 实验采用行人检测领域最常用的log-average miss rate指标来评价行人检测的准确性，其反映的是当FPPI (False Positive Per Image)在10 2到10°范围之间的平均漏检率，log-average miss rate值越小，表明行人检测的结果就越好。
[0158] 表1.与现有方法的对比实验结果
[0159] CN 105184260 A 说明书 13/15 页
[0160] 表1中是各个比较方法在不同设置测试子集上的结果，其中Reasonable为高度超过49像素全部可见或遮挡低于35 %的行人，Overall为高度超过19像素全部可见或遮挡低于80%的行人，None Occlusion为高度超过49像素全部可见的行人，Partial Occlusion为高度超过49像素遮挡低于35 %的行人，Large Scale为高度超过99像素全部可见的行人，Near Scale为高度超过79像素全部可见的行人。可以看到本发明在所有测试集上均取得了最好的行人检测结果，这是得益于本发明在特征学习过程中考虑到了更高层次的语义信息和更强有力的鉴别力信息，通过同时优化所提出的隐含语义特征学习问题和最大鉴别力约束获得了一种包含信息更加丰富、鉴别力更强的特征，使得学习得到的特征如果来自于同一类别则相互靠近，来自于不同类别则相互疏远，因而具备更强的分类鉴别力，因此能够提尚彳丁人检测的准确率。
[0161] 实施例5:
[0162] 本实施例中提供一种图像特征提取装置，结构框图如图4所示，包括
[0163] 图像中层特征获取单元01，获取目标图像中的图像中层特征；
[0164] 初始单元02,获取隐含语义特征的初始值；
[0165] 初始计算单元03,根据所述图像中层特征和隐含语义特征的初始值分别确定重建误差约束项、稀疏性约束项和鉴别力约束项；
[0166] 隐含语义特征确定单元04,根据重建误差约束项、稀疏性约束项和鉴别力约束项，确定隐含语义特征。
[0167] 隐含语义特征确定单元04中，公式如下：
[0168] minM+A^+AJ' }
[0169] 其中，A为重建误差约束项，B为稀疏性约束项，Γ为鉴别力约束项，A1S第一比例因子，λ 2为第二比例因子；
[0170] 获取所述求和最小值对应的隐含语义特征。
[0171] 在其他的实施方案中，隐含语义特征确定单元04中的公式还可以选择如下：
[0172] min{A* λ3Β* A4Jr }
[0173] 其中，A为重建误差约束项，B为稀疏性约束项，Γ为鉴别力约束项，人3为第三比例因子，λ4为第四比例因子；
[0174] 获取所述乘积最小值对应的隐含语义特征。
[0175] 其中，所述重建误差约束项为：
[0177] 其中，y表示所述的图像中层特征，X表示所述的隐含语义特征，i

完整全部详细技术资料下载

当前第4页1 2 3 4 5