基于深度自编码器的人眼检测和定位方法_2

文档序号：9453427阅读：来源：国知局

播算法优化深度自编码器。
[0040] 图2所示为在训练集图像的原图和标签图上取小图像块的过程。当在图像原图和对应的标签图上取小图像块时，对取得的小标签图像块进一步处理，处理方法如下，定义：
[0041 ]
[0042] 其中，I为小标签图像块，N为小标签图像块的高度或宽度，I(i，j)G{〇, 1}表示标签图像块在（i，j)位置的像素值。设定一个阈值t( 一般取0.02)，当r值小于t时，将I 中所有的像素的像素值均置为0。
[0043] 步骤S5 :步骤S5 :在待测图像上以滑动窗口的方式生成多个小待测图像块，利用步骤S4学习的深度自编码器得到每个小待测图像块的小待测标签图像块。
[0044] 步骤S6 :将步骤S5中得到的所有小待测标签图像块合并在一起，得到整幅待测图像的待测标签图，对待测标签图进行二值化，然后利用坐标投影或者寻找轮廓的方法得到人眼的位置。
[0045] 请参阅图4所示为步骤S6的示意图。左图为合并后得到的标签图，中间为对标签图进行二值化后得到的图像，其中^，"，~，^分别为人眼矩形框竖直边缘的义坐标一^ y12,y21，y22分别为人眼矩形框水平边缘的y坐标。在该二值化的图像上进行坐标投影或者寻找轮廓，右图为最后得到的人眼位置的矩形框。
[0046] 坐标投影就是将生成的二值化图像矩阵先沿x轴方向相加，得到连续不为1的两段区域的起始位置，分别记为Xll，X12,X21，X22，再以X12,X21之间为分隔线，分别将两块白色区域沿左右两边y轴方向相加，得到yn，y12,y2i，yM，由图4可以看出，这些坐标就对应着两个人眼的坐标位置。
[0047] 为了详细说明本发明的【具体实施方式】，接下来以某人眼检测图像数据集为例对于本发明方法进行进一步的说明。所述图像数据集包含2, 732张人眼图片，每张图片都标注有人眼的矩形框位置信息，按照以下步骤进行：
[0048] 步骤S10,将所述多标签图像数据集中的随机500张图像做为测试样本，剩下的图像作为训练集，用于训练多个自编码器和深度自编码器；
[0049] 步骤S11 :对训练集中所有图像，利用标定好的人眼矩形框位置生成二值化的标签图，生成的标签图如图2右图所不；
[0050] 步骤S12 :在训练集中的原图像上随机取小图像块，按照图3(a) (b)所示无监督地分层训练2个自编码器；第一个自编码器输入为1296维，隐含层为2048维；第二个自编码器输入为2048维，隐含层为1024维。
[0051] 步骤S13 :利用步骤S2分层训练的多个自编码器构建图3(c)所示的深度自编码器，深度自编码器的输入为1296维，第一个隐含层为2048维，第二个隐含层为1024维，第三个隐含层为2048维，输出层为1296维。并利用分层训练得到的参数对构建的深度自编码器进行初始化，但是最后一层输出层的权重是随机初始化；
[0052] 步骤S14:按照图2所示，同时在训练集图像的原图和标签图相同位置上随机取小的图像块，以小标签图像块作为监督信息，以小原图像块为输入，使用反向传播算法优化深度自编码器；
[0053] 步骤S15:在待测图像上以滑动窗口的方式生成很多个小图像块，利用步骤S14学习的深度自编码器得到每个小图像块的标签图；
[0054] 步骤S16:将步骤S15中得到的所有小标签图合并在一起，得到整幅图像的标签图，如图4所示，对标签图进行二值化，然后利用坐标投影或者寻找轮廓的方法得到人眼的位置。
[0055] 以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种生成用于人眼检测和定位的深度自编码器的方法，其特征在于，该方法包括W 下步骤：步骤SO:将带有标定好的人眼矩形框位置的图像的集合作为训练集；步骤Sl:对训练集中的所有图像，利用标定好的人眼矩形框位置生成二值化的标签图；步骤S2 :在训练集中的图像上随机取小图像块，无监督地分层训练多个自编码器；步骤S3 :利用步骤S2中分层训练的多个自编码器构建一个深度自编码器，并利用分层训练得到的自编码器中各层的权重对构建的深度自编码器进行初始化；W及步骤S4 :在训练集中的原图像和标签图的相同位置上随机取小原图像块和小标签图像块，W小标签图像块作为监督信息，W小原图像块为输入，使用反向传播算法优化深度自编码器。2. 根据权利要求1所述的方法，其特征在于，所述标签图是一个二值图像，该图像与测试图像的原图像尺寸相同，并根据原图像中人眼矩形框位置，将对应标签图中矩形框内的所有像素的像素值置1，框外的所有像素的像素值置0。3. 根据权利要求1所述的方法，其特征在于，当在标签图上取小图像块时，对取得的小标签图像块进行进一步处理，包括：定义其中，I为小标签图像块，N为小标签图像块的高度或宽度，I(i，j)G{0，1}表示小标签图像块在（i，j)位置的像素值；设定一个阔值t，当r值小于t时，将I中所有的像素的像素值均置为0。4. 根据权利要求3所述的方法，其特征在于，t的值为0. 02。5. 根据权利要求1所述的方法，其中自编码器是一个由输入层、隐含层和输出层构成的S层神经网络。6. 根据权利要求5所述的方法，其中分层训练多个自编码器包括：利用小图像块作为输入，无监督地训练第一个自编码器；利用第一个自编码器的隐含层作为第二个自编码器的输入，无监督地训练第二个自编码器；化及依此类推，W当前自编码器的隐含层作为下一自编码器的输入，无监督地训练多个自编码器。7. 根据权利要求1所述的方法，其特征在于，在分层训练多个自编码器时，对输入的小图像块加入随机噪声，然后让自编码器的输出重构加入噪声前的图像块，WM表示作为训练样本的小图像块的个数，ik表示第k个图像块，^表示加入噪声后的图像块，hi表示隐含层，〇1表示输出层，Wi和W2分别表示自编码器输入层和隐含层W及隐含层和输出层之间的权重，则训练自编码器的目标函数为：其中各层之间满足如下函数关系，和=/"巧） Ok=f(w\) 入为重构损失和权重惩罚项之间的平衡参数，f( ?)为非线性的激活函数。8. 根据权利要求1所述的方法，其特征在于，所述深度自编码器是由所述多个=层自编码器煤蝶在一起形成的，包括一个输入层、多个隐含层和一个输出层，深度自编码器的隐含层数目由自编码器的数目决定，当由分层训练的自编码器构建深度自编码器时，深度自编码器的输出层的权重是随机初始化得到的，深度自编码器的各层之间的相对权重是基于分层训练的自编码器的各层权重得到的。9. 根据权利要求1所述的方法，其特征在于，所述使用反向传播算法优化深度自编码器包括使用反向传播算法使深度自编码器学习得到由小图像块到小标签图像块的映射关系。10. -种使用根据权利要求1生成的深度自编码器实现人眼检测和定位的方法，包括：步骤S5 :在待测图像上W滑动窗口的方式生成多个小待测图像块，利用步骤S4学习的深度自编码器得到每个小待测图像块的小待测标签图像块；步骤S6 :将步骤S5中得到的所有小待测标签图像块合并在一起，得到整幅待测图像的待测标签图，对待测标签图进行二值化，然后利用坐标投影或者寻找轮廓的方法得到人眼的位置。
【专利摘要】本发明公开了一种用于人眼检测和定位的方法，包括：对带有标定好的人眼矩形框位置的训练集中的所有图像，利用人眼矩形框位置生成二值化的标签图；在图像上随机取小图像块，无监督地分层训练多个自编码器以构建深度自编码器，并利用自编码器中各层的权重对深度自编码器进行初始化；在原图像和标签图的相同位置上随机取小原图像块和小标签图像块，以小标签图像块作为监督信息，以小原图像块为输入，优化深度自编码器；在待测图像上以滑动窗口的方式生成多个小待测图像块，利用深度自编码器得到每个小待测图像块的小待测标签图像块并将其合并在一起，得到待测图像的待测标签图，对待测标签图进行二值化，利用坐标投影或寻找轮廓得到人眼的位置。
【IPC分类】G06K9/66, G06K9/00
【公开号】CN105205453
【申请号】CN201510537480
【发明人】王亮, 黄永祯, 唐微
【申请人】中国科学院自动化研究所
【公开日】2015年12月30日
【申请日】2015年8月28日

完整全部详细技术资料下载

当前第2页1 2