一种基于注意力机制的卷积神经网络视线估计方法及系统与流程

文档序号：19156681发布日期：2019-11-16 00:54阅读：来源：国知局

技术特征：

1.一种基于注意力机制的卷积神经网络视线估计方法，其特征在于，包括以下步骤：

步骤1：采用局部约束神经元域来对人脸关键点进行定位；

步骤2：使用步骤1检测到的坐标点来对眼部图像进行截取；

步骤3：将截取到的图像进行标准化处理；

步骤4：将标准化处理后的图像送入注意力机制的卷积神经网络进行回归，得到估计的视线角度坐标。

2.根据权利要求1所述的一种基于注意力机制的卷积神经网络视线估计方法，其特征在于：

所述图像标准化处理即通过图像的仿射变换，将图像转换到一个标准化的相机空间，在这个标准化相机空间中，所有图像中的人的头部和相机的距离是一样的，且头部姿态也是一样的。

3.根据权利要求2所述的一种基于注意力机制的卷积神经网络视线估计方法，其特征在于：

所述图像标准化处理包括有三个步骤：

步骤1：以相机坐标系为世界坐标系，已知双眼中心坐标ec和头部姿态旋转矩阵r，先将相机旋转至相机的z轴对准两眼中心；这一步只需让相机z轴对齐双眼中心坐标ec，可得旋转后的相机z轴为rz＝ec/||ec||；

步骤2：相机绕z轴旋转至相机的x轴和头部姿态的x轴位于同一平面上；由于头部姿态的x轴为已知量，为头部姿态旋转矩阵r的第一列rx，要让旋转后的相机x轴rx和rx位于同一平面，则需满足旋转后的相机y轴ry垂直于此平面；又ry垂直于旋转后的相机z轴rz，因此，ry可由rx和rz的叉积求得：ry＝rx×rz；rx可由ry和rz的叉积求得：rx＝ry×rz；于是，得到相机的旋转矩阵rc＝[rx,ry,rz]；

步骤3：标准化双眼中心到相机中心的距离；这一步可通过缩放相机的z轴实现，即定义一个尺度缩放矩阵s＝diag(1,1,d/||ec||)，其中d为双眼中心到相机中心的标准化距离。

4.根据权利要求1所述的一种基于注意力机制的卷积神经网络视线估计方法，其特征在于：

所述注意力机制的卷积神经网络的注意力模块由双通道组成；

上层的称为主通道，由cnn模块构成；

下层称为掩码通道，是一个自底向上-自顶向下的沙漏网络。。

5.根据权利要求4所述的一种基于注意力机制的卷积神经网络视线估计方法，其特征在于：

对于一个输入图像i，记主通道的输出为f(i)，掩码通道的输出为a(i)，则注意力模块的输出m(i)可以根据f(i)和a(i)的点乘得到：mc(i)＝fc(i)+fc(i)·ac(i)；

式中：fc(i)表示f(i)的第c个通道，ac(i)表示a(i)的第c个通道，符号·表示矩阵的点乘。

技术总结
本发明公开了一种基于注意力机制的卷积神经网络视线估计方法，包括以下步骤：步骤1：采用局部约束神经元域来对人脸关键点进行定位；步骤2：使用步骤1检测到的坐标点来对眼部图像进行截取；步骤3：将截取到的图像进行标准化处理；步骤4：将标准化处理后的图像送入注意力机制的卷积神经网络进行回归，得到估计的视线角度坐标。本发明设计采用注意力机制网络使得在高层提取特征的特征基本来自于瞳孔的位置，从而更好的提高准确率，减小误差；并且通过关键点检测从而使得裁剪出来的图片分辨率更小，从而使快速性得到提高。

技术研发人员：李菁;钟艺豪;陈则金
受保护的技术使用者：南昌大学
技术研发日：2019.06.28
技术公布日：2019.11.15

完整全部详细技术资料下载

当前第2页1 2