1.一种基于注意力机制的卷积神经网络视线估计方法,其特征在于,包括以下步骤:
步骤1:采用局部约束神经元域来对人脸关键点进行定位;
步骤2:使用步骤1检测到的坐标点来对眼部图像进行截取;
步骤3:将截取到的图像进行标准化处理;
步骤4:将标准化处理后的图像送入注意力机制的卷积神经网络进行回归,得到估计的视线角度坐标。
2.根据权利要求1所述的一种基于注意力机制的卷积神经网络视线估计方法,其特征在于:
所述图像标准化处理即通过图像的仿射变换,将图像转换到一个标准化的相机空间,在这个标准化相机空间中,所有图像中的人的头部和相机的距离是一样的,且头部姿态也是一样的。
3.根据权利要求2所述的一种基于注意力机制的卷积神经网络视线估计方法,其特征在于:
所述图像标准化处理包括有三个步骤:
步骤1:以相机坐标系为世界坐标系,已知双眼中心坐标ec和头部姿态旋转矩阵r,先将相机旋转至相机的z轴对准两眼中心;这一步只需让相机z轴对齐双眼中心坐标ec,可得旋转后的相机z轴为rz=ec/||ec||;
步骤2:相机绕z轴旋转至相机的x轴和头部姿态的x轴位于同一平面上;由于头部姿态的x轴为已知量,为头部姿态旋转矩阵r的第一列rx,要让旋转后的相机x轴rx和rx位于同一平面,则需满足旋转后的相机y轴ry垂直于此平面;又ry垂直于旋转后的相机z轴rz,因此,ry可由rx和rz的叉积求得:ry=rx×rz;rx可由ry和rz的叉积求得:rx=ry×rz;于是,得到相机的旋转矩阵rc=[rx,ry,rz];
步骤3:标准化双眼中心到相机中心的距离;这一步可通过缩放相机的z轴实现,即定义一个尺度缩放矩阵s=diag(1,1,d/||ec||),其中d为双眼中心到相机中心的标准化距离。
4.根据权利要求1所述的一种基于注意力机制的卷积神经网络视线估计方法,其特征在于:
所述注意力机制的卷积神经网络的注意力模块由双通道组成;
上层的称为主通道,由cnn模块构成;
下层称为掩码通道,是一个自底向上-自顶向下的沙漏网络。。
5.根据权利要求4所述的一种基于注意力机制的卷积神经网络视线估计方法,其特征在于:
对于一个输入图像i,记主通道的输出为f(i),掩码通道的输出为a(i),则注意力模块的输出m(i)可以根据f(i)和a(i)的点乘得到:mc(i)=fc(i)+fc(i)·ac(i);
式中:fc(i)表示f(i)的第c个通道,ac(i)表示a(i)的第c个通道,符号·表示矩阵的点乘。