使用连续性参数预估视线落点计算的方法与流程

文档序号:37276749发布日期:2024-03-12 21:11阅读:11来源:国知局
使用连续性参数预估视线落点计算的方法与流程

本申请涉及物理领域,特别关于一种视线追踪训练方法及视线追踪方法。


背景技术:

1、视线追踪(gaze tracking)是现行已普遍使用的技术,视线追踪可分为穿戴型及遥测型。穿戴型需要用户配戴穿戴式视线追踪装置,以追踪用户的眼球移动,穿戴式视线追踪装置举例如头戴式眼镜。遥测型则无须用户配戴追踪装置,而是利用外部的视线追踪装置来远距离追踪一人或多人的眼球运动,所述外部的视线追踪装置举例如摄影机或传感器。

2、在公共场合的使用情景中,由于穿戴型视线追踪技术需要用户配戴穿戴型视线追踪装置,导致用户容易引人注目,并且也会对头颈产生重量负担,因此一般在公共场合多为利用遥测型视线追踪技术来追踪眼球运动。遥测型视线追踪技术中所使用的视线追踪装置为设置在外部的视线追踪装置,无须用户配戴在身上,遥测型视线追踪装置在执行视线追踪的计算方法上主要分为两种,一种是基于眼球特征(例如:眼角、瞳孔)计算,另一种是基于外观图像计算。基于眼球特征计算的方式中,由于遥测型视线追踪装置在公共场合下要捕捉眼球特征较为困难,因此为了准确捕捉眼球特征,常见方式举例如以红外线摄像头投射结构光与眼球特征之间的相对关系来估算视线来估算视线追踪,但是由于结构光需要执行初步的校正,再来此方法通常仅限于单人,因此一般在公共场和下会使用基于外观图像计算视线追踪。

3、基于外观图像计算视线追踪方式中,较常使用的状况是利用神经网络预估3d视线向量,神经网络如卷积神经网络(conventional neural network,cnn),并通过屏幕与摄像头的关系去推估最后的视线落点。不过由于目前3d视线向量估计中大多数是预估旋转量,而不是直接预估视线向量,并且通常以欧拉角(euler angles)的预估为主,但是欧拉角的旋转具有万向锁的状况,并且欧拉角实际上为不连续性旋转,导致神经网络的梯度下降状况不佳,举例如预估值的欧拉角[0,2π]为例,即相近的旋转图像下预期模型输出极端值0以及2π,在真实角为5°的情况下可能会估计出355°,因此以l2loss损失函数而言,就会导致在实际物理的偏差不大的情况下,却出现大损失差异的问题,因此不利于神经网络的收敛,导致神经网络的训练效果不佳。


技术实现思路

1、本申请的目的在于解决相关技术中所提到的问题。

2、基于本申请的目的,本申请提供一种视线追踪训练方法,包括将人脸图像传输至视线追踪学习模型;所述视线追踪学习模型根据所述人脸图像中的外观特征产生第一向量及第二向量;所述视线追踪学习模型对所述第一向量及所述第二向量执行格拉姆-施密特正交化并接续执行正规化,以获得6d表述的旋转矩阵;所述视线追踪学习模型计算损失函数及损失函数的梯度;重复前述步骤以完成迭代训练,以获得视线追踪模型。

3、在本申请的一实施例中,所述第一向量及所述第二向量均为三维向量。

4、在本申请的一实施例中,所述第一向量以a1表示,所述第二向量以a2表示,所述6d表述的旋转矩阵表示为其中,b1=norm(a1),b2=norm(a2-projb1(a2)),b3=b1×b2。

5、基于本申请的目的,本申请还提供一种视线追踪方法,包括将人脸图像传输至视线追踪模型;所述视线追踪模型根据所述人脸图像设定初始向量;所述视线追踪模型根据所述人脸图像的外观特征产生第一向量及第二向量,并对所述第一向量及所述第二向量执行格拉姆-施密特正交化并接续执行正规化,以获得6d表述的旋转矩阵;所述视线追踪模型以所述初始向量及所述6d表述的旋转矩阵计算求得视线向量。

6、在本申请的一实施例中,所述人脸图像为由遥测型视线追踪装置所拍摄获得,并且所述遥测型视线追踪装置将所述人脸图像传输至所述视线追踪模型。

7、在本申请的一实施例中,所述第一向量及所述第二向量均为三维向量。

8、在本申请的一实施例中,所述第一向量以a1表示,所述第二向量以a2表示,所述6d表述的旋转矩阵表示为其中,b1=norm(a1),b2=norm(a2-projb1(a2)),b3=b1×b2。

9、在本申请的一实施例中,在求得所述视线向量后,所述视线追踪模型根据所述遥测型视线追踪装置与显示装置的位置关系,计算所述视线向量映射至显示装置的屏幕上的视线落点。

10、在本申请的一实施例中,所述视线落点显示在所述显示装置的所述屏幕上。

11、综上所述,本申请可以解决相关技术的问题,有利于神经网络的收敛,因此有助于提升神经网络的训练效果。



技术特征:

1.一种视线追踪训练方法,其特征在于,包括:

2.如权利要求1所述的视线追踪训练方法,其特征在于,所述第一向量及所述第二向量均为三维向量。

3.如权利要求1所述的视线追踪训练方法,其特征在于,所述第一向量以a1表示,所述第二向量以a2表示,所述6d表述的旋转矩阵表示为其中,b1=norm(a1),b2=norm(a2-projb1(a2)),b3=b1×b2。

4.一种视线追踪方法,其特征在于,步骤包括:

5.如权利要求4所述的视线追踪方法,其特征在于,所述人脸图像为由遥测型视线追踪装置所拍摄获得,并且所述遥测型视线追踪装置将所述人脸图像传输至所述视线追踪模型。

6.如权利要求4所述的视线追踪方法,其特征在于,所述第一向量及所述第二向量均为三维向量。

7.如权利要求4所述的视线追踪方法,其特征在于,所述第一向量以a1表示,所述第二向量以a2表示,所述6d表述的旋转矩阵表示为其中,b1=norm(a1),b2=norm(a2-projb1(a2)),b3=b1×b2。

8.如权利要求7所述的视线追踪方法,其特征在于,所述第一向量及第二向量均为三维向量。

9.如权利要求5所述的视线追踪方法,其特征在于,在求得所述视线向量后,所述视线追踪模型根据所述遥测型视线追踪装置与显示装置的位置关系,计算所述视线向量映射至显示装置的屏幕上的视线落点。

10.如权利要求9所述的视线追踪方法,其特征在于,所述视线落点显示在所述显示装置的所述屏幕上。


技术总结
本申请提供一种视线追踪训练方法及视线追踪方法。本申请通过输入人脸图像至视线追踪学习模型获得第一向量及第二向量,并通过对第一向量及第二向量执行格拉姆‑施密特正交化并接续执行正规化,以确保学习模型输出符合旋转矩阵定义,以及利用连续性旋转值做视线预测,相较于相关技术为使用不连续性旋转值做视线预测,本申请可以使视线追踪学习模型的收敛状况变异更加平缓,有助于视线追踪学习模型的收敛。

技术研发人员:门亭均
受保护的技术使用者:英特盛科技股份有限公司
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1