一种基于不确定性建模的注视估计方法

文档序号:34593533发布日期:2023-06-28 19:17阅读:47来源:国知局
一种基于不确定性建模的注视估计方法

本发明涉及人眼注视估计领域,具体涉及一种基于不确定性建模的注视估计方法。


背景技术:

1、注视是人类的一种基本视觉行为,也是研究人类进行社会性交互的重要线索。注视估计旨在根据面部或眼睛图像预测三维注视方向或二维注视点。注视估计是许多计算机视觉任务的基础,例如显著性预测、显著性目标检测和扫视路径预测。此外,注视估计还广泛应用于各个领域,例如医学诊断、人机交互和医学教育。因此,精确的注视估计方法对于下游计算机视觉任务与各个领域的应用是十分重要的。

2、根据hansen等人在文章d.w.hansen and q.ji,“in the eye of the beholder:asurvey of models for eyes and gaze,”ieee trans.pattern anal.mach.intell.,vol.32,no.3,pp.478–500,mar.2009.中将注视估计方法大致分为两大类:基于模型的注视估计方法和基于外观的注视估计方法。基于模型的注视估计方法通常利用精确的几何信息,例如瞳孔大小、眼球角度和眼睛图像反射,来估计注视方向。然而这些精确的几何特征必须由高精度传感器采集,如高精度的红外相机或rgb-d相机。基于外观的注视估计方法通常使用面部或眼睛图像直接回归注视结果,而无需精确的几何信息与几何建模。因此,基于外观的注视估计可以通过低成本的rgb相机(例如,移动设备和笔记本电脑中的内置rgb摄像头)实现,从而具有广泛的应用前景。随着大规模数据集的提出,许多深度学习方法用以基于外观的注视估计任务以降低估计误差。

3、基于外观的注视估计问题中存在固有模糊性与外部噪声从而导致不确定性,然而,当前基于深度学习的外观注视估计方法忽略所存在的不确定性。从而导致对注视估计问题本身建模不准确。因此本发明分析了注视估计存在的两种不确定性:输入不确定性与标签不确定性。从而提出概率嵌入与概率标签建模分别建模输入不确定性与标签不确定性,并且提出嵌入特征平滑模块平滑概率嵌入特征,以更为准确的进行注视估计。


技术实现思路

1、要解决的技术问题

2、尽管近几十年来已经提出了许多基于外观的注视估计方法,但注视估计中存在的不确定性一直被忽略,导致对注视估计问题本身的建模不足。本发明将注视估计的不确定性分为两大类,(1)输入不确定性:由于采集的二维图像缺少深度信息,不同的三维注视行为具有一致或者相似的面部和眼睛图像,导致注视估计的输入存在固有模糊性。此外,数据采集过程中的其他外部因素也可能导致输入不确定性,例如观察者的眨眼、头部转动引起的运动模糊与照明变化。(2)标签不确定性:心理学研究表明,人通常注视一个模糊区域而不是确定性的点,因此,注视具有固有模糊性。此外,注视估计数据集的真值通常通过指令或眼动跟踪设备获得。但是,对于指令而言,由于观察者的主观性,指示观察者注视某一点不能确保观察者注视了点的中心;对于眼动跟踪设备而言,获得的真值具有系统误差。这些原因将标签不确定性引入了视线估计任务。然而,现有的确定性表示学习方法难以表示这种输入不确定性,并且现有的确定性标签学习难以来建模标签不确定性。

3、为了避免现有技术的不足之处,本发明提供一种基于不确定性建模的注视估计方法。

4、技术方案

5、本发明的方案是:首先招募被试者采集眼动估计数据集,利用现有的检测方法对采集到的眼动估计数据集中的图像进行人脸和人眼检测,并且记录相应的图像框坐标,利用人脸与人眼图像,通过概率嵌入的方法对融合后的特征进行概率嵌入,即利用高维高斯分布表示融合特征,然后通过monte carlo采样对高维高斯分布进行采样得到融合特征采样序列,利用回归器对融合特征进行回归得到估计注视点,在训练时,将标签由原来的确定性标签转化为概率标签从而建模标签不确定性。

6、一种基于不确定性建模的注视估计方法,其特征在于包括:

7、s1:构建注视估计数据集;

8、s2:对图像进行人脸和人眼检测;

9、s3:对检测到的人脸与人眼分别提取特征;

10、s4:利用概率嵌入对输入不确定性进行建模;

11、s5:回归注视点。

12、本发明进一步的技术方案:s1具体为:招募被试者观察手机,并且通过指令要求被试者注视手机屏幕中随机显示的圆点;通过手机摄像头记录下被试者的注视圆点时的视频,同时记录随机显示的圆点的位置坐标;将记录的视频与圆点的位置坐标进行时间对齐,从而得到图像帧与其对应的注视真值坐标。

13、本发明进一步的技术方案:s2具体为:对于手机记录的图像帧,首先利用已有的检测方法分别进行左右眼与人脸图像检测,得到左右眼图像与人脸图像{if,ieyel,ieyer},并且得到检测的左右眼图像框与人脸图像框在原图像的坐标位置l;对于未检测到人脸的图像进行标记,并不进入后续的流程中;将所有的人眼图像的尺寸统一变换到h1×w1大小,其中h1表示人眼图像高度,w1表示人眼图像宽度;将所有的人脸图像的尺寸统一变换到h2×w2大小,其中h2表示人眼图像高度,w2表示人眼图像宽度。

14、本发明进一步的技术方案:s3具体为:利用cnn作为特征提取网络分别对检测到的人眼与左右眼分别提取特征,为了同等地提取左右眼特征,将左右眼特征提取网络共享网络参数,并且将左右眼特征通过cnn模型融合;对于关键点特征l,采用堆叠的全连接层对其进行特征提取;综上,得到人脸特征ff、人眼特征fe、关键点特征提取后的特征fl;并且将上述特征{ff,fe,fl}融合得到特征fa。

15、本发明进一步的技术方案:所述的cnn模型包括vgg、resnet、mobilenet。

16、本发明进一步的技术方案:s4具体为:将融合后的特征映射为一个隐变量z,隐变量z为概率空间中的一个高斯分布其中高斯分布的均值表示最有可能的特征表示,高斯分布的协方差表示输入的不确定性度量。

17、本发明进一步的技术方案:s5具体为:对隐变量z进行monte carlo采样,得到特征序列{z1,z2,...,zt},并且通过堆叠全连接层的回归器rφ将特征序列{z1,z2,...,zt}分别进行回归,得到预测的注视点{g1,g2,...,gt}。

18、本发明进一步的技术方案:还包括利用概率标签对标签不确定性进行建模,具体为:对于原始标签为一个确定性的点不能建模标签不确定性,将标签概率化即将原始确定性的点转化为一个二维高斯分布其中二维高斯分布的均值为原始的确定性坐标,二维高斯分布的方差为标签不确定的大小,用以衡量标签质量。

19、本发明进一步的技术方案:训练模型具体为:将概率嵌入与概率标签引入损失函数中,得到一个新的损失函数,即概率化正则均方误差pnmse损失函数;采用三元组损失约束嵌入概率分布与标签分布;将pnmse损失函数与三元组损失函数、先验损失函数结合得到最终的损失函数;以最小化损失函数为优化目标,采用adam算法训练注视估计模型。

20、本发明进一步的技术方案:针对三元组数量指数爆炸的问题,采用难例挖掘方法以减少计算量。

21、有益效果

22、本发明提供的一种基于不确定性建模的注视估计方法,即利用注视过程中摄像头记录的图像,检测图像中的人脸与人眼,然后分别提取人脸、人眼特征并且融合。通过将融合特征映射到概率空间以建模注视估计中存在的输入不确定性,并通过将标签概率化以建模标签不确定性,通过引入嵌入特征平滑模块平滑概率空间,从而实现更为准确的注视点估计。具有如下优点:

23、1)本发明分析了注视估计中存在的两种不确定性,即输入不确定性与标签不确定性。并且本发明提出了概率嵌入的方法建模输入不确定性,将输入嵌入到概率空间中的多元高斯分布,其中多元高维高斯分布的均值表示最有可能的特征表示,多元高斯分布的协方差度量输入的不确定性。并且提出了概率标签的方法建模标签不确定性。

24、2)本发明提出了嵌入特征平滑模块,其利用三元组损失约束标签分布与嵌入特征的分布,以学习更光滑有序的概率嵌入特征,使得标签分布与嵌入特征分布更为一致,并且提出一种难例挖掘的方法解决三元组数据维度爆炸的问题。

25、3)本发明所提出的概率嵌入可以得到样本的不确定性估计,其可以有效地作为注视估计误差的置信度的度量,解决了以往确定性的方法估计存在结果置信度未知等不利于实际应用的问题。

26、4)本发明得到样本的不确定性估计与估计误差呈强正相关,因此其可以作为样本估计误差的度量。误差估计的度量可以作为样本筛选的衡量标准,对于大于一定数值的不确定性样本进行拒识别,从而进一步降低注视估计误差。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1