本发明属于图像处理、计算机视觉领域,主要涉及一种基于渐进性视野锥的注视目标估计方法。
背景技术:
1、随着社会的进步和科技的发展,人们的社交互动方式也在不断变化和升级。在公共场所、学校、工作场所甚至家庭环境中,人们的注视行为和目标选择往往反映了他们的意图和情绪。因此能对注视目标进行估计的这种能力是计算机系统理解人们在场景中做什么及其意图的关键因素。注视目标估计,即通过分析和理解人们的视线方向和注视的焦点位置,已经成为计算机视觉领域中的一个重要研究课题。这种技术的应用不仅可以提高人机交互的自然性,还可以用于孤独症的早期诊断和治疗。例如,在社交互动中,通过理解和预测人们的注视目标,可以更好地理解他们的意图和情绪;在人机交互中,机器可以通过理解人类的注视目标来提供更自然、更直观的交互体验;因此,注视目标估计的研究和应用对于我们的社会生活具有重大的意义。
2、随着现代图像处理技术的发展,注视目标估计方法也取得了巨大的发展,但是仍面临以下几点问题:
3、一:现有的方法中,缺乏对场景的空间信息理解,因此不能真实的反映出目标对象与空间其他物体的位置关系,导致从而导致不能准确的估计出目标人物的注视位置。
4、例如2018年,dongze lian等作者在顶级国际会议springerasian conference oncomputer vision上发表的文章《believe it ornot,we know whatyouare looking at!》提出的一种注视目标估计方法,该方法结合多个尺度的平面视野锥图像进行注视目标估计,然而平面的注视锥体仅覆盖了视野范围,缺乏对视野中物体的几何位置关系的感知。使得生成的显著性热图难集中注意力在关键区域上,从而导致不能准确的估计出注视目标的位置。
5、二:很多考虑到空间信息的注视目标估计算法,往往依赖于大量的先验知识,这种依赖性需要复杂的预训练和大量的数据来源,难以迁移到新场景,因此不利于实际场景中的应用。
6、例如2022年,jun bao等作者在顶级国际会议ieee conference on computervision and pattern recognition发表的文章《escnet:gaze target detection withthe understanding of 3dscenes》。这篇论文提出构建场景的3d点云信息作为场景的空间信息补充来进行注视目标估计,但是该方法需要额外计算资源(例如3d姿势数据集、密集人体姿势数据集)才能为场景生成较为可靠的3d点云信息,导致难以应用在现实场景中。
技术实现思路
1、本发明为解决上述现有方法存在的不足之处,提出了一种基于渐进性视野锥的注视目标估计方法,以期能不依赖过多的先验知识,并在视线锥中有效的反映场景的空间信息,从而能提高注视目标估计的准确性。
2、本发明为解决技术问题采用如下技术方案:
3、本发明一种基于渐进性视野锥的注视目标估计方法的特点在于,是按如下步骤进行:
4、步骤1、数据预处理:
5、步骤1.1、获取注视目标估计数据集,并将所述注视目标估计数据集中的任意第n张图片记为in,利用单目深度估计方法为第n张图片in生成对应的归一化的深度图像dn,1≤n≤n,n为所述注视目标估计数据集中的图片数目;
6、标定出第n张图片in中任一目标人物的人头位置的边界框pn,并根据边界框pn从第n张图片in中裁剪出对应的目标人物的人头图像cn;
7、步骤1.2、构建一个与第n张图片in的尺寸相同的二值图像bn,若第n张图片in中的像素点为边界框pn内的像素点,则将bn中相应位置的像素点设置为1,反之设置为0;
8、步骤1.3、利用式(1)将bn与dn进行配对,生成对应的目标人物的头部深度图像id_h,其中,任意第i行第j列像素点的取值
9、
10、式(1)中,b(i,j)表示bn中第i行第j列的像素值,d(i,j)表示dn中第i行第j列的像素值,表示边界框pn内所有像素索引集合;
11、步骤1.4、若第n张图片in中目标人物的注视对象不在in中,则令注视标签否则,令注视标签并标记出目标人物的注视目标的位置点从而以gn为中心,利用高斯核函数生成目标人物对应的注视热图并对注视热图进行分块处理,计算每个块中的最大像素值作为相应块的得分,从而得到第n张图片in的注视得分分布
12、步骤2、建立由视线相关特征提取器、显著性特征提取器、热图回归编解码器、帧内帧外分类器构成的网络模型f,其中,热图回归编解码器由卷积层和反卷积层构成,帧内帧外分类器由卷积层和全连接层构成;
13、步骤2.1、定义当前训练次数为t,并初始化t=1;
14、步骤2.2、令第t次训练时的视线相关特征提取器记为并对cn进行处理,得到第t次训练时优化的视野锥图像
15、步骤2.3、令第t次训练时的显著性特征提取器记为将in、dn和输入所述第t次训练时的显著性特征提取器中进行处理,得到第t次训练时细致的场景显著性特征
16、步骤2.4、令第t次训练时的热图回归编解码器记为将输入第t次训练时的热图回归编解码器中进行处理,得到第t次训练时预测的注视热图
17、步骤2.5、令第t次训练时的帧内帧外分类器记为将输入第t次训练时的帧内帧外分类器中进行处理,得到第t次训练时注视目标在图像内的预测标签
18、步骤3、利用梯度下降法对第t次训练时的网络模型ft进行训练,得到第t次训练后的网络模型ft,并判断计算总损失函数是否收敛,若收敛,则表示第t次训练后的网络模型ft的参数εt为最优参数ε*,并以最优参数ε*所对应的网络模型作为最终用于估计注视目标位置的最优模型;否则,将第t次训练后的网络模型ft的作为第t+1次待训练的网络模型ft+1,并将t+1赋值给t,返回步骤2.2顺序执行。
19、本发明所述的一种基于渐进性视野锥的注视目标估计方法的特点也在于,是所述步骤2.2包括:
20、步骤2.2.1、将第n张图片in对应的目标人物的人头图像cn输入所述第t次训练时的视线相关特征提取器中进行处理,得到第t次训练时的视线相关特征c,h,w分别表示所述视线相关特征的通道数、长度、宽度;
21、步骤2.2.2、利用式(2)计算第t次训练时目标人物的平面凝视向量
22、
23、式(2)中,tanh(·)和relu(•)分别表示tanh激活函数和relu激活函数,和代表2个线性函数,表示自适应平均池化层;
24、步骤2.2.3、利用式(3)计算第t次训练时平面视野锥图像中任意第i行第j列的像素值其中,h0,w0表示平面视野锥图像的长度、宽度:
25、
26、式(3)中,(hx,hy)是二值图像b中目标人物的头部中心位置索引,α是视野锥的角度阈值;
27、步骤2.2.4、利用式(4)计算第t次训练时的渐进性图像任意第i行第j列像素值
28、
29、式(4)中,n∩表示pi内所有像素点的总数;
30、步骤2.2.5、利用式(5)获得第t次训练时优化的视野锥图像
31、
32、式(5)中,表示像素级的乘法操作。
33、所述步骤2.3包括:
34、步骤2.3.1、将in、dn和输入所述第t次训练时的显著性特征提取器中进行处理,得到第t次训练时的场景显著性特征
35、步骤2.3.2、利用式(6)计算分块级的注视分布
36、
37、式(6)中,sigmoid(·)表示sigmoid激活函数,和代表另2个线性函数,norm(·)表示归一化处理;
38、步骤2.3.3、利用式(7)获得到第t次训练时细致的场景显著性特征
39、
40、所述步骤3中的总损失函数是按如下步骤得到:
41、步骤3.1、利用式(8)构建第t次训练时的视线方向损失
42、
43、式(8)中,(gx,gy)为对应的真实注视位置,(hx,hy)为对应的头部中心位置,(gx-hx,gy-hy)即为真实的视线方向;
44、步骤3.2、利用式(9)构建第t次训练时的注视分布损失
45、
46、式(11)中,k代表h×w个分块中的任意一个块的序号,和分别表示第k个分块的预测得分和真实得分;
47、步骤3.3、利用式(10)构建第t次训练时的注视热图损失
48、
49、步骤3.4、利用式(11)构建第t次训练时的内外标签损失
50、
51、步骤3.5、利用式(12)构建第t次训练时的总损失函数loss(εt):
52、
53、式(12)中,εt表示第t次训练时网络模型f的参数。
54、本发明一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行所述注视目标估计方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
55、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行注视目标估计方法的步骤。
56、与现有的技术相比,本发明有益效果体现在:
57、1、本发明不依赖于过多的模态信息,仅利用2d信息有效模拟空间中的物体几何位置,可以更加高效的适应于实际应用中的真实场景,并迁移到未知场景中。
58、2、本发明基于空间接近性的凝视锥生成方法,利用深度信息构建一个模拟人类视觉偏好和深度感知的凝视锥,它有效地去除与凝视无关的区域,并突出显示潜在的凝视目标。
59、3、本发明中的渐进场景优化方法,以粗到细的方式进行操作,丰富注视位置热图中的特征表示并减轻热图回归中的有限泛化能力,这使得能够更加准确的预测目标人物的注视目标位置。