用于无校准注视估计的方法和设备的制造方法

文档序号:9308619阅读:652来源:国知局
用于无校准注视估计的方法和设备的制造方法
【技术领域】
[0001] 本发明涉及关于由观看者观看的图像序列的眼睛注视估计领域。
【背景技术】
[0002] 人类是所有生活领域中的最核心因素。视觉是人类最重要的感觉;人类大脑中的 大约80-90 %的神经元被假定牵扯到视觉感知。眼睛注视被认为是可以揭示人类思想的有 用且确凿信息的重要线索。眼睛注视被认为能够反映人在视觉环境中的注意力、行为和感 情。实际上,多种人机交互(HCI)应用中都会涉及对眼睛注视的解释处理,比如基于注视的 交互用户界面、自适应和交互的内容展示、虚拟现实、人类行为研究和诊断应用等。因此,在 过去的几十年中,眼睛注视估计已经成为了活跃的研究领域,但由于该问题的诸多难点,其 仍然是一个具有挑战性的课题。通常,可将眼睛注视追踪器分成两类:根据设备与受试者 进行接触的方式不同,分为侵入式系统和远程系统。最早的侵入式注视追踪器之一基于固 定在眼睛上的允许检测其位置的特殊接触透镜。这些接触透镜包含传感器(镜面或感应 线圈),传感器用来反射光线或用来测量高频电磁场中的眼睛位置。虽然提供了高精确度, 但由于其不舒适且扎眼的使用,该方法只适合用于医疗或认知研究。基于眼动电图描记法 (E0G)的方法对眼睛转动时存在静电场这一事实进行利用。通过(使用电极)测量眼睛周 围的皮肤区域中的电势差,可以估计眼睛的位置。E0G技术使用能够在暗环境(此时视频眼 动描记是没有用的)中进行记录并且不需要睁眼的简单配置提供可靠的测量。主要问题在 于,E0G信号会受到由于眨眼、面部肌肉移动和E0G潜在漂移所带来的噪声(尤其是在长期 记录实验中)。视频眼动描记技术也可被分类为侵入式方法(如果它们用于头戴式系统中 的话)。一般地,侵入式方法能够实现高精确度以及自由的头部移动,但其主要缺陷在于,其 要求只限制于实验室实验的对用户进行紧密接触。
[0003] 因此,对于日常应用,非侵入式(或远程)方法是更为优选的。针对这一类别,基 于视频的技术是最为广泛使用的。可以对方法的两个群组进行区分:基于(几何)模型的 方法和基于外观的方法。前者使用眼睛的3D几何模型来估计注视。将关注点确定为3D注 视方向(包括光轴和视轴)与屏幕平面之间的交点。大多数基于模型的方法基于角膜反射 技术,并使用附加光源(通常为红外光)来照射眼睛。主要想法是根据瞳孔中心与闪光点 (由于反射所导致的眼睛上的最亮光点)之间的相对位置估计注视。
[0004] 作为对照,基于外观的方法认为注视估计是眼睛的图像特征和注视在屏幕上的位 置之间的2D映射问题。可通过训练多层神经网络或回归模型(比如Gaussian过程回归) 或通过使用非线性流形嵌入技术(比如局部线性嵌入)来得到映射函数,以将高维眼睛图 像缩减到2维并通过低维空间中的线性组合导出所述注视。
[0005] 基于几何模型的方法一般来讲更加准确(小于一度)并且在商用眼睛追踪器中 使用的更为广泛。然而,它要求高清相机和附加光源。当前的基于外观的方法已知不太准 确(准确度为若干度)。还已知更为准确的基于外观的方法,这些方法可以实现小于一度 的准确度,但代价是使用大量的校准点,参见例如K.H.Tan,D.J.Kriegman,andN.Ahuja, "Appearance-basedeyegazeestimation',,ProceedingsoftheSixthIEEEWorkshop onApplicationsofComputerVision(WACV),pages191-195,2002。
[0006] 几乎所有当前的注视追踪技术都要求校准过程,以便推断出某些人员特定的眼睛 参数(在基于几何的方法的情况中)或对眼睛移动和屏幕之间的相应映射函数进行回归 (在基于外观的方法的情况中)。这种过程是非常麻烦、不舒适的,并且难以完成。此外,在 一些消费者家庭应用中,比如交互游戏界面或自适应内容选择界面,由于要求眼睛追踪对 于用户是透明的,所以主动校准几乎是不可能的。存在不要求显式校准的眼睛注视估计方 法。然而,它们的基于模型的方法要求使用多个相机和IR光源。
[0007] 另一方法关注于使用视觉显著性作为注视的几率分布的先验信息。文献 Y.Sugano,Y.Matsushita,andY.Sato,''Calibration-freegazesensingusingsaliency maps',,InProc.ofthe23rdIEEEConferenceonComputer,VisionandPattern Recognition(CVPR),June2010提出:如果连续眼睛外观不显著改变,则表明用户正在注 意相同的固定点。通过集群化和平均化所有训练视频,获得"固定群组"的集合,每个"固定 群组"包括平均注视几率图和其相应的平均眼睛图像。这些数据用来获得Gaussian过程回 归(GPR)。由于不具有注视点的"真实"位置(相反地,只知道注视几率),通过Monte-Carlo 近似来实现GPR的训练过程(即根据平均注视几率图生成样本)。然而,该方法受到限制。 首先,为了进入操作模式,系统需要事先进行离线且耗时的训练(针对10分钟的测试,进行 10分钟的训练)。第二,方法利用许多通过经验确定的参数。第三,为了使MonteCarlo近 似达到期望的准确度,需要许多样本,其代价是严重地增加了计算成本。然而,由于所述方 法完全基于并不总是可靠的显著性信息,导致所述方法只实现6度的低准确度。
[0008]文献R.Valenti,N.Sebe,andT.Gevers,"Whatareyoulookingat?improving visualgazeestimationbysaliency'',InternationalJournalofComputerVision, 2012公开了在随后处理阶段中使用显著性图来改善任何注视估计系统的性能。视网膜中 凹区域(foveatedregion)被建模为所估计的固定点周围的Gaussian核。然后,计算所述 显著性图。使用在所述固定点处初始化的均值移动窗来找到显著性图中的最接近的最大值 点,该最大值点被认为是新的修正注视点。通过假定注视追踪器中的误差是相同且仿射的 (例如移位或缩放),可通过在所估计的和所修正的注视之间应用加权的最小二乘最小化 来获得修正矩阵。
[0009] 由于两个主要原因,现有的眼睛注视感应系统离在消费者家庭应用中广泛使用还 有相当的距离。这种系统的成本仍然很高并且大多数系统要求进行麻烦且耗时的校准过 程。

【发明内容】

[0010] 本发明的目的是克服现有技术中存在的至少一个缺点。
[0011] 具体地,本发明的目的是在不进行任何校准的情况下确定观看者在其所观看的屏 幕上注视的位置。
[0012] 本发明涉及用于注视估计的方法,包括以下步骤:
[0013]-至少检测至少眼睛的中心在正在观看显示在屏幕上的至少视频图像的观看者的 至少眼睛图像上的位置;
[0014]-通过使用至少所检测到的至少眼睛的中心的位置和基于人类注视分布的中心偏 离属性的映射函数,确定所述观看者的注视在所述屏幕上的至少第一位置。
[0015] 根据一种具体特性,所述检测步骤包括以下步骤:
[0016]-将所述至少眼睛图像转换成至少热图;
[0017]-确定所述至少热图的第一像素,所述第一像素具有大于第一预定阈值的关联 值;
[0018]-确定位于所述第一像素附近的第二像素,所述第二像素具有大于第二预定阈值 的关联值;
[0019]-将至少所述至少眼睛的中心的位置计算为对应于第一和第二确定像素的位置的 加权平均。
[0020] 优选地,所述至少热图在颜色空间YCb(;中被表示为所述转换的输出。
[0021] 根据一种具体特性,所述检测步骤还包括对所述至少热图进行Gaussian滤波,所 述第一和第二像素是在Gaussian滤波之后确定的。
[0022] 优选地,所述方法还包括以下步骤:
[0023] _根据与所述至少视频图像相关联的至少显著性图,确定观看者的注视在所述屏 幕上的至少第二位置;
[0024] _确定观看者的注视在所述屏幕上的至少第三位置,所述注视的所述至少第三位 置对应于所述注视的所述至少第一位置和所述注视的所述至少第二位置的融合。
[0025] 根据另一特性,通过使用粒子滤波方法和在时间角度上之前确定的所述注视的至 少另一第一位置,确定所述注视的所述至少第一位置。
[0026] 优选地,通过将粒子滤波方法用于在时间角度上之前确定的所述注视的至少另一 第一位置和所述注视的至少另一第二位置,确定所述注视的所述至少第三位置。
[0027] 根据一种具体特性,通过考虑所述观看者的头部的移动,确定所述观看者的注视 的所述至少第一位置。
[0028] 本发明还涉及一种被配置用于确定观看者的注视的设备,所述设备包括至少一个 处理器,所述至少一个处理器被配置用于:
[0029]-检测至少眼睛的中心在正在观看显示在屏幕上的至少视频图像的观看者的至少 眼睛图像上的位置;
[0030]-通过使用所检测到的至少眼睛的中心的位置和基于人类注视分布的中心偏离属 性的映射函数,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1