用于无校准注视估计的方法和设备的制造方法_3

文档序号:9308619阅读:来源:国知局

[0076] 在一种可选方式中,并且根据一种变形,可通过使用与视频图像101相关联的显 著性图106对注视位置的估计进行改善。然后,可从显著性图获得第二注视位置107。通过 融合第一注视位置105和第二注视位置107,可获得第三注视位置109,其优点在于,比第一 注视位置105和第二注视位置107单独考虑都要更为精细。第三注视位置105有利地对应 于第一注视位置和第二注视位置的平均。根据一种变形,第三注视位置105有利地对应于 第一注视位置和第二注视位置的加权平均,如果对第一注视位置的估计的置信度大于对第 二注视位置的估计的置信度的话,指派给第一注视位置的权重大于指派给第二注视位置的 权重,反之亦然。根据另一变形,使用显著性图来适配调谐因子4和Ay。例如,根据显著性 图中的扩散(即根据显著性图的方差)来适配AjPAy。
[0077] 根据另一可选变形,可基于第一注视位置105和第二注视位置107实现粒子滤波 108,以获得更为精细的第三注视位置109。图4示出了这一变形,其中示出了根据本发明 的一种具体且非限制性实施例应用于对观看者的注视位置的估计的粒子滤波架构。从最一 般的观点并且根据本发明的特定示例性实施例,注视感应系统接收两种信息源作为输入, 即视觉内容(例如图像/视频)和观看者的外观(例如头部姿势或眼睛外观),并输出最 可能的注视点,即第三注视位置109。激励图像140、41和42(对应于不同连续时刻t-1、t 和t+1处的视频图像101)、不同连续时刻t-1、t和t+1的注视位置g= (x,y)(其中g是 2D向量,x和y分别是横轴和纵轴上的注视位置)43、44、45和眼睛图像e46、47、48 (对应于 不同连续时刻t-1、t和t+1的眼睛图像103)之间的几率关系可如图4所示经由几率图形 模型4示出。该图形模型4描述DBN(动态Bayesian网络),其中每个时间帧t_l、t和t+1 中的节点表示所考虑的随机变量之间的关系,有向边表示它们的条件相关性。没有连接的 节点被认为是彼此"条件无关"的。时间帧之间的联系反映了时间关系。基于该DBN,注视 位置被估计为后验几率P(gt 11: :t,ei :t)。如图4中所见,眼睛外观et47并不完全与激励 It41无关。清楚的是,激励以某种方式影响注视位置gt44,并从而间接地影响眼睛外观。然 而,不失一般性地,可认为这两种观测是"条件无关"的(即经由第三变量gt相关)。同样, 注视位置分布也被假定为遵循一阶Markov过程,即当前状态只取决于之前的状态。该假设 对于固定和平滑跟随眼睛移动尤其有效。在跳跃式眼睛移动中,如果当前注视位置是通过 具有足够大尺度的分布建模的,则还可认为当前注视位置与之前的注视位置有关。通过使 用Bayes规则以及一些因式分解,得到:
[0078] p(gt|Ii:ej: t)p(It,et|gt)p(gt|Ij:tej:tj). (5)
[0079] 在式5中,可经由先验几率pfetlli:tl,ei : tl)(给定之前的测量的情况下对当 前状态gt的预测)和似然性P(It,et |gt)估计后验几率p(gt | ^: t,ei:t)。符号〇c意思是 "与......成比例"。对先验几率应用链规则(即Chapman-Kolmogoroff等式),能够得到 以下熟悉结果:
[0080]
[0081] 式6使用一个状态变量g和两个同时测量I和e来表征动态系统。在关于状态噪 声和测量噪声的线性条件和Gaussian假设下,可通过使用Kalman滤波方法得到采用闭合 表达式的优化解。作为对照,粒子滤波架构可被用作次优备选方案,以与基本分布无关的解 决问题。此外,粒子滤波提供一种更为多模的架构,其允许集成不同类型(即不同分布)的 观测。基于粒子滤波的方法经由两个步骤来近似所述后验概率密度P(gt|〇1 :t)(其中0指 示的观测是激励图像I或眼睛外观e):
[0082] 1.预测:从之前的观测〇1 :t :预测当前状态:
[0083] P(gtI〇i:ti) = /P(gtISti)P(gt11 〇i:ti)d〇t !? (7)
[0084] 2.更新:利用Bayes规则使用传入观测卩4更新对当前状态的估计
[0085] P(gtI〇i: t) 00P(〇tISt)P(gtI〇i:ti) ? (8)
[0086] 通过与权重w/相关联的N个粒子的集合来近似后验分布 P(gtI〇1 :t)。通常,不能直接从P(gtI〇1 :t)获得样本,而是从所谓的"提议分布"q(gtIgl :ti, :t)获得,其中q(.)可在某些限制下选择。通过下式更新权重:
[0087]
(9)
[0088] 在最简单的情境中,将p(gt|gtD选为提议分布,其导致具有简单实现的自举滤 波。通过这种方式,简单地将权重更新化简为对似然性的计算。为了避免退化问题,可根据 一种变形进行重采样,已使用根据重要权重均等加权粒子的新的集合取代粒子的旧集合。 [0089] 为了应用粒子滤波架构,按照以下来对状态转移模型和观测模型进行建模。
[0090]A.状态转移模型
[0091] 一般地,存在两种类型的眼睛移动:平滑跟随移动和跳跃式移动。前者表示逐渐移 动,其通常在注视移动对象时发生,后者是从一个眼睛位置向另一位置的非常快速的跳跃。 其它类型的眼睛移动(比如固定或转向)都可被粗略地归到这两种类型中。
[0092] 直觉上,平滑跟随眼睛移动可通过峰值以之前的注视位置状态gti为中心的分布 (例如Gaussian分布)来成功地建模。否则,对于跳跃式眼睛移动,即像屏幕上的任意位置 的眼睛移动,还可使用以之前的注视位置为中心的另一Gaussian分布(但具有大得多的尺 度)来描述跳跃式的不确定性属性。
[0093] 从而,应该通过两种密度的Gaussian混合来对状态转移进行建模。但是,为了简 单,针对两种类型的眼睛移动采用唯一分布:
[0094]
(10)
[0095] 其中diag( 〇 2)是对角协方差矩阵,其对应于每个独立变量\和yt的方差(注视 点表示为二维向量gt= (xt,yt))。〇 2需要大到足以覆盖显示器上的注视的所有可能范围, 以便对跳跃式眼睛移动进行建模。例如,〇被设为=1/3屏幕尺寸。
[0096]B?观测模型
[0097] 由于L:t和ei:t是条件无关的(如图4中所示),可通过下式给出复合似然性 p(It,et|gt):
[0098]p(It,et |gt) =p(It |gt)p(et |gt)p(gt |It)p(gt |et) ? (11)
[0099] 在只给出可从显著性图直接获得的图像帧的情况下,第一项p(gt|It)表示注视几 率。在给出当前眼睛图像的情况下,第二项p(gt|et)表示似然性分布。在对象追踪的上下 文中,该似然性通常通过当前观测和现有对象模型之间的相似性测量计算得到。与这些工 作一致,在注视估计的上下文中,按照如下对似然性p(gtIet)进行建模:
[0100] p(gt |et)exp(-Ad(et)). (12)
[0101] 其中,入是确定分布的"峰形"的参数,(et) = ||et -心||2表示当前观测et和估 计的眼部图像& (对应于粒子位置成;)之间的距离测量。
[0102] 在无需校准的上下文中,无法访问用来估计~的眼睛图像的训练集合。从而,经由 对眼睛中心的位置的检测,提出了用来估计p(gt|et)的简单模型。该估计经过如上所述的 两个步骤:i)对眼睛的中心的位置进行检测103;和ii)将眼睛的中心转换104到第一注视 位置。
[0103] 更为精确地,给定了观测et的似然性值p(g11et)与&和"观测注视位置"沒et之 间的距离指数式地成比例,所述"观测注视位置"是通过式3和4从眼睛中心位置导出的:
[0104]
(13)
[0105]确定式13中的参数A,以使得当II从一沒t||2 =D时(其中D是一般设置于屏幕 的对角线的最大可能误差)^(^|61)~£(其中£是非常小的正数,例如10 2或103)。
[0106] 图5示出了根据本发明的具体且非限制性实施例的适于辅助用户控制注视位置 估计的结果的图形用户界面(GUI) 5。GUI5包括用于显示正在观看视频图像(还称为激励 图像)的观看者的面部的图像的第一部分51。可生成帧511,以图形示出观看者的面部的图 像中对应于观看者的眼睛的部分。有利地,还可通过红点对眼睛的中心进行图形标识。这 可使得能够检查对眼睛中心的检测运转良好。观看者正在观看的视频图像被显示在GUI5 的第二部分53中。有利地使用特定图形标识符531 (例如红点)将第一注视位置示于视频 图像53上。然后,用户可以与观看者检查图形标识符的位置是否实际对应于视频图像53 的观看者正在观看的部分。自然地,用户和观看者可以是同一个人。GUI的第三部分52示 出了对应于显示在GUI5的第二部分53中的视频图像的显著性图。有利地经由例如蓝点 在该第三部分52上对该最大显著性峰值进行图形标识。根据一种变形,还可在视频图像53 上标识第二注视位置,例如可以使用与第三部分52上相
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1