用于无校准注视估计的方法和设备的制造方法_2

文档序号：9308619阅读：来源：国知局

确定所述观看者的注视在所述屏幕上的至少第一位置。
[0031] 优选地，所述至少一个处理器还被配置用于：
[0032]-将所述至少眼睛图像转换成至少热图；
[0033]-确定所述至少热图的第一像素，所述第一像素具有大于第一预定阈值的关联值；
[0034]-确定位于所述第一像素附近的第二像素，所述第二像素具有大于第二预定阈值的关联值；
[0035]-将至少所述至少眼睛的中心的位置计算为对应于第一和第二确定像素的位置的加权平均。
[0036] 根据一种具体特性，所述至少一个处理器还被配置用于：使用Gaussian滤波对所述至少热图进行滤波。
[0037] 根据另一特性，所述至少一个处理器还被配置用于：
[0038] _根据与所述至少视频图像相关联的至少显著性图，确定观看者的注视在所述屏幕上的至少第二位置；
[0039] _确定观看者的注视在所述屏幕上的至少第三位置，所述注视的所述至少第三位置对应于所述注视的所述至少第一位置和所述注视的所述至少第二位置的融合。
[0040] 优选地，所述至少一个处理器还被配置用于：执行粒子滤波方法。
[0041] 根据另一特性，所述至少一个处理器还被配置用于：检测所述观看者的头部的移动。
[0042] 本发明还涉及一种计算机程序产品，所述计算机程序产品包括程序代码的指令，所述指令用于当在计算机上执行所述程序时执行估计注视的方法。
【附图说明】
[0043] 通过阅读以下参照附图的具体描述，将更好地理解本发明以及其它特定特征和优点，其中：
[0044] 图1示出了根据本发明的具体实施例的用于估计观看者的注视位置的方法。
[0045] 图2示出了根据本发明的具体实施例的观看者的眼睛图像，以及相关联的热图。
[0046] 图3示出了根据本发明的具体实施例的根据观看者正在观看的视频内容的不同类型的注视位置的平均空间直方图。
[0047] 图4示出了根据本发明的具体实施例的应用于对图1中的观看者的注视位置的估计的粒子滤波架构。
[0048] 图5示出了根据本发明的具体实施例的与估计注视位置的方法相关的图形用户界面。
[0049] 图6示意性地示出了根据本发明的具体实施例的用于实现估计注视位置的方法的设备。
[0050] 图7示出了根据本发明的具体实施例的估计注视位置的方法。
【具体实施方式】
[0051] 将参照用于对正在观看显示在屏幕上的一个或多个视频图像的观看者的注视位置进行估计的方法的具体实施例来描述本发明。为了实现该目标，通过分析观看者的至少一部分（包括对观看者的一只或两只眼睛的表示）的一个或多个图像，检测观看者的一只或两只眼睛的中心的位置。在观看者观看一个视频图像时，所分析的图像有利地对应于观看者的图像。表示眼睛外观和屏幕上的注视位置之间的映射并且基于人类注视分布的中心偏离属性的映射函数用来确定观看者在屏幕上注视的位置。
[0052] 对基于人类注视分布的中心偏离属性的映射函数的使用使得能够避免对映射函数进行校准，即能够避免眼睛外观和屏幕上的注视位置之间的映射函数发生任何退化（例如通过使用测试视频图像和正在观看这些测试视频图像的观看者的相关联的眼睛图像来执行）。
[0053] 图1示出了根据本发明的具体且非限制性实施例的用于估计观看者的注视位置的方法。过程的输入10包括表示一个或若干个视频图像101的数据和表示一个或若干个眼睛图像102的数据。眼睛图像102有利地对应于正在观看视频图像102的观看者的一只或两只眼睛的图像，或更为一般地对应于观看者面部的图像，从中可提取表示眼睛的图像的数据。在一种有利的方式中，眼睛图像102是经由相机（例如网络相机）获取的。所述相机例如位于显示视频图像的屏幕的上方，意味着相机没有集成到屏幕中，并且有线或无线地连接到屏幕。根据一种变形，相机可以集成到屏幕中。一个眼睛图像102有利地与一个视频图像101相关联，意味着在显不相关联的视频图像101的同时拍摄一个眼睛图像102。例如，视频图像101对应于图像序列（例如电影）的图像，对应于照片，对应于网页等等。
[0054] 在第一步骤103中，从眼睛图像102检测一只眼睛的中心或每只眼睛的中心。可通过使用面部检测算法（例如加强级联面部检测器，参见"Robustreal-timeobject detection"byP.ViolaandM.Jones，IJCV，vol. 57，no. 2，pp. 137-154, 2002)检测观看者的面部。然后，基于人体测量关系从所检测到的面部确定眼睛区域的粗略位置。经验性地，发现眼睛中心总是包含在两个区域内，针对左眼的区域开始于检测到的面部区域的20%X30%，针对右眼的区域开始于60%X30%，其大小是所检测到的面部区域的 25%X20%。
[0055] 根据一种变形，Hough变换（HT)方法用于检测眼睛的中心，HT方法使用基于评选的算法在参数空间中检测圆圈（和线）。例如，美国专利US3,069,654中对肌方法进行了描述。
[0056] 在一种有利的方式中，通过使用利用眼睛图像102中可用的颜色信息的方法来检测眼睛的中心。根据该方法：
[0057] 1.首先将在RGB颜色空间中捕获的眼睛图像转换到YCbCr空间。
[0058] 2.基于经验观察（瞳孔区域中的像素通常在Cb分量中具有高值而在Y和Cr分量中具有低值），可按如下来确定眼睛中心热图（HM):
[0059]HM(x,y) =Cb(x,y). (l~Cr(x,y)). (l~Y(x,y)) (1)
[0060] 其中（X，y)对应于热图的像素的坐标，热图有利地包括与从中获得热图的眼睛图像一样多的像素，具有坐标（x，y)的眼睛图像的像素在热图中的相应像素具有相同坐标 (x，y)。图2中根据本发明的特定且非限制性实施例示出了这一热图。图2示出了眼睛图像20及其相关联的热图21。向热图的像素指派不同的值210-213,这些值是根据式1计算得到的。
[0061] 3.然后，使用区域生长方法提取所有可能是瞳孔区域的子区域。为了做到这一点，大于预定阈值T1的局部最大值被选为种子点，称为第一点212。然后，通过生长值大于预定阈值T2的所有像素（这些像素被称为第二像素213)来在每个种子点周围构建四个连接的区域。所选择的点然后被动态地添加到"候选点"集合，然后所述过程继续，直到到达眼睛区域的末端为止。经验性地，T1和T2可以按如下设置：T1 = 0. 98以及T2 = 0. 85,以获得良好性能。
[0062] 4.最后，通过对所有候选点进行加权评选来估计眼睛中心位置：
[0063]
[0064] 其中，PR是候选像素的集合。
[0065] 在第二步骤104中，将眼睛的中心的位置转换成注视的位置。在自由观看模式中，实际上，注视分布偏向屏幕中心。图3中可观察到这一效果。在图3中，示出了由注视追踪器（例如具有50Hz的采样频率的SMIRED追踪器）记录的注视位置的平均空间直方图，此时观看者处于三种屏幕观看活动中：电影观看30、电视观看31和网页浏览31。对于前两种活动30和31，举例来讲，四个观测者被要求观看8个视频序列（即4个电影剪辑和4个电视剪辑，每个10分钟）。针对网页浏览活动，观看者能够随便选择5个喜欢的网站来在10 分钟期间进行浏览。然后，针对所有激励和所有受试者对结果进行平均。当注视位置（亮像素300和310)分布在位于屏幕中间的非常窄的区域中时，针对电影和电视观看活动可以观测到强烈的中心偏离效应。对于网页浏览活动，尽管注视分布在中心附近存在较大扩散 (亮像素320)，仍然能够注意到中心偏离。
[0066] 基于注视分布的这一统计属性，可通过以下投影模型根据当前眼睛中心坐标（X。， y。）（在眼睛图像中）确定"观测注视"位置爲==馬t)(归一化为[01]):
[0067]
[0069]其中：
[0070] _士和;^是转换成的注视位置，对应于注视的第一位置105;
[0071] -X。和y。是采用绝对图像坐标的当前眼睛中心位置。由于受试者的头部被假定为固定的，所以不要求眼角局域化技术将这些值转换为眼睛坐标的相对位置；
[0072] -.焉、爲、0x。和0y。分别是x。和y。的均值和标准差值。这些参数是在所述过程期间连续计算和更新的。
[0073] _4和Ay是调谐因子，它们描述注视分布的"尺度"。通常根据经验将它们设为例如4,这对于对中心偏差级别进行量化来讲足够大了。
[0074] 通过这种方式，当当前眼睛中心位置等于其均值（(乂Jc) pc))时，注视位置将位于屏幕的中心（采用归一化注视坐标，（xg，yg) = (〇.5,0.5))，以及当当前眼睛中心位置从其均值偏差Ax(相应的，Ay)倍的标准差时，注视将位于屏幕边界处（即（xg，yg)= 1).
[0075] 使用这一简单映射模型使得能够从眼睛图像获得对注视位置的粗略估计（同时给出良好性能），而独立于（即不需要）显著性图

完整全部详细技术资料下载

当前第2页1 2 3 4 5