一种基于眼动注视点移动轨迹的感兴趣点数据库建立方法与流程

文档序号：15200096发布日期：2018-08-19 10:38阅读：520来源：国知局

本发明涉及了一种利用眼动仪收集人眼观察三维模型时眼动注视点移动轨迹，对轨迹进行分析处理，建立三维模型的感兴趣点数据库的方法。

背景技术：

目前作为参考量较大的三维模型的感兴趣点数据库，是来自于helindutagaci等人2012年发表在viscomput的“evaluationof3dinterestpointdetectiontechniquesviahuman-generatedgroundtruth”一文。该文的实验是将24个三维模型显示在一个网站的窗口上，23名实验者可以通过窗口设置的按键来获取来自模型不同角度的视图，实验者经过观察后可以通过鼠标标注自己对于模型感兴趣的区域。收集实验者标记的数据，通过算法剔除伪兴趣点，整合出三维模型的感兴趣点数据集。

该数据库通过这种方式获得的感兴趣点并不具有客观性。因为实验者通过长时间观察数据，选取的角点经过大脑思考带有强烈的主观性。这与模型进入人眼视线，第一时间引起人类视觉注意的兴趣点不同。本发明通过眼动注视点移动轨迹建立感兴趣点数据库，能真实反映出人类观察模型时的感兴趣点。

技术实现要素：

鉴于目前的三维模型兴趣点数据集不能反映出人类在观察模型时的真实情况。本发明提出一种基于眼动注视点移动轨迹的感兴趣点数据库建立方法。利用本方法建立的感兴趣点数据库能反映出人眼在观察模型时的真实情况，数据更加真实可靠。

为实现上述目的，本发明通过以下技术方案予以实现，具体包括如下4个步骤：

步骤(1)收集三维模型并制作成实验所需的视频素材。

步骤(2)将视频放在眼动仪上让实验者观看，获得眼动注视点的数据，并通过相应软件合成附带眼动注视点的视频。

步骤(3)将附带眼动注视点的视频通过动点提取和三维映射算法，生成附带眼动注视点的三维模型。

步骤(4)对实验者的眼动注视点做分析，对所有实验者的眼动注视点进行整理，得到三维模型感兴趣点集合，舍弃一些不合适，异常的数据，并对感兴趣点进行合并，建立感兴趣点数据库。

所述步骤(1)制作视频素材的方法如下：

选择24个斯坦福三维模型库和shrec2007模型数据库中模型，这些三维模型被广泛用于三维模型研究的标准库。利用matlab为每个三维模型保存两组数据，一组是三维模型围绕x轴依次间隔旋转60度：分别是旋转0度，60度，120度，180度，240度，300度，360度的三维模型；一组是三维模型围绕y轴依次间隔旋转60度：分别是旋转0度，60度，120度，180度，240度，300度，360度的三维模型；选择z轴方向作为视点，将12个角度上的模型投影在xoy平面，由此一个模型将得到12张二维的投影图片。

三维模型旋转的公式以及投影于xoy平面的公式。

围绕x轴旋转：

z′＝zcosθ-xsinθ

x′＝xcosθ+zsinθ

y′＝y

围绕y轴旋转：

z′＝zcosθ-ysinθ

x′＝x

y′＝ycosθ+zsinθ

平行投影的公式：

x′＝x

y′＝y

z′＝0

利用视频编辑器moviemaker，每隔1.5秒变换一张图片，将每个模型的12张二维图片合成一段短视频，并在每两个模型间插入十秒钟空白图片作为休息时间，将6个模型合成一个长视频。24个模型共制成4个长视频。

所述步骤(2)中让实验者进行实验的前提条件如下:

a)图像的显示设备放置在左侧，实验者坐在图像的显示设备正前方，并且保持距离为70cm，同时实验者保持眼睛与屏幕高度一致，能够平视屏幕中心。

b)操作人员在右侧，用电脑控制视频播放在显示设备上，操作人员和实验者之间用隔光挡板隔离。

c)实验者的四周需要用隔光挡板隔离，实验室周围使用隔光窗帘，防止其他光源对实验者造成实验干扰。

d)保持实验室环境声音不超过30db,创造较为理想的安静环境，防止其他声源对实验者造成实验干扰。

所述步骤(2)中具体实验的如下:

首先使用iviewx软件对测试者的眼睛位置进行调整。在eyeimage框出现实验者瞳孔影像后，操作者需要通过调整屏幕与实验者相对位置，使得屏幕上的瞳孔影像能够居中稳定呈现。其中，实验者头部轻微移动不会对投影造成影响，对于由于眨眼引起的影像丢失也能很快恢复。

然后利用experimentcenter软件收集实验者观看视频时眼动注视点移动轨迹。需要校准实验者眼睛的视线，当校准完后，会出现校准反馈即x、y方向上的偏差，当偏差x，y都小于1.0的时候，则可进入实验，之后会出现模型视频播放；

最后利用begaze分析软件将素材视频和眼动注视点追踪轨迹进行合成，得到附带实验者眼动注视点轨迹的模型视频。

所述步骤(3)通过将眼动仪获取的附带实验者眼动注视点轨迹的模型视频按帧剪切，通过提取动点算法获得每张图片上的眼动注视点坐标，再通过三维映射算法将动点在图片上的二维坐标转成空间上的三维坐标。

首先进行二维眼动注视点的坐标提取，利用ffmpegbuild软件将合成的视频按帧截成图片获得二维图片；获取图片中的眼动注视点颜色，眼动注视点移动轨迹通过眼动注视点在模型上移动的形式体现，通过上一个步骤中的软件设置，本实验眼动注视点呈橘色。我们在这称它为动点颜色，并且设置颜色容差值；接着又设置二维数组，并对其进行初始化设值为1，与二维图片相比较，如果与动点颜色比较，得到的rgb三个值都在容差范围内，满足条件；否则该点不是我们要找的眼动点。如果没有点满足条件，则感兴趣点标志置0，反之置1。将满足条件的点放入point数组中，分别需要记录满足条件的点最大最小的行和列，并取最大最小的行和列坐标的中值，即为所求感兴趣点坐标(row,rank)，输出感兴趣点坐标点。

再通过三维映射算法获得附带眼动注视点的三维模型。因为模型的二维图片是通过投影在三维的xoy平面上获得的，由投影的性质我们可以看出二维和三维的坐标点相互之间存在联系。首先使模型投影在xoy平面，因此x，y坐标值是确定的，而z坐标则是取模型表面离视点距离最近的顶点，该顶点在三维模型上的z坐标值就是眼动注视点在三维模型上的z坐标值，如果模型表面上不存在该顶点则选择距离在阈值范围内的模型顶点的坐标值作为眼动注视点的坐标值，如此确定三维坐标(x,y,z)。并且，因为准备图片素材的时候将模型绕坐标轴进行旋转，所以现在需要将它反向旋转相应的角度。最后获得利用眼动仪收集的感兴趣点的数据。

步骤(4)对实验者的实验数据结果做相应的分析，以此把所有提取的眼动注视点进行整理，得到一个感兴趣点集合的数据库，舍弃一些不合适，异常的数据，并对感兴趣点适当地进行合并，整合方法如下：

在构建评估感兴趣点算子的评价库的时候，选择两个标准，一个是感兴趣区域的半径，另一个是在该区域内动点数量。将感兴趣区域的半径设为σdm，其中dm代表模型直径，即模型m的所有顶点之间的最大欧几里得距离，σ代表常系数。将测量距离小于2σdm的所有感兴趣点划分在同一个区域，如果区域中不同的实验者的数据量少于n，则丢弃该区域的感兴趣点。从每个区域中以下述的标准选出一个点作为代表，把它作为一个标准的感兴趣点，标准为：这些被选定为标准的感兴趣点需要满足它与其所在的区域内所有其他的感兴趣点几何距离之和最小。注意，如果两个区域的感兴趣点出现重叠，这个情况也是合理的。如果两个区域之间的距离小于2σdm，那么两个区域中点数较少的代表将从评价标准的感兴趣点集合中丢弃，将区域中点数较多的代表作为标准的感兴趣点。我们用参数n和σ表示感兴趣点标准库，即gm(n,σ)表示为特定模型m的感兴趣点数据集。这两个参数对应的值决定了感兴趣点标准库。当n值取得相应较高时，随着σ的增加，将会有更多的动点落在这个兴趣区域内，因为不是所有的志愿者都选择某个模型的细节作为感兴趣点，而σ的增加接受更多的标记点的本地局部变化，所以认为σ的变化是合理的。但是，随着σ的进一步增加，它所定义的区域往往会包含不同的兴趣区域，因此在不同结构上标记的紧密感兴趣点开始合并。给出的感兴趣点评价标准库的平均数量会随着n和σ的变化而变化的。

本发明有益效果如下：

本发明提出的建立感兴趣点数据库的方法更加适用于对模型的重建，因为利用眼动仪可以将模型上人眼最关注区域的部分和不关注区域的部分进行划分。通过感兴趣点标准库对人类感兴趣的地方可以加强重建的精度，相反对于不感兴趣的区域相对减少重建精度，这样可以减少模型重建的工作量和存储量。

附图说明

图1是数据库设计流程图。

图2是视频时序图。

图3是实验环境图。

图4二维眼动提取的流程图。

图5是数据点整合流程图。

具体实施方式

以下结合附图对本发明作进一步的说明。

一种基于眼动注视点移动轨迹的感兴趣点数据库建立方法的设计流程如图1所示，具体包括如下4个步骤：

步骤(1)首先需要收集三维数据库模型，并制作实验所需的素材。具体操作如下：

选择24个斯坦福三维模型库和shrec2007模型数据库中模型，这些三维模型被广泛用于三维模型研究的标准库。利用matlab为每个三维模型保存两组数据，一组是三维模型围绕x轴依次旋转60度，分别是旋转0度，60度，120度，180度，240度，300度，360度的三维模型；一组是三维模型围绕y轴依次旋转60度，分别是旋转0度，60度，120度，180度，240度，300度，360度的三维模型；选择z轴方向作为视点，将12个角度上的模型投影在xoy平面，由此一个模型将得到12张二维的投影图片。以下是三维模型旋转的公式以及投影于xoy平面的公式。

围绕x轴旋转：

z′＝zcosθ-xsinθ

x′＝xcosθ+zsinθ

y′＝y

围绕y轴旋转：

z′＝zcosθ-ysinθ

x′＝x

y′＝ycosθ+zsinθ

平行投影的公式：

x′＝x

y′＝y

z′＝0

利用视频编辑器moviemaker，每隔1.5秒变换一张图片，将每个模型的12张二维图片合成一段短视频，并在每两个模型间插入十秒钟空白图片作为休息时间，将6个模型合成一个长视频。24个模型共制成4个长视频，时序图如图2所示。

步骤(2)将视频放到眼动仪上，让实验者观看，利用眼动仪和相应的软件获取实验数据，如图3所示。

具体实验条件如下:

a)图像的显示设备放置在左侧，实验者坐在图像的显示设备正前方，并且保持距离为70cm，同时实验者保持眼睛与屏幕高度一致，能够平视屏幕中心。

b)操作人员在右侧，用电脑控制视频播放在显示设备上，操作人员和实验者之间用隔光挡板隔离。

c)实验者的四周需要用隔光挡板隔离，实验室周围使用隔光窗帘，防止其他光源对实验者造成实验干扰。

d)保持实验室环境声音不超过30db,创造较为理想的安静环境，防止其他声源对实验者造成实验干扰。

使用iviewx软件对测试者的眼睛位置进行调整。在eyeimage框出现实验者瞳孔影像后，操作者需要通过调整屏幕与实验者相对位置，使得屏幕上的瞳孔影像能够居中稳定呈现。其中，实验者头部轻微移动不会对投影造成影响，对于由于眨眼引起的影像丢失也能很快恢复。然后利用experimentcenter软件收集实验者观看视频时眼动注视点移动轨迹。我们需要校准实验者眼睛的视线，当校准完后，会出现校准反馈即x、y方向上的偏差，当偏差x，y都小于1.0的时候，则可进入实验，屏幕播放模型视频；最后利用begaze分析软件，该软件将素材视频和眼动注视点追踪轨迹进行合成，得到附带实验者眼动注视点轨迹的视频。

步骤(3)将眼动仪获取的附带实验者眼动注视点轨迹的视频按帧剪切，提取每张图片上的眼动注视点坐标，通过映射将动点在图片上的二维坐标转成空间上的三维坐标。具体操作分如下两步：

1、二维眼动注视点的坐标提取

眼动注视点的提取流程如图4所示。首先利用ffmpegbuild软件将合成的视频按帧截成图片获得二维图片；获取图片中的动点颜色，眼动注视点移动轨迹通过动点在模型上移动的形式体现，通过上一个步骤中的软件设置，本实验动点呈橘色。我们在这称它为动点颜色，并且设置颜色容差值；接着又设置二维数组，并对其进行初始化设值为1，与二维图片相比较，如果与动点颜色比较，得到的rgb三个值都在容差范围内，满足条件；否则该点不是我们要找的眼动点。如果没有点满足条件，则感兴趣点标志置0，反之置1。将满足条件的点放入point数组中，分别需要记录满足条件的点最大最小的行和列，并取最大最小的行和列坐标的中值，即为所求感兴趣点坐标(row,rank)，输出感兴趣点坐标点。

2、三维映射

模型的二维图片是通过投影在三维的xoy平面上获得的，由投影的性质我们可以看出二维和三维的坐标点相互之间存在联系。首先使模型投影在xoy平面，因此x，y坐标值是确定的，而z坐标则是取模型表面离视点距离最近的顶点，该顶点在三维模型上的z坐标值就是眼动注视点在三维模型上的z坐标值，如果模型表面上不存在该顶点则选择距离在阈值范围内的模型顶点的坐标值作为眼动注视点的坐标值，如此确定三维坐标(x,y,z)。并且，因为准备图片素材的时候将模型绕坐标轴进行旋转，所以现在需要将它反向旋转相应的角度。最后获得利用眼动仪收集的感兴趣点的数据模型。

步骤(4)对实验者的实验数据结果做相应的分析，以此把所有提取的眼动注视点进行整理，得到一个感兴趣点集合的数据库，舍弃一些不合适，异常的数据，并对感兴趣点适当地进行合并，数据的整合流程如图5所示，就可得到利用基于眼动注视点移动轨迹的感兴趣点数据库。具体操作如下：

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张桦;戴美想;戴国骏;周文晖;王彧;张悦
技术所有人：杭州电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。