眼动交互方法、头戴式设备和计算机可读介质与流程

文档序号：22400436发布日期：2020-09-29 18:12阅读：175来源：国知局

本发明总体地虚拟现实和/或增强现实头戴式设备，更具体地涉及基于眼动跟踪的交互方法和头戴式设备。

背景技术：

随着虚拟现实(vr)和增强现实(ar)技术的发展，这些可以渲染虚拟目标的头戴式设备已经走入大众的生活，被广大的用户群体使用，并应用在各种领域，例如游戏、教育、医疗、特殊化训练等。虚拟现实设备的例子有例如图9所示的虚拟现实头盔和图10所示的增强现实头盔。

现有的头戴式显示器中可以部署眼动仪来追踪用户在vr和ar使用眼球的移动和注视点的位置。但是，眼动仪能使用的场景和功能非常受限，主要由于以下几点：1、眼动仪的追踪精度不是非常高，一般会有0.5-2°的误差，并且用户在使用眼动进行交互时眼球的移动并不是那么稳定，这导致眼动仪获取的信号不是非常可靠，经常伴随着无规律的跳动和不小的噪声；2、用户的眼睛在vr和ar的使用中始终是张开的，如何判断用户的眼睛在某个时刻要进行一次有意的交互是一个比较大的挑战。

目前，vr和ar中眼动交互非常有限：1、眼动通常被用来作为用户交互的隐式输入，例如使用眼动来判断用户在关注哪个区域，从而对那个区域进行特定的修改使得用户可以用手或控制器更好地输入；2、可以使用眼睛在界面中指点或者追踪目标，以选择菜单或选择物体，但是这种交互无法普及到实用的场景中，因为无法判断用户使用vr和ar的自然眼动是否是在选择目标，导致误触发的问题；3、使用眼睛进行停留或者画特定轨迹，这些操作不容易在用户自然眼动中误触发，但是这些交互的输入效率较低。

技术实现要素：

鉴于上述情况，提出了本发明。

根据本发明的一个方面，提供了一种用于虚拟现实和/或增强现实头戴式设备的眼动交互方法，包括：在屏幕上显示虚拟现实和/或增强现实的场景，而不显示菜单；追踪用户的视线；依据追踪的视线，判断用户是否通过眼动进行了菜单触发事件；在确定用户进行了菜单触发事件的情况下，显示菜单。

在一个示例中，屏幕上的视野包括菜单区域，所述在确定用户进行了菜单触发事件的情况下，显示菜单包括：在菜单区域显示菜单。

在一个示例中，以屏幕中心为基准，视野分为预定核心区域和预定外围区域，所述菜单区域为所述预定外围区域。

优选地，眼动交互方法还可以包括：在显示菜单的情况下，依据追踪的视线判断用户是否进行了菜单选择事件；在确定用户进行了菜单选择事件的情况下，执行所选择菜单项对应的命令，以及隐藏菜单。

优选地，所述菜单触发事件包括：视线处于除菜单区域外的区域，接下来在第一预定时间内移动进入菜单边界，并保持在菜单区域内不少于第二预定时间。

优选地，所述菜单选择事件包括：视线在第三预定时间内从某个菜单项上离开菜单区域，接下来在所述预定核心区域维持不少于第四预定时间。

优选地，所述菜单选择事件包括：用户视线在某个菜单项上的情况下用户眨眼。

优选地，所述第一预定时间、第二预定时间、第三预定时间、第四预定时间为150毫秒。

优选地，所述菜单边界是针对不同用户定制的。

优选地，所述针对不同所述针对不同用户定制菜单边界包括：在屏幕上上下左右四个方向上分别布置一排小球；根据用户的反馈确定四个方向上满足观看舒适度要求且视角最大的小球；依据四个方向上的四个小球利用椭圆方程拟合得到菜单边界。

优选地，通过将眼动张角与菜单边界的极角相比较，来判断用户视线是否进入菜单边界。

优选地，眼动交互方法还包括：在显示菜单的情况下，当用户将视线在菜单上移动时，选中的菜单项会随之发生改变。

根据本发明的另一方面，提供了一种虚拟现实和/或增强现实头戴式设备，包括：视线追踪单元，用于追踪并收集用户的视线；显示器，用于显示虚拟现实和/或增强现实的场景和菜单；处理器；存储器，所述存储器是存储有计算机可执行指令，所述指令当被处理器执行时，操作来执行上述眼动交互方法。

根据本发明的另一方面，提供了一种计算机可读介质，其上存储有计算机指令，当所述计算机程序指令被计算装置执行时，可操作来执行上述眼动交互方法。

根据本发明实施例的眼动交互技术，具有如下优点：

(1)头戴式设备的眼动交互方法中的菜单平时是不可见的，即不会占用用户的视野，只有在用户想要呼出菜单的时候才会出现，在用户结束选择以后菜单也隐藏了；

(2)用户呼出菜单的视线移动动作在用户的自然眼动数据中不易出现(小于0.5次/每分钟)，这意味着在用户实际使用vr和ar过程中使用我们的菜单不会发生误触发，证明了菜单触发算法的有效性；

(3)发明人还验证了根据本发明实施例的菜单选择算法的效率，发现错误率小于1％，选择时间小于1秒；

(4)根据本发明实施例的菜单呼出算法和菜单选择算法，保证了即使用户控制自己视线和眼动仪捕捉用户视线不那么准确，用户也能准确地呼出菜单和选择菜单；

(5)实验验证了利用本发明实施例的菜单选择技术，用户在菜单上进行命令选择的效率很高，平均每次选择时间可以不超过1秒，明显优于以往的停留和画轨迹的眼动交互方式；

(6)优选地，菜单触发算法和菜单选择算法的参数针对用户个性化定制得到，从而得到了更适当的菜单边界和其它相关参数，从而能够更有效准确地进行眼动交互；

(7)菜单区域优选放置在视野中的四周区域，这样布置具有如下好处：(a)不会影响用户看视野中心的区域，减少视野遮挡；(b).这种菜单的选择只需要利用视线一进一出即可完成选择，效率很高；(c).由于菜单放在视野外围，因此菜单选择的视线动作很难与用户在虚拟现实中的自然视线移动混淆，这样菜单就可以在实际场景中使用且不会被误触发。

附图说明

图1示出了根据本发明实施例的用于虚拟现实和/或增强现实头戴式设备的眼动交互方法100的流程图。

图2(a)-图2(d)示出了一个使用眼动菜单在虚拟现实中选择的场景示例。红色三角形说明了眼睛注视的位置，在实际应用中这个三角形并不会出现。图2(a)示出了屏幕上显示的虚拟现实场景。默认状态下菜单是隐藏的，且不会因为用户的自然视线移动而触发；图2(b)示出了当用户将视线移到视野边缘时，在屏幕核心区域周围会出现一个包含四个菜单项的菜单。其中选中的菜单项用紫色高亮。图2(c)示出了当用户将视线在菜单上移动时，选中的菜单项会随之发生改变。例如用户将视线向上方区域移动，会选中命令“前进”(forward)。图2(d)示出了当用户的视线离开菜单后，其选择的命令(“前进”)会被触发。在虚拟场景中，菜单项隐去，同时用户向前移动了一步。

图3示出了根据本发明一个实施例的菜单触发事件130的过程示意图。

图4(a)示出了自然眼动中出现大视线张角的情况的眼动张角随时间变化的曲线图，图4(b)示出了使用眼动触发菜单时候的眼动角度随时间变化的曲线图，其中横轴为时间，纵轴为眼动角度。

图5示出了根据本发明一个实施例的菜单选择事件150的过程示意图。

图6示出了用户眼动关联的视线落点统计的热度图。

图7(a)-图7(c)示出了利用四个方向的小球来定制化菜单边界的示意图,图7(a)示出了用户根据自身眼动范围确定菜单的上下边界；图7(b)示出了用户根据自身眼动范围确定菜单的左右边界；图7(c)示出了个性化后的菜单界面。

图8示出了根据本发明一个实施例的结合头戴式设备的眼动交互过程的示意性框图。

图9示出了常见的虚拟现实头盔。

图10示出了常见的增强现实头盔。

具体实施方式

下面将结合附图详细描述本发明的具体实施例。

在详细描述之前，给出有关术语的解释。

视线追踪：头戴式显示器中的摄像机可跟踪用户的视线。视线追踪可用作新的输入轴；例如，在空中格斗游戏中用于瞄准敌机。例如，fove是在kickstarter上推出的hmd，可能引入视线追踪功能和注视点渲染sdk。尽管视线追踪不是注视点渲染的必要条件，但它能够根据用户的视线方向平移高细节区域，从而显著改善渲染效果。此外，新用户往往难以抑制环顾四周的自然倾向。问题是，hmd光学器件在用户通过它直视屏幕中心时往往能发挥最佳效果，用户最好通过转动头部来环顾四周。视线追踪朝着用户用自己的眼睛在vr中自然跟踪的方向迈出了第一步。

视野(又称“fov”)：视野是人眼直视前方时所能看见的空间范围。无论是在现实还是mx情境中，fov是人的自然视野范围。人的正常视野角度约为200度。研究虚拟现实头盔时(又称头戴式显示器或hmd)，您会发现上面标有视野规格。目前，大多数vr头盔的最小视野角度在90到110度之间，这是获得良好vr体验的基本要求。视野越高，用户看到的环境越广，因为它会延伸到用户视野边缘，获得的沉浸感越强。这好比imax影院屏幕和一般影院屏幕之间的差别。imax屏幕更大，因此覆盖的视野更广，可视范围更大，从而可营造更加身临其境的体验。宽视场很难实现，因为光学镜头的限制(存在色差和桶形失真)变得更加严重，而且要增加光学器件本身的尺寸和复杂性。和用鱼眼镜头拍摄的照片一样，hmd屏幕上的图像因hmd光学器件原因会发生失真。此外，扩大视野会“拉伸”屏幕分辨率，这意味着要在更高的fov角度下保持相同的像素密度，必须增加分辨率，而使用多重分辨率vr着色和注视点渲染可以减少潜在的影响。另外值得注意的是，有些头盔(例如hololens)呈现的视野也是有限的。

眼动张角的含义是用户当前视线与中心视线的夹角，中心视线是用户直视时候的视线，在本文中眼动张角有时候也被称为眼动角度。

下面结合图1描述根据本发明实施例的用于虚拟现实和/或增强现实头戴式设备的眼动交互方法100的流程图。

如图1所示，在步骤s110中，在屏幕上显示虚拟现实和/或增强现实的场景，而不显示菜单(即菜单隐藏)。

图2(a)示出了屏幕上显示的虚拟现实场景示例，其为一游戏的场景，其中室内地板上立有一柄剑，其中的红色箭头指示视线的方式，红色箭头在实际屏幕上是不显示的，可见此时菜单是不可见的。

在一个优选示例中，以屏幕中心为基准，视野分为预定核心区域和预定外围区域，菜单边界分割核心区域和外围区域，所述预定外围区域是菜单区域。

在步骤s120中，追踪用户的视线。

例如，通过部署于头戴式显示器中的眼动仪来追踪用户视线。眼动仪给出视线的向量数据，(x,y,z)，由视线向量数据能够计算得到眼动张角。

在步骤s130中，依据追踪的视线，判断用户是否通过眼动进行了菜单触发事件。

优选地，菜单触发事件是用户的自然眼动中不易出现的动作。

在一个优选示例中，菜单触发事件是如下动作过程：视线处于除菜单区域外的区域，接下来在第一预定时间内移动进入位于菜单区域的菜单边界，并保持在菜单区域内不少于第二预定时间。即，用户视线从菜单区域外迅速跨过菜单边界进入菜单区域，并稳定停留在菜单区域。

图3示出了根据本发明一个实施例的菜单触发事件130的过程示意图。

在自然眼动状态s131中，在视线处于屏幕核心区域s132的情况下，，如果视线在150ms内大幅移动并且视线进入菜单边界s133，以及视线保持在菜单内150ms，则触发菜单s134。

菜单触发事件130用于菜单启动前识别用户是否使用眼动触发了菜单，在用户自然眼动(如图4(a)所示)中检测出用户有意触发菜单的眼动动作(如图4(b))。图3的流程图所示的菜单触发事件检测三个关键点，对应了它们之间的两个阶段：(1)第一个阶段用户的视线从处于屏幕中心区域的位置在150ms内迅速进入菜单边界，眼动角度大幅上升；(2)第二个阶段用户的视线一直保持在菜单内，眼动角度保持稳定。当出现这两个阶段后，图3所示算法认为用户进行了一次有意的菜单触发的眼动动作。此外，用户眨眼被认为是没有在进行菜单触发，算法检测会在眨眼后从头开始。这是因为，眨眼会被认定为中断了眼动选择的操作，因为通常一般人认为用户眼动选择的时候不会去眨眼。

下面为菜单选择算法的伪码示例。

其中w和a0为参数。w优选范围是100-200毫秒，a0优选示例为8°-15°，在图5所示的示例中，w为150毫秒，a0为10°。在上述伪代码的elseif语句中可见通过将眼动张角与菜单边界的极角相比较，来判断用户视线是否进入菜单边界。

回到图1，在步骤s140中，在确定用户进行了菜单触发事件的情况下，显示菜单。

例如，如图2(b)所示，在核心区域周围的菜单区域显示菜单，其中左侧显示拾取(pick)的菜单项，右侧显示放置(drop)的菜单项，上侧显示前进(forward)的菜单项，下侧显示退出(exit)的菜单项。

可以视需要来显示不同的菜单。

图1所示的用于头戴式设备的眼动交互方法，菜单平时是不可见的，即不会占用用户的视野，只有在用户想要呼出菜单的时候才会出现，在用户结束选择以后菜单也隐藏了。

发明人采集了大量的用户在vr和ar中的自然眼动数据。用户呼出菜单的视线移动动作在用户的自然眼动数据中不易出现(小于0.5次/每分钟)，这意味着在用户实际使用vr和ar过程中使用我们的菜单不会发生误触发。

在一个示例中，在显示菜单的情况下，依据追踪的视线判断用户是否进行了菜单选择事件；在确定用户进行了菜单选择事件的情况下，执行所选择菜单项对应的命令，以及隐藏菜单。

下面结合图5描述根据本发明一个实施例的菜单选择事件150的过程示意图。

在视线位于菜单内s151的状态中，，如果视线在150ms内大幅移动并且视线离开菜单边界s152，且如果视线保持在菜单外150ms且视线处于屏幕中心区域s153，则认为菜单选择完成了且返回到自然眼动状态s154。

图5所例示的菜单选择算法用于在菜单启动后识别用户完成选择菜单项并离开菜单。与图3所示的菜单触发算法示例类似，图5所例示的菜单选择算法仍然检测三个关键点，对应它们之间的两个阶段：(1)第一个阶段用户的视线在150ms内从某个菜单项上通过菜单边界离开菜单，眼动角度大幅下降；(2)第二个阶段用户的视线一直维持在屏幕中心区域150ms，眼动角度保持稳定。当出现这两个阶段后，菜单选择算法认为用户已经离开菜单并完成了选择，选择的目标就是用户视线离开菜单时所经过的菜单项。此外，用户眨眼被认为已经完成了选择，菜单选择算法会直接隐藏菜单。

下面给出了判断用户眼动选择菜单并退出菜单的伪代码。

其中w和a1为参数，w优选范围是100-200毫秒，a1优选示例为8°-15°，在图5所示的示例中，w为150毫秒，a1为10°。

图2(c)示出了用户将视线在菜单上移动时，选中的菜单项会随之发生改变，例如用户将视线从图2(b)所示的放置菜单项向上移动时候，会选中菜单项“前进”；图2(d)示出了当用户的视线离开菜单后，其选择的命令(“前进”)会被触发，此时在虚拟场景中，菜单项隐去，同时用户向前移动了一步。

如图2(a)到图2(d)所示，菜单区域优选放置在视野中的四周区域，这样布置具有如下好处：(a)不会影响用户看视野中心的区域，减少视野遮挡；(b).这种菜单的选择只需要利用视线一进一出即可完成选择，效率很高；(c).由于菜单放在视野外围，因此菜单选择的视线动作很难与用户在虚拟现实中的自然视线移动混淆，这样菜单就可以在实际场景中使用且不会被误触发发明人采集了大量用户在vr和ar使用和交互过程中产生的自然眼动数据来确定菜单触发算法和菜单选择算法的参数，如图6所示，图6示出了用户眼动关联的视线落点统计的热度图，颜色越鲜艳的地方表示视线落点越密集，其中包络圈表示该圈内包含了x％的视线落点，例如红色包络圈对应的99.9％表示该红色圈内包含了99.9％的视线落点，蓝色包络圈对应的50.0％表示该蓝色圈内包含了50.0％的视线落点。图6中，用户直视时候的视线为中心视线(即原点)，径向角表示用户当前视线与中心视线的夹角，反映了眼球偏移的程度；周向角度为极角，代表视线的方向。发明人在自然眼动数据中验证图3例示的菜单触发算法，发现在一个用户自然眼动中误触发菜单的概率非常低(小于0.5次每分钟)，证明了菜单触发算法的有效性。发明人还验证了图5例示的菜单选择算法的效率，发现错误率小于1％，选择时间小于1秒。

上述基于图3和图5例示的菜单呼出算法和菜单选择算法，保证了即使用户控制自己视线和眼动仪捕捉用户视线不那么准确，用户也能准确地呼出菜单和选择菜单。

实验发现用户在菜单上进行命令选择的效率很高，平均每次选择时间可以不超过1秒，明显优于以往的停留和画轨迹的眼动交互方式。

本发明实施例的眼动交互方法实际应用的示例例如有：在沉浸式的教学中，学员通常需要在虚拟场景中利用双手进行物体操作来学习技能，例如手持扳手和螺丝刀对虚拟机械进行拆卸。在这个过程中，如果学员需要进行基于菜单的功能选取时(例如打开提示、切换视角或更换工具等)，可以不用放下手中的工具，直接利用眼动，将视线移到屏幕边缘触发眼动菜单，利用视线选择菜单项后将视线移回，即可触发对应的功能。

发明人们同时在大量用户的自然眼动数据中发现不同用户的眼动范围有着很大的差异，有些用户能看的范围很广，有些用户能看的范围很窄。因此发明人同时发明了一个用户自定义其个人菜单外形的定制过程，以使得用户可以使用更适合自己的菜单参数。即用户可以在上下左右四个方向上看一排小球，确定自己能用视线选择的最佳角度(如图7)，然后我们根据用户在四个方向上的角度确定菜单的宽度参数。

换句话说，菜单边界是通过流程图中的“个性化定制系统”得到的，每个用户的菜单参数不一样。图7示出了作为一个个性化定制示例，在上下左右四个方向上放置一排小球，用户需要指定每个方向上哪个小球是他们看着舒适且视角最大的，通过四个方向上的四个小球通过椭圆方程拟合出菜单的轮廓。

图8示出了根据本发明一个实施例的结合头戴式设备的眼动交互过程的示意性框图。如图8所示，利用眼动仪获得用户的眼动数据，基于菜单触发算法确定是否触发菜单，在触发菜单后，基于菜单选择算法确定是否选择了菜单并退出，如果选择了菜单并退出，则执行菜单选择对应的命令，其中菜单触发算法和菜单选择算法的参数是针对用户个性化定制的个性化菜单参数，个性化定制由个性化定制系统来进行。

根据上述实施例，菜单触发算法和菜单选择算法的参数针对用户个性化定制得到，从而得到了更适当的菜单边界和其它相关参数，从而能够更有效准确地进行眼动交互。

根据本发明另一实施例，提供了一种虚拟现实和/或增强现实头戴式设备，包括：视线追踪单元，用于追踪并收集用户的视线；显示器，用于显示虚拟现实和/或增强现实的场景和菜单；处理器；存储器，所述存储器是存储有计算机可执行指令，所述指令当被处理器执行时，操作来执行上述方法。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行根据本申请各种实施例的眼动交互方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“，还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行根据本申请各种实施例的眼动交互方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：易鑫;史元春;鲁逸沁;王运涛
技术所有人：清华大学
我是此专利的发明人

上一篇：一种桥式起重机监视系统的制作方法
上一篇：上跨在建铁路路堑公路桥箱梁多机协同吊装系统及工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。