一种基于视线追踪的实时人机交互系统及其工作方法与流程

文档序号：18212335发布日期：2019-07-19 22:24阅读：592来源：国知局

技术简介：
本专利针对现有视线追踪系统依赖高成本设备且精度不足的问题，提出基于多摄像头数据采集与图像处理的实时交互方案。通过建立面部特征与视觉注意力坐标数据库，实现低成本、高精度的人机交互控制，适用于智能家居及特殊人群辅助操作。
关键词：视线追踪系统,多摄像头交互

本发明涉及人机交互智能系统，具体涉及一种基于视线追踪的实时人机交互系统及其工作方法。

背景技术：

随着计算机的普遍应用，人工智能技术、人机交互系统开始发展起来。通过人机交互系统，人与计算机之间完成交流与通信，在最大程度上通过计算机智能为人们完成信息管理，服务和处理等功能。视线追踪技术也称为眼动跟踪技术，是利用电子、机械、光学等各种检测手段获取用户当前视觉注意的方向的技术。视觉注意是指导视线追踪技术应用的基础，它体现了用户注意力集中的目标区域或者感兴趣区域，因此可以根据跟踪用户的视觉路径，来查看用户感兴趣的内容。

现有的人机交互一般都是通过手动输入或通过身体接触进行人工操作的方式完成，将视线追踪技术用于人机交互系统中，可以将人们的手解放出来，视线追踪系统将用户的视觉注意目标点实时的输入到计算机中来完成用户的命令，这样不仅避免了传统输入设备需要手参与的冗余，而且增加了设备使用的灵活性与趣味性。

当将视线追踪技术应用于计算机领域创建视线追踪系统模拟鼠标操作时，需要对人脸图像进行处理、提取人眼的特征参数，人眼建模，建立人眼空间坐标与计算机屏幕坐标点之间的映射关系，并进行实时的反馈。现阶段国内外均有类似技术出现，但大多需依赖价格高昂的专业设备或通过外接硬件实现目标，且精度大多不能令人满意。

技术实现要素：

为解决上述技术问题，一方面，本发明所采取的技术方案是：

一种基于视线追踪的实时人机交互系统，其特征在于：包括数据采集组件、数据分析处理组件、动作反馈组件和通信及操控组件；

所述数据采集组件用于追踪用户的面部特征信息，并转换成数据信号输入系统中，同时根据面部特征信息分别建立二维坐标系和三维坐标系；

所述数据分析处理组件与数据采集组件连接，用于对数据采集组件追踪的信息进行分析处理；

所述动作反馈组件与数据分析处理组件连接，用于对比分析数据分析处理组件处理的信息以及动作反馈组件中储存的信息，并得到反馈信息反馈给通信及操控组件，以判定通信及操控组件的操控动作；

所述通信及操控组件与动作反馈组件连接，用于接受动作反馈组件提供的反馈信息，并根据反馈信息控制相应设备的动作。

优选地，所述数据采集组件包括多个设置在同一空间不同位置的摄像头，使其可捕获不同角度的同一空间环境的图像信息。

优选地，所述数据分析处理组件包括图像处理模块和面部特征识点定位模块，其中，

所述图像处理模块用于实时对每帧图像进行预处理；

面部特征识点定位模块用于识别预处理完成的图像中的用户面部及用户瞳孔坐标点和眼部内外角点，并储存由多帧图像组成的视频流，通过视频流识别用户的面部特征点的变化和视觉注意力的改变。

优选地，所述图像处理模块对每帧图像的预处理，包括但不限于：将多张图像合成为全景图片、灰度处理、高斯模糊、二值化处理，以为之后的识别做准备。

优选地，所述面部特征识点定位模块内设置有多种算法，以用于识别用户的面部特征点的变化和视觉注意力的改变，实现对用户视觉注意目标的实时追踪。

优选地，所述动作反馈组件包括面部特征点数据库模块和视觉注意力数据库模块，其中，面部特征点数据库模块中保存有用户预设的一系列对应特定意义的面部特征动作；视觉注意力数据库模块中保存有用户预设的在一固定空间环境中一系列的特殊视线注意力点，所述特殊视线注意力点在固定空间环境中以三维坐标点和人脸的绝对朝向角度储存。

优选地，所述通信及操控组件包括wi-fi模块、蓝牙通信模块、红外发射模块中的任意一种或任意几种。

一种基于上述任一项所述的基于视线追踪的实时人机交互系统的工作方法，其特征在于，包括如下步骤：

s1：数据采集并建立坐标系：数据采集组件追踪用户的面部特征信息，并转换成数据信号；根据面部特征信息分别建立以用户面部平面为基准建立的二维坐标系和以用户所在空间环境位置为基准点建立的三维坐标系；

s2：数据分析：数据分析处理组件对数据采集组件追踪的信息进行分析处理；

s3：对比判定：动作反馈组件对比分析数据分析处理组件处理的信息以及动作反馈组件中储存的信息，根据对比结果输出不同结果至通信及操控组件；

s4：通信及操控组件根据动作反馈组件输入的特定动作，控制相应设备进行相应操作。

优选地，步骤s1中，通过数据采集组件中的多个设置在同一空间不同位置的摄像头拍摄多张不同角度的空间环境信息图片，作为面部特征信息。

优选地，步骤s2包括：

s21：数据分析处理组件中的图像处理模块将多张不同角度拍摄的空间环境信息图片通过算法合成为一张空间环境信息全景图片并做相应图片预处理；

s22：所述数据分析处理组件中的面部特征识点定位模块对s21合成的全景图片做面部特征点定位，并储存进缓存临时保存。

本发明所述的人机交互系统精度较高，根据视线追踪技术的方法，结合人脸检测的相关理论，运用图像处理手段，降低了生产和使用成本，能解放人手方便做更多的事情。

附图说明

图1是本发明系统的组成示意图。

具体实施方式

为了更好的说明本发明，现结合具体实施例以及说明书附图对技术方案作进一步的说明。虽然实施例中记载了这些具体的实施方式，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视权利要求书所界定者为准。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

图1为本发明提供的基于视线追踪的实时人机交互系统的组成示意图，如图所示，本发明提供的基于视线追踪的实时人机交互系统，包括数据采集组件、数据分析处理组件、动作反馈组件和通信及操控组件。其中，所述数据采集组件与数据分析处理组件相连；动作反馈组件与数据分析处理组件连接；通信及操控组件与动作反馈组件相连；通信及操控组件同时与相应设备，即相应的智能电器相连接。

所述数据采集组件用于追踪用户的面部特征信息，并转换成数据信号输入到系统中，同时根据采集到的面部特征信息建立坐标系，所述坐标系包括二维坐标系和三维坐标系。其中，三维坐标系以用户在其所在的空间环境的位置为基准点建立；二维坐标系以用户的面部平面为基准平面建立。数据采集组件包括多个摄像头，多个摄像头分别安装在同一空间中的不同位置，保证所有摄像头在工作状态时，能够以360°无死角追踪捕获用户的面部特征信息，此处的空间为客厅、书房或者卧室等用户所处的空间。为保证追踪拍摄效果，所述摄像头均选用高分辨率网络摄像头。

所述数据分析处理组件用于对数据采集组件追踪的信息进行分析处理。数据分析处理组件将摄像头拍摄到的多个图片信息通过特定的算法进行预处理，将多个图片信息合成为空间环境信息的全景图片，对全景图片图像中的面部特征进行识别分析，并进行临时缓存。数据分析处理组件包括图像处理模块和面部特征识点定位模块。所述图像处理模块用于实时对每帧图像进行预处理，包括但不限于：将多张图片合成为全景图片、灰度处理、高斯模糊、二值化处理等，为之后的识别做准备。所述面部特征识点定位模块中内置有一种或多种算法，用于在空间环境全景图片中识别用户面部细节特征及用户瞳孔坐标点和眼部内、外角点，并储存一段时间内多帧全景图片组成的视频流，进而识别该视频流中每帧图像中用户的面部特征点的规律性变化和视觉注意力的改变，实现对用户视觉注意目标的实时追踪。所述面部细节特征主要包括多个面部特征点，这些面部特征点会根据精度和用途进行选定，通常认为在对人的面部信息进行分类识别时会标注68个特征点。

在固定空间环境中，视觉注意力的目标使用眼部特征点来进行相对定位。根据用户眼部特征点坐标在一段时间的变化来跟踪用户看的方向和目标的变化，即为视觉注意力坐标的变化。本发明所述的系统中的三维坐标系是以用户在其所在空间环境内的位置为中心基准点所建立的，此三维坐标点用于定位用户在该空间环境内的位置，在此固定空间环境中，用户不进行位移，仅通过转动头部等原地动作改变视觉注意力坐标点。由于系统的三维坐标系是以用户为固定点建立的，因此三维坐标系的三轴是确定的。根据用户人脸实时在每帧全景图片中出现的不同位置点可以计算出此时用户人脸的朝向角度，此朝向角度即为此时用户人脸所对的方向与坐标系x轴的夹角之间的度数。因为三维坐标系是固定的，所以此朝向角度又可称为绝对朝向角度。

眼部特征点坐标主要包括瞳孔坐标点和眼部内、外角点的坐标，分别包括左、右眼的瞳孔坐标点及左、右眼的内、外角点的坐标，一共6个坐标点。所述瞳孔坐标点即为在根据全景图片中定位出的人脸平面为基准建立的二维坐标系中的眼球的中心点坐标。眼部内角点即为用户左眼巩膜与皮肤交界处的最右端和用户右眼巩膜与皮肤交界处的最左端，外角点则相反。根据瞳孔坐标点和眼部内、外角点这6个点在一段时间的位移关系我们可以得到用户视觉注意力的移动方向和过程。例如在时间点n，用户的左瞳孔坐标为（x,y）；左眼内角点为（x+1,y）；左眼外角点为（x-1,y）。而在时间点（n+1），左瞳孔坐标变为（x+0.5,y）。则系统即可判断在n到（n+1）的这段时间内用户的视觉注意力向朝向方向的左侧移动了0.5个单位。而每个单位的长度可以根据用户左右眼内、外角点之间距离的均值计算得出，根据用户人脸距离摄像头的远近不同，其左右眼内外角点之间距离的均值会发生改变，离摄像头越近，该值越大，反之则越小，从而改变了单位长度，如此一来在部署系统和使用过程中用户离摄像头的距离的远近导致的坐标系单位缩放就能被规避。

所述动作反馈组件用于对比分析数据分析处理组件处理的信息以及动作反馈组件中储存的信息，并得到反馈信息反馈给通信及操控组件，以判定通信及操控组件的操控动作。动作反馈组件包括面部特征点数据库模块和视觉注意力数据库模块。所述面部特征点数据库模块中保存有用户预设的一系列对应特定意义的面部特征动作，例如规律眨眼、动眉毛等动作，每个面部特征动作由多帧典型面部动作组成一个特征视频流。视觉注意力数据库模块中保存有用户预设的在一固定空间环境中一系列的特殊视线注意力点，并将此特殊视线注意力点在该固定空间环境中以三维坐标点和人脸的绝对朝向角度储存。所述视觉注意力数据库模块会实时将用户的视觉注意力坐标点与储存在数据库中的一系列的特殊视线注意力点的三维坐标点进行对比，当用户的视觉注意力坐标点与数据库中存储的特殊视线注意力点的三维坐标点重合并稳定一段时间的时候，系统触发该特殊视线注意力点的三维坐标点在数据库中对应的动作反馈。

所述通信及操控组件用于接受动作反馈组件提供的反馈信息，并根据反馈信息控制相应智能电器设备的动作。通信及操控组件包括wi-fi模块、蓝牙通信模块、红外发射模块，实际使用时可以选用其中的任意一种或任意几种进行不同组合。

本发明另外提供一种基于上述视线追踪的实时人机交互系统的工作方法，包括如下步骤：

s1：数据采集：所述数据采集组件追踪用户的面部特征信息，并转换成数据信号，具体实施时，由多个设置在同一空间不同位置的摄像头对固定空间环境信息和用户的面部特征信息进行实时追踪拍摄进行图像采集，并将这些信息转换成数据信号输入数据分析处理组件中。同时，根据采集到的面部特征信息建立二维坐标系和三维坐标系。其中，三维坐标系以用户在其所在的空间环境的位置为基准点建立；二维坐标系以用户的面部平面为基准平面建立。

s2：数据分析：所述数据分析处理组件对数据采集组件追踪的信息进行分析处理。

具体实施时，该数据分析步骤具体包括：

s21：由所述数据分析处理组件中的图像处理模块对数据采集得到的图像进行预处理：将多张不同角度拍摄的空间环境信息和用户的动作图像通过算法合成为一张全景图片并做相应的图片预处理，如灰度处理、高斯模糊、二值化处理等。

s22：由数据分析处理组件中的面部特征识点定位模块对该经过预处理的全景图片做面部特征点定位，并储存进缓存中进行临时保存。在面部特征识点定位模块中内置有一种或多种算法，识别空间环境全景图片中用户面部细节特征及用户瞳孔坐标点和眼部内外角点，并储存一段时间内的多帧全景图片组成的视频流，进而识别该视频流中每帧图像中用户的面部特征点的规律性变化和视觉注意力的改变。

s3：对比判定：所述动作反馈组件对比分析数据分析处理组件处理的信息以及动作反馈组件中储存的信息，根据对比结果输出不同结果至通信及操控组件。

将缓存中临时保存的由前几帧全景图片组成的视频流与面部特征点数据库模块中的数据库内保存的用户预设的一系列对应特定意义的特征动作进行对比，同时将视频流中得到的用户视觉注意力坐标点与视觉注意力数据库模块中的一系列的特殊视线注意力点的三维坐标点进行对比，根据对比结果得到不同的输出结果：若在面部特征点数据库中存有高相似度的特征动作，则输出与该特征视频流对应的特定动作，例如根据该特征视频流对比得到与数据库中保存的开空调的特征动作相对应，则输出结果“开空调”至相应的智能电器。若用户当前的视觉注意力坐标点与视觉注意力数据库模块的数据库中存储的特殊视线注意力点的三维坐标点重合并稳定一段时间的时候，输出该特殊视线注意力点的三维坐标点在数据库中对应的动作反馈，例如当用户凝视电视开关时，开启电视。若面部特征点数据库模块的数据库中没有相似的特征视频流或视觉注意力数据库模块的数据库中没有相似的特殊视线注意力点的三维坐标点，则循环进行下一帧的判定；

s4：通信及操控组件根据动作反馈组件输入的特定动作，控制相应设备进行相应操作。根据第步骤s4对比判定后的输出结果，由不同的通信及操控模块做出相应动作，并发送至相应的智能电器。例如输出结果为“开空调”，则调用红外发射模块发送信号给空调执行开启动作。

至此，所述人机交互系统完成一个工作循环。系统的工作效率及识别精度受限于组成本系统的各个组件选取的硬件设备，当每秒进行30个循环以上，即可保证系统正常流畅的工作。

综上，本发明所述的人机交互系统精度较高，根据视线追踪技术的方法，结合人脸人眼检测的相关理论，运用图像处理手段，降低了生产和使用成本，能解放人手方便做更多的事情。

本发明所述的人机交互系统也可以有助于帮助手部有疾病的特殊人群使用计算机或者其他智能机器，帮助从事计算机相关的工作人员脱离键盘与鼠标，远离键盘手与使用电脑引起的肩周炎等疾病。本发明所述的人机交互系统还可以作为家庭智能环境的终端管理系统，用户通过眼部运动即可抛弃遥控器，随心所欲的对家庭的智能电器进行控制和操作。

本发明所述的人机交互系统在固定空间环境中以多个摄像头捕获图片追踪用户面部特征信息输入系统，具备高复杂度的图像处理能力和多种输出功能，在固定空间环境中实时追踪并计算用户瞳孔的坐标点和眼部的内、外角点的坐标，通过坐标识别规律性的变化，确定用户视觉注意力的目标，实现在固定空间中对用户的视线的实时追踪。在实时追踪的基础上，动作反馈组件中的面部特征点数据库模块和视觉注意力数据库模块根据保存其中的预设数据与实时追踪的结果进行对比，判断用户想要达成的交互目标和交互动作，提供多种输出信号，完成人机交互。

本发明的保护范围并不限于上述的实施例，显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围内，则本发明的意图也包含这些改动和变形在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：束齐展
技术所有人：束齐展
我是此专利的发明人

上一篇：用于对多媒体内容进行加密/解密以允许随机存取的方法和设备与流程
下一篇：一种降温涂料的制备方法与流程

该领域下的技术专家

1、李老师：1.计算力学 2.无损检测

2、毕老师：机构动力学与控制

3、袁老师：1.计算机视觉 2.无线网络及物联网

4、王老师：1.计算机网络安全 2.计算机仿真技术

5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！