基于手势和眼动的无人机控制方法和系统与流程

文档序号:23014661发布日期:2020-11-20 12:18阅读:231来源:国知局
基于手势和眼动的无人机控制方法和系统与流程

本发明涉及人机交互技术领域,特别涉及一种基于手势和眼动的无人机控制方法和系统。



背景技术:

随着计算机硬件和传感器在尺寸和价格上不断降低,越来越多的物体具有计算和传感能力,人机交互技术改变着我们的生活和工作,其中最主要的交互方式就是手势交互和眼动交互。

现有技术中,有的采用手势交互,有的采用眼动交互,而手势交互和眼动交互各有优缺点,眼动交互的缺点是精度较低,特别是在人员调整佩戴混合现实设备后,眼动交互只能定位到局部区域,而不能精确定位到交互点,手势交互的缺点是用户体验不够便捷和智能,例如有些方案采用的是基于图像的手势识别,分别对应多个键盘字符的方式进行输入,这种方式不仅需要光线非常好的环境条件,而且按键识别时每根手指会覆盖多个键盘字符,导致确定某个字符的时候准确率低,输入效率也很低。

因此,仅基于手势交互和眼动交互的单模态混合现实交互方式单一,准确率较低,而且用户体验感较差。



技术实现要素:

本公开实施例提供了一种基于手势和眼动的无人机控制方法和系统。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。

第一方面,本公开实施例提供了一种基于手势和眼动的无人机控制方法,用于混合现实眼镜,包括:

接收数据手套发送的运动手势信息;

识别运动手势信息,得到无人机控制指令;

将无人机控制指令发送到无人机;

接收无人机发送的视频流数据;

对视频流数据中的物体进行分类以及目标检测。

进一步地,对视频流数据中的物体进行分类以及目标检测之后,还包括:

接收数据手套发送的目标锁定手势信息;

识别目标锁定手势信息,得到目标锁定指令;

根据目标锁定指令锁定并标注目标。

建立无人机飞行过程点云图;

在点云图中标注目标。

进一步地,在点云图中标注目标之后,还包括:

接收数据手套发送的切换点云界面的手势信息;

识别切换点云界面的手势信息,得到切换点云界面的指令;

根据切换点云界面的指令将显示界面切换为点云图。

进一步地,根据切换点云界面的指令将显示界面切换为点云图之后,还包括:

接收数据手套发送的调用虚拟键盘的手势信息,

根据调用虚拟键盘的手势信息,在目标处显示文本框;

接收数据手套发送的键盘字符输入手势信息;

根据键盘字符输入手势信息,在文本框中输入识别出的字符。

进一步地,接收数据手套发送的手势运动信息之前,还包括:

获取用户眼部图像;

对眼部图像进行特征提取,得到眼部特征数据;

将提取到的眼部特征数据输入预先训练的眼动识别模型,得到用户的注视点;

在显示界面实时显示用户的注视点。

第二方面,本公开实施例提供了一种基于手势和眼动的无人机控制方法,包括:

数据手套将运动手势信息发送到混合现实眼镜;

混合现实眼镜根据接收到的运动手势信息控制无人机飞行;

无人机将视频流数据发送到混合现实眼镜;

混合现实眼镜对接收到的视频流数据中的物体进行分类以及目标检测;

数据手套将目标锁定手势信息发送到混合现实眼镜;

混合现实眼镜根据接收到的目标锁定手势信息,锁定并标注目标。

进一步地,锁定并标注目标之后,还包括:

混合现实眼镜建立无人机飞行过程点云图,并在点云图中标注目标;

数据手套将切换点云界面的手势信息发送到混合现实眼镜;

混合现实眼镜根据切换点云界面的手势信息,将显示界面切换为点云图。

进一步地,将显示界面切换为点云图之后,还包括:

数据手套将调用虚拟键盘的手势信息发送到混合现实眼镜;

混合现实眼镜根据调用虚拟键盘的手势信息,在目标处显示文本框;

数据手套将键盘字符输入手势信息发送到混合现实眼镜;

混合现实眼镜根据键盘字符输入手势信息,在文本框中输入识别出的字符。

第三方面,本公开实施例提供了一种基于手势和眼动的无人机控制系统,包括:

数据手套,用于将运动手势信息发送到混合现实眼镜,用于将目标锁定手势信息发送到混合现实眼镜,用于将切换点云界面的手势信息发送到混合现实眼镜,用于将调用虚拟键盘的手势信息发送到混合现实眼镜,用于将键盘字符输入手势信息发送到混合现实眼镜;

无人机,用于接收控制指令,用于将视频流数据发送到混合现实眼镜;

混合现实眼镜,用于根据接收到的运动手势信息控制无人机飞行,用于对接收到的视频流数据中的物体进行分类以及目标检测,用于根据接收到的目标锁定手势信息,锁定并标注目标,用于建立无人机飞行过程点云图,并在点云图中标注目标,用于根据切换点云界面的手势信息,将显示界面切换为点云图,用于根据调用虚拟键盘的手势信息,在目标处显示文本框,用于根据键盘字符输入手势信息,在文本框中输入识别出的字符。

进一步地,数据手套包括发送模块、电源模块、第一滤波降噪模块以及手势信息检测模块;混合现实眼镜包括显示模块、点云模块、目标检测模块、电源模块、通信模块、数据处理模块、第二滤波降噪模块以及视线追踪模块。

本公开实施例提供的技术方案可以包括以下有益效果:

本公开实施例提供的基于手势和眼动的无人机控制方法,结合可穿戴的数据手套和混合现实眼镜,简化了无人机的操控方法,舍弃了传统手柄操作方式,实现多模态的无人机操控以及目标检测技术,可以精确的控制无人机检测和锁定目标,而且基于混合现实进一步加强了虚拟现实环境体验感,虚拟键盘携带方便,灵活性高,用户体验感强,可以解决实体键盘占用空间大及携带不便的问题,对于特定领域如营救人质、抢险救灾、巡逻检测等方面意义非凡。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于手势和眼动的无人机控制方法的流程示意图;

图2是根据一示例性实施例示出的一种基于手势和眼动的无人机控制方法的流程示意图;

图3是根据一示例性实施例示出的一种基于手势和眼动的无人机控制系统的结构示意图;

图4是根据一示例性实施例示出的一种计算机存储介质的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或一个以上实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。

下面将结合附图1-附图2,对本申请实施例提供的基于手势和眼动的无人机控制方法进行详细介绍。

参见图1,该方法具体包括以下步骤;

数据手套将运动手势信息发送到混合现实眼镜。

具体地,数据手套采集用户的运动手势信息,通过在数据手套中预置惯性测量单元运动传感器和肌电运动传感器,采集用户的运动手势信息,其中,惯性测量单元运动传感器是六轴的惯性测量单元运动传感器,用于记录双手运动时的手势以及在做按键动作时的运动信息,其包括三轴的加速度计记录加速度信息和三轴的陀螺仪记录角速度信息,该传感器一共有五个,分别位于五根手指指尖处,指尖处的传感器分别通过柔性电路板与手背处的中央处理单元连接,手臂处的肌电运动传感器由六个肌肉脉冲探测模块环绕连接而成,内侧为金属触点,用来贴近手臂探测肌肉脉冲,用于捕捉手势运动的手臂肌肉电信号,该模块通过柔性电路板与与中央处理单元连接。

通过上述惯性测量单元运动传感器和肌电运动传感器,可以采集用户的运动手势信息,然后对采集到的手势信息进行滤波降噪处理,采用巴特沃斯滤波器,9-300hz的带通滤波,50hz的陷波器对惯性测量单元运动传感器采集的信息进行降噪滤波,采用基于50hz自适应高通滤波器对肌电信号进行滤波处理,然后用fir滤波器对肌电信号进行二次滤波处理,根据信号的有效频段特征,选取肌电信号的截止频率为2hz和80hz。

将滤波降噪后的运动手势信息发送到混合现实眼镜,其中,数据手套和混合现实眼镜无线通信连接。

混合现实眼镜根据接收到的运动手势信息控制无人机飞行。

其中,混合现实眼镜接收数据手套发送的运动手势信息,识别运动手势信息,得到无人机控制指令,根据识别出的无人机控制指令控制无人机飞行。

具体地,混合现实眼镜接收到数据手套发送过来的运动手势信息后,对该信息进行特征提取,特征提取的方法包括幅值绝对值均值法和均方根法。

然后再将特征提取后的数据输入神经网络模型进行手势识别,所用的深度学习神经网络为长短期记忆网络和循环神经网络rnn,所用的网络主要由4个卷积层和1个双向长短期记忆网络循环层组成,对于输入的传感器数据,由四层卷积层从手势序列中提取特征并生成特征映射,输入双向长短期记忆网络层,通过有效计算梯度分量来学习时序数据。

单个手势作为一个样本输入网络,包括加速度计x,y,z轴和角速度计x,y,z轴和一定长度的时间序列,conv1和conv4采用大小为2×2的滤波器,conv2和conv3采用大小为3×3的滤波器,步长均为1,使用卷积运算提取特征图的方法表示为:

其中,表示第l层中第j个样本的特征图,σ表示激活函数,本文使用的是relu函数,表示偏置项,mj表示l-1层的特征图的集合,表示第l-1卷积层中第i个样本的特征图与相应的卷积核进行卷积。

池化层对输入的特征图进行压缩,提取主要特征,可以减少下一层参数和计算量,简化网络复杂度,同时也能够有效地控制过拟合现象,计算公式表示为:

其中,表示偏置项,表示权重值,f表示降采样函数,本文所用降采样函数为平均化池(average-pooling),实现了输入图中不同区域取最值运算,大小为1×2,步长为1。

bilstm作为一种传统rnn改进结构,可以通过减轻rnn的梯度消失问题来模拟长期依赖性,我们采用双向长短期记忆神经网络有效地提取手势运动序列的时间特征,基于bilstm的神经网络的时序建模,根据卷积层提取的手势特征,在双向长短期记忆网络层,按手势采集的时间顺序将特征一帧一帧正向和反向同时输入,利用bilstm的时序表达能力进行时序编码,从而获取手势样本的时序特征,每个输出时刻根据前一输出时刻的输出来判断最优输出,从而可构建动态手势的前后动作联系,最终可得到手势样本的对应表达。

双向长短期记忆网络单元主要由一个有记忆能力的细胞态和三种称为门的结构组成,通过门结构来控制信息通过细胞,选择性增加和去除通过细胞结构的信息。正向长短期记忆网络正序处理手势数据,反向长短期记忆网络逆序处理手势数据来实现长期记忆能力。

下面描述所提出的长短期记忆网络的细节。

(1)首先是决定前一时刻细胞态中的信息去留,称为遗忘门,该门会读取前一个长短期记忆神经网络模块的输出ht-1和当前神经网络模块的输入xt,然后通过sigmoid激活函数输出0到1之间的数值ft,用于决定有多少分量可以通过。

ft=σ(wf·[ht-1,xt]+bf)

(2)其次是更新当前细胞态,称为输入门,sigmoid函数决定我们将要更新某些信息,tanh函数创建一个新的候选值向量也就是将要更新的信息。我们把旧状态ct-1与ft相乘,丢弃掉我们确定需要丢弃的信息,接着加上这就是要更新的信息,最后完成对细胞态的更新。

it=σ(wi·[ht-1,xt]+bi)

(3)最后是输出新的记忆信息,称为输出门。我们需要基于细胞状态来确定一个输出的值,这个输出值不是原样输出,而是经过过滤的版本。首先我们通过sigmoid层决定我们将要输出的细胞状态信息,接着将细胞状态通过tanh处理,将二者相乘得到我们想输出的信息。

ot=σ(wo·[ht-1,xt]+bo)

ht=ot*tanh(ct)

在所有卷积层和双向长短期记忆层后都加入批规范化层,可以稳定训练过程并加快学习速度,从而避免梯度消失。

最后由全连接层通过softmax函数激活,实现由特征到类别的映射关系。

其中zi表示上一层的输出,i表示分类维度为c,yi表示预测为第i类的概率,从而得到对应的无人机控制指令。

无人机将视频流数据发送到混合现实眼镜。

具体地,无人机根据接收到的控制指令飞行,采集飞行过程中实时的第一视角视频流数据,并发送到混合现实眼镜。

混合现实眼镜对接收到的视频流数据中的物体进行分类以及目标检测。

具体地,混合现实眼镜在接收数据手套发送的手势运动信息之前,还包括:获取用户眼部图像,对眼部图像进行特征提取,得到眼部特征数据,将提取到的眼部特征数据输入预先训练的眼动识别模型,得到用户的注视点,在显示界面实时显示用户的注视点。

在一种可能的实现方式中,混合现实眼镜包括双目相机和智能显示屏,双目相机位于混合现实眼镜的斜下方部位,该相机采用50帧的双目相机,用于多帧连续记录眼睛的图像信息,智能显示屏用于在现实世界中叠加显示虚拟的无人机第一视角视频流图像以及点云图等信息。

用户佩戴混合现实眼镜,通过双目相机获取眼部图像信息,再将获取到的图像信息输入预先训练的眼动识别模型,得到用户的注视点。

具体地,训练眼动识别模型,首先,采集多人眼部图像数据,建立人眼图像与注视点的数据集,然后设计网络结构,在数据集上训练网络参数,得到深度网络模型,将深度网络模型的预测结果与真实数据相结合,计算新用户眼睛图像到注视点的眼动识别模型。

深度网络模型采用多输入结构,输入信号分别是左右眼图像以及瞳孔中心坐标。采集到的原始眼图大小为400*400*3,为了降低计算量,对原始眼图进行灰度处理并缩放为128*128后输入到网络中,其中左右眼的特征提取网络结构一致,但不共享参数,在一种可能的实现方式中,左右眼特征提取网络的输出均为8*8*256大小的特征图,将特征图连接并展平得到一个32768维的向量,之后经过多个全连接层,最后输出的结果为用户注视点在虚拟屏幕中横坐标和纵坐标比例,除最后一层外没有激活函数外,其他所有卷积层的激活函数都采用relu函数。

令采集到的用户真实注视点坐标为(x,y),深度网络预测的用户注视点坐标为(xp,yp),每次训练的样本数为k,使用均方误差作为损失函数:

使用adam算法迭代更新深度网络参数,训练多轮损失值不再减小时停止训练,保存最佳深度网络模型。

然后通过多项式来拟合眼睛特征与注视点的映射关系,多项式的阶数越高则算法精度越高,以二阶多项式为例:

其中(x,y)表示人眼注视点的二维坐标,(xeye,yeye)表示瞳孔中心的二维坐标,ai和bi表示映射函数的系数。该映射函数中有12个未知参数,通常需要采集9个校准点的瞳孔中心数据,可以得到18个方程,建立如下方程组:

其中x1和x2是需求解的映射函数的系数向量,y1和y2是校准点坐标的x,y分量,axy表示瞳孔中心坐标矩阵,具体表示为:

以求解x1为例,使用最小二乘法进行计算,表示形式如下:

由上述方程即可求得映射函数系数向量x1,同理可求得x2,进而得到预测的注视点信息。

通过该方法,可以得到用户的注视点信息,在显示界面实时显示用户的注视点,当用户观察环境时,可通过实时显示的注视点选取无人机观察到的环境中的目标。

可选地,在显示界面能够实时显示无人机的动力、电量、高度、速度等多个重要参数信息,方便实时掌握无人机的飞行状态,减少炸机风险。

混合现实眼镜通过目标检测模块中的视觉标记库对视野中的物体进行目标检测,并根据不同类别将所识别的物体用不同颜色的边框圈出,添加名称标记。

数据手套将目标锁定手势信息发送到混合现实眼镜;

具体地,当通过混合现实眼镜选定无人机的目标后,通过数据手套锁定该目标,数据手套获取目标锁定手势信息,对所述手势信息进行滤波降噪,将滤波降噪后的目标锁定手势信息发送到混合现实眼镜,具体滤波降噪方法与前述相同,在此不做详细说明。

混合现实眼镜根据接收到的目标锁定手势信息,锁定并标注目标。

混合现实眼镜接收目标锁定手势信息,对接收到的目标锁定手势信息进行特征提取和识别,得到目标锁定指令,用上述眼动识别方法得到注视点,并且保持注视点在目标物体上,就可以实现对该目标的锁定,然后将整个目标用半透明红色方框覆盖,实现对目标的标注。

进一步地,锁定并标注目标之后,还包括:混合现实眼镜建立无人机飞行过程点云图,并在点云图中标注目标,将点云图被锁定的目标用红点显示,其他环境信息根据景深用不同稀疏稠密的蓝点表示。

点云图建立完成后,数据手套将切换点云界面的手势信息发送到混合现实眼镜,混合现实眼镜接收切换点云界面的手势信息,并对该信息进行特征提取和识别,得到切换点云界面的指令,混合现实眼镜根据该指令将显示界面切换为点云图。

进一步地,将显示界面切换为点云图之后,还可以对点云图像进行字符标记,数据手套将调用虚拟键盘的手势信息发送到混合现实眼镜,混合现实眼镜根据调用虚拟键盘的手势信息,得到调用虚拟键盘的指令,在点云界面目标物体处显示一个闪烁的文本输入框,此时执行键盘字符输入手势,数据手套将键盘字符输入手势信息发送到混合现实眼镜,混合现实眼镜接收键盘字符输入手势信息,对该信息进行特征提取和识别,然后在文本框中输入识别出的字符。

为了便于理解本申请实施例提供的基于手势和眼动的无人机控制方法,下面结合附图2进行说明,如图2所示,该方法包括:

步骤s201,数据手套将运动手势信息发送到混合现实眼镜,步骤s202,混合现实眼镜根据接收到的运动手势信息控制无人机飞行,步骤s203,无人机将视频流数据发送到混合现实眼镜,步骤s20,4,混合现实眼镜对接收到的视频流数据中的物体进行分类以及目标检测,步骤s205,数据手套将目标锁定手势信息发送到混合现实眼镜,步骤s206,混合现实眼镜根据接收到的目标锁定手势信息,锁定并标注目标。

本申请的方法中,通过手势和眼动相结合,简化了无人机的操控方法,舍弃了传统手柄操作方式,实现多模态的无人机操控以及目标检测技术;通过混合现实技术,在混合现实系统中实现手势与无人机交互、眼动与无人机第一视角环境交互、无人机图像实时显示,为无人机控制呈现一个场景更加立体的、信息更加丰富的、环境更加自然亲切的交互界面;通过采集手势信号和眼动信号对无人机进行操控,操作方便,学习简单,减少炸机的风险,在控制无人机的飞行过程中,手、眼、机能够更加自然协调配合,充分实现系统全面、动态的优势组合;基于惯性测量运动传感器和肌电传感器的手势识别方式具有很高的可靠度和辨识精度,比起基于图像识别的手势控制方式,基于惯性测量运动传感器和肌电传感器的手势识别方式不受环境光、背景色的影响,采集数据稳定,信号处理简单,当有物体不小心遮挡在手与摄像设备之间,也不会受到影响;混合现实设备在显示界面前方的虚拟屏幕中能够显示无人机的动力、电量、高度、速度等多个重要参数信息,方便实时掌握无人机的飞行状态,还可以可沉浸式地操纵无人机,了解当前飞行环境,给人以身临其境的体验。

第二方面,本公开实施例还提供一种基于手势和眼动的无人机控制系统,如图3所示,该系统包括:

数据手套,用于将运动手势信息发送到混合现实眼镜,用于将目标锁定手势信息发送到混合现实眼镜,用于将切换点云界面的手势信息发送到混合现实眼镜,用于将调用虚拟键盘的手势信息发送到混合现实眼镜,用于将键盘字符输入手势信息发送到混合现实眼镜;

无人机,用于接收控制指令,用于将视频流数据发送到混合现实眼镜;

混合现实眼镜,用于根据接收到的运动手势信息控制无人机飞行,用于对接收到的视频流数据中的物体进行分类以及目标检测,用于根据接收到的目标锁定手势信息,锁定并标注目标,用于建立无人机飞行过程点云图,并在点云图中标注目标,用于根据切换点云界面的手势信息,将显示界面切换为点云图,用于根据调用虚拟键盘的手势信息,在目标处显示文本框,用于根据键盘字符输入手势信息,在文本框中输入识别出的字符。

进一步地,数据手套包括发送模块,用于将检测到的手势信息发送到混合现实眼镜,在一种可能的实现方式中,发送模块包括蓝牙、wifi、lora中的一种或多种。包括电源模块,用于给数据手套供电,本申请中的电源模块为无线充电电源模块,提高了系统的便捷性。包括第一滤波降噪模块,用于检测到的手势运动信息进行滤波降噪。还包括手势信息检测模块,手势信息检测模块包括惯性测量运动传感器和肌电运动传感器,用于检测用户的手势运动信息。

混合现实眼镜包括视线追踪模块,位于增强现实眼镜两个镜片下方,由双目相机组成,用于获取用户的眼部图像,用于识别用户的注视点,实现眼动跟踪,包括目标检测模块,用于检测和标注无人机发送的视频流中的目标,包括数据处理模块,用于对数据手套发送过来的手势信息进行特征提取和指令识别,包括第二滤波降噪模块,用于对采集到的眼部图像进行滤波降噪,包括电源模块,用于对混合现实眼镜供电,包括通信模块,通信模块包括蓝牙、wifi、lora中的一种或多种,用于接收数据手套发送过来的手势信息,用于向无人机发送控制指令以及接收无人机传送的视频流数据,包括显示模块,用于将无人机第一视角视频流信息叠加在真实场景中,并显示不同颜色目标物体框以及类别名称,增强混合现实交互体验感,用于显示无人机的动力、电量、高度、速度等多个重要参数信息,还包括点云模块,用于建立无人机飞行过程点云图。

第三方面,本申请实施例还提供一种与前述实施例所提供的基于手势和眼动的无人机控制方法对应的计算机可读存储介质,请参考图4,其示出的计算机可读存储介质为光盘400,其上存储有计算机程序(即程序产品),计算机程序在被处理器运行时,会执行前述任意实施例所提供的基于手势和眼动的无人机控制方法。

需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于手势和眼动的无人机控制方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1