一种基于人脸识别与手势识别的机器人控制方法

文档序号：24875437发布日期：2021-04-30 12:50阅读：166来源：国知局

本发明涉及计算机视觉，深度学习，属于人机智能交互的
技术领域：
，具体涉及一种基于人脸识别与手势识别的机器人控制方法。
背景技术：
：手势是人类交换信息的一种基本方式，所以人们通过自然手势进行人机交互是当今火热的发展方向。同时，非接触式的人机交互能在安全性和舒适性方面带来更加良好的体验，计算机视觉系统是进行人机交互最有效的途径之一。手势识别在人机交互、手语识别、虚拟现实等领域有着广泛的应用，在人机交互方面通过手势识别控制轮式机器人移动的方式有着广泛的应用前景。然而由于客观条件的差异，例如光照、人种、拍摄条件、硬件设施设备的差别等诸多因素的影响，通过手势进行实时、有效的人机交互仍然具有很大的挑战(戴建邦,徐小龙,肖甫,孙力娟,董健,王林.一种基于机器视觉的实时手势识别方法及手势识别系统[p].江苏省：cn111950341a,2020-11-17.)。特别的，通过视觉方式来控制机器人时，如若环境处于多人嘈杂情况下，仅对手势来进行检测具有明显的缺陷。因此，期望提供一种基于特定人脸与手势来共同控制的方法解决该问题。技术实现要素：为了克服上述现有技术的不足，本发明提供了一种基于人脸识别与手势识别的机器人控制方法，该方法构造了一种多任务深度神经网络模型，并使用自建数据集对网络模型进行训练，经测试，该模型能更快速准确地完成机器人的人脸检测与手势识别控制任务。本发明至少通过如下技术方案之一实现。一种基于人脸识别与手势识别的机器人控制方法，所述方法包括以下步骤：(1)在人脸样本库中录入待识别的人脸图像，通过视频流截取其中的帧进行命名保存；(2)使用lableimg标注工具对采集的图像进行人脸区域标注和检测目标标注，形成人脸自建数据集；(3)在手势样本库中录入待识别的手势图像，通过视频流截取其中的帧进行命名保存；(4)使用lableimg标注工具对采集的图像进行手型区域标注，形成手势自建数据集；(5)构造多任务深度神经网络模型；(6)使用自建数据集对模型进行训练，并通过模型调优得到最终满足要去的多任务深度神经网络模型；(7)将满足要求的多任务深度神经网络模型部署在机器人上，通过机器人搭载的摄像头完成对人脸的识别与手势的控制。优选的，所述多任务深度神经网络模型包括多个子网络，完成不同的任务，所述的深度神经网络指网络模型中的所有子网络均含有三个或以上隐藏层，所述的多任务深度神经网络模型采用轻量级、低延时的darknet-53作为基础网络，进行全局特征的提取，后续分支网络共享所提取的特征。优选的，所述多任务深度神经网络模型包括全局特征提取基础网络、人脸检测任务分支网络、手势识别任务分支网络三个子网络；人脸检测任务分支与手势识别任务分支两个任务之间是串行关系，人脸检测失败将不会进行手势识别的任务。优选的，所述全局特征提取基础网络采用darknet-53作为基础网络，进行全局特征的提取，并通过深度可分离卷积操作减少参数量。优选的，所述人脸检测任务分支网络与手势识别任务分支网络均为基于darknet-53的yolov3模型，对视频流进行实时检测识别。优选的，所述人脸检测任务分支网络基于ssd目标检测，并引入金字塔结构模型，用于完成目标分类和检测边框回归。优选的，所述人脸检测任务分支网络与手势识别任务分支网络的损失函数均为分类损失函数与边框回归损失函数的结合，通过控制因子α调节比例，其损失表达为：其中lconf为分类损失，lloc为边框回归损失，n为样本数。优选的，在步骤(6)中模型训练分成预训练和模型调优两个阶段，其训练步骤为：s1、使用自建数据集作为训练数据，将数据集划分为n份，以n-1:1的比例划分为训练集和测试集。另取一份用作模型调优，共有m张图片，其中模型调优训练集为m张，测试集为m-m张；s2、在所述的预训练阶段，使用网络开源的训练权重作为全局特征提取基础网络的预权重，并将该网络的模型权重进行冷却不进行训练，对于人脸检测任务分支网络与手势识别任务分支网络，利用步骤s1所述的自建数据集进行预训练，初始迭代优化方法为adam，经过5个epoch之后改用sgd以a的学习率进行进一步的预训练参数优化；s3、在所述的的模型调优阶段，利用步骤s1所述的自建数据集进行模型调优训练，采用多任务融合损失函数对所有的网络权重进行联合训练，训练过程中始终保持学习率a，直至模型收敛；s4、将训练得到的网络模型在步骤s1所述的测试集上进行测试，测试效果满足要求即可。优选的，步骤s3所述的多任务融合损失函数为：ltotal＝ldet+lseg其中ldet为目标检测损失，lseg为分割损失，进一步的，其中lconf为分类损失，lloc为边框回归损失；lseg的表达式为：其中iij为分割预测结果，为其预测所对应的真实标签，m、n为图片的分辨率m*n。优选的，所述模型训练在离线训练平台上进行，所述离线训练平台硬件部分和软件环境组成，硬件部分为一台搭载两张1080tigpu的minipc，软件环境为基于tensorflow后台的keras深度学习框架。与现有的技术相比，本发明的有益效果为：相较单纯的手势控制，提高了在复杂环境下控制的鲁棒性，更准确快速地完成机器人手势识别的控制方法。同时，多任务神经网络的设计基于同一个特征提取基础骨干网络，不会对控制任务造成时延。附图说明图1为本实施例一种基于人脸识别与手势识别的机器人控制方法流程图。具体实施方式下面结合附图对本发明进一步说明。应指出，以下说明给出了详细的实施方式和具体操作过程，旨在对本申请进行详细说明，但本发明的保护范围不限于此实施方式。如图1所示，一种基于人脸识别与手势识别的机器人控制方法，包括如下步骤：步骤(1)、通过轮式机器人自身搭建的摄像头拍摄人脸视频，再以1s时间间隔截取视频中的帧进行命名保存；步骤(2)、通过轮式机器人自身搭建的摄像头拍摄手势视频，再以1s时间间隔截取视频中的帧进行命名保存；步骤(3)、使用lableimg标注工具对采集的图像进行人脸区域标注和检测目标标注，形成人脸自建数据集，共有500张图片；步骤(4)、使用lableimg标注工具对采集的手势图像进行区域标注和类别标注，形成手势自建数据集，总计5类，各类有500张图片，共有2500张图片，动作对应表见表1；表1手势自建数据集手势类型轮式机器人动作控制手势1前进手势2后退手势3左转手势4右转手势5停止步骤(5)、构造多任务深度神经网络模型；所述的多任务神经网络模型采用轻量级、低延时的darknet-53作为基础网络，进行全局特征的提取。所述多任务深度神经网络模型包括全局特征提取基础网络、人脸检测任务分支网络、手势识别任务分支网络；两个任务之间是串行关系，人脸检测失败将不会进行手势识别的任务。所述全局特征提取基础网络采用darknet-53作为基础网络，进行全局特征的提取，并通过深度可分离卷积操作替代传统卷积操作减少参数量，提高实时性，设置分辨率因子为192，宽度因子为1，在牺牲可接受范围内精度的前提下进一步有效降低模型的计算量与参数量，所述全局特征提取基础网络输入为256×256×3的图片。所述人脸检测任务分支网络基于ssd目标检测，并引入金字塔结构模型，实现细节特征与抽象特征的融合。该任务需要完成目标分类和检测边框回归。利用3×3的卷积核对全剧特征提取基础网络输出的维度为28×28×3的特征进行滑窗估计。每个位置设置3个不同比例和长宽的锚，待检测的类别数为6，则人脸检测任务分支网络的输出维度为(6+4)×3×28×28＝23520。所述手势识别任务分支网络引入yolov3模型，对视频流数据进行实时的检测。所述人脸检测任务分支网络的损失函数为分类损失函数与边框回归损失函数的结合，控制因子α取为0.5，其损失表达为其中lconf为分类损失，lloc为边框回归损失，n为样本数。步骤(6)、对多任务深度神经网络模型进行训练，训练分成预训练和模型调优两个阶段，其训练步骤为：1)使用自建数据集作为训练数据，对于自建数据集，以39:1的比例划分为训练集和测试集，并将训练集中的1份用于模型调优。2)在所述的预训练阶段，使用网络开源的训练权重作为全局特征提取网络的预权重，并将其冷却不进行训练，人脸识别任务分支网络和手势识别任务分支网络，利用自建数据集进行预训练，初始迭代优化方法为adam，经过h个epoch之后改用sgd以c的学习率进行进一步的预训练参数优化；3)在模型调优阶段，利用自建数据集进行模型调优训练，采用多任务融合损失函数对所有的网络权重进行联合训练，训练过程中始终保持0.0005的学习率，直至模型收敛；4)在离线训练平台上进行模型训练，该平台由硬件部分和软件环境组成，硬件部分为一台搭载两张1080tigpu的minipc，软件环境为基于tensorflow后台的keras深度学习框架；5)在轮式机器人实体平台上进行模型在线预测，该平台由一台轮式机器人、一个rgb摄像头和一个附带notebookseries1060tigpu的小型工程机组成。rgb摄像头用于采集图像信息，小型工程机用于在线预测。将满足要求的模型部署在机器人上，进行人脸识别与手势控制的效果验证，并进行进一步优化，调试好后可通过机器人搭载的摄像头完成对人脸的识别与手势的控制。为了使本
技术领域：
的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈逸东;魏武
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种食用油脂的脱臭方法及精制食用油脂与流程
上一篇：一种脱除油脂中3-氯丙醇酯和缩水甘油酯的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。