一种基于手势和语音识别的机器人人机交互方法和装置的制造方法

文档序号：9707930阅读：677来源：国知局

一种基于手势和语音识别的机器人人机交互方法和装置的制造方法
【技术领域】
[0001]本发明属于人机交互和机器人技术领域，具体涉及一种基于手势识别和语音识别的机器人人机交互方法及装置。
【背景技术】
[0002]我国正迈入老龄化社会，老年人需要照顾，而青壮年需要工作来维持生计，无暇照顾老人。机器人可以充当部分劳动力，如助老幼病残孕等。在此过程中，良好的人机交互起重要作用。
[0003]人机交互根据不同的研究领域，通常有三种不同描述(参见参考文献[l]:ArvinAgah,Human interact1ns with intelligent systems:research taxonomy,Computersand Electrical Engineering，27，2001，pp71_107)。从广义来说，人机交互指人类与机器间的交互(human-machine interact1ns，简称ΗΜΙ)；从计算机领域来说，人机交互指人类与计算机系统间的交互(human-computer interact1n，简称HCI)；从机器人领域来说，人机交互指人类与机器人间的交互(human-robot interact1n，简称HRI)。人机交互依据研究对象的不同，可分为这三种不同描述。三者互相关联，计算机和机器人都是一种特殊机器，所以，可认为HMI包含HCI和HRI ；机器人的核心通常是特定的计算机系统，HRI可以使用HCI的方法，也可以独立于HCI。
[0004]参见参考文献[2]:龚杰民，王献青，人机交互技术的进展与发展趋向.西安电子科技大学学报，1998,25(6): 782-786;参考文献[3]:柳克俊，关于人机交互，人机和谐环境的思考.计算机应用，2005,25(10):2226-2227.人机交互经历了初级人机交互阶段、单通道人机交互阶段，现在正向两种或两种以上通道结合的方向发展初级人机交互通常使用简单的遥控器等特定设备实现人机对话，一般为单向，很少有机器人对人的反馈，通常需要人配合机器人才能完成特定任务;单通道人机交互使用单一方式交互技术，如语音、手势、触觉、目艮部动作等(参见参考文献[4]:Potamianos,G.,Neti ,C.,Luett J.,et al.,Aud1-VisualAutomatic Speech Recognit1n: An Overview.1ssues in Visual and Aud1-VisualSpeech Processing，2004，356-396.参考文献[5]:Pavlovic , V.1., Sharma，R.，Huang,T.S.,Visual Interpretat1n of Hand Gestures for Human-Computer Interact1n:AReview.1EEE Transact1ns on Pattern Analysis and Machine Intelligence,1997,19(7):677-695.参考文献[6]: Benal 1-Khoud ja，Μ.,Hafez ,M., Alexandre , J.M.,et al.,Tactile Interfaces: A State-of-the-Art Survey，Citeseer，2004.参考文献[7]:Grauman,K.,Betke,M.,Lombardi ,J.,et al.，Communicat1n Via Eye Blinks andEyebrow Raises:Video-Based Human-Computer Interfaces.Universal Access in theInformat1n Society,2003,2(4):359-373.)，这种方式有利于自然人机交互的发展，但各个通道都有自己的优势和缺点，有一定的局限性。为了取长补短，更好利用各通道信息，两种或两种以上通道相结合成为人机交互发展的趋势。
[0005]如，语音和手势作为日常交互的常用通道，但语音识别，如IBM公司的IBMViaVoice，微软的Microsoft Speech SDK,卡内基梅隆大学的CMU PocketSphinx等，识别率在一定程度上受说话者方言、语音、语调、周围环境等的影响;基于视觉的手势识别无需专门训练用户，也不需佩戴专用设备，具有直观、信息量大、自然友好的特点，符合自然的人机交互的要求，是多方式人机交互的核心技术之一，但容易受光照、复杂背景、部分遮挡等的影响。静态手势是常用的一种信息表达方式，且有多种表达形式，但在手势分割和识别过程中需分辨率较高的照片，当人手离摄像头较远时，采集到的人手区域照片的分辨率影响识别效果。
[0006]六足腿/臂复合式移动机器人可用于空间站、核电站、剧毒生化车间作业、危险品处理以及公共安全防暴等领域，也可用于家庭、医疗服务等领域。六足腿/臂复合式移动机器人不仅可用于远程控制，还可用于与机器人面对面直接交互，如，六足腿/臂复合式移动机器人进行救援时，不仅可以远程控制机器人救援，还可在灾后现场，与机器人面对面直接交互，良好的人机交互有助于机器人更好协助用户完成救援任务。
[0007]六足腿/臂复合式移动机器人还可用于医疗、家庭服务等领域，如，帮助老幼病残孕;陪儿童玩耍;帮老人、病人、残障人士、孕妇拿药，捡掉在地上的东西；当老人、病人、残障人士、孕妇摔倒，或身体健康的普通人在发生紧急情况时，如被抢劫，用手势或语音求救，系统便会以短信、彩信等方式及时通知家人，以便及时采取恰当措施。

【发明内容】

[0008]本发明的目的在于提供一种基于手势和语音识别的机器人人机交互方法和装置，将手势和语音两个通道结合起来，克服单一通道的不足，更好控制机器人。本发明可用于远程控制机器人，让机器人代替人类在空间站、核电站、剧毒生化车间作业、危险品处理、核电站、剧毒生化车间作业等领域作业，也可进行人与机器人的面对面直接交互，用于医疗、家庭服务等领域。
[0009]本发明提供的装置上安装环境检测传感器，可监测环境，在发生火灾、CH4含量超标或C0含量超标情况下，系统以语音信息、短信、彩信等方式及时通知预定义的特定人。其中，彩信是摄像头在异常情况发生时拍摄的现场照片。
[0010]本发明所指的人机交互是人(用户)与机器人间的交互(HRI)。
[0011]本发明首先提供一种基于手势和语音识别的机器人人机交互方法，所述方法包括如下步骤:
[0012]第一步，判断是否有交互对象，如果有交互对象，则开启交互模式，转第二步;如果没有交互对象，机器人开启检测模式；
[0013]第二步，信息输入:手势识别模块和语音识别模块实时进行信息采集，如果采集到信息，则执行第三步，否则执行第五步；
[0014]第三步，手势识别模块通过RGB-D摄像头采集深度图像信息和RGB图像信息，进行预定义手势的识别，并将手势识别结果发送至信息融合模块;与此同时，语音识别模块通过RGB-D摄像头内置麦克采集音频信息，通过语音识别软件转换为特定文本信息作为语音识别结果，并将语音识别结果发送至信息融合模块;信息融合模块将语音识别结果和手势识别结果从语义层进行信息融合，得到最终融合结果；
[0015]第四步，执行与反馈，根据信息融合模块的最终融合结果发出相应指令；
[0016]如果最终融合结果是控制信息，则发出相应控制指令给机器人控制模块，控制机器人运动;如果最终融合结果是应急信息，则发应急信息给信息确认模块，信息确认模块通过语音形式广播给用户，询问用户是否要执行，得到肯定答复或在设定时间内没有应答，则信息确认模块发送应急信息给应急求救模块，转第六步。
[0017]第五步，若手势识别模块和语音识别模块在设定时间内没有信息输入，并且这种状况持续一定时间后，信息融合模块

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁希仑;齐静;
技术所有人：北京航空航天大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。