一种基于单人手势和语音信息的机器人人工导航方法

文档序号:2827287阅读:395来源:国知局
一种基于单人手势和语音信息的机器人人工导航方法
【专利摘要】本发明公开了一种基于单人手势和语音信息的机器人人工导航方法,通过体感设备Kinect采集当前环境中人体骨架关节点信息和语音信息,计算出骨架信息完整度和语音信息清晰度;如果骨架信息完整度大于等于骨架信息完整度阈值,则采用手势识别来进行机器人人工导航;如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则采用语音识别来进行机器人人工导航;如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则不输出导航指令。本发明将手势和语音结合起来应用于机器人控制系统中,因此具有实用性强、准确性高、实时性好的优点。
【专利说明】一种基于单人手势和语音信息的机器人人工导航方法
【技术领域】
[0001]本发明涉及一种属于机器人领域,具体是一种基于单人手势和语音信息的机器人人工导航方法。
【背景技术】
[0002]随着科技的发展,人机交互逐渐从以计算机为中心转移到以人为中心。手势和语音作为人的日常交流方式,自然,直观,清晰。因此手势和语音成为了人机交互的主流,广泛应用于远程控制、虚拟现实、医疗诊断等领域。
[0003]近年来,各种各样手势识别和语音识别算法层出不穷,比较流行的用于手势识别算法是DTW和HMM。但是DTW算法识别率较低,而HMM算法鲁棒性较差。语音识别的算法需要用训练软件来提高识别精度。单独用手势识别算法时,算法识别率会受到光照、复杂背景和骨架信息完整度的影响;单独使用语音识别时,会受到语音清晰度的影响。
[0004]分析目前的识别方法中,单纯使用手势识别的方法性能容易受到光照、复杂背景和骨架信息完整度的影响;单纯使用语音识别的方法是容易受到语音清晰度的影响,因此需要提供一种新的方法来解决上述问题。

【发明内容】

[0005]本发明的目的在于提供一种实用性强、准确性高、实时性好的基于单人手势和语音信息的机器人人工导航方法。本发明所述的机器人人工导航是指控制机器人的人员不需携带任何和机器人进行通讯的设备,直接依靠手势或语音指挥机器人的行进方向。
[0006]为实现上述目的,本发明提供如下技术方案:
一种基于单人手势和语音信息的机器人人工导航方法,该方法的具体步骤为:
(1)通过体感设备Kinect采集当前环境中人体骨架关节点信息和语音信息,计算出骨架信息完整度和语音信息清晰度;
(1.0如果骨架信息完整度大于等于骨架信息完整度阈值,则转到步骤(2);
(1.2)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则转到步骤(3);
(1.3)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤
(I);
(2)手势识别:
(2.1)定义九种不同的手势指令,九种手势指令分别为向右、向后、向左、向前、右前、右后、左后、左前和停止,且每种手势指令对应着一种向量,得到九个不同的向量叫,i=[l,9];如图4和图5所示,其中:向右对应向量Ii1,向后对应向量n2,向左对应向量n3,向前对应向量n4,右前对应向量n5,右后对应向量n6,左后对应向量n7,左前对应向量n8,停止对应向量n9 ;(2.2)选取右臂的右肘Pct和右腕P?作为手势识别的两个关节点;将以右肘Pot为起点,且以右腕Pm为终点的向量I作为特征向量来识别各种手势指令;
(2.3)计算向量11?与步骤(2.1)中向量Iii的夹角Θ,并找出最小夹角0min;
(2.4)比较Qmin与手势置信度阈值Te的值,当QminSTe时,手势识别失败,进入步骤
(3);否则识别成功,输出Qmin对应的手势向量所对应的手势指令,接下来判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);
(3)语音识别:
(3.1)建立语音识别引擎对象,将控制机器人运动的九个指令加到该对象的语法中,Grammar= { “forward”,“back”,“left”,“right”,“northeast”,“southeast,,,“southwest”, “southnorth”, “stop”}; (3.2)从体感设备Kinect的传感器获取原始音频数据流,通过降噪、自动增益控制和回声消除提高音频质量;
(3.3)语音识别引擎对象接受步骤(3.2)处理过的音频数据流,并与其语音库进行匹配,解析出文本结果;
(3.4)计算解析出的文本结果与语法中每个词的语音置信度的值C,并取出最大语音置信度的值Cmax ;
(3.5)令语音置信度阈值为Ts,当Cmax≤Ts时,识别成功,算法输出Cmax对应的语音指令;否则识别失败,不输出行走指令;
(3.6)判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1)。
[0007]作为本发明进一步的方案:步骤(1)当前环境中只有一个目标人发出手势或者语首指令。
[0008]与现有技术相比,本发明的有益效果是:本发明由于是用体感设备Kinect设备获取骨架信息和语音信息,骨架信息是通过深度图像获得的,所以可以克服光照变化、复杂背景的影响;而语音信息只受外部环境噪杂度的影响。本发明集合了这两部分识别算法的优点,也克服了单独使用这两种算法的不足。比如说,当人不在体感设备Kinect视域内时,可以用语音控制机器人的运动。当现场环境很吵时,体感设备Kinect的麦克风阵列可能接收不到有用的音频信号,语音控制将大打折扣,此时采用手势来控制机器人运动,这样就很好的避免了单一算法的局限性,很好的解决了骨架信息不完整或语音信息不完整的问题。因此,本发明具有实用性强、准确性高、实时性好的优点。
【专利附图】

【附图说明】
[0009]图1是人体骨骼中的20个关节点图;
图2是体感设备Kinect的骨架空间坐标系;
图3是本发明算法的整个识别系统框图;
图4是Kinect坐标系的XOZ平面中手势指令与向量的对应关系;
图5是Kinect坐标系的XOY平面中手势指令与向量的对应关系;
图6是手势置信度阈值Te与识别成功次数的关系图;
图7是语音置信度阈值Ts与识别成功次数的关系图;
图8是骨架彳目息例。【具体实施方式】
[0010]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0011]请参阅图3,一种基于单人手势和语音信息的机器人人工导航方法,该方法的具体步骤为:
(1)当前环境中只有一个目标人发出手势或者语音指令时,通过体感设备Kinect采集当前环境中人体骨架关节点信息(如图8所示)和语音信息,计算出骨架信息完整度和语音信息清晰度;
(1.0如果骨架信息完整度大于等于骨架信息完整度阈值,则转到步骤(2);
(1.2)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则转到步骤(3);
(1.3)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤
(I);
(2)手势识别:
(2.1)定义九种不同的手势指令,九种手势指令分别为向右、向后、向左、向前、右前、右后、左后、左前和停止,且每种手势指令对应着一种向量,得到九个不同的向量叫,i=[l,9];如图4和图5所示,其中:向右对应向量Ii1,向后对应向量n2,向左对应向量n3,向前对应向量n4,右前对应向量n5,右后对应向量n6,左后对应向量n7,左前对应向量n8,停止对应向量n9 ;
(2.2)选取右臂的右肘Pct和右腕Pm作为手势识别的两个关节点(如图1所示);将以右肘Pct为起点,且以右腕P?为终点的向量nev作为特征向量来识别各种手势指令(如图2所示);
(2.3)计算向量new与步骤(2.1)中九个向量Iii的夹角Θ,并找出最小夹角Θ min ;最小夹角^min对应的向量Ii1 ;
(2.4)比较Qmin与手势置信度阈值Te的值,当QminSTe时,手势识别失败,进入步骤
(3);否则识别成功,输出Qmin对应的手势向量所对应的手势指令,接下来判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);所述手势置信度阈值Te根据敏感度实验确定,实验在普通人工手势的数据集合上进行;Te从2取到22,每一个Te测试100个识别样本,最后得到Te与识别成功率关系图,如图6所示,横轴代表Te值,纵轴代表识别成功次数;由图6可知,置信度阈值Te为 18时识别率最高,达到100% ;所以设定Te=18 ;
(3)语音识别:
(3.1)建立语音识别引擎对象,将控制机器人运动的九个指令加到该对象的语法中,Grammar= { “forward”,“back”,“left”,“right”,“northeast”,“southeast,,,“southwest”, “southnorth”, “stop”};
(3.2)从体感设备Kinect的传感器获取原始音频数据流,通过降噪、自动增益控制和回声消除提高音频质量;
(3.3)语音识别引擎对象接受步骤(3.2)处理过的音频数据流,并与其语音库进行匹配,解析出文本结果;
(3.4)计算解析出的文本结果与语法中每个词的语音置信度的值C,并取出最大语音置信度的值Cmax ;
(3.5)令语音置信度阈值为Ts,当Cmax≥Ts时,识别成功,算法输出Cmax对应的语音指令;否则识别失败,不输出行走指令;所述语音置信度阈值为Ts,根据敏感度实验确定,实验在语音质量良好的数据集合上进行;TS从0.1取到0.9,每一个Ts测试100个识别样本,最后得到Ts与识别成功率关系图,如图7所示,横轴代表Ts值,纵轴代表识别成功次数;由图7可知,置信度阈值Ts为0.8时识别率最高,达到98% ;所以设定Ts=0.8。
[0012](3.6)判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1)。
[0013]本发明将手势和语音结合起来应用于机器人控制系统中,手势部分应用深度图像获取骨架信息,可以克服光照和复杂背景的干扰。同时算法计算的是向量之间的夹角,所以与向量的长短无关,即与人的骨骼长短无关。可以适合不同体格的人控制机器人运动。语音识别部分不同于一般的识别算法,它不需要训练集来提高他的识别精度,只需要设定语法环境和相关的置信度就可以了,不同的人不同的声音都可以进行识别。本发明集合了这两部分识别算法的优点,也克服了单独使用这两种算法的不足。相比于其他单一算法降低了计算复杂度,提高了算法的鲁棒性,使机器人人工导航中人机交互更简单,清晰,自然。在机器人领域具有重大意义。因此,本发明具有实用性强、准确性高、实时性好的优点。
[0014]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0015]此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
【权利要求】
1.一种基于单人手势和语音信息的机器人人工导航方法,其特征在于,该方法的具体步骤为: (1)通过体感设备Kinect采集当前环境中人体骨架关节点信息和语音信息,计算出骨架信息完整度和语音信息清晰度; (1.0如果骨架信息完整度大于等于骨架信息完整度阈值,则转到步骤(2); (1.2)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则转到步骤(3); (1.3)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(I); (2)手势识别: (2.1)定义九种不同的手势指令,九种手势指令分别为向右、向后、向左、向前、右前、右后、左后、左前和停止,且每种手势指令对应着一种向量,得到九个不同的向量叫,i=[l,9];如图4和图5所示,其中:向右对应向量Ii1,向后对应向量n2,向左对应向量n3,向前对应向量n4,右前对应向量n5,右后对应向量n6,左后对应向量n7,左前对应向量n8,停止对应向量n9 ; (2.2)选取右臂的右肘Pct和右腕P?作为手势识别的两个关节点;将以右肘Pot为起点,且以右腕Pm为终点的向量I作为特征向量来识别各种手势指令; (2.3)计算向量11?与步骤(2.1)中向量Iii的夹角Θ,并找出最小夹角0min; (2.4)比较Qmin与手势置信度阈值Te的值,当QminSTe时,手势识别失败,进入步骤(3);否则识别成功,输出Qmin对应的手势向量所对应的手势指令,接下来判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1); (3)语音识别: (3.1)建立语音识别引擎对象,将控制机器人运动的九个指令加到该对象的语法中,Grammar= { “forward”,“back”,“left”,“right”,“northeast”,“southeast,,,“southwest”, “southnorth”, “stop”}; (3.2)从体感设备Kinect的传感器获取原始音频数据流,通过降噪、自动增益控制和回声消除提高音频质量; (3.3)语音识别引擎对象接受步骤(3.2)处理过的音频数据流,并与其语音库进行匹配,解析出文本结果; (3.4)计算解析出的文本结果与语法中每个词的语音置信度的值C,并取出最大语音置信度的值Cmax ; (3.5)令语音置信度阈值为Ts,当Cmax≥Ts时,识别成功,算法输出Cmax对应的语音指令;否则识别失败,不输出行走指令; (3.6)判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1)。
2.根据权利要求1所述的基于单人手势和语音信息的机器人人工导航方法,其特征在于,步骤(1)当前环境中只有一个目标人发出手势或者语音指令。
【文档编号】G10L15/26GK103885585SQ201410057451
【公开日】2014年6月25日 申请日期:2014年2月20日 优先权日:2014年2月20日
【发明者】黄桂德, 蒋旻, 雷泽, 杜沛力 申请人:深圳市贝特尔机电有限公司, 武汉科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1