一种基于麦克风阵列的机器人拾音方法、装置及介质与流程

文档序号:33383072发布日期:2023-03-08 06:49阅读:112来源:国知局
一种基于麦克风阵列的机器人拾音方法、装置及介质与流程

1.本技术涉及信号处理的技术领域,具体涉及一种基于麦克风阵列的机器人拾音方法、装置及介质。


背景技术:

2.随着计算机技术的普及,当今人们生活已经逐渐走入智能时代,电脑、手机、平板、智能电视等都应用了人工智能技术。但是目前手机、平板等便携设备大多采用近场语音识别技术,其应对复杂环境的能力相对较差,影响人机交互;同时,现有机器人方案,主要是实现原地转向迎宾交互,主动上前迎宾交互的功能欠缺或是效果不佳。
3.因此,一些方案在机器人人机交互上,引入平面麦克风阵列方案,具备语音唤醒、远场拾音、声源定位、回声消除等功能,这种平面麦克风阵列方式可以满足小型机器人的使用需求。然而,对于大型机器人来说,如果麦克风阵列放置的位置较低时,麦克风阵列很容易因为受到结构件阻挡,而无法实现对不同方向来的音频进行处理;如果麦克风阵列放置的位置较高时,对于一些身高较矮的人员拾音效果仍然不理想。因此,麦克风阵列的优越性能就受到了限制,机器人主动上前迎宾交互的效果仍然不佳。


技术实现要素:

4.为了解决上述技术问题,本技术提出了一种基于麦克风阵列的机器人拾音方法、装置及介质。
5.根据本技术的第一方面,提出了一种基于麦克风阵列的机器人拾音方法,包括以下步骤:
6.s1、启用第一麦克风阵列在全方向上搜索音频信号;
7.s2、通过比对确定信号最强的目标音频信号及其所在的方向,并计算得到所述目标音频信号的声源角度信息;
8.s3、根据所述声源角度信息控制所述机器人转动至面向所述声源的方向并靠近所述声源;
9.s4、切换至第二麦克风阵列对所述声源的方向上进行拾音。
10.优选的,所述步骤s2中所述声源角度信息的计算具体包括:
11.通过所述目标音频信号所在的方向选中所述第一麦克风阵列中的至少两个麦克风;
12.根据选中的至少两个所述麦克风接收到所述目标音频信号的时间差计算得到所述声源角度信息。
13.优选的,所述步骤s3还包括:
14.利用单线激光雷达对发出所述声源的对象进行探测,同时判断所述对象是否为人员,若是,则控制所述机器人移动至离所述对象的预设距离处。
15.优选的,所述判断所述对象是否为人员,包括:
16.s3a、利用热成像仪对所述对象进行测温,判断温度测量结果是否在预设范围内,若是,则执行步骤s3b;
17.s3b、判断所述对象的形态是否符合人体形态学,若是,则所述对象为人员。
18.优选的,所述步骤s3b具体包括:
19.s3b1、基于所述单线激光雷达扫描的点云信息,判断所述对象在距离地面预设高度处是否具有两个弧形面,若是,则执行步骤s3b2;
20.s3b2、判断两个所述弧形面的宽度以及两者之间的距离是否在预设阈值内,若是,则所述对象为人员。
21.优选的,所述第一麦克风阵列或所述第二麦克风阵列在拾音时,根据计算得到的所述声源角度信息,形成定向拾音波束。
22.优选的,所述第一麦克风阵列在所述机器人上周向间隔排布,所述第二麦克风阵列在所述机器人上竖直间隔排布。
23.根据本技术的第二方面,提出了一种基于麦克风阵列的机器人拾音装置,设置于所述机器人,包括:
24.第一麦克风阵列,配置用于在全方向上搜索音频信号;
25.麦克风阵列核心模块,配置用于通过比对确定信号最强的目标音频信号及其所在的方向,并计算得到所述目标音频信号的声源角度信息;
26.机器人主控模块,配置用于根据所述声源角度信息控制所述机器人转动至面向所述声源的方向并靠近所述声源;
27.第二麦克风阵列,配置用于对所述声源的方向上进行拾音;
28.音频切换开关模块,配置用于对所述第一麦克风阵列和所述第二麦克风阵列进行切换。
29.优选的,所述第一麦克风阵列或所述第二麦克风阵列在拾音时,根据计算得到的所述声源角度信息,形成定向拾音波束。
30.根据本技术的第三方面,提出了一种计算机可读储存介质,其储存有计算机程序,所述计算机程序在被处理器执行时实施如本技术第一方面所述的基于麦克风阵列的机器人拾音方法。
31.本技术提出了一种基于麦克风阵列的机器人拾音方法、装置及介质,采用立体麦克风阵列方案,使用第一麦克风阵列和第二麦克风阵列进行互补切换的方式,第一麦克风阵列补充第二麦克风阵列的角度限制,第二麦克风阵列补充第一麦克风阵列垂直角度上的不足,使得机器人在垂直方向上的拾音能力得到大大增强,实现拾音无盲区。人员在进行语音交互时,不会因为年龄段导致的身高不同,麦克风拾音效果不佳而产生不良的交互体验。并且,机器人通过热成像仪和激光雷达模块对发出声源的对象进行人或者物的判断,同时通过激光雷达测距,对发出声源的对象进行定位,主动靠近,调整到最佳的距离和角度,并以最优的拾音效果与人员进行语音交互。
附图说明
32.包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本技术的原理。将容易认识
到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
33.图1是根据本技术实施例的基于麦克风阵列的机器人拾音方法流程图;
34.图2是根据本技术实施例的基于麦克风阵列的机器人拾音装置结构示意图。
35.附图标记说明:1、功放/回采信号模块;2、第一麦克风阵列;3、第二麦克风阵列;4、麦克风阵列核心模块;5、音频切换开关模块;6、控制器;7、agc增益滤波模块;8、机器人主控模块;9、功率放大模块;10、音频输出模块。
具体实施方式
36.下面将详细描述本技术的各个方面的特征和示例性实施例,为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本技术,并不被配置为限定本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
37.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括......”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
38.根据本技术的第一方面,提出了一种基于麦克风阵列的机器人拾音方法。图1示出了根据本技术实施例的基于麦克风阵列的机器人拾音方法流程图,如图1所示,该方法包括以下步骤:
39.s1、启用第一麦克风阵列在全方向上搜索音频信号。
40.具体的,第一麦克风阵列可以包含n个麦克风,n≥1,n个麦克风可以水平周向排布,也可以垂直周向排布,还可以随机排布。第一麦克风阵列可以设置在机器人的顶部或颈部,或设置在机器人较高的部位上。第一麦克风阵列在全方向上搜索音频信号,这里的全方向可以是水平方向上的360
°
,也可以是垂直方向上的360
°
。本实施例中,第一麦克风阵列包含6个麦克风,6个麦克风水平周向间隔设置在机器人的顶部,从而在水平方向上的360
°
搜索音频信号。
41.需要说明的是,在启用麦克风阵列之前,可以对麦克风阵列进行灵敏度的设置。根据麦克风阵列的使用环境调节拾音灵敏度,灵敏度的设置会影响到回声消除的能力。当灵敏度单方面增强时,容易使麦克风阵列误识别回声。所以当使用环境较为安静时,可以通过降低灵敏度,来实现更良好的拾音效果。
42.s2、通过比对确定信号最强的目标音频信号及其所在的方向,并计算得到目标音频信号的声源角度信息。
43.在具体的实施例中,通过比对第一麦克风阵列中多个麦克风的音频信号强度,确定信号最强的目标音频信号及其所在的方向。然后选中第一麦克风阵列中接收到该目标音
频信号的至少两个麦克风,通过比较该目标音频信号到达不同麦克风的时间差,利用算法即可计算出目标音频信号的声源角度信息。
44.s3、根据声源角度信息控制机器人转动至面向声源的方向并靠近声源。
45.在具体的实施例中,在获取到声源角度信息后,机器人首先转动至面对声源的方向,然后判断发出声源的对象是人员还是物体,同时利用单线激光雷达探测与该对象之间的距离。例如,当判断该对象为物体后,机器人不动,第一麦克风继续在全方向上搜索音频信号;当判断该对象为人员后,进一步判断与该对象之间的距离是否在预设范围内(例如2米),若是,机器人仍保持不动,若不是,则机器人根据雷达定位移动至离该人员的预设距离(例如1.2米)处停下。
46.其中,判断发出声源的对象是否为人员,包括以下步骤:
47.s3a、利用热成像仪对对象进行测温,判断温度测量结果是否在预设范围内,若是,则执行步骤s3b;
48.s3b、判断对象的形态是否符合人体形态学,若是,则对象为人员。
49.在具体的实施例中,机器人通过智能热成像仪对发出声源的对象进行测温,如果温度测量结果在预设范围内(例如36-40),则说明该对象是活体,但仍不确定是人员还是动物,因此需要进一步判断。本实施例中,具体采用人体形态学匹配的方式判断该对象是否为人员,具体步骤如下:
50.s3b1、基于单线激光雷达扫描的点云信息,判断对象在距离地面预设高度处是否具有两个弧形面,若是,则执行步骤s3b2;
51.s3b2、判断两个弧形面的宽度以及两者之间的距离是否在预设阈值内,若是,则对象为人员。
52.在具体的实施例中,根据先前单线激光雷达扫描的点云信息,可以判断该对象在距离地面预设高度处(例如15cm左右)是否具有两个弧形面,如果有,可以初步认为这两个弧形面符合人体形态学的两只腿。然后再进一步判断这两个弧形面的宽度以及两者之间的距离是否在预设阈值内,例如,当判断这两个弧形面的宽度在25cm以内,且两个弧形面之间的距离在45cm以内,则说明这“两只腿”的直径以及腿距基本符合人体形态学,那么此时就可以判断该对象是人员。
53.s4、切换至第二麦克风阵列对声源的方向上进行拾音。
54.在具体的实施例中,不同年龄段的人员对应不同的身高,为了使机器人对不同身高的人员都具有较好的拾音效果,本实施例中增设了第二麦克风阵列,第二麦克风阵列的设置高度低于麦克风的设置高度,从而第二麦克风阵列弥补第一麦克风阵列在垂直角度上的不足,第一麦克风弥补了第二麦克风在水平方向上的不足,两者实现互补,实现拾音无盲区。
55.具体的,第二麦克风阵列可以包含m个麦克风,n≥1,m个麦克风在垂直角度上可以间隔排布、阵列排布或随机排布。第二麦克风阵列在一个固定方向上拾音。本实施例中,第二麦克风阵列包含4个麦克风,4个麦克风在机器人的机身上沿竖直方向间隔排布,从而在垂直角度上对某一个固定方向进行拾音。
56.从而,第一麦克风阵列用于在全方向上搜索音频信号并进行定位,第二麦克风阵列则用于对定位方向进行拾音,第一麦克风阵列和第二麦克风阵列通过切换互补实现拾音
无盲区。
57.在优选的实施例中,获取到声源角度信息后,可控制第一麦克风阵列或第二麦克风阵列在拾音过程中形成定向拾音波束,从而增强该方向的拾音能力,抑制其它方向的拾音能力,减少噪声的干扰。
58.综上,本实施例实施原理如下:
59.机器人在拾音过程中,首先利用顶部的第一麦克风阵列在水平方向上的360
°
搜索音频信号,确定出信号最强的目标音频信号及其所在方向,并利用算法计算该目标音频信号的声源角度信息。机器人根据该声源角度信息转动至面对声源的方向,然后利用热成像仪和单线激光雷达对发出声源的对象进行识别,当识别为人员时,机器人靠近该人员。最后切换至第二麦克风阵列对人员所在的方向进行拾音。从而,第一麦克风阵列和第二麦克风阵列通过互补切换组成了一个立体式麦克风,实现拾音无盲区,机器人能够主动上前迎宾交互,且效果较为理想。
60.需要说明的是,本实施例中,无论发出声源的人员身高是多少,最终都是通过第一麦克风阵列获取声源的声源角度信息进行定位,然后切换至第二麦克风阵列进行拾音的。但在其它实施方式中,第一麦克风阵列也可以进一步获取声源的高度信息,从而在声源的高度信息与第一麦克风阵列的高度匹配时,机器人在移动靠近声源之后保持由第一麦克风阵列进行拾音;而当声源的高度信息与第一麦克风阵列的高度信息不匹配时,机器人在移动靠近声源之后切换至第二麦克风阵列进行拾音。
61.本技术提出了一种基于麦克风阵列的机器人拾音方法,采用立体麦克风阵列方案,使用第一麦克风阵列和第二麦克风阵列进行互补切换的方式,第一麦克风阵列补充第二麦克风阵列的角度限制,第二麦克风阵列补充第一麦克风阵列垂直角度上的不足,使得机器人在垂直方向上的拾音能力得到大大增强,实现拾音无盲区。人员在进行语音交互时,不会因为年龄段导致的身高不同,麦克风拾音效果不佳而产生不良的交互体验。并且,机器人通过热成像仪和激光雷达模块对发出声源的对象进行人或者物的判断,同时通过激光雷达测距,对发出声源的对象进行定位,主动靠近,调整到最佳的距离和角度,并以最优的拾音效果与人员进行语音交互。
62.根据本技术的第二方面,基于同样的构思,还提出了一种基于麦克风阵列的机器人拾音装置,该拾音装置装载于上述的机器人。图2示出了根据本技术实施例的基于麦克风阵列的机器人拾音装置结构示意图,如图2所示,该装置包括:
63.第一麦克风阵列2,配置用于在全方向上搜索音频信号;
64.麦克风阵列核心模块4,配置用于通过比对确定信号最强的目标音频信号及其所在的方向,并计算得到目标音频信号的声源角度信息;
65.机器人主控模块8,配置用于根据声源角度信息控制机器人转动至面向声源的方向并靠近声源;
66.第二麦克风阵列3,配置用于对声源的方向上进行拾音;
67.音频切换开关模块5,配置用于对第一麦克风阵列2和所述第二麦克风阵列3进行切换;
68.其中,麦克风阵列核心模块4根据内部集成语音算法,利用麦克风阵列的空域滤波特性,通过计算得到的声源角度信息,使得第一麦克风阵列2或第二麦克风阵列3在拾音时,
形成定向拾音波束,从而增强该方向的拾音能力,抑制其它方向的拾音能力,减少噪声的干扰。机器人主控模块8还用于对音频信号进行asr、nlp、tts处理。
69.需要说明的是,机器人主控模块8底部具有运动结构,可实现转向、前进、后退等运动功能。
70.在优选的实施例中,该装置还包括:
71.控制器6,配置用于对音频切换开关模块5进行控制。本实施例中,控制器6为mcu,mcu通过i2c协议与麦克风阵列核心模块4进行通讯,获取到声源角度信息和人员识别结果后,通过控制音频开关切换模块对第一麦克风阵列2和第二麦克风阵列3进行切换,同时通过控制机器人主控模块8控制机器人的转向和移动。
72.功放/回采信号模块1,配置用于将功放/回声消除参考输入信号通过3.5音频线连接到上位机音频输出接口。通过麦克风阵列核心模块4对音频后端信号进行回声消除,避免麦克风阵列接收到各种信号,产生啸叫。为了有更好的消回声效果,需注意喇叭和拾音器的放置距离,应尽可能远,同时使用隔音棉进行隔离。
73.agc增益滤波模块7,配置用于将麦克风阵列采集到的音频信号送入agc增益滤波电路,对音频信号进行放大和滤波处理。并且,通过控制器6对agc增益滤波电路中数字可调电阻进行调节,可以对麦克风阵列的拾音灵敏度进行设置。根据麦克风阵列使用环境调节拾音灵敏度,灵敏度的设置会影响到回声消除的能力。当灵敏度单方面增强时,容易使麦克风阵列误识别回声。所以当使用环境较为安静时,可以通过降低灵敏度,来实现更良好的拾音效果。
74.功率放大模块9,配置用于将经过asr、nlp、tts处理后的音频信号送到100w的功率放大器进行音频放大。
75.音频输出模块10,由左右声道喇叭组成,配置用于对经过麦克风阵列核心模块4和功率放大模块9处理后的音频信号进行输出,确保机器人以最优的拾音效果与人员进行语音交互。
76.根据本技术的第三方面,基于同样的构思,进一步提出了一种计算机可读储存介质,其储存有计算机程序,该计算机程序在被处理器执行时实施如本技术第一方面的基于麦克风阵列的机器人拾音方法。
77.在本技术实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置/系统/方法实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
78.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
79.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
80.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
81.显然,本领域技术人员在不偏离本技术的精神和范围的情况下可以作出对本技术的实施例的各种修改和改变。以该方式,如果这些修改和改变处于本技术的权利要求及其等同形式的范围内,则本技术还旨在涵盖这些修改和改变。词语“包括”不排除未在权利要求中列出的其它元件或步骤的存在。某些措施记载在相互不同的从属权利要求中的简单事实不表明这些措施的组合不能被用于获利。权利要求中的任何附图标记不应当被认为限制范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1