拾音器波束角定向方法、装置、存储介质及电子装置与流程

文档序号：22842059发布日期：2020-11-06 16:43阅读：190来源：国知局

本发明实施例涉及拾音定位领域，具体而言，涉及一种拾音器波束角定向方法、装置、存储介质及电子装置。

背景技术：

随着经济的高速发展，人民生活水平日渐提高，智能音响、录音笔、汽车等其他各种使用麦克风阵列拾音的智能设备越来越普遍地出现在工作生活中。而麦克风阵列远场拾音一般靠波束形成(beamforming)算法，实现对某一方向角度的声音拾取。

在实际场景中，使用波束形成算法实现声音拾取是比较困难的。首先，难以定位人讲话的时候相对于拾音器的方向和角度；其次，人讲话的时候是移动的。总而言之，如何实现拾音器快速的判断讲话人的方向角度，是保证麦克风阵列远场拾音使用质量的关键。

现阶段，相关技术一般是通过麦克风阵列不断地监听声音，直到出现特定的唤醒词(如，小度，小爱同学，helloalex等)，然后计算唤醒词信号相对于拾音器的方向角度。相关方案具有如下缺点：首先，需要麦克风阵列对唤醒词具有高识别率和高召回率，否则会出现不能唤醒或者误唤醒；其次，唤醒词的场景在录音笔或者其他录音器的场景中难以适用。

针对上述相关技术中存在的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种拾音器波束角定向方法、装置、存储介质及电子装置，以至少解决相关技术中使用唤醒词唤醒拾音器误唤醒率高、以及难以对自由对话进行拾音的问题。

根据本发明的一个实施例，提供了一种拾音器波束角定向方法，包括：拾音器接收红外设备发送的用户相对于所述拾音器的位置和角度；所述拾音器根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角。

在一个示例性实施例中，在拾音器接收红外设备发送的用户相对于所述拾音器的位置和角度之前，可以包括：所述红外设备检测所述用户相对于所述拾音器的位置；当所述用户相对于所述拾音器的位置在预定范围内时，所述红外设备向所述拾音器发送所述用户相对于所述拾音器的位置和角度。

在一个示例性实施例中，所述拾音器根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角，可以包括：所述拾音器根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角，并对所述拾音器的波束角以外的角度所接收到的音频进行降噪处理。

在一个示例性实施例中，所述拾音器根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角，可以包括：当所述拾音器在预定时间内接收了所述红外设备发送的所述用户相对于所述拾音器的多个位置和角度时，所述拾音器根据所述红外设备最近一次发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器波束角。

根据本发明的另一个实施例，提供了一种拾音器波束角定向装置，包括拾音器和红外设备，其中，所述拾音器包括：接收模块，用于接收所述红外设备发送的用户相对于所述拾音器的位置和角度；调整模块，用于根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角。

在一个示例性实施例中，所述红外设备可以包括：检测模块，用于检测所述用户相对于所述拾音器的位置；发送模块，用于在所述用户相对于所述拾音器的位置在预定范围内的情况下，所述红外设备向所述拾音器发送所述用户相对于所述拾音器的位置和角度。

在一个示例性实施例中，还可以包括：降噪模块，用于对所述拾音器的波束角以外的角度所接收到的音频进行降噪处理。

在一个示例性实施例中，所述调整模块，还可以用于在所述拾音器在预定时间内接收了所述红外设备发送的所述用户相对于所述拾音器的多个位置和角度的情况下，所述拾音器根据所述红外设备最近一次发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器波束角。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明的上述实施例，由于通过红外设备而不是唤醒词直接确定用户相对于拾音器的位置与角度，因此，可以解决相关技术中使用唤醒词唤醒拾音器误唤醒率高、以及难以对自由对话进行拾音的问题，进而达到便捷准确地进行场景拾音、高效地对自由对话进行拾音的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的拾音器波束角定向方法的流程图；

图2是根据本发明实施例的双麦克风端射心型波束成形器的响应示意图；

图3是根据本发明实施例的拾音器波束角定向装置的结构框图；

图4是根据本发明实施例的带有红外设备的拾音器波束角定向装置的结构框图；

图5是根据本发明可选实施例的通过红外探测装置帮助拾音器定位波束角度的方法的流程图；

图6是根据本发明可选实施例的人体感应生物识别智能装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好的理解本发明实施例以及可选实施例的技术方案，以下对本发明实施例以及可选实施例中可能出现的应用场景进行说明，但不用于限定以下场景的应用。

在本实施例中提供了一种拾音器波束角定向方法，图1是根据本发明实施例的拾音器波束角定向方法的流程图，如图1所示，该流程包括如下步骤：

步骤s101，拾音器接收红外设备发送的用户相对于所述拾音器的位置和角度。

在本实施例中，所述拾音器不限于麦克风。具体而言，所述方法可以应用于如智能工牌、录音笔等录音设备以及其他具有拾音功能的设备上。

在本实施例中，所述红外设备可以是热成像仪。同时，为了确定用户相对于拾音器的位置与角度，所述红外设备可以根据红外图像确定用户的位置与角度。当然，所述红外设备可以更精确地根据红外图像确定用户面部、甚至用户发声器官相对于拾音器的位置与角度，本实施例对此不做限定。

步骤s102，所述拾音器根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角。

在本实施例中，所述拾音器调整波束角的方法可以使用宽边麦克风阵列波束成形方法或者端射麦克风阵列波束成形方法。当然，采用不同数量麦克风和不同配置的阵列显然是可行的，本实施例对此不作限定。并且，本实施例不限定使用更高级的算法实现拾音器波束角的调整。

在本实施例的步骤s101之前，还可以包括：所述红外设备检测所述用户相对于所述拾音器的位置；当所述用户相对于所述拾音器的位置在预定范围内时，所述红外设备向所述拾音器发送所述用户相对于所述拾音器的位置和角度。

在本实施例中，具体而言，红外设备先检测用户是否进入拾音器的拾音范围内。当用户进入拾音器的拾音范围内时，所述红外设备才开始向拾音器发送用户的位置和角度，以便于拾音器拾取到用户发出的较为清晰的音频信息。

在本实施例中，步骤s102可以包括：所述拾音器根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角，并对所述拾音器的波束角以外的角度所接收到的音频进行降噪处理。

图2是根据本发明实施例的双麦克风端射心型波束成形器的响应示意图，在本实施例中，具体而言，当所述拾音器调整波束角的方法为端射麦克风阵列波束成形方法时，如图2所示，如果麦克风间距和时间延迟均选择得当，针对混叠频率以下的频率，延迟求和波束成形器的响应是心型图案。心型图案不会衰减阵列前方的信号；理论上，它会完全消除以180°入射到阵列的声音。一阶(双麦克风)延迟求和波束成形器的侧边信号衰减6db。

当然，上述实施方式仅为一种较为简单的降噪处理方式，本实施例不限于使用多种降噪方式以实现对拾音器的波束角以外的角度所接收到的音频进行降噪处理。

在本实施例中，步骤s102还可以包括：当所述拾音器在预定时间内接收了所述红外设备发送的所述用户相对于所述拾音器的多个位置和角度时，所述拾音器根据所述红外设备最近一次发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器波束角。

在本实施例中，主要考虑了现实场景下用户讲话的时候大多是移动的，此时若仍按照原位置与角度进行拾音器波束角定向将难以接受到准确的音频信息。此时，引入逻辑顺序，在人员移动的时候能够快速地更改波束角，从而可以实现对移动用户进行更高质量的拾音。

通过上述步骤，由于通过红外设备而不是唤醒词确定用户相对于拾音器的位置与角度，解决了相关技术中使用唤醒词唤醒拾音器准确率低、以及难以对自由对话进行拾音的问题，达到了便捷地进行场景拾音、对自由对话进行拾音的效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种拾音器波束角定向装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的拾音器波束角定向装置的结构框图，如图3所示，该装置包括拾音器10和红外设备20，其中，所述拾音器10包括：接收模块11和调整模块12。

所述接收模块11，用于接收所述红外设备发送的用户相对于所述拾音器的位置和角度。

在本实施例中，所述拾音器不限于麦克风。具体而言，所述装置可以安装于如智能工牌、录音笔等录音设备以及其他具有拾音功能的设备上。

所述调整模块12，用于根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角。

在本实施例中，所述装置可以配置宽边麦克风阵列波束成形算法或者端射麦克风阵列波束成形算法。当然，采用不同数量麦克风和不同配置的阵列显然是可行的，本实施例对此不作限定。并且，本实施例不限定使用更高级的算法实现拾音器波束角的调整。

在本实施例中，还可以包括：降噪模块13。

所述降噪模块13，用于对所述拾音器的波束角以外的角度所接收到的音频进行降噪处理。

在本实施例中，具体而言，当所述装置配置的拾音器调整波束角的算法为端射麦克风阵列波束成形算法时，如图2所示，如果麦克风间距和时间延迟均选择得当，针对混叠频率以下的频率，延迟求和波束成形器的响应是心型图案。心型图案不会衰减阵列前方的信号；理论上，它会完全消除以180°入射到阵列的声音。一阶(双麦克风)延迟求和波束成形器的侧边信号衰减6db。

当然，上述实施方式仅提供了一种较为简单的降噪处理模块，本实施例不限于使用多种降噪米快以用于实现对拾音器的波束角以外的角度所接收到的音频进行降噪处理。

在本实施例中，所述调整模块12，还可以用于在所述拾音器在预定时间内接收了所述红外设备发送的所述用户相对于所述拾音器的多个位置和角度的情况下，所述拾音器根据所述红外设备最近一次发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器波束角。

在本实施例中，主要考虑了现实场景下用户讲话的时候大多是移动的，此时若仍按照原位置与角度进行拾音器波束角定向将难以接受到准确的音频信息。此时，引入逻辑顺序，在人员移动的情况下能够快速地更改波束角，从而可以实现对移动用户进行更高质量的拾音。

图4是根据本发明实施例的带有红外设备的拾音器波束角定向装置的结构框图，如图4所示，该装置除包括图2所示的所有模块外，所述红外设备20还包括：检测模块21和发送模块22。

所述检测模块21，用于检测所述用户相对于所述拾音器的位置。

在本实施例中，所述红外设备可以是热成像仪。同时，为了确定用户相对于拾音器的位置与角度，所述红外设备的检测模块21可以根据红外图像确定用户的位置与角度。当然，所述检测模块21可以更精确地根据红外图像确定用户面部、甚至用户发声器官相对于拾音器的位置与角度，本实施例对此不做限定。

所述发送模块22，用于在所述用户相对于所述拾音器的位置在预定范围内的情况下，所述红外设备向所述拾音器发送所述用户相对于所述拾音器的位置和角度。

在本实施例中，具体而言，红外设备可以检测用户是否进入拾音器的拾音范围内。在用户进入拾音器的拾音范围内的情况下，所述红外设备向拾音器发送用户的位置和角度，以便于拾音器拾取到用户发出的较为清晰的音频信息。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

为了便于对本发明所提供的技术方案的理解，下面将结合具体场景的实施例进行详细阐述。

本实施例的目的是构建一种通过红外探测装置帮助拾音器定位波束角度的方法。

与相关技术相比，本实施例可以不使用唤醒词帮助确定波束角，对拾音的场景拾音比较强，比如自由对话的录音等，另外在人员移动的时候能快速的更改波束角，从而实现对说话人的更高质量的拾音。

图5是根据本发明可选实施例的通过红外探测装置帮助拾音器定位波束角度的方法的流程图，如图5所示，该方法包括如下步骤：

步骤s501，红外设备识别用户的方向、角度。

在本实施例中，步骤s501可以包括：使用红外设备判断拾音器前方出现的用户。因为人体的温度是大于环境的温度，可以通过红外设备快速的跟踪到前方用户相对于拾音器的方向和角度。

步骤s502，拾音器记录用户的方向。

在本实施例中，步骤s502可以包括：拾音器通过记录红外设备输出的所述用户的方向和角度，输入拾音算法模型中进行计算。

步骤s503，定向拾音。

在本实施例中，步骤s503可以包括：针对步骤s502给定的方向，拾音器及时地调整拾音的波束角，强化拾音的质量，并对其他方向进行降噪处理。

在本实施例中，拾音器可以包括麦克风阵列，在麦克风阵列中内嵌拾音算法模型，通过该拾音算法模型，能控制麦克风阵列进行全向拾音或者定向拾音，以及根据红外设备所记录的方位控制麦克风阵列的定向拾音方向。

在本实施例中，所述方法的应用场景不限于麦克风。具体而言，所述方法可以应用于如智能工牌、录音笔等录音设备以及其他具有拾音器功能的设备上。

在本实施例中还提供了一种人体感应生物识别智能装置，所述装置可以代替上述实施例的红外装置，为拾音器提供用户的位置与角度。

图6是根据本发明可选实施例的人体感应生物识别智能装置的结构框图，在本实施例中，所述装置包括人体感应模块m11、方位传感器m12和处理器m13，人体感应模块m11、方位传感器m12为识别监控总成m10的一部分，其中，人体感应模块m11、处理器m13为现有结构，人体感应模块m11感应拾音器一定范围内是否有人体存在，方位传感器m12检测人体和拾音器之间的方位，通过间隔两个时间点人体与拾音器方位的测量，可判定人体是靠近还是远离拾音器，通过方位传感器m12的信号判定靠近或远离某个物件是现有技术，处理器m13判定人体靠近拾音器时以唤醒智能拾音器的其他模块。方位传感器m12可采用红外发射接收管实现，其与处理器m13的电路连接关系可采用现有常规的连接方式实现。

本实施例在上述实施例的基础上做了细化，即如图6所示，识别监控总成m10还包括用于采集人脸信息的监控装置m14、用于鉴别人脸的影音识别装置m15、监控装置m14和提供光源的红外灯m17。

还包括为处理器m13或/和拾音器10提供工作电源的电源模块，所述电源模块上连接有充电接口m16。

处理器m13上还连接有无线信号收发模块m18，该无线信号收发模块可采用wifi模块、4g模块等实现。

还可在处理器m13上连接显示装置m19。

综上所述，本实施例公开了一种人体感应生物识别智能装置，包括处理器m13和识别监控总成m10，所述识别监控总成m10包括用于感应人体的人体感应模块m11和感应人体方位的方位传感器m12，所述方位传感器m12和人体感应模块m11均连接在处理器m13上且处理器m13根据方位传感器m12的信号判定人体靠近或远离拾音器并在人体靠近拾音器时以唤醒智能拾音器的其他模块。其在现有人体感应模块m11的基础上增设方位传感器m12，减小设备唤醒频率，提高设备唤醒的准确性，可有效减小或者直接避免设备死机的情况。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

s1，接收红外设备发送的用户相对于所述拾音器的位置和角度；

s2，根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角。

在一个示例性实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-onlymemory，简称为rom)、随机存取存储器(randomaccessmemory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

s1，接收红外设备发送的用户相对于所述拾音器的位置和角度；

s2，根据所述红外设备发送的所述用户相对于所述拾音器的位置和角度调整所述拾音器的波束角。

在一个示例性实施例中，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，在一个示例性实施例中，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐世超;梁志婷;徐浩
技术所有人：上海明略人工智能(集团)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。