一种语音数据处理方法及装置与流程

文档序号:17593372发布日期:2019-05-03 22:07阅读:154来源:国知局
一种语音数据处理方法及装置与流程

本发明涉及拾音技术领域,尤其涉及一种语音数据处理方法及装置。



背景技术:

在语音处理领域,智能设备(如智能音箱、智能电视等)的不断普及,对语音处理领域中的麦克风阵列技术提出了更高的要求。

在目前的会议系统中,为了记录会议中所有发言人的语音数据,可以通过全向拾音设备采集各个方向上说话人的语音数据,并对采集到的全方向上的语音数据进行语音处理。可见,在语音数据处理过程中,采集全方向上的语音数据容易造成较大的噪声干扰,比如在会议发言人说话的过程中存在其余人的说话声音,导致拾音设备采集到了除发言人对应的语音数据之外的其余语音数据(即噪声),进而导致语音识别的准确率低下。



技术实现要素:

本发明实施例提供一种语音数据处理方法和装置,可以降低语音数据采集过程中的噪声干扰,进而提高语音识别的准确率。

本发明一方面提供了一种语音数据处理方法,包括:

响应针对麦克风阵列的第一触发操作;所述麦克风阵列包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均与第一语音拾取模式相关联;

激活与所述第一触发操作相关联的至少一个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合,根据所述工作麦克风集合所指向的方向确定目标方向范围;

通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号。

其中,所述激活与所述第一触发操作相关联的至少一个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合,根据所述工作麦克风集合所指向的方向确定目标方向范围,包括:

当所述第一触发操作关联至少两个第一麦克风集合时,激活所述至少两个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合;

获取每个工作麦克风集合分别指向的方向的第一角度信息;

若每相邻两个工作麦克风集合之间的夹角均小于或等于角度阈值,则将所述第一角度信息中最小的角度信息与最大的角度信息之间的角度范围确定为目标方向范围。

其中,所述通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号,包括:

通过所述第一语音拾取模式和所述至少两个第一麦克风集合,生成每个第一麦克风集合分别对应的语音增益信号;所述语音增益信号为所述每个第一麦克风集合基于所述目标方向范围内的语音信号生成的;

根据所述每个第一麦克风集合分别对应的加权系数、所述每个第一麦克风集合分别对应的语音增益信号,生成所述第一目标语音信号。

其中,所述通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号,包括:

获取针对所述工作麦克风集合对应的传递函数向量与滤波器矩阵;

获取语音信号,并确定所述工作麦克风集合所指向的方向与所述语音信号对应的声源定位方向之间的第二角度信息;

根据所述传递函数向量、所述滤波器矩阵以及所述第二角度信息,确定所述第一语音拾取模式下所述工作麦克风集合对应的增益向量;

基于所述增益向量对所述语音信号进行卷积,生成第一目标语音信号;若所述第二角度信息属于增益角度范围,则所述第一目标语音信号为语音增强后的语音信号;若所述第二角度信息不属于增益角度范围,则所述第一目标语音信号为语音抑制后的语音信号。

其中,所述方法还包括:

获取语音信号,根据所述麦克风阵列中至少两个麦克风获取到所述语音信号的时间差,确定所述语音信号对应的声源定位方向。

其中,所述麦克风阵列还包括第二麦克风集合;

所述第二麦克风集合与第二语音拾取模式相关联,所述第二语音拾取模式用于对语音信号进行超指向增强,所述第二语音拾取模式的声音采集距离大于所述第一语音拾取模式的声音采集距离;

当从工作麦克风集合切换至第二麦克风集合时,所述第二麦克风集合用于基于第二语音拾取模式对所述目标方向范围内的语音信号进行语音拾取。

其中,所述方法还包括:

获取所述语音信号对应的第一音量参数;

若所述第一音量参数小于音量阈值,则激活第二麦克风集合;

将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

可选的,所述方法还包括:

响应针对所述麦克风阵列的第二触发操作;

激活与所述第二触发操作相关联的第二麦克风集合;

将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

可选的,所述方法还包括:

响应针对所述麦克风阵列的第二触发操作;

激活与所述第二触发操作相关联的第二麦克风集合;

将所述第二麦克风集合旋转至所述目标方向范围,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

可选的,所述目标方向范围包括第一目标方向范围和第二目标方向范围;

所述方法还包括:

获取所述第一目标方向范围内的语音信号对应的第二音量参数,获取所述第二目标方向范围内的语音信号对应的第三音量参数;

若所述第二音量参数小于所述音量阈值,且所述第三音量参数大于或等于所述音量阈值,则激活第二麦克风集合;

暂停所述第一目标方向范围和所述第二目标方向范围分别对应的第一麦克风集合,将所述第二麦克风集合旋转至所述第一目标方向范围内,在旋转后的麦克风阵列中重新激活所述第二目标方向范围内的第一麦克风集合,作为更新麦克风集合;

通过所述第一语音拾取模式和所述更新麦克风集合,对所述第二目标方向范围内的语音信号进行语音拾取,生成第三目标语音信号;

通过所述第二语音拾取模式和所述第二麦克风集合,对所述第一目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

其中,所述方法还包括:

获取所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别对应的目标语音特征;

根据所述目标语音特征,将所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别转换成文本信息,并输出所述文本信息。

本发明一方面提供了一种语音数据处理装置,包括:

响应模块,用于响应针对麦克风阵列的第一触发操作;所述麦克风阵列包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均与第一语音拾取模式相关联;

激活模块,用于激活与所述第一触发操作相关联的至少一个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合,根据所述工作麦克风集合所指向的方向确定目标方向范围;

生成模块,用于通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号。

其中,所述激活模块包括:

确定单元,用于当所述第一触发操作关联至少两个第一麦克风集合时,激活所述至少两个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合;

角度获取单元,用于获取每个工作麦克风集合分别指向的方向的第一角度信息;

方向范围确定单元,用于若每相邻两个工作麦克风集合之间的夹角均小于或等于角度阈值,则将所述第一角度信息中最小的角度信息与最大的角度信息之间的角度范围确定为目标方向范围。

其中,所述生成模块包括:

增益信号生成单元,用于通过所述第一语音拾取模式和所述至少两个第一麦克风集合,生成每个第一麦克风集合分别对应的语音增益信号;所述语音增益信号为所述每个第一麦克风集合基于所述目标方向范围内的语音信号生成的;

加权求和单元,用于根据所述每个第一麦克风集合分别对应的加权系数、所述每个第一麦克风集合分别对应的语音增益信号,生成所述第一目标语音信号。

可选的,所述生成模块包括:

第一获取单元,用于获取针对所述工作麦克风集合对应的传递函数向量与滤波器矩阵;

角度信息确定单元,用于获取语音信号,并确定所述工作麦克风集合所指向的方向与所述语音信号对应的声源定位方向之间的第二角度信息;

增益向量确定单元,用于根据所述传递函数向量、所述滤波器矩阵以及所述第二角度信息,确定所述第一语音拾取模式下所述工作麦克风集合对应的增益向量;

卷积单元,用于基于所述增益向量对所述语音信号进行卷积,生成第一目标语音信号;若所述第二角度信息属于增益角度范围,则所述第一目标语音信号为语音增强后的语音信号;若所述第二角度信息不属于增益角度范围,则所述第一目标语音信号为语音抑制后的语音信号。

其中,所述装置还包括:

定位模块,用于获取语音信号,根据所述麦克风阵列中至少两个麦克风获取到所述语音信号的时间差,确定所述语音信号对应的声源定位方向。

其中,所述装置还包括第一转换模块;

所述第一转换模块,包括:

第二获取单元,用于获取所述语音信号对应的第一音量参数;

第一条件判断单元,用于若所述第一音量参数小于音量阈值,则激活第二麦克风集合;

第一模式转换单元,用于将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

第一语音拾取单元,用于通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

其中,所述装置还包括第二转换模块;

所述第二转换模块,包括:

响应操作单元,用于响应针对所述麦克风阵列的第二触发操作;

麦克风激活单元,用于激活与所述第二触发操作相关联的第二麦克风集合;

第二模式转换单元,用于将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

第二语音拾取单元,用于通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

其中,所述目标方向范围包括第一目标方向范围和第二目标方向范围;所述装置还包括第三转换模块;

所述第三转换模块,包括:

第三获取单元,用于获取所述第一目标方向范围内的语音信号对应的第二音量参数,获取所述第二目标方向范围内的语音信号对应的第三音量参数;

第二条件判断单元,用于若所述第二音量参数小于所述音量阈值,且所述第三音量参数大于或等于所述音量阈值,则激活第二麦克风集合;

旋转单元,用于暂停所述第一目标方向范围和所述第二目标方向范围分别对应的第一麦克风集合,将所述第二麦克风集合旋转至所述第一目标方向范围内,在旋转后的麦克风阵列中重新激活所述第二目标方向范围内的第一麦克风集合,作为更新麦克风集合;

第三语音拾取单元,用于通过所述第一语音拾取模式和所述更新麦克风集合,对所述第二目标方向范围上的语音信号进行语音拾取,生成第三目标语音信号;

第四语音拾取单元,用于通过所述第二语音拾取模式和所述第二麦克风集合,对所述第一目标方向范围上的语音信号进行语音拾取,生成第二目标语音信号。

其中,所述装置还包括语音识别模块:

所述语音识别模块,包括:

语音特征获取单元,用于获取所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别对应的目标语音特征;

文本转换单元,用于根据所述目标语音特征,将所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别转换成文本信息,并输出所述文本信息。

本发明一方面提供了一种语音数据处理装置,包括:处理器和存储器;

所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。

本发明实施例一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。

在本发明实施例中,麦克风阵列可以包括多个分别指向对应方向的第一麦克风集合,可以通过响应针对上述麦克风阵列中的第一触发操作,进而可以激活与上述第一触发操作相关联的至少一个第一麦克风集合,并根据第一麦克风集合所指向的方向确定目标方向范围,在第一语音拾取模式下通过第一麦克风集合可以对目标方向范围内的语音信号进行语音拾取。换言之,可以根据触发操作激活麦克风,并可以通过激活后的麦克风对该麦克风所指向的方向上的语音信号进行语音拾取,可以避免其余方向上语音信号的干扰,进而可以提高语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音数据处理方法的场景示意图;

图2是本发明实施例提供的一种语音数据处理方法的流程示意图;

图3是本发明实施例提供的另一种语音数据处理方法的流程示意图;

图4a、图4b是本发明实施例提供的一种语音拾取方法的原理示意图;

图5是本发明实施例提供的另一种语音数据处理方法的流程示意图;

图6是本发明实施例提供的另一种语音数据处理方法的流程示意图;

图7a-图7c是本发明实施例提供的一种麦克风阵列语音拾取模式的结构示意图;

图8是本发明实施例提供的一种语音数据处理装置的结构示意图;

图9是本发明实施例提供的另一种语音数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参见图1,图1是本发明实施例提供的一种语音数据处理方法的场景示意图。在一些重要的会议场景或检查机关的审讯场景中,通常需要对会议或审讯过程进行记录,因此需要通过拾音设备(如圆形麦克风阵列、线性麦克风阵列等)采集会议或审讯过程中发言人的语音数据,上述拾音设备可以包括一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列,即麦克风阵列。如图1所示,用户100a可以表示为会议或审讯过程中的发言人,当用户100a说话时,可以通过拾音设备500采集用户100a的语音数据,并可以对采集到的语音数据进行语音识别。其中,该拾音设备500中的麦克风阵列200如“勺子”状,可以包括第一麦克风集合和第二麦克风集合,上述第一麦克风集合可以组成麦克风阵列中的全向拾音区,用于确定语音的方向,并可以做全向的语音拾取,即第一语音拾取模式。可以理解的是,麦克风阵列200中可以包括多个第一麦克风集合,每个第一麦克风集合中包括至少两个麦克风,如图1所示,该麦克风阵列包括4个第一麦克风集合,可以分别表示为{m1,m2,m6,m10,m14},{m1,m3,m7,m11,m15},{m1,m4,m8,m12,m16},{m1,m5,m9,m13,m17},每个第一麦克风集合中的所有麦克风均处于一条直线上,可以指向直线的两端,在采集直线的两端上的语音数据的效果最佳。第二麦克风集合是针对远距离方向的超指向增强方向,可以由多个麦克风线形阵列组成,用于特定方向的超级指向拾音和语音识别,即第二麦克风集合如图1中的{m1,m2,m6,m10,m14,m18,m19,m20}。其中,上述m1,m2,……,m20可以表示为麦克风。

在拾音设备500中,每个第一麦克风集合可以对应该集合所在直线两端的两个方向按键300,将第二麦克风集合{m1,m2,m6,m10,m14,m18,m19,m20}对应的方向作为0度方向,在0度,45度,90度,135度,180度,225度,270度,315度8个方向上均由5颗均匀的线形麦克风组成,上述8个方向上均可以设置一个方向按键300,当开启方向按键300时,可以激活该方向按键300对应的第一麦克风集合,例如用户100a位于该麦克风阵列200的45度方向上,当45度方向上的方向按键300开启时,激活第一麦克风集合{m1,m3,m7,m11,m15},采集用户100a的语音数据,并对采集的语音数据进行语音增强。可选的,0度方向上可以设置一个方向按键300和一个超远距离按键400,当方向按键300开启时,激活第一麦克风集合{m1,m2,m6,m10,m14};当超远距离按键开启时,激活第二麦克风集合{m1,m2,m6,m10,m14,m18,m19,m20}。当拾音设备500采集到的用户100a的语音数据质量过低(例如音量小、吐词模糊等),可以自动旋转麦克风阵列200,将第二麦克风集合旋转至45度方向上,并将麦克风阵列中的第一语音拾取模式转换成第二语音拾取模式,可以提高采集到的语音数据的质量,进而提高语音识别的准确率。

请参见图2,图2是本发明实施例提供的一种语音数据处理方法的流程示意图。如图2所示,该方法可以包括:

步骤s101,响应针对麦克风阵列的第一触发操作;所述麦克风阵列包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均与第一语音拾取模式相关联;

具体的,麦克风阵列是拾音设备的关键技术,麦克风阵列中可以包括多颗麦克风,且上述多颗麦克风以一定的规则进行排列,麦克风阵列可以包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均包括至少两颗麦克风,且每个第一麦克风集合中的所有麦克风呈线形排列(可以是均匀排列,也可以为非均匀排列),每个第一麦克风集合均与第一语音拾取模式相关联。上述第一触发操作可以是指人为按键、指纹识别,人为触控等接触式触发操作,也可以是指语音、远距离遥控等非接触式触发操作。麦克风阵列在语音数据处理过程中,若第一触发操作为人为按键操作,则每个第一麦克风集合可以与该第一麦克风集合所在直线上的两个方向按键相关联。当人为按下方向按键时,拾音设备可以响应针对上述人为按下方向按键的第一触发操作。例如,麦克风阵列可以包括4个第一麦克风集合,每个第一麦克风集合均包括5颗麦克风,上述4个第一麦克风集合可以指向360度的8个均匀方向,分别为0度,45度,90度,135度,180度,225度,270度,315度,每个方向均对应一个方向按键;当说话人位于该麦克风阵列的90度方向时,可以人为开启90度方向上的方向按键,在人为执行“按下90度方向上的方向按键”这一操作后,拾音设备可以响应上述“按下90度方向上的方向按键”操作(即第一触发操作)。换言之,获取针对上述“按下90度方向上的方向按键”操作的指令信息。

可选的,上述第一触发操作可以是指纹识别触发方式,当拾音设备接收到输入的指纹信息后,可以响应针对该指纹信息的第一触发操作,即将输入的指纹信息与已经录入的指纹信息进行匹配,若匹配成功,则可以激活与该指纹信息相关联的第一麦克风集合。可选的,第一触发操作可以是人为触控触发方式,每个第一麦克风集合可以与该第一麦克风集合所在直线上的两个触摸区域相关联,当拾音设备接收到人为触摸的感应信号(即响应针对麦克风阵列的第一触发操作)时,可以激活该感应信号所属触摸区域相关联的第一麦克风集合。可选的,第一触发操作可以是语音触发操作,当拾音设备采集到“喂”、“你好”、“请录音”等语音唤醒词(即响应针对麦克风阵列的第一触发操作)时,可以激活上述语音唤醒词相应方向上的第一麦克风集合。可选的,第一触发操作可以是远距离遥控触发操作,可以通过遥控设备对不同方向上的第一麦克风集合进行激活,每个第一麦克风集合与遥控设备上的不同按键相关联,当人为按下上述遥控设备上的某一按键时,拾音设备可以响应针对该按键的第一触发操作。例如,麦克风阵列包括4个第一麦克风集合,该4个第一麦克风集合可以指向360度的8个均匀方向,每一个方向可以对应遥控设备上的一个按键,即按键1,按键2,…,按键8。

步骤s102,激活与所述第一触发操作相关联的至少一个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合,根据所述工作麦克风集合所指向的方向确定目标方向范围;

具体的,在拾音设备响应了针对麦克风阵列的第一触发操作后,可以激活与上述第一触发操作相关联的至少一个第一麦克风集合,并可以将激活的第一麦克风集合确定为工作麦克风集合,即激活后的第一麦克风集合可以进行语音数据处理(包括对采集到的语音数据进行语音增强及语音识别),未激活的第一麦克风集合均处于未工作状态,可以接收语音信号,但无法对接收到的语音信号进行语音增强处理及语音识别处理,根据工作麦克风集合所指向的方向可以确定后续进行语音拾取的目标方向范围。当第一触发操作只关联一个第一麦克风集合时,可以将该第一麦克风集合所指向的方向确定为目标方向范围,例如第一麦克风集合对应的方向为0度方向,可以将0度左右的角度范围(如0度方向,或者正负22.5度之间的角度范围,这里的角度范围可以根据麦克风阵列中的麦克风排列方式或者实际需要来确定,这里不做限定)确定为目标方向范围;当第一触发操作关联两个第一工作麦克风集合时,可以根据两个第一麦克风集合分别指向的方向之间的角度范围确定目标方向范围,例如两个第一工作麦克风集合分别对应的方向为0度方向、45度方向,可以将0度-45度之间的角度范围确定为目标方向范围。

步骤s103,通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号。

具体的,在确定了麦克风阵列中的工作麦克风集合与目标方向范围后,可以开启麦克风阵列中的第一语音拾取模式,采用上述工作麦克风集合,采集上述目标方向范围内的语音信号,并在第一语音拾取模式下对采集到的语音信号进行语音增强,即对上述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号。可以理解的是,发言人在说话的过程,是一个持续的过程,拾音设备可以利用上述工作麦克风集合实时采集发言人的语音数据,并对采集到的语音数据进行语音增强,因此上述工作麦克风集合可以实时对目标方向范围内的所有语音信号进行语音拾取。

可选的,上述第一触发操作可以与多个方向按键相关联,则可以激活上述多个方向按键分别对应的第一麦克风集合,并将激活后的所有第一麦克分集合都确定为工作麦克风集合,根据上述多个方向按键分别对应的方向确定目标方向范围。例如,第一触发操作所操作的方向按键为45度方向上的方向按键、135度方向上的方向按键与270度方向上的方向按键,则可以激活45度方向对应的第一麦克风集合、135度方向对应的第一麦克风集合、270度方向对应的第一麦克风集合,并将上述3个激活的第一麦克风集合确定为工作麦克风集合,可以将45度左右、135度左右与270度左右的角度范围都确定为目标方向范围,可以通过第一语音拾取模式对目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号。

在本发明实施例中,麦克风阵列可以包括多个分别指向对应方向的第一麦克风集合,可以通过响应针对上述麦克风阵列中的第一触发操作,进而可以激活与上述第一触发操作相关联的至少一个第一麦克风集合,并根据第一麦克风集合所指向的方向确定目标方向范围,在第一语音拾取模式下通过第一麦克风集合可以对目标方向范围内的语音信号进行语音拾取。换言之,可以根据触发操作激活麦克风,并可以通过激活后的麦克风对该麦克风所指向的方向上的语音信号进行语音拾取,可以避免其余方向上语音信号的干扰,进而可以提高语音识别的准确率。

请参见图3,图3是本发明实施例提供的另一种语音数据处理方法的流程示意图。如图3所示,该方法可以包括:

步骤s201,响应针对麦克风阵列的第一触发操作;所述麦克风阵列包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均与第一语音拾取模式相关联;

其中,上述步骤s201的具体实现方式可以参见上述图2所对应实施例中对步骤s101的描述,这里不再进行赘述。

步骤s202,当所述第一触发操作关联至少两个第一麦克风集合时,激活所述至少两个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合;

具体的,当上述第一触发操作关联至少两个第一麦克风集合时,激活与该第一触发操作相关联的所有第一麦克风集合,并将激活的所有第一麦克风集合都确定为工作麦克风集合,即使得与第一触发操作相关联的所有第一麦克风集合均处于工作状态,可以对采集到的语音数据进行语音增强处理和语音识别处理。

步骤s203,获取每个工作麦克风集合分别指向的方向的第一角度信息;

具体的,在麦克风阵列中,每个第一麦克风集合均指向不同的方向,在确定了工作麦克风集合后,可以获取每个工作麦克风集合所指向的方向分别对应的角度信息(即第一角度信息)。

步骤s204,若每相邻两个工作麦克风集合之间的夹角均小于或等于角度阈值,则将所述第一角度信息中最小的角度信息与最大的角度信息之间的角度范围确定为目标方向范围;

具体的,根据上述获取的第一角度信息,可以确定每相邻两个工作麦克风集合之间的夹角信息,若每相邻两个工作麦克风集合之间的夹角信息均小于或等于角度阈值时,则可以将上述第一角度信息中最小的角度信息与最大的角度信息之间的角度范围确定为目标方向范围,其中,角度阈值可以表示为麦克风阵列中每相邻两个第一麦克风集合所指向的方向之间的夹角。举例来说,若在麦克风阵列中所有第一麦克风集合可以将360度平均分成8个方向,则上述角度阈值可以为45度。假设与第一触发操作相关联的第一麦克风集合为0度方向对应的第一麦克风集合1、45度方向对应的第一麦克风集合2以及90度方向对应的第一麦克风集合3,则可以激活上述三个方向分别对应的第一麦克风集合,并将这三个方向分别对应的第一麦克风集合均确定为工作麦克风集合,可以分别表示为工作麦克风1、工作麦克风2以及工作麦克风3,可以确定上述三个工作麦克风集合中工作麦克风集合1与工作麦克风集合2之间的夹角等于角度阈值45度,工作麦克风集合2与工作麦克风集合3之间的夹角也等于45度,则可以将0度到90度之间的角度范围确定为目标方向范围;假设与第一触发操作相关联的第一麦克风集合为0度方向对应的第一麦克风集合1、90度方向对应的第一麦克风集合2以及135度方向对应的第一麦克风集合3,并将第一麦克风集合1确定为工作麦克风集合1,将第一麦克风集合2确定为工作麦克风集合2,将第一麦克风集合3确定为工作麦克风集合3,可以确定工作麦克风集合1与工作麦克风集合2之间的夹角为90度,大于角度阈值45度,工作麦克风集合2与工作麦克风集合3之间的夹角为45度,等于角度阈值45度,因此可以将0度左右的角度范围(如正负22.5度之间的范围)、45度至90度之间的角度范围确定为目标方向范围。可选的,当第一触发操作相关联的第一麦克风集合为0度方向对应的第一麦克风集合1、45度方向对应的第一麦克风集合2以及90度方向对应的第一麦克风集合3时,可以确定第一麦克风集合1(即工作麦克风集合1)对应的第一角度信息为正负22.5度之间的角度范围,第一麦克风集合2(即工作麦克风集合2)对应的第一角度信息为22.5度至67.5度之间的角度范围,第一麦克风集合3(即工作麦克风集合3)对应的第一角度信息为67.5度至112.5度之前的角度范围,可以将负22.5度至112.5度之间的角度范围确定为目标方向范围。

应当理解,上述步骤s202-步骤s204表示在第一触发操作关联至少两个第一麦克风集合的情形下,目标方向范围的具体确定过程。当上述第一触发操作只关联一个第一麦克风集合时,目标方向范围可以直接根据该第一麦克风集合所指向的方向进行确定,即目标方向范围就是该第一麦克风集合所指向的方向范围。

步骤s205,获取语音信号,根据所述麦克风阵列中至少两个麦克风获取到所述语音信号的时间差,确定所述语音信号对应的声源定位方向;

具体的,通过麦克风阵列可以获取语音信号,由于麦克风阵列中每颗麦克风的位置不同,因此获取到同一语音信号时必定会存在时间差,通过每个第一麦克风集合中每相邻两颗麦克风之间的距离与上述时间差,可以确定该语音信号对应的发声声源的声源定位方向。换言之,根据相邻两颗麦克风之间的距离与声音在空气中的传播速度,可以计算出两颗麦克风之间的传播距离(即在语音信号所在方向上两颗麦克风之间的距离),根据传播距离与两颗麦克风之间的距离,可以计算出语音信号所在方向与两颗麦克风所在直线之间的夹角信息,由于两颗麦克风所在方向是已知的,因此根据上述夹角信息可以确定语音信号对应的声源定位方向。例如,当两颗麦克风之间的距离为a,两颗麦克风接收到语音信号的时间差为t,声音在空气中的传播速度为c,可以计算出上述两颗麦克风之间的传播距离为c*t,可以确定语音信号所在方向与两颗麦克风所在直线之间的夹角信息为cosθ=c*t/a,进而可以确定该语音信号对应的声源定位方向。由此可见,当c*t=a(即θ等于0)时,声源定位方向即为两颗麦克风所在直线的方向。

步骤s206,获取针对所述工作麦克风集合对应的传递函数向量与滤波器矩阵;

具体的,在确定了工作麦克风集合后,在工作麦克风集合仅为一个第一麦克风集合,即第一触发操作只关联一个第一麦克风集合时,可以获取上述工作麦克风集合对应的传递函数向量与滤波器矩阵。由于每个第一麦克风集合均为一个线形麦克风阵列,因此工作麦克风集合同样为一个线形麦克风集合。在声学环境中,当声源与麦克风阵列之间的距离远大于麦克风之间的间距时,可以将该麦克风阵列对应的模型看作远场模型。在远场模型中,麦克风接收到的声波可以看作平面波,则上述工作麦克风集合对应的传递函数可以由一个声源方位函数确定,对于均匀的线形麦克风阵列,传递函数向量可以定义为:

其中,上述公式(1)中的θd表示上述工作麦克风集合对应的方向与期望声源方向之间的角度,m可以表示为工作麦克风集合中的麦克风颗数,τ0表示工作麦克风集合中相邻两颗麦克风接收到相同语音信号的时间差,计算方式可以参见上述公式(2),其中,公式(2)中的δ表示工作麦克风集合中相邻两颗麦克风之间的距离,c表示声音在空气中的传播速度。

上述工作麦克风集合对应的滤波器矩阵可以为多麦克滤波器矩阵,可以表示为:

h(ω)=[h1(ω)h2(ω)...hm(ω)]t(3)

步骤s207,确定所述工作麦克风集合所指向的方向与所述语音信号对应的声源定位方向之间的第二角度信息;

具体的,根据上述确定的上述语音信号对应的声源定位方向与上述目标方向之间的第二角度信息,即上述声源定位方向与工作麦克风集合对应方向之间的夹角信息,相当于公式(1)中的θd。

步骤s208,根据所述传递函数向量、所述滤波器矩阵以及所述第二角度信息,确定所述第一语音拾取模式下所述工作麦克风集合对应的增益向量;

具体的,可以根据上述获取的传递函数向量、多麦克滤波器矩阵以及第二角度信息,可以计算出在第一语音拾取模式下上述工作麦克风集合对应的增益向量,即根据实际确定的第二角度信息,将传递函数向量乘以滤波器矩阵,可以得到上述工作麦克风集合对应的增益向量,该增益向量可以表示为:

其中,公式(4)中的θ可以表示为上述第二角度信息,m的取值范围为1,2,…,m。由此可见,θ越大,即语音信号对应的声源定位方向与工作麦克风集合对应的方向之间的夹角越大,cosθ越小,通过公式(4)计算出来的增益向量越小,对语音信号的语音拾取效果越差,θ越小,cosθ越大,计算出来的增益向量越大,对语音信号的语音拾取效果越好,当θ=0时,对语音信号的语音拾取效果最好。

步骤s209,基于所述增益向量对所述语音信号进行卷积,生成第一目标语音信号;若所述第二角度信息属于增益角度范围,则所述第一目标语音信号为语音增强后的语音信号;若所述第二角度信息不属于增益角度范围,则所述第一目标语音信号为语音抑制后的语音信号。

具体的,可以将上述计算得到的增益向量与获取到的上述语音信号进行卷积,可以将进行卷积后的语音信号确定为第一目标语音信号。上述麦克风阵列获取到的语音信号为数字信号,在语音拾取过程中,工作麦克风集合中的麦克风可以将接收到的语音信号从时域转换到频域,在时域中增益向量与语音信号的卷积可以转换成在频域中的乘积。需要说明的是,上述工作麦克风集合对应一个增益角度范围,当上述第二角度信息属于上述增益角度范围,即所述语音信号对应的声源定位方向与工作麦克风集合对应的方向之间的夹角属于增益角度范围,则增益向量起到语音增益效果,即可以通过增益向量对该声源定位方向上的所有语音信号进行语音增强;当上述第二角度信息不属于上述增益角度范围,即所述语音信号对应的声源定位方向与工作麦克风集合对应的方向之间的夹角不属于增益角度范围,则增益向量起到语音抑制效果,即可以通过增益向量对该声源定位方向上的所有语音信号进行语音抑制。例如,第一麦克风集合指向360度的8个均匀方向,假设目标方向为0度方向,则0度方向上的第一麦克风集合(可以确定为工作麦克风集合)的增益角度范围为正负22.5度,在正负22.5度范围内的语音信号都可以进行语音增强,其余角度范围内的语音信号都会被抑制。

请一并参见图4a、图4b,是本发明实施例提供的一种语音拾取方法的原理示意图。如图4a所示,以一个第一麦克风集合为例,假设工作麦克风集合包括m颗麦克风,且m颗麦克风在一条直线上均匀排列,从右往左分别为麦克风1,麦克风2,……,麦克风m,每相邻两颗麦克风之间的距离可以用δ表示。当声源100b与上述工作麦克风集合的距离远远大于相邻两颗麦克风之间的距离时,可以采用远场算法对语音信号进行语音拾取。在远场模型中,可以通过麦克风阵列中的波束形成对声源定位方向上的语音信号进行语音增强,其具体过程可以表示为:声源100b产生的声波为平面波,即声源对应的声源定位方向与工作麦克风集合中的每颗麦克风之间的角度信息是相同的,可以用θ表示;可以确定麦克风1与麦克风2之间的距离为(m-1)δ,进而可以计算出声源100b产生的声波到达麦克风1与麦克风m之间的距离差为(m-1)δcosθ,根据上述距离差与声音的传播速度可以确定麦克风1与麦克风m接收到同一语音信号的时间差,即麦克风m接收到语音信号时,相比较于麦克风1接收到语音信号的时间存在时延,通过对接收到的语音信号进行时延补偿,并对进行时延补偿后的语音号进行相加,可以得到工作麦克风集合对应的第一目标语音信号。其中,麦克风1输出的语音信号可以表示为y1(ω)(对应于公式(1)中的传递函数向量与声源产生的语音信号之间的乘积,即对接收到的语音信号进行时延补偿后的语音信号),麦克风1对应的滤波器可以表示为h1(ω),该麦克风1对应的语音增强信号为其中,是h1(ω)通过共轭变换得到的,以此类推,麦克风m对应的语音增强信号为将上述工作麦克风集合中每个麦克风对应的语音增强信号进行求和,可以得到该工作麦克风集合对上述语音信号进行增强后的最终语音信号(即第一目标语音信号),可以表示为滤波器hh(ω)与进行时延补偿后的语音信号y(ω)的乘积,h(ω)即为公式(3)中的数学表达公式,即hh(ω)可以表示为因此,这里对语音信号的增强效果(即第一目标语音信号)与上述步骤s207中通过语音信号与增益向量进行卷积得到的语音增强效果是相同的,只是在数学表达形式上有所差异。需要说明的是,上述麦克风1至麦克风m接收到的语音信号均为数字信号,为方便计算,可以将接收到的语音信号从时域转换成频域。如图4b所示,是语音信号在0度方向上的定向增益图,当上述工作麦克风集合为0度方向对应的第一麦克风集合时,该工作麦克风集合对应的增益向量如图4b所示,该第一麦克风集合可以对0度方向上的语音信号进行语音增强,因此在0度方向上的增益远大于180度方向上的增益,增益向量的具体计算方式可以参见上述图3所对应实施例中的步骤s208,这里不再进行赘述。麦克风阵列中的所有第一麦克风集合刚好可以覆盖圆形360度方向各个角度的语音信号。

可选的,当所述第一触发操作关联至少两个第一麦克风集合时,第一目标语音信号的生成过程可以包括以下两个步骤:

通过所述第一语音拾取模式和所述至少两个第一麦克风集合,生成每个第一麦克风集合分别对应的语音增益信号;所述语音增益信号为所述每个第一麦克风集合基于所述目标方向范围内的语音信号生成的;

根据所述每个第一麦克风集合分别对应的加权系数、所述每个第一麦克风集合分别对应的语音增益信号,生成所述第一目标语音信号。

具体的,当工作麦克风集合为多个第一麦克风集合,即第一触发操作关联多个第一麦克风集合时,对采集到的相邻两个第一麦克风集合所指向方向之间的语音信号,可以利用该相邻两个第一麦克风集合对采集到的语音信号进行同步语音数据处理,即同步进行语音增强处理,并对语音增强处理过后语音信号进行加权求和,以达到上述语音信号的最终增强结果。例如,工作麦克风集合为0度方向对应的第一麦克风集合与45度方向对应的第一麦克风集合,对于声源定位方向为30度方向的声源产生的语音信号,可以通过0度方向对应的第一麦克风集合得到0度方向上的响应y1(即通过0度方向对应的第一麦克风集合进行语音增强后的结果),可以通过45度方向对应的第一麦克风集合得到45度方向上的响应y2(即通过45度方向对应的第一麦克风集合进行语音增强后的结果),上述语音信号最终的语音增强结果(即第一目标语音信号)可以表示为y=w1y1+w2y2,其中,w1、w2表示不同方向上的权重系数,可以通过实际测量或仿真实验得到,y1、y2的计算方式可以参见上述步骤s206-步骤s209,这里不再进行赘述。

在本发明实施例中,麦克风阵列可以包括多个分别指向对应方向的第一麦克风集合,可以通过响应针对上述麦克风阵列中的第一触发操作,进而可以激活与上述第一触发操作相关联的至少一个第一麦克风集合,并根据第一麦克风集合所指向的方向确定目标方向范围,在第一语音拾取模式下通过第一麦克风集合可以对目标方向范围内的语音信号进行语音拾取。换言之,可以根据触发操作激活相对应的麦克风,并可以通过激活后的麦克风对该麦克风所指向的方向上的语音信号进行语音拾取,可以避免其余方向上语音信号的干扰,进而可以提高语音识别的准确率。

请参见图5,图5是本发明实施例提供的另一种语音数据处理方法的流程示意图。如图5所示,该方法可以包括:

步骤s301,响应针对麦克风阵列的第一触发操作;所述麦克风阵列包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均与第一语音拾取模式相关联;

步骤s302,激活与所述第一触发操作相关联的至少一个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合,根据所述工作麦克风集合所指向的方向确定目标方向范围;

步骤s303,通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号;

其中,上述步骤s301-步骤s303的具体实现方式可以参见上述图2所对应实施例中对步骤s101-步骤s103的描述,这里不再进行赘述。

步骤s304,获取所述语音信号对应的第一音量参数;

具体的,在对上述目标方向范围内的语音信号进行语音拾取的过程中,可以根据特定时间频率(如每2分钟)获取上述语音信号对应的第一音量参数,或者可以根据接收到的语音信号的质量信息(如声音太小、语音模糊等),获取目标方向范围内的语音信号对应的第一音量参数。其中,第一音量参数可以表示为接收到的语音信号对应的分贝信息。

步骤s305,若所述第一音量参小于音量阈值,则激活第二麦克风集合;

具体的,上述麦克风阵列还可以包括第二麦克风集合,第二麦克风集合可以与第二语音拾取模式相关联,上述第二语音拾取模式可以用于对语音信号进行超指向增强,上述第二语音拾取模式的声音采集距离大于所述第一语音拾取模式的声音采集距离。当从工作麦克风集合切换至第二麦克风集合时,上述第二麦克风集合可以用于基于第二语音拾取模式对所述目标方向范围内的语音信号进行语音拾取。若上述获取到的第一音量参数小于音量阈值,则可以激活上述第二麦克风集合,即使得上述第二麦克风集合从非工作状态转换成工作状态,第二麦克风集合中麦克风的颗数大于第一麦克风集合中麦克风的颗数。其中,音量阈值是指拾音设备中为语音信号拾音过程预先设定好的音量阈值,当语音信号的音量参数大于上述音量阈值时,获取到的语音信号可以清晰地被输出;当语音信号对应的音量参数小于上述音量阈值时,获取到的语音信号无法清晰地被输出。

步骤s306,将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

具体的,由于上述目标方向范围内的工作麦克风集合获取到的语音数据对应的音量参数小于音量阈值,因此可以将激活的第二麦克风集合旋转至该目标方向范围内,并将上述麦克风阵列中的第一语音拾取模式转换成第二语音拾取模式,可以采集更远距离的语音信号。换言之,对于同样距离的语音信号,采用第二语音拾取模式获取到的语音信号比第一语音拾取模式获取到的语音信号更清晰,音量信息更大。

步骤s307,通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号;

具体的,在开启麦克风阵列中的第二语音拾取模式,采用上述第二麦克风集合,采集上述目标方向范围内的语音信号,并在第二语音拾取模式下对采集到的语音信号进行语音增强,生成第二目标语音信号。具体的语音拾取方式可以参见上述图3所对应实施例中对步骤s206-步骤s209的描述,这里不再进行赘述。需要说明的是,上述图3所对应实施例中的语音拾取方式是基于第一语音拾取模式(即第一麦克风集合)来执行的,而本发明实施例中的语音拾取方式是基于第二语音拾取模式(即第二麦克风集合)来执行的,所采用的算法是相同的,但由于第二麦克风集合中包含的麦克风颗数更多,计算得出的结果是明显更好的。换言之,在上述第二麦克风集合旋转至所述目标方向范围内后,对目标方向范围内的语音信号的增强效果会比之前采用第一麦克风集合的增强效果更好,当该第二麦克风集合旋转至语音信号对应的方向时,对语音信号的增强效果最好。例如,在一个会议场景下,发言人处于麦克风阵列90度对应的方向上,即90度方向可以确定为目标方向,90度方向上的第一麦克分集合被确定为工作麦克风集合,第一麦克风集合包括5颗麦克风,第二麦克风集合包括8颗麦克风,位于0度方向上,若工作麦克风集合获取到的90度方向上该发言人的语音信号对应的音量信息小于音量阈值,可以激活第二麦克风集合,并将第二麦克风集合旋转至90度方向上,后续都可以采用第二麦克风集合对90度方向上该发言人的语音信号进行语音拾取,生成第二目标语音信号。可选的,当麦克风阵列正处于第二语音拾取模式时,获取到90度方向上的语音信号对应的音量阈值大于上述音量阈值(可以是90度方向上的发言人提高了说话的声音,或者是90度方向上的发言人挪动了位置,与麦克风阵列的距离变短了,或者是在90度方向上的发言人换成了另一个距离麦克风阵列更短的人等),上述第二麦克风集合可以自动旋转至初始的0度方向上,并将麦克风阵列中的第二语音拾取模式转换成第一语音拾取模式,重新采用90度方向上的第一麦克风集合对90度方向上的语音信号进行语音拾取,生成第一目标语音信号。

步骤s308,响应针对所述麦克风阵列的第二触发操作;

具体的,在基于麦克风阵列中的第一语音拾取模式对语音信号进行语音拾取的过程中,可以响应针对上述麦克风阵列的第二触发操作,该第二触发操作可以是指人为按键、指纹识别,人为触控等接触式触发操作,也可以是指语音、远距离遥控等非接触式触发操作。例如,在一个会议场景中,第二触发操作为人为按键触发操作,第二麦克风集合可以与超远距离按键相关联,当参与会议的人员察觉目标方向上的语音信号声音太小,不能清晰地被记录下来时,可以开启超远距离按键,在人为执行“按下超远距离按键”这一操作后,拾音设备可以响应上述“按下超远距离按键”操作(即第二触发操作)。换言之,获取针对上述“按下超远距离按键”操作的指令信息。

步骤s309,激活与所述第二触发操作相关联的第二麦克风集合;

具体的,在拾音设备响应了针对麦克风阵列的第二触发操作后,可以激活上述第二触发操作所对应的第二麦克风集合,即使得上述第二麦克风集合从非工作状态转换成工作状态。

步骤s310,将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

具体的,在响应了针对麦克风阵列的第二触发操作后,可以根据上述目标方向范围内的方向按键与第二触发操作,将激活的第二麦克风集合旋转至该目标方向范围内,并将上述麦克风阵列中的第一语音拾取模式转换成第二语音拾取模式,可以用于采集更远距离的语音信号。换言之,对于同样距离的语音信号,采用第二语音拾取模式获取到的语音信号比第一语音拾取模式获取到的语音信号更清晰,音量信息更大。例如,麦克风阵列中90度对应的方向为目标方向,第二麦克风集合位于麦克风阵列中的0度方向上,当人为按下超远距离按键时,可以响应针对第二麦克风集合的第二触发操作时,可以激活第二麦克风集合,并将根据之前的方向按键将第二麦克风集合旋转至90度方向上。

步骤s311,通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号;

其中,通过上述第二语音拾取模式和上述第二麦克风集合,生成第二目标语音信号的具体实现方式可以参见上述步骤s307,这里不再进行赘述。

需要说明的是,上述步骤s304-步骤s307描述的将麦克风阵列中的第一语音拾取模式转换成第二语音拾取模式的方式,与步骤s308-步骤s311描述的将麦克风阵列中的第一语音拾取模式转换成第二语音拾取模式的方式是并列的,前者是根据获取到的语音信号对应的音量信息进行自动转换,后者是基于人为触发操作进行转换。

步骤s312,获取所述第一目标语音信号、所述第二目标语音信号分别对应的目标语音特征;

具体的,拾音设备可以通过麦克风阵列对采集到的语音信号进行语音增强,通过第一语音拾取模式进行语音增强后的语音信号确定为第一目标语音信号,通过第二语音拾取模式进行语音增强后的语音信号确定为第二目标语音信号,将第一目标语音信号和第二目标语音信号输入到语音识别模型中,可以获取上述第一目标语音信号、上述第二目标语音信号分别对应的目标语音特征。其中,目标语音特征可以包括语音信号中的语音频谱特征、语义特征等。

步骤s313,根据所述目标语音特征,将所述第一目标语音信号、所述第二目标语音信号分别转换成文本信息,并输出所述文本信息。

具体的,根据上述目标语音特征,利用语音识别模型可以将上述第一目标语音信号和上述第二目标语音信号均转换成文本信息,并输出转换后的文本信息。由于该语音识别模型已经过通过语料数据库中的样本语音数据与该样本语音数据对应的文本信息训练完成,即已具备文本转换功能。可选的,语音识别模型中可以提前录入发言人的声纹特征,可以识别出语音信号所对应的人。例如,在审讯场景中,可以提前录入嫌疑人的声纹信息,在采集语音信号时,可以根据提前记录的声纹特征识别出采集到的该语音信号是否属于上述嫌疑人。

在本发明实施例中,麦克风阵列可以通过第一麦克风集合(即工作麦克风集合)获取目标方向范围内的语音信号,并可以对目标方向范围内的语音信号进行语音拾取,当麦克风阵列处于第一语音拾取模式时,可以根据获取到的语音信号对应的音量参数,确定是否需要激活第二麦克风集合,当获取到的音量参数小于音量阈值时,可以自动将第二麦克风集合旋转至目标方向范围内,将麦克风阵列中的第一语音拾取模式转换成第二语音拾取模式;也可以通过响应针对第二麦克风集合的第二触发操作,激活第二麦克风集合,将第二麦克风集合旋转至目标方向范围内,将麦克风阵列中的第一语音拾取模式转换成第二语音拾取模式。由此可见,采用第二麦克风集合可以实现远距离方向的超指向增强,即在全向拾音的基础上增加了单方向超远距离拾音的特性,可以减少麦克风的使用数量,节约了成本;对特定方向上的语音信号进行语音拾取,抑制其余方向上的语音信号,可以达到去噪的目的,进而提高语音识别的准确率。

请参见图6,图6是本发明实施例提供的另一种语音数据处理方法的流程示意图。如图6所示,该方法可以包括:

步骤s401,响应针对麦克风阵列的第一触发操作;所述麦克风阵列包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均与第一语音拾取模式相关联;

步骤s402,激活与所述第一触发操作相关联的第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合,根据所述工作麦克风集合所指向的方向确定目标方向范围;

步骤s403,通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号;

其中,上述步骤s401-步骤s403的具体实现方式可以参见上述图2所对应实施例中对步骤s101-步骤s103的描述,这里不再进行赘述。

步骤s404,所述目标方向包括第一目标方向范围和第二目标方向范围,获取所述第一目标方向范围内的语音信号对应的第二音量参数,获取所述第二目标方向范围内的语音信号对应的第三音量参数;

具体的,当上述目标方向包括第一目标方向范围和第二目标方向范围时,在对上述目标方向范围内的语音信号进行语音拾取的过程中,可以根据特定时间频率(如每2分钟)获取第一目标方向范围内的语音信号对应的第二音量参数和第二目标方向范围内的语音信号对应的第三音量参数,或者可以根据接收到的语音信号的质量信息(如声音太小、语音模糊等),获取第一目标方向范围内的语音信号对应的第二音量参数和第二目标方向范围内的语音信号对应的第三音量参数。其中,第二音量参数、第三音量参数均可以表示为接收到的语音信号对应的分贝信息。

步骤s405,若所述第二音量参数小于所述音量阈值,且所述第三音量参数大于或等于所述音量阈值,则激活第二麦克风集合;

具体的,若上述获取到的第二音量参数小于上述音量阈值,且上述第三音量参数大于或等于上述音量阈值,则可以激活第二麦克风集合,即使得第二麦克风集合从关闭状态转换成工作状态。其中,关于第二麦克风集合的具体信息可以参见上述图5所对应实施例中的步骤s305,这里不再进行赘述。

可选的,当上述获取到的第三音量参数小于上述音量阈值,且上述第二音量参数大于或等于上述音量阈值时,也可以激活第二麦克风集合。上述第二音量参数与第三音量参数可以表示不同方向上的语音信号对应的音量参数,只要其中一个方向上的语音信号对应的音量参数小于音量阈值,就可以激活第二麦克风集合,下面不再进行赘述。

步骤s406,暂停所述第一目标方向范围和所述第二目标方向范围分别对应的第一麦克风集合,将所述第二麦克风集合旋转至所述第一目标方向范围内,在旋转后的麦克风阵列中重新激活所述第二目标方向范围内的第一麦克风集合,作为更新麦克风集合;

具体的,可以暂停上述第一目标方向范围对应的第一麦克风集合,第二目标方向范围对应的第一麦克风集合,由于第一目标方向范围内的第一麦克风集合获取到的语音数据对应的音量参数小于音量阈值,因此可以将激活的第二麦克风集合旋转至该第一目标方向范围内,在旋转后的麦克风阵列中重新激活第二目标方向范围内的第一麦克风集合。请一并参见图7a、图7b,是本发明实施例提供的一种麦克风阵列语音拾取模式的结构示意图。如图7a所示,用户100c与用户100d分别位于麦克风阵列200的45度方向、315度方向,则可以将45度方向确定为第一目标方向,将315度方向确定为第二目标方向。若获取到45度方向上用户100c的语音信号对应的音量参数小于音量阈值,获取到315度方向上用户100d的语音信号对应的音量参数大于或等于音量阈值,则可以激活第二麦克风集合,第二麦克风集合可以表示为{m1,m2,m6,m10,m14,m18,m19,m20},即开启超远距离按键400,可以暂停45度方向上的第一麦克风集合{m1,m3,m7,m11,m15},以及315度方向上的第一麦克风集合{m1,m5,m9,m13,m17},即关闭上述两个第一麦克风集合,关闭45度方向以及315度方向上的方向按键300,将上述第二麦克风集合旋转至45度方向,旋转后的麦克风阵列200如图7b所示,可以在旋转后的麦克风阵列200中重新激活315度方向上的第一麦克风集合{m1,m4,m8,m12,m16},并将第一麦克风集合{m1,m4,m8,m12,m16}作为更新麦克风集合。

步骤s407,通过所述第一语音拾取模式和所述更新麦克风集合,对所述第二目标方向范围内的语音信号进行语音拾取,生成第三目标语音信号;

步骤s408,通过所述第二语音拾取模式和所述第二麦克风集合,对所述第一目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号;

其中,步骤s407与步骤s408中具体的语音拾取方式可以参见上述图3所对应实施例中对步骤s206-步骤s209的描述,这里不再进行赘述。需要说明的是,步骤s407是基于第一语音拾取模式(即第一麦克风集合)来执行的,步骤s408是基于第二语音拾取模式(即第二麦克风集合)来执行的,所采用的算法是相同的,但由于第二麦克风集合中包含的麦克风颗数更多,计算得出的结果是明显更好的。

步骤s409,获取所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别对应的目标语音特征;

步骤s410,根据所述目标语音特征,将所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别转换成文本信息,并输出所述文本信息。

其中,上述步骤s409、步骤s410的具体实现方式可以参见上述图5所对应实施例中对步骤s313-步骤s313的描述,这里不再进行赘述。

可选的,上述目标方向范围可以包括三个及三个以上的方向,请一并参见图7c,在法庭审理案件的场景中,法庭中有原告、被告、审判长和辩护律师,由于该4个人位于不同的方向,且具有固定的位置,在使用麦克风阵列进行记录时,可以根据4个人的位置选取第一麦克风集合或第二麦克风集合,若审判长距离麦克风阵列的距离最远,则将第二麦克风集合指向审判长所在方向,可将该方向作为0度方向,辩护律师位于315度方向上,原告位于135度方向上,被告位于225度方向上,则第二麦克风集合对应的距离按钮,135度方向、225度方向、315度方向上的方向按键均被开启,可以对上述4个方向的人进行定向拾音,并可以同时对4个方向的声音做语音识别,可以过滤掉其他方向上的声音(即其他方向的声音均会被抑制),可以将上述4个方向的声音分离出来,分别作语音识别,可以提高语音识别的准确率。

在本发明实施例中,麦克风阵列可以通过多个第一麦克风集合(即工作麦克风集合)获取多个目标方向范围内的语音信号,并可以对多个目标方向范围内的语音信号进行语音拾取,当麦克风阵列处于第一语音拾取模式时,可以根据获取到的语音信号对应的音量参数,确定是否需要激活第二麦克风集合,当获取到多个目标方向范围中存在一个目标方向范围(即上述第一目标方向范围)内的语音信号对应的音量参数小于音量阈值时,可以自动将第二麦克风集合旋转至上述第一目标方向范围内,并对第一目标方向范围内的语音信号进行超指向增强,对多个目标方向范围中的剩余目标方向范围内的语音信号进行第一语音拾取模式下的语音拾取。由此可见,可以对不同方向的发言人进行语音数据采集,避免其余方向上语音信号的干扰,即可以有效降低噪声,进而可以提高语音识别的准确率;采用第二麦克风集合可以实现远距离方向的超指向增强,即在全向拾音的基础上增加了单方向超远距离拾音的特性,可以减少麦克风的使用数量,节约了成本。

请参见图8,图8是本发明实施例提供的一种语音数据处理装置的结构示意图。如图8所示,该语音数据处理装置1可以包括响应模块10,激活模块20,生成模块30;

响应模块10,用于响应针对麦克风阵列的第一触发操作;所述麦克风阵列包括多个分别指向对应方向的第一麦克风集合,每个第一麦克风集合均与第一语音拾取模式相关联;

激活模块20,用于激活与所述第一触发操作相关联的至少一个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合,根据所述工作麦克风集合所指向的方向确定目标方向范围;

生成模块30,用于通过所述第一语音拾取模式和所述工作麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第一目标语音信号。

其中,响应模块10,激活模块20,生成模块30的具体功能实现方式可以参见上述图2所对应实施例中的步骤s101-步骤s103,这里不再进行赘述。

请一并参见图8,该语音数据处理模块还可以包括:定位模块40,第一转换模块50,第二转换模块60,第三转换模块70,语音识别模块80;

定位模块40,用于获取语音信号,根据所述麦克风阵列中至少两个麦克风获取到所述语音信号的时间差,确定所述语音信号对应的声源定位方向;

第一转换模块50,用于根据所述语音信号的第一音量参数,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式,并生成所述目标方向范围内的语音信号对应的第二目标语音信号;

第二转换模块60,用于响应针对所述麦克风阵列的第二触发操作,并基于所述第二触发操作,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式,并生成所述目标方向范围内的语音信号对应的第二目标语音信号;

第三转换模块70,用于当所述目标方向范围包括第一目标方向范围和第二目标方向范围时,根据第一目标方向范围内的语音信号对应的第二音量参数、第二目标方向范围内的语音信号对应的第三音量参数,若所述第二音量参数小于所述音量阈值,且所述第三音量参数大于或等于所述音量阈值,则将所述第二麦克风集合旋转至所述第一目标方向范围内,在旋转后的麦克风阵列中重新激活所述第二目标方向范围内的第一麦克风集合,作为更新麦克风,并生成所述第一目标方向范围内的语音信号对应的第二目标语音信号和所述第二目标方向范围内的语音信号对应的第三目标语音信号;

语音识别模块80,用于将生成的所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号转换成文本数据,并输出所述文本数据。

其中,定位模块40的具体功能实现方式可以参见上述图3所对应实施例中的步骤s205,第一转换模块50,第二转换模块60的具体功能实现方式可以参见上述图5所对应实施例中的步骤s304-步骤s311,第三转换模块70,语音识别模块80的具体功能实现方式可以参见上述图6所对应实施例中的步骤s404-步骤s410,这里不再进行赘述。其中,第一转换模块50,第二转换模块60,第三转换模块70是三个并列的模块,当第一转换模块50在执行相应操作时,第二转换模块60,第三转换模块70均暂停执行操作;当第二转换模块60在执行相应操作时,第一转换模块50,第三转换模块70均暂停执行操作;当第三转换模块70在执行相应操作时,第一转换模块50,第二转换模块60均暂停执行操作。

请一并参见图8,激活模块20可以包括:确定单元201,角度获取单元202,方向范围确定单元203;

确定单元201,用于当所述第一触发操作关联至少两个第一麦克风集合时,激活所述至少两个第一麦克风集合,将激活的第一麦克风集合确定为工作麦克风集合;

角度获取单元202,用于获取每个工作麦克风集合分别指向的方向的第一角度信息;

方向范围确定单元203,用于若每相邻两个工作麦克风集合之间的夹角均小于或等于角度阈值,则将所述第一角度信息中最小的角度信息与最大的角度信息之间的角度范围确定为目标方向范围。

其中,确定单元201,角度获取单元202,方向范围确定单元203的具体功能实现方式可以参见上述图3所对应实施例中的步骤s202-步骤s204,这里不再进行赘述。

请一并参见图8,生成模块30可以包括:第一获取单元301,角度信息确定单元302,增益向量确定单元303,卷积单元304,增益信号生成单元305,加权求和单元306;

第一获取单元301,用于获取针对所述工作麦克风集合对应的传递函数向量与滤波器矩阵;

角度信息确定单元302,用于获取语音信号,并确定所述工作麦克风集合所指向的方向与所述语音信号对应的声源定位方向之间的第二角度信息;

增益向量确定单元303,用于根据所述传递函数向量、所述滤波器矩阵以及所述第二角度信息,确定所述第一语音拾取模式下所述工作麦克风集合对应的增益向量;

卷积单元304,用于基于所述增益向量对所述语音信号进行卷积,生成第一目标语音信号;若所述第二角度信息属于增益角度范围,则所述第一目标语音信号为语音增强后的语音信号;若所述第二角度信息不属于增益角度范围,则所述第一目标语音信号为语音抑制后的语音信号;

增益信号生成单元305,用于通过所述第一语音拾取模式和所述至少两个第一麦克风集合,生成每个第一麦克风集合分别对应的语音增益信号;所述语音增益信号为所述每个第一麦克风集合基于所述目标方向范围内的语音信号生成的;

加权求和单元306,用于根据所述每个第一麦克风集合分别对应的加权系数、所述每个第一麦克风集合分别对应的语音增益信号,生成所述第一目标语音信号。

其中,第一获取单元301,角度信息确定单元302,增益向量确定单元303,卷积单元304的具体功能实现方式可以参见上述图3所对应实施例中的步骤s206-步骤s209,增益信号生成单元305,加权求和单元306的具体功能实现方式可以参见上述图3所对应实施例中当所述第一触发操作关联至少两个第一麦克风集合时,第一目标语音信号的生成过程,这里不再进行赘述。

请一并参见图8,第一转换模块50可以包括:第二获取单元501,第一条件判断单元502,第一模式转换单元503,第一语音拾取单元504;

第二获取单元501,用于获取所述语音信号对应的第一音量参数;

第一条件判断单元502,用于若所述第一音量参数小于音量阈值,则激活第二麦克风集合;

第一模式转换单元503,用于将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

第一语音拾取单元504,用于通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

其中,第二获取单元501,第一条件判断单元502,第一模式转换单元503,第一语音拾取单元504的具体功能实现方式可以参见上述图5所对应实施例中的步骤s304-步骤s307,这里不再进行赘述。

请一并参见图8,第二转换模块60可以包括:响应操作单元601,麦克风激活单元602,第二模式转换单元603,第二语音拾取单元604;

响应操作单元601,用于响应针对所述麦克风阵列的第二触发操作;

麦克风激活单元602,用于激活与所述第二触发操作相关联的第二麦克风集合;

第二模式转换单元603,用于将所述第二麦克风集合旋转至所述目标方向范围内,将所述麦克风阵列中的第一语音拾取模式转换为所述第二语音拾取模式;

第二语音拾取单元604,用于通过所述第二语音拾取模式和所述第二麦克风集合,对所述目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

其中,响应操作单元601,麦克风激活单元602,第二模式转换单元603,第二语音拾取单元604的具体功能实现方式可以参见上述图5所对应实施例中的步骤s308-步骤s311,这里不再进行赘述。

请一并参见图8,第三转换模块70可以包括:第三获取单元701,第二条件判断单元702,旋转单元703,第三语音拾取单元704,第四语音拾取单元705;

第三获取单元701,用于获取所述第一目标方向范围内的语音信号对应的第二音量参数,获取所述第二目标方向范围内的语音信号对应的第三音量参数;

第二条件判断单元702,用于若所述第二音量参数小于所述音量阈值,且所述第三音量参数大于或等于所述音量阈值,则激活第二麦克风集合;

旋转单元703,用于暂停所述第一目标方向范围和所述第二目标方向范围分别对应的第一麦克风集合,将所述第二麦克风集合旋转至所述第一目标方向范围内,在旋转后的麦克风阵列中重新激活所述第二目标方向范围内的第一麦克风集合,作为更新麦克风集合;

第三语音拾取单元704,用于通过所述第一语音拾取模式和所述更新麦克风集合,对所述第二目标方向范围内的语音信号进行语音拾取,生成第三目标语音信号;

第四语音拾取单元705,用于通过所述第二语音拾取模式和所述第二麦克风集合,对所述第一目标方向范围内的语音信号进行语音拾取,生成第二目标语音信号。

其中,第三获取单元701,第二条件判断单元702,旋转单元703,第三语音拾取单元704,第四语音拾取单元705的具体功能实现方式可以参见上述图6所对应实施例中的步骤s404-步骤s408,这里不再进行赘述。

请一并参见图8,语音识别模块80可以包括:语音特征获取单元801,文本转换单元802;

语音特征获取单元801,用于获取所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别对应的目标语音特征;

文本转换单元802,用于根据所述目标语音特征,将所述第一目标语音信号、所述第二目标语音信号、所述第三目标语音信号分别转换成文本信息,并输出所述文本信息。

其中,语音特征获取单元801,文本转换单元802的具体功能实现方式可以参见上述图6所对应实施例中的步骤s409步骤s410,或者图5所对应实施例中的步骤s312-步骤s313,这里不再进行赘述。

在本发明实施例中,麦克风阵列可以通过多个第一麦克风集合(即工作麦克风集合)获取多个目标方向范围内的语音信号,并可以对多个目标方向范围内的语音信号进行语音拾取,当麦克风阵列处于第一语音拾取模式时,可以根据获取到的语音信号对应的音量参数,确定是否需要激活第二麦克风集合,当获取到多个目标方向范围中存在一个目标方向范围(即上述第一目标方向范围)内的语音信号对应的音量参数小于音量阈值时,可以自动将第二麦克风集合旋转至上述第一目标方向范围内,并对第一目标方向范围内的语音信号进行超指向增强,对多个目标方向范围中的剩余目标方向范围内的语音信号进行第一语音拾取模式下的语音拾取。由此可见,可以对不同特定方向的发言人进行语音数据采集,避免其余方向上语音信号的干扰,即可以有效降低噪声,进而可以提高语音识别的准确率;采用第二麦克风集合可以实现远距离方向的超指向增强,即在全向拾音的基础上增加了单方向超远距离拾音的特性,可以减少麦克风的使用数量,节约了成本。

请参见图9,图9是本发明实施例提供的另一种语音数据处理装置的结构示意图。如图9所示,该语音数据处理装置1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述语音数据处理装置1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display)、键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1004可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图9所示的语音数据处理装置1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现上述图2-图3、图5-图6任一个所对应实施例中对所述语音数据处理方法的描述,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

应当理解,本发明实施例中所描述的语音数据处理装置1000可执行前文图2-图3、图5-图6任一个所对应实施例中对所述语音数据处理方法的描述,也可执行前文图8所对应实施例中对所述语音数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的语音数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2-图3、图5-图6任一个所对应实施例中对所述语音数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1