多路语音识别方法、装置、设备及可读存储介质与流程

文档序号:17972822发布日期:2019-06-21 23:36阅读:270来源:国知局
多路语音识别方法、装置、设备及可读存储介质与流程

本发明实施例涉及语音识别技术领域,尤其涉及一种多路语音识别方法、装置、设备及可读存储介质。



背景技术:

目前,车辆上的车机都是只在前排设置一路双声道麦克风,包括左、右声道两个麦克风,主要用于采集正驾驶位附近的音频数据,通过对采集的音频数据进行语音识别,来识别司机向车机发出的指令等识别语。

但是,如果车辆上坐在副驾驶位或者后排座位的乘客向车机发出识别语时,由于声源距离麦克风较远,麦克风采集的音频数据质量较差,导致语音识别率很低,尤其在多人同时讲识别语时,会造成混响,更加难以正确识别出识别语。



技术实现要素:

本发明实施例提供一种多路语音识别方法、装置、设备及可读存储介质,用以解决现有技术中车辆上的语音识别方法的语音识别率很低的问题。

本发明实施例的一个方面是提供一种多路语音识别方法,包括:

接收多路麦克风阵列采集的音频数据,每路所述麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据;

根据每路麦克风阵列相对于对应音频采集区域的位置,对每路所述音频数据进行波束成形处理,得到每路所述音频数据中与对应音频采集区域对应的音频信号;

对多路所述音频信号进行干扰抑制处理,得到每个所述音频采集区域对应语音信号;

对各所述音频采集区域对应的语音信号进行语音识别,得到每个所述音频采集区域对应的语音识别结果。

本发明实施例的另一个方面是提供一种多路语音识别装置,包括:

数据获取模块,用于接收多路麦克风阵列采集的音频数据,每路所述麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据;

波束成形模块,用于根据每路麦克风阵列相对于对应音频采集区域的位置,对每路所述音频数据进行波束成形处理,得到每路所述音频数据中与对应音频采集区域对应的音频信号;

干扰抑制处理模块,用于对多路所述音频信号进行干扰抑制处理,得到每个所述音频采集区域对应语音信号;

语音识别模块,用于对各所述音频采集区域对应的语音信号进行语音识别,得到每个所述音频采集区域对应的语音识别结果。

本发明实施例的另一个方面是提供一种多路语音识别设备,包括:

存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,

所述处理器运行所述计算机程序时实现上述所述的多路语音识别方法。

本发明实施例的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,

所述计算机程序被处理器执行时实现上述所述的多路语音识别方法。

本发明实施例提供的多路语音识别方法、装置、设备及可读存储介质,通过接收多路麦克风阵列采集的音频数据,每路所述麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据;根据每路麦克风阵列相对于对应音频采集区域的位置,对每路所述音频数据进行波束成形处理,得到每路所述音频数据中与对应音频采集区域对应的音频信号,削弱该路音频数据中其他方向上的音频信号,实现对其他方向上音频信号的压制;然后对多路所述音频信号进行干扰抑制处理,得到每个所述音频采集区域对应语音信号,进一步减少其他音频采集区域的噪音信号对该路语音信号的干扰,得到更为干净的音频采集区域对应的语音信号;对各所述音频采集区域对应的语音信号进行语音识别,得到每个所述音频采集区域对应的语音识别结果;实现了无论声源位于车辆哪个音频采集区域,均有对应的一路麦克风阵列可以准确地采集该音频数据,并得到准确的语音识别结果,提高了语音识别的识别率;并且在多人在不同位置同时讲话时,能够抑制各路语音信号之间的相互干扰,识别出每个音频采集位置对应的语音识别结果,大大提高了语音识别的效率和准确性。

附图说明

图1为本发明实施例一提供的多路语音识别方法流程图;

图2为本发明实施例二提供的多路语音识别方法流程图;

图3为本发明实施例三提供的多路语音识别装置的结构示意图;

图4为本发明实施例五提供的多路语音识别设备的结构示意图。

通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。

本发明实施例所涉及的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。

实施例一

图1为本发明实施例一提供的多路语音识别方法流程图。本发明实施例针对现有技术中车辆上的语音识别方法的语音识别率很低的问题,提供了多路语音识别方法。本实施例中的方法应用于语音识别设备,该语音识别设备可以是安装与车辆上的车载终端设备,或者可以能够与车辆上的车载终端设备进行通信,并进行语音识别的计算机设备,在其他实施例中,该方法还可应用于其他设备,本实施例以语音识别设备为例进行示意性说明。

如图1所示,该方法具体步骤如下:

步骤s101、接收多路麦克风阵列采集的音频数据,每路麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据。

本发明实施例应用于能够进行语音识别车辆,该车辆内通常设置有多个座位,例如正驾驶座位、副驾驶座位、以及其他座位等,车辆内安装有多路麦克风阵列,每路麦克风阵列指向一个音频采集区域,用于采集指向的音频采集区域的音频数据。每个音频采集区域对应于一个座位所在的位置,音频采集区域与车辆内的座位一一对应,也就是,每路麦克风阵列用于指向一个座位,麦克风阵列与车辆内的座位对应设置。例如,对于四座的自动驾驶车辆,在车辆内安装分别指向四个座位的四路麦克风阵列。

本实施例中,在进行语音识别时,麦克风阵列可以实时地采集音频数据,并将采集的音频数据发送给语音识别设备。语音识别设备可以接收到各路麦克风阵列采集的音频数据。

其中,每路音频数据可以包括采集该路音频数据的麦克风阵列的标识,以区分各路音频数据。

步骤s102、根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号。

其中,每路麦克风阵列对应的音频采集区域是指:该路麦克风阵列所指向的音频采集区域。每路语音数据对应的音频采集区域是指:采集该音频数据的麦克风阵列所指向的音频采集区域。

该步骤中,在接收到多路音频数据之后,分别根据每路麦克风阵列相对于其所指向的音频采集区域的位置,通过波束成形(beamforming)技术,对该路麦克风阵列采集的一路音频数据进行波束成形处理,得到该路音频数据中与该路音频数据对应的音频采集区域对应的音频信号,削弱该路音频数据中其他方向上的音频信号,实现对其他方向上音频信号的压制。

该步骤中,采用波束成形技术,通过对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号,也即是得到各个音频采集区域对应的音频信号。

步骤s103、对多路音频信号进行干扰抑制处理,得到每个音频采集区域对应语音信号。

本实施例中,由于波束成形技术并不一定能完全地消除其他方向上的音频信号,在得到各音频采集区域对应的音频信号中,仍然可能包括其他方向上的音频信号,也就是可能包括其他音频采集区域内声源发出的音频信号。该步骤中,在得到各音频采集区域对应的音频信号之后,对多路音频信号进行干扰抑制处理,从音频采集区域对应的音频信号中去除其他音频采集区域对应的音频信号部分,得到更为干净的该路音频信号对应音频采集区域所对应的语音信号。

另外,进行波束处理和干扰抑制处理的过程,可以由语音识别设备上的数字信号处理(digitalsignalprocessing,简称dsp)处理模块或者独立的dsp芯片完成,本实施例此处不做具体限定。

步骤s104、对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果。

在得到各音频采集区域对应的语音信号之后,分别对每个音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域的语音信号的识别结果。

另外,该步骤中进行语音识别的过程,可以由语音识别设备上的dsp处理模块、或者独立的语音识别引擎完成,本实施例此处不做具体限定。

本发明实施例通过接收多路麦克风阵列采集的音频数据,每路麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据;根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号,削弱该路音频数据中其他方向上的音频信号,实现对其他方向上音频信号的压制;然后对多路音频信号进行干扰抑制处理,得到每个音频采集区域对应语音信号,进一步减少其他音频采集区域的噪音信号对该路语音信号的干扰,得到更为干净的音频采集区域对应的语音信号;对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果;实现了无论声源位于车辆哪个音频采集区域,均有对应的一路麦克风阵列可以准确地采集该音频数据,并得到准确的语音识别结果,提高了语音识别的识别率;并且在多人在不同位置同时讲话时,能够抑制各路语音信号之间的相互干扰,识别出每个音频采集位置对应的语音识别结果,大大提高了语音识别的效率和准确性。

实施例二

图2为本发明实施例二提供的多路语音识别方法流程图。在上述实施例一的基础上,本实施例中,根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号之前,还包括:获取每路麦克风阵列相对于对应音频采集区域的位置。对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的识别结果之后,还包括:计算各音频采集区域对应的语音信号的平均能量幅值;去除平均能量幅值小于预设阈值的语音信号对应的识别结果。如图2所示,该方法具体步骤如下:

步骤s201、接收多路麦克风阵列采集的音频数据,每路麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据。

本发明实施例应用于能够进行语音识别车辆,该车辆内通常设置有多个座位,例如正驾驶座位、副驾驶座位、以及其他座位等,车辆内安装有多路麦克风阵列,每路麦克风阵列指向一个音频采集区域,用于采集指向的音频采集区域的音频数据。每个音频采集区域对应于一个座位所在的位置,音频采集区域与车辆内的座位一一对应,也就是,每路麦克风阵列用于指向一个座位,麦克风阵列与车辆内的座位对应设置。例如,对于四座的自动驾驶车辆,在车辆内安装分别指向四个座位的四路麦克风阵列。

另外,麦克风阵列相对于对应的音频采集区域就近安装,本实施例中对于麦克风阵列的具体安装位置不做具体限定。

例如,对于四座的车辆,可以在车辆内安装分别指向四个座位,用于采集四个座位上的声源的音频数据的麦克风阵列,四个麦克风阵列可分别安装车辆内四个座位上方的车顶上。

本实施例中,在进行语音识别时,麦克风阵列可以实时地采集音频数据,并将采集的音频数据发送给语音识别设备。语音识别设备可以接收到各路麦克风阵列采集的音频数据。

其中,每路音频数据可以包括采集该路音频数据的麦克风阵列的标识,以区分各路音频数据。

步骤s202、获取每路麦克风阵列相对于对应音频采集区域的位置。

其中,每路麦克风阵列相对于对应音频采集区域的位置包括:每路麦克风阵列相对于对应音频采集区域的角度范围和距离范围。

本实施例的一种应用场景中,技术人员可以采用波束成形技术,预先设定每路麦克风阵列相对于对应音频采集区域的位置,在完成各路麦克风阵列的安装之后,每路麦克风阵列相对于对应音频采集区域的位置就已经确定。

该步骤的一种可行的实施方式为:

语音识别设备可以获取预先设定的每路麦克风阵列相对于对应音频采集区域的位置。

可选的,预先设定每路麦克风阵列相对于对应音频采集区域的位置可以预先存储在车辆的车载终端设备中,语音识别设备可以从车载终端设备获取该车辆上的各路麦克风阵列相对于对应音频采集区域的位置。

本实施例中,为了能够更加准确地获取到声源的语音信号,在完成各路麦克风阵列的安装之后,可以由技术人员分别坐在车辆的不同座位,发出定位音频,获取每路麦克风阵列相对于对应音频采集区域的位置,具体可以采用如下方式实现:

对于任意一路麦克风阵列,接收该路麦克风阵列采集的对应音频采集区域的声源发出的定位音频;对定位音频进行声源定位处理,计算定位音频的声源相对于该路麦克风阵列的位置;将定位音频的声源相对于该路麦克风阵列的位置,作为该路麦克风阵列相对于对应音频采集区域的位置,从而对该路麦克风阵列相对于对应音频采集区域的位置进行校准。

例如,对于四座的车辆,在车辆内安装分别指向四个座位,用于采集四个座位上的声源的音频数据的麦克风阵列。在其中一个座位上的声源发出声音时,该座位对应的麦克风阵列可以获取到该音频数据,语音识别设备可以通过声源定位技术确定该声源相对于该麦克风阵列的位置,并作为该路麦克风阵列相对于该座位对应的音频采集区域的位置。

本实施例中,语音识别设备可以获取各麦克风阵列相对于各音频采集区域的位置。在进行声源定位确定某一声源相对于某一麦克风阵列的位置之后,可以根据预先设定的每路麦克风阵列相对于对应音频采集区域的位置,确定该声源是否位于该麦克风阵列对应的音频采集区域内。

本实施例的另一种应用场景中,车辆内的人员想要语音控制车辆时,通常需要先通过预先设定的唤醒语唤醒车辆的语音识别功能。语音识别设备可以在识别出唤醒语之后,将唤醒语对应的音频作为定位音频,对唤醒语音频进行声源定位处理,计算定位音频的声源相对于该路麦克风阵列的位置,并在确定该声源位于该麦克风阵列对应的音频采集区域内时,将定位音频的声源相对于该路麦克风阵列的位置,作为本次语音识别过程中该路麦克风阵列相对于对应音频采集区域的位置,这样对每路音频数据进行波束成形处理,得到音频信号更加准确,可以提高对于该人员发出的音频数据的识别准确性。

本实施例中,该步骤中获取每路麦克风阵列相对于对应音频采集区域的位置,可以在语音识别设备上电后第一次进行语音识别时执行,并将每路麦克风阵列相对于对应音频采集区域的位置进行存储,在后续的语音识别过程中,可以直接读取和使用,可以提高语音识别的效率。

可选的,在每次进行语音识别时,对于每一路麦克风阵列采集的音频数据,还可以从音频数据中截取预设时段的音频片段,将该音频片段作为定位音频,更新本次语音识别过程中该路麦克风阵列相对于对应音频采集区域的位置,这样对每路音频数据进行波束成形处理,得到音频信号更加准确,可以提高对于该人员发出的音频数据的识别准确性。其中,预设时段可以是音频数据起始的一个时段、或者末尾的一个时段,预设时段可以由技术人员根据实际应用场景和经验进行设定,本实施例此处不做具体限定。

步骤s203、根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号。

其中,每路麦克风阵列对应的音频采集区域是指:该路麦克风阵列所指向的音频采集区域。每路语音数据对应的音频采集区域是指:采集该音频数据的麦克风阵列所指向的音频采集区域。

该步骤中,在接收到多路音频数据之后,分别根据每路麦克风阵列相对于其所指向的音频采集区域的位置,通过波束成形技术,对该路麦克风阵列采集的一路音频数据进行波束成形处理,得到该路音频数据中与该路音频数据对应的音频采集区域对应的音频信号,削弱该路音频数据中其他方向上的音频信号,实现对其他方向上音频信号的压制。

该步骤中,采用波束成形技术,通过对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号,也即是得到各个音频采集区域对应的音频信号。

步骤s204、对多路音频信号进行干扰抑制处理,得到每个音频采集区域对应语音信号。

本实施例中,由于波束成形技术并不一定能完全地消除其他方向上的音频信号,在得到各音频采集区域对应的音频信号中,仍然可能包括其他方向上的音频信号,也就是可能包括其他音频采集区域内声源发出的音频信号。该步骤中,在得到各音频采集区域对应的音频信号之后,对多路音频信号进行干扰抑制处理,从音频采集区域对应的音频信号中去除其他音频采集区域对应的音频信号部分,得到更为干净的该路音频信号对应音频采集区域所对应的语音信号。

具体的,对多路音频信号进行干扰抑制处理,得到每个音频采集区域对应语音信号,具体可以采用以下方式实现:

分别将每路音频信号作为目标音频,对目标音频进行声源定位处理,确定目标音频的声源位置;根据目标音频的声源位置,判断目标音频中是否包含其他音频采集区域的声源发出的音频信号;若目标音频中包含其他音频采集区域的声源发出的音频信号,则从目标音频中去除其他音频采集区域对应的音频信号,得到目标音频对应音频采集区域所对应的语音信号。

若目标音频中不包含其他音频采集区域的声源发出的音频信号,则可以直接将目标音频作为其对应音频采集区域所对应的语音信号。

本实施例中,语音识别设备可以获取各麦克风阵列相对于各音频采集区域的位置。在进行声源定位确定某一声源相对于某一麦克风阵列的位置之后,可以根据预先设定的每路麦克风阵列相对于对应音频采集区域的位置,确定该声源是否位于该麦克风阵列对应的音频采集区域内。

在确定目标音频的声源位置之后,若目标音频对应多个声源,则可以确定每个声源相对于目标音频对应的麦克风阵列的位置;根据各麦克风阵列相对于各音频采集区域的位置,可以进一步确定每个声源所处的音频采集区域,判断这些声源中是否存在处于其他音频采集区域的声源,从而可以判断出目标音频中是否包含其他音频采集区域的声源发出的音频信号。

例如,正驾驶位和副驾驶位上的两个人分别发出第一识别语和第二识别语,这时,正驾驶位对应的第一麦克风阵列和副驾驶位对应的第二麦克风阵列采集的音频数据中可能包含两个识别语信息;若在经过波束成形处理后,得到的正驾驶位对应的第一音频信号包含部分第二识别语的信号;对第一音频信号进行声源定位处理,可以确定有两个声源,并得到两个声源相对于第一麦克风阵列的位置;结合各麦克风阵列相对于各音频采集区域的位置,可以确定两个声源分别位于正驾驶位和副驾驶位的音频采集区域;从而可以判断出第一音频信号包含其他音频采集区域对应的音频信号,根据副驾驶位对应的第二音频信号的属性参数,从第一音频信号中消除第二音频信号,得到第一音频信号对应的语音信号,也即是得到正驾驶位对应的语音信号。另外,对于副驾驶的第二音频信号也可以做类似的处理,得到副驾驶位对应的语音信号。

步骤s205、并行地对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果。

本实施例中,在得到各音频采集区域对应的语音信号之后,可以并行地对每个音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域的语音信号的识别结果。

具体的,可以将每个音频采集区域对应的语音信号分别输入一个语音识别模块,并行地对每个音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域的语音信号的识别结果,可以大大提高语音识别的效率。

本实施例中,在识别出各个音频采集区域的语音信号的识别结果之后,还可以步骤s206和s207对语音识别结果中进行校验处理,筛选去除语音识别结果中的无效结果,以提高语音识别的准确性。

步骤s206、计算各音频采集区域对应的语音信号的平均能量幅值。

本实施例中,计算音频采集区域对应的语音信号的平均能量幅值,可以采用现有技术中计算任一语音信号平均能量幅值的方法实现,本实施例此处不再赘述。

步骤s207、去除平均能量幅值小于预设阈值的语音信号对应的识别结果。

在计算得到各音频采集区域对应的语音信号的平均能量幅值之后,比较各语音信号的平均能量幅值与预设阈值的大小,将平均能量幅值小于预设阈值的语音信号对应的语音识别结果作为无效识别结果,将平均能量幅值大于或者等于预设阈值的语音信号对应的语音识别结果作为有效识别结果,对步骤s205中得到的语音识别结果进行筛选,去除其中的平均能量幅值小于预设阈值的语音信号对应的无效识别结果,得到最终的语音识别结果。

其中,预设阈值可以由技术人员根据实际应用场景和经验进行设定,本实施例此处不做具体限定。

例如,当正驾驶位上的人际讲完识别语后,副驾驶位对应的一路麦克风阵列也采集到了音频数据,语音识别设备识别出了相应的语音识别结果,正驾驶和副驾驶对应的两路语音识别结果应该是一致的。由于经过波束成形和干扰抑制处理之后,副驾驶位对应的语音信号的能量幅度很小,如果副驾驶位对应的语音信号的能量幅度小于预设阈值,那么副驾驶对应的一路语音识别结果很可能出错,可以丢弃该识别结果,保留正驾驶对应的一路语音识别结果,从而提高语音识别的准确率。

本发明实施例通过在根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号之前,通过对每路麦克风阵列相对于对应音频采集区域的位置进行校准,使得波束成形处理得到的音频信号更加准确;通过并行地对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果,进一步提高了语音识别的效率;进一步地,通过计算各音频采集区域对应的语音信号的平均能量幅值,去除平均能量幅值小于预设阈值的语音信号对应的识别结果,完成对语音识别结果的二次校验,去除其中的无效识别结果,提高了语音识别的准确性。

实施例三

图3为本发明实施例三提供的多路语音识别装置的结构示意图。本发明实施例提供的多路语音识别装置可以执行多路语音识别方法实施例提供的处理流程。如图3所示,该多路语音识别装置30包括:数据获取模块301,波束成形模块302,干扰抑制处理模块303和语音识别模块304。

具体地,数据获取模块301,用于接收多路麦克风阵列采集的音频数据,每路麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据。

波束成形模块302,用于根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号。

干扰抑制处理模块303,用于对多路音频信号进行干扰抑制处理,得到每个音频采集区域对应语音信号。

语音识别模块304,用于对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。

本发明实施例通过接收多路麦克风阵列采集的音频数据,每路麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据;根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号,削弱该路音频数据中其他方向上的音频信号,实现对其他方向上音频信号的压制;然后对多路音频信号进行干扰抑制处理,得到每个音频采集区域对应语音信号,进一步减少其他音频采集区域的噪音信号对该路语音信号的干扰,得到更为干净的音频采集区域对应的语音信号;对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果;实现了无论声源位于车辆哪个音频采集区域,均有对应的一路麦克风阵列可以准确地采集该音频数据,并得到准确的语音识别结果,提高了语音识别的识别率;并且在多人在不同位置同时讲话时,能够抑制各路语音信号之间的相互干扰,识别出每个音频采集位置对应的语音识别结果,大大提高了语音识别的效率和准确性。

实施例四

在上述实施例三的基础上,本实施例中,语音识别模块还用于:

计算各音频采集区域对应的语音信号的平均能量幅值;去除平均能量幅值小于预设阈值的语音信号对应的识别结果。

可选的,语音识别模块还用于:

并行地对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果。

可选的,干扰抑制处理模块还用于:

分别将每路音频信号作为目标音频,对目标音频进行声源定位处理,确定目标音频的声源位置;根据目标音频的声源位置,判断目标音频中是否包含其他音频采集区域的声源发出的音频信号;若目标音频中包含其他音频采集区域的声源发出的音频信号,则从目标音频中去除其他音频采集区域对应的音频信号,得到目标音频对应音频采集区域所对应的语音信号。

可选的,数据获取模块还用于:

获取每路麦克风阵列相对于对应音频采集区域的位置。

可选的,数据获取模块还用于:

对于任意一路麦克风阵列,接收该路麦克风阵列采集的对应音频采集区域的声源发出的定位音频;对定位音频进行声源定位处理,计算定位音频的声源相对于该路麦克风阵列的位置;将定位音频的声源相对于该路麦克风阵列的位置,作为该路麦克风阵列相对于对应音频采集区域的位置。

可选的,数据获取模块还用于:

获取预先设定的每路麦克风阵列相对于对应音频采集区域的位置。

可选的,每路麦克风阵列相对于对应音频采集区域的位置,包括:

每路麦克风阵列相对于对应音频采集区域的角度范围和距离范围。

本实施例中,车辆内的音频采集区域与车辆内的座位一一对应。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。

本发明实施例通过在根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号之前,通过对每路麦克风阵列相对于对应音频采集区域的位置进行校准,使得波束成形处理得到的音频信号更加准确;通过并行地对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果,进一步提高了语音识别的效率;进一步地,通过计算各音频采集区域对应的语音信号的平均能量幅值,去除平均能量幅值小于预设阈值的语音信号对应的识别结果,完成对语音识别结果的二次校验,去除其中的无效识别结果,提高了语音识别的准确性。

实施例五

图4为本发明实施例五提供的多路语音识别设备的结构示意图。如图4所示,该设备40包括:处理器401,存储器402,以及存储在存储器402上并可由处理器401执行的计算机程序。

处理器401在执行存储在存储器402上的计算机程序时实现上述任一方法实施例提供的多路语音识别方法。

本发明实施例通过接收多路麦克风阵列采集的音频数据,每路麦克风阵列指向车辆内的一个音频采集区域,用于采集一路音频数据;根据每路麦克风阵列相对于对应音频采集区域的位置,对每路音频数据进行波束成形处理,得到每路音频数据中与对应音频采集区域对应的音频信号,削弱该路音频数据中其他方向上的音频信号,实现对其他方向上音频信号的压制;然后对多路音频信号进行干扰抑制处理,得到每个音频采集区域对应语音信号,进一步减少其他音频采集区域的噪音信号对该路语音信号的干扰,得到更为干净的音频采集区域对应的语音信号;对各音频采集区域对应的语音信号进行语音识别,得到每个音频采集区域对应的语音识别结果;实现了无论声源位于车辆哪个音频采集区域,均有对应的一路麦克风阵列可以准确地采集该音频数据,并得到准确的语音识别结果,提高了语音识别的识别率;并且在多人在不同位置同时讲话时,能够抑制各路语音信号之间的相互干扰,识别出每个音频采集位置对应的语音识别结果,大大提高了语音识别的效率和准确性。

另外,本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例提供的多路语音识别方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1