语音激活检测方法和装置与流程

文档序号:24562112发布日期:2021-04-06 12:11阅读:163来源:国知局
语音激活检测方法和装置与流程

本发明属于语音识别领域,尤其涉及语音激活检测方法和装置。



背景技术:

语音激活检测(vad,voiceactivitydetection),其目的是检测当前语音信号中是否包含语音信号存在,即对输入信号进行判断,将语音信号与各种背景噪声信号区分出来,分别对两种信号采用不同的处理方法。传统的方式有通过过零率、短时能量来进行语音和噪声信号的区分。最近几年基于神经网络的语音激活检测蓬勃发展,极大提高了区分语音和噪声信号的正确率。

短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数,主要是基于语音音频会有高的过零率,在没有噪声的位置表现良好,但是在有噪声的地方表现并不好,抗干扰能力比较差,过零率只是统计了一定时间内波形穿过很轴的次数,当有噪声时波形也会频繁穿过横轴;基于短时能量的方式同样是计算出每帧的能量以后,根据能量的高低判断是不是语音段,方式过于直接,实际效果差,当噪声能量大时,也会被误判成语音;基于神经网络的语音激活检测,是通过训练一个神经网络分类器,该分类器可以判断一帧是否是语音还是噪声,该方式对单帧的判断比较好,但是没有考虑帧之间的关系,以及实际人的语音中因为换气的原因,语音中会有短暂的噪声段,神经网络本身判断语音和噪声帧准确率高,但是未考虑前后帧的影响、实际人的语音中因为换气的因素,造成实际使用中性能变差。



技术实现要素:

本发明实施例提供一种语音激活检测方法及装置,用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种语音激活检测方法,包括:对接收的音频进行处理生成音频帧特征;基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算;对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果,其中,所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。

第二方面,本发明实施例提供一种语音激活检测装置,包括:音频处理模块,配置为对接收的音频进行处理生成音频帧特征;音频分析模块,基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算;结果转换模块,配置为对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果,其中,所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。

第四方面,本发明实施例还提供一种存储介质,其包括:所述程序被处理器执行时实现第一方面所述方法的步骤

本申请实施例提供的方法通过有效解决语音激活检测过程中的一些异常帧以及解决人说话过程中会夹杂静音和噪声段的情况,极大提高语音激活检测的准确性和可用性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音激活检测方法的流程图;

图2为本发明一实施例提供的另一种语音激活检测方法的流程图;

图3为本发明实施例的语音激活检测的方案一具体实施例的语音激活检测流程图;

图4为本发明一实施例提供的一种语音激活检测装置的框图;

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,其示出了本发明的一种语音激活检测方法的一实施例的流程图。

如图1所示,在步骤101中,对接收的音频进行处理生成音频帧特征;

在步骤102中,基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算;

在步骤103中,对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果,其中,所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。

在本实施例中,对于步骤101,语音激活检测装置将接收的音频进行处理,提取音频帧特征。其中,音频处理为分帧处理,具体处理方式可参照现有技术,提取的音频帧特征为梅尔频率倒谱系数(mfcc)特征。例如,将接收的音频划分成若干个长度为10ms的音频帧,本申请在此没有限制,之后提取每一音频帧mfcc特征,在此不再赘述。

之后,对于步骤102,将所述音频帧特征送进神经网络分类器,经由该神经网络分类器计算出每一所述音频帧特征为噪声或语音的概率分布值。其中,神经网络分类器为所述语音激活检测系统配置,该神经网络分类器具备获取音频帧特征的噪声和语音的概率分布值功能,例如,神经网络分类器将音频帧特征为噪声或语音的概率分布值为p,则所述音频将生成音频帧特征的概率分布值p1、p2……pn,在此不再赘述。

最后,对于步骤103,对每一所述音频帧特征为噪声或语音的概率分布值经由vad(语音激活检测)后处理模型进行后处理,输出每一所述音频帧特征的状态判定结果,其中,所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态,每一状态具有相应预设阈值,例如,将所述音频帧特征的概率分布值p1与预设阈值进行比较,输出p1所对应音频帧特征判定结果,之后将p2与预设阈值进行比较,输出p2所对应音频帧特征判定结果,最后将pn与预设阈值进行比较,输出pn音频帧特征判定结果,本申请在此没有限制,保证每一所述音频帧输出判定结果,在此不再赘述。

在本实施例所述的方案中,通过对接收的音频进行处理提取音频帧特征,进一步生成每一音频帧特征为噪声和语音概率分布值,对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果,提高语音激活检测的准确性和可用性。

在一些可选的实施例中,所述静音状态、所述预音频状态、所述音频状态和所述预静音状态形成闭环,相邻的音频帧特征的状态仅能够在相邻的状态之间转换。例如,当前音频帧特征判定为静音状态,则下一音频帧特征判定状态可以为静音状态、预静音状态或预音频状态,不能直接转换为音频状态,其他状态转换也遵循此原则,在此不再赘述。

在一些可选的实施例中,所述对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果包括将每一所述音频帧特征的概率分布值与每一状态的阈值进行比较;基于比较结果输出每一所述音频帧特征对应的状态判定结果;其中,在所述静音状态,具有静音阈值tsil;在所述预音频状态,具有预音频阈值tprsp;在所述音频状态,具有音频阈值tsp;在所述预静音状态,具有预静音低阈值tlowprsil和预静音高阈值thightprsil。例如,假设静音阈值tsil为0.1,预音频阈值tprsp为0.6,音频阈值tsp为0.9,预静音低阈值tlowprsil为0.3,预静音高阈值thightprsil为0.5,若第一音频帧特征的概率分布值为0.2,低于预静音低阈值tlowprsil,则判定该音频帧特征为静音状态,则语音激活检测结果为静音状态,其中,阈值可以为其0.4或0.6,本申请在此没有限制,在此不再赘述。

在一些可选的实施例中,在所述静音状态,若所述音频帧特征的概率分布值小于所述静音阈值tsil,则进入所述预音频状态;在所述预音频状态,若所述音频帧特征的概率分布值小于所述预音频阈值tprsp,则返回所述静音状态;若所述音频帧特征的概率分布值大于所述预音频阈值tprsp,且持续时间大于或等于第一预设时间,则进入所述音频状态;在所述音频状态,若所述音频帧特征的概率分布值小于所述音频阈值tsp,则进入所述预静状态;在所述预静音状态,若所述音频帧特征的概率分布值小于所述预静音低阈值tlowprsil,则返回所述音频状态;若所述音频帧特征的概率分布值大于所述预静音低阈值tlowprsil且持续时间大于或等于第二预设时间,或若所述音频帧特征的概率分布值大于所述预静音高阈值thightprsil且持续时间大于或等于第三预设时间,则进入所述静音状态。其中,在预静音状态和预音频状态下,不仅比较音频帧特征的概率分布值与预设阈值,还判断其持续时间是否大于或等于预设时间,例如,假设当前状态为预音频状态,第一预设时间为10ms,本申请没有限制,则下一音频帧特征的概率分布值大于预音频阈值tprsp,且持续时间大于或等于10ms,才判定所述下一音频帧特征为音频状态,在此不再赘述。

在一些可选的实施例中,在所述静音状态,若所述音频帧特征的概率分布值不小于所述静音阈值tsil,则保持所述静音状态;在所述预音频状态,若所述音频帧特征的概率分布值不小于所述预音频阈值tprsp,且持续时间小于第一预设时间,则保持所述预音频状态;在所述音频状态,若所述音频帧特征的概率分布值不小于所述音频阈值tsp,则保持所述音频状态;在所述预静音状态,若所述音频帧特征的概率分布值不小于所述预静音低阈值tlowprsil且持续时间小于第二预设时间,或所述音频帧特征的概率分布值不小于所述预静音高阈值thightprsil且持续时间小于第三预设时间,则保持所述预静音状态,在此不再赘述。

在一些可选的实施例中,所述第三预设时间包括小于所述第二预设时间,其中,所述第三预设时间为m,第二预设时间为n,m<n,例如,m为5ms,n为10ms,本申请在此没有限制,只有当下一音频帧特征的概率分布值大于预静音高阈值thightprsil持续5ms或者预静音低阈值tlowprsil持续10ms时,该音频帧特征判定为静音状态,在此不再赘述。

在一些可选的实施例中,所述音频帧特征包括梅尔频率倒谱系数特征,相关技术可参照现有技术,在此不再赘述。

请参考图2,其示出了本发明一实施例提供的另一种语音激活检测方法的流程图,该流程图主要是针对实施例103中在所述“对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果”的方法进一步限定的步骤的流程图。

如图2所示,所述状态判定结果包括静音状态201,预音频状态202,音频状态203和预静音状态204,其中,

在所述静音状态201,具有静音阈值tsil,表示当前处于静音状态下继续判断为静音状态的阈值,当静音概率大于tsil时,认为继续处在静音状态,否则应转为预音频状态;

在所述预音频状态202,具有预音频阈值tprsp,表示当前处于预音频状态下继续判断为预音频状态的阈值,当语音音频概率大于tprsp时,认为继续处在预音频状态,连续一段时间t1为预音频状态,则会跳转到音频状态,当语音音频概率小于tprsp则会跳转回到静音状态;

在所述音频状态203,具有音频阈值tsp,表示当前处于音频状态下继续判断为音频状态的阈值,当语音音频概率大于tsp时,认为继续处于音频状态,否则应从音频状态跳转为预静音状态;

在所述预静音状态204,具有预静音低阈值tlowprsil和预静音高阈值thightprsil,表示当前处于预静音状态下继续判断为预静音状态的阈值,当静音概率大于tlowprsil时,认为继续处在预静音状态,连续一段时间t2为预静音状态,或者静音概率大于另一更高的阈值thightprsil,则会跳转到静音状态;当静音概率小于tlowprsil则会跳转回到语音音频状态。

若所述音频帧特征的概率分布值为p,所述第一时间为t1,所述第二时间为t2,所述第三时间为t3。例如,假设第一音频帧特征判定结果为预音频状态202,预音频阈值tprsp为0.6,t1为10ms,包括:

当第二音频帧特征的概率分布值p为0.4,小于tprsp,判定第二音频帧特征为静音状态201,则语音激活检测结果转换为静音状态201;

当第二音频帧特征的概率分布值p为0.7,大于tprsp,持续时间为6ms,判定第二音频帧特征为预音频状态202,则语音激活检测结果保持为预音频状态202;

当第二音频帧特征的概率分布值p为0.7,大于tprsp,持续时间为12ms,判定第二音频帧特征为音频状态203,则语音激活检测结果保持为预音频状态203。

在本实施例所述的方案中,第一音频帧特征也可以假设为静音状态201,音频状态203,预静音状态204,预音频阈值tprsp可以为其他数值,t1可以是其他数值,本申请在此没有限制,在此不再赘述。

需要说明的是,以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字,限定了步骤的先后顺序,但是在实际的应用场景中,有些步骤是可以并列执行的,有些步骤的先后顺序也不受到以上数字的限定,本申请在此没有限制,在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷:

过零率在没有噪声的位置表现良好,但是在有噪声的地方表现并不好,抗干扰能力比较差,过零率只是统计了一定时间内波形穿过很轴的次数,当有噪声时波形也会频繁穿过横轴。

短时能量方式过于直接,实际效果差,当噪声能量大时,也会被误判成语音。

基于神经网络分类器的方式对单帧的判断比较好,但是没有考虑帧之间的关系,以及实际人的语音中因为换气的原因,语音中会有短暂的噪声段,神经网络本身判断语音和噪声帧准确率高,但是未考虑前后帧的影响、实际人的语音中因为换气的因素,造成实际使用中性能变差。

发明人在实现本发明的过程中发现为什么不容易想到原因:

传统的vad(语音激活检测)方式在数据量不足的情况下在使用,可以通过信号处理进行降噪,避免噪声对vad(语音激活检测)的影响。神经网络的方式会在分类器输出分类概率之后进行加窗平滑来考虑上下文的影响。传统的技术并没有对输出结果进行后处理的操作,一些神经网络的vad(语音激活检测)系统,考虑的vad(语音激活检测)后处理的操作,但是比较粗糙,并没有全部发挥vad(语音激活检测)后处理的作用。

本发明的技术创新点:

加入了状态转移的vad系统一方面运用神经网络技术加强帧级别的准确率,另一方面引入汉明窗顺滑以及状态转移的后处理加强vad系统的抗造性和实用性。

继续参考图2,tsil:表示当前处于静音状态下继续判断为静音状态的阈值,当静音概率大于tsil时,认为继续处在静音状态,否则应转为预音频状态。tprsp:表示当前处于预音频状态下继续判断为预音频状态的阈值,当语音音频概率大于tprsp时,认为继续处在预音频状态;连续一段时间t1为预音频状态,则会跳转到音频状态;当语音音频概率小于tprsp则会跳转回到静音状态。tsp:表示当前处于音频状态下继续判断为音频状态的阈值,当语音音频概率大于tsp时,认为继续处于音频状态,否则应从音频状态跳转为预静音状态。tlowprsil:表示但前处于预静音状态下继续判断为预静音状态的阈值,当静音概率大于tlowprsil时,认为继续处在预静音状态;连续一段时间t2为预静音状态,或者静音概率大于另一更高的阈值thightprsil,则会跳转到静音状态;当静音概率小于tlowprsil则会跳转回到语音音频状态。

请参考图3,其示出了本发明一实施例提供的语音激活检测系统程图,该图展示了基于状态转移的vad(语音激活检测)系统判断一段音频是音频还是噪声的处理流程。

步骤一:该系统的输入是一段音频,对音频进行处理,主要是进行分帧并提取帧特征,提取的特诊一般是mfcc(梅尔频率倒谱系数)特征。

步骤二:将提取好的特征送进神经网络分类器,计算出每帧是噪声和语音的概率分布。

步骤三:将每帧的噪声和语音的概率分布送到vad(语音激活检测)后处理模型进行后处理,然后输出每帧最后的判定结果。

vad(语音激活检测)流转是指每帧都会根据模型的输出值以及状态中的阈值来判定其属于哪种状态。连续的帧之间只能在图中有箭头相连的状态间跳转。从图中可以看到,一共有四个状态:静音状态(silence)、预音频状态(prespeech)、音频状态(speech)、预静音状态(presilence)。图中所示的是一些状态间转移的条件阈值,满足一个或多个阈值的情况下才触发状态的转移。

发明人在实现本发明的过程中形成的beta版:

在确定最终方案之前,出过一版本,该版本和最终版本的区别在于预静音状态(presilence)的阈值只有一个(tprsil)。该方案由于减少了一个阈值,所以在调整阈值方案时会相对简单一点。缺点是如果人说话过程中有短暂停顿,会造成vad(语音激活检测)截断,后面的音频不会送到识别服务。最终版本中加入高低两个阈值去判定是否静音状态(silence)。当概率大于高阈值情况下,会在预静音状态(presilence)逗留时间短,然后跳到静音状态(silence)。如果概率大于低阈值时,会预静音状态(presilence)逗留时间长,然后跳到静音状态(silence)。

发明人在实现本发明的过程中发现达到更深层次的效果:

本方案可以有效解决vad(语音激活检测)过程中的一些异常帧以及解决人说话过程中会夹杂静音和噪声段的情况,极大提高vad(语音激活检测)的准确性和可用性。通过优化vad(语音激活检测)性能,可以进一步提升唤醒及识别性能。

请参考图4,其示出了本发明一实施例提供的一种语音激活检测装置的框图。

如图4所示,音频处理模块410、音频分析模块420和结果转化模块430。

其中,音频处理模块410,配置为对接收的音频进行处理生成音频帧特征;音频分析模块420,基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算;结果转换模块430,配置为对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果,其中,所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。

应当理解,图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块,在此不再赘述。

值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如音频处理模块可以描述对接收的音频进行处理生成音频帧特征;另外,还可以通过硬件处理器来实现相关功能模块,例如音频处理模块可以用处理器实现,在此不再赘述。

在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音激活检测方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

对接收的音频进行处理生成音频帧特征;

基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算;

对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果,其中,所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音激活检测装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音激活检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音激活检测方法。

图5是本发明实施例提供的电子设备的结构示意图,如图5所示,该设备包括:一个或多个处理器510以及存储器520,图5中以一个处理器510为例。用于语音激活检测方法的设备还可以包括:输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于语音激活检测装置方法。输入装置530可接收输入的数字或字符信息,以及产生与用于语音激活检测装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

作为一种实施方式,上述电子设备应用于语音激活检测装置中,包括:

至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:

对接收的音频进行处理生成音频帧特征;

基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算;

对每一所述音频帧特征为噪声或语音的概率分布值进行后处理,输出每一所述音频帧特征的状态判定结果,其中,所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1