语音活动侦测方法及装置与流程

文档序号:13626431阅读:173来源:国知局
语音活动侦测方法及装置与流程

本发明涉及语音识别技术领域,特别是涉及一种语音活动侦测方法及装置。



背景技术:

移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、pos机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。但是,移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。

语音识别方法和总听系统(alwayslisteningsystem)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打xx的手机”的语音时,移动终端便可以对用户输入的“拨打xx的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取xx的手机号码的信息,并拨打。

但是,现有技术中语音活动侦测方法,一般采用预设数学模型对输入的声音数据进行语音识别,存在着语音识别速度慢且准确率低的问题。



技术实现要素:

本发明实施例解决的问题是如何提高语音识别的速度和准确率。

为解决上述问题,本发明实施例提供了一种语音活动侦测方法,所述语音活动侦测方法包括:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。

可选地,所述计算遍历至的当前帧的频谱能量域的香农熵能量,包括:

其中,h(|y(w,t)|2)表示当前帧的频谱能量域的香农熵能量,p(|y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。

可选地,所述预设的阈值与所述待识别的声音数据的噪音频谱特性相关联。

可选地,采用如下方式计算得到所述预设的阈值:基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。

可选地,所述确定对应的两个高斯分布函数,包括:采用最大期望值法确定对应的两个高斯分布函数。

本发明实施例还提供了一种语音活动侦测装置,所述装置包括:傅立叶变换单元,适于将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;第一计算单元,适于对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;判断单元,适于判断当前帧的频谱能量域的香农熵能量是否大于预设的阈值;确定单元,适于当确定当前帧的频谱能量域的香农熵能量大于所述阈值时,确定当前帧包括语音信息。

可选地,所述第一计算单元适于采用如下的公式计算遍历至的当前帧的频谱能量域的香农熵能量:

其中,h(|y(w,t)|2)表示当前帧的频谱能量域的香农熵能量,p(|y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。

可选地,所述预设的阈值与当前待识别的声音数据对应的噪音的频谱特性相关联。

可选地,所述装置还包括:第二计算单元,适于基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。

可选地,所述第二计算单元,适于采用最大期望值法确定对应的两个高斯分布函数。

与现有技术相比,本发明的技术方案具有以下的优点:

上述的方案,根据待识别的声音数据划分得到的多个重叠的帧对应的频谱能量域的香农熵能量与预设的阈值之间的比较结果,来确定各个帧中是否包括语音信息,因相对于仅包括噪音信息的帧的频谱能量域的香农熵能量,包括语音信息的帧的频谱能量域的香农熵能量更具有规律性,通过频谱能量域的香农熵便可以准确地识别出各个帧是否包括语音信息,因而可以提高语音活动侦测的准确性,且因各个帧的频谱能量域的香农熵能量的计算与建立语音识别的数学模型相比更加简单,因而可以节省计算资源,提高语音活动侦测的速度。

附图说明

图1是本发明实施例中的一种语音活动侦测方法的流程图;

图2是本发明实施例中的另一种语音活动侦测方法的流程图;

图3是本发明实施例中的一种语音活动侦测装置的结构示意图。

具体实施方式

现有技术中的一种语音活动侦测(voiceactivitydetection,vad)方法,通过将遍历到的当前声音帧的频谱划分为无重叠的多个子带;根据当前声音帧的多个子带的频谱能量,计算得到当前声音帧的能量均方根;当确定当前声音帧的能量均方根大于预设的阈值时,确定当前声音帧中包括语音信息。

上述的vad方法可以在噪音变化的速度小于语音追踪能力,且语音片段的能量水平高于噪音片段的能量水平时,可以获取较好的性能。但是,当上述情况发生变化时,存在着语音检测准确性低的问题。

为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过将当前声音帧的能量均方根与对应的阈值进行比较,来确定当前声音帧中是否包括语音信息,可以提高语音活动侦测的准确性,并提高语音活动侦测的速度。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括如下步骤:

步骤s101:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算得到对应的频谱。

在具体实施中,在将待识别的声音数据进行划分时,得到的重叠的帧的个数,以及相邻帧之间的重叠部分可以根据实际的需要进行设置。

步骤s102:对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量。

在具体实施中,可以按照对应的时间顺序对划分得到的多个重叠的帧对应的频谱进行遍历。

步骤s103:当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。

在具体实施中,当计算得到各个帧对应的频谱能量域的香农熵能量时,可以将计算得到的频谱能量域的香农熵能量与预设的阈值进行比较,以判断各个帧的频谱能量域的香农熵能量是否大于预设的阈值。其中,当确定对应的频谱能量域的香农熵能量大于预设的阈值时,确定该帧中包括语音信息;反之,则确定该帧中不包括语音信息。

下面将结合图2对本发明实施例中的语音识别方法做进一步详细的介绍。

图2示出了本发明实施例中的另一种语音识别方法的流程图。如图2所示的语音识别方法,可以包括如下的步骤:

步骤s201:将获取的声音数据进行重叠分帧,得到对应的多个重叠的帧。

在具体实施中,首先可以对所采集的声音信号进行模数转换,得到对应的声音数据。接着,可以将对应的声音数据进行重叠分帧,得到对应的多个帧。对采集的声音数据进行分帧,实质是对声音数据进行短时分析。短时分析是把声音信号分成具有固定周期的时间短段,每个时间短段是相对固定的持续声音片段。其中,相邻的两个声音帧之间部分重叠,重叠范围可以根据实际情况进行选择。

步骤s202:对所得到的多个重叠的帧进行加窗处理。

在具体实施中,可以选择汉明窗、汉宁窗、矩形窗等语音信号处理常用的窗函数,帧长选择为10~40ms,典型值为20ms。其中,对语音信号进行分帧处理破坏了声音信号的自然度,通过使用声音帧进行加窗和回移处理等,可以解决该问题。

步骤s203:将经过加窗处理后的帧的声音信号进行快速傅立叶变换运算,得到各个帧对应的频谱。

在具体实施中,声音数据理论上来说是随时间变化的,是一个非稳态的过程,不可以直接进行频域的转换。但是,由于对声音数据进行分帧处理(短时分析),每帧的声音数据可以认为是相对稳定的,因而可以对其应用频域转换。

在具体实施中,可以采用短时傅立叶变换(short-timefouriertransform/short-termfouriertransform,stft)对每帧的声音数据进行频域转换,以得到各个帧对应的频谱信息。其中,所得到的频谱中包括对应的声音信号的频率和能量之间的关系。

步骤s204:对划分得到的多个帧进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量。

在具体实施中,为信息源定义的香农熵能量,可以用于衡量在最优编码时每个符号(symbol)中包括的比特的平均长度。其中,时域的香农熵能量可以采用如下的公式计算得到:

其中,h(s)表示时域的香农熵能量,s表示包括n个符号的声音数据,s(i)表示第i个符号,p(s(i)表示第i个符号的发射概率。

在具体实施中,将香农熵应用于语音活动侦测是建立在一种假设基础上,即假定包括语音数据的帧的信号频谱比不包括语音数据的噪音帧的信号频谱更具规律性。因此,在本发明一实施中,可以将公式(1)转换到频谱能量域,即采用如下的公式计算得到各个帧对应的频谱能量域的香农熵能量:

其中,h(|y(w,t)|2)表示当前帧t的频谱能量域的香农熵能量,p(|y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。

步骤s205:判断当前帧的频谱能量域的香农熵能量是否大于预设的阈值;当判断结果为是时,可以执行步骤s206;反之,则可以继续对下一帧从步骤s204开始执行。

在具体实施中,所述预设的阈值可以使用待识别的声音数据,即划分得到的多个帧的频谱能量域的香农熵的全局变量进行确定。经研究发现,所述划分得到的多个帧的频谱能量域的香农熵的全局变量的数值呈现双峰分布状态,因而可以采用两个高斯分布函数来模拟划分得到的多个帧的频谱能量域的香农熵的全局变量的数值的分布。其中,所述两个高斯函数可以采用最大期望值法确定,再使用所确定两个高斯分布函数,便可以计算得到所述阈值的全局优化数值,即最终得到所述阈值。

在具体实施中,所述阈值与当前待识别的声音对应的噪音频谱特性相关联,也即当噪音频谱性质发生变化时,对应的阈值才会发生变化,而噪音水平的变化并不会引起对应的阈值的变化,从而使得本发明实施例中的语音活动侦测方法可以在噪音水平变化时仍表现出强壮性。

步骤s206:对当前声音帧进行语音识别。

在具体实施中,在当前帧的频谱能量域的香农熵能量大于对应的阈值时,表明当前帧中包括语音信息。此时,可以对当前帧进行语音识别,以识别出具体的语音内容。

在具体实施中,执行完步骤s206之后,可以接着对当前声音帧的下一声音帧从步骤s204开始执行,直至遍历完成所获取的当前待识别的声音数据中的每个声音帧。

在具体实施中,当将上述的语音识别方法应用于移动终端中的总听系统中时,在识别出所获取的声音数据中完整的语音信息时,移动终端可以根据所识别出的语音内容执行相应的操作。例如,当识别出用户输入的语音为“拨打xx的手机”时,移动终端便可以对用户输入的“拨打xx的手机”的语音信息进行识别,并在正确识别后,从自身中获取xx的手机号码的信息,并自动拨打。

这里需要指出的是,当y代表白色噪声时,h(|y(w,t)|2)将达到最大值,即log(ω);当y代表纯音时,h(|y(w,t)|2)将达到最小值,即0。换句话说,h(|y(w,t)|2)的动态变化范围为0至log(ω),且在白色噪声下,不包括语音信息的噪音帧的频谱能量域的香农熵的数值与噪音水平无关,且对应的阈值可以预先估计得到。正是基于这种观察结果,本发明实施例中的语音活动侦测方法非常适宜于白色噪声或者准白色噪声下的语音活动侦测。

下面将对本发明实施例中的语音识别方法对应的装置做进一步详细的介绍。

图3示出了本发明实施例还提供了一种语音活动侦测装置的结构示意图。在具体实施中,如图3所示的语音活动侦测装置300,可以包括傅立叶变换单元301、第一计算单元302、判断单元303和确定单元304,其中:

所述傅立叶变换单元301,适于将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱。

所述第一计算单元302,适于对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量。

在本发明一实施例中,所述第一计算单元302适于采用如下的公式计算遍历至的当前帧的频谱能量域的香农熵能量:

其中,h(|y(w,t)|2)表示当前帧的频谱能量域的香农熵能量,p(|y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。

所述判断单元303,适于判断当前帧的频谱能量域的香农熵能量是否大于预设的阈值。在具体实施中,所述预设的阈值与所述待识别的声音数据对应的噪音的频谱特性相关联,即所述阈值随着待识别的声音数据的噪音频谱特性的变化而变化,但不会随着待识别的声音数据的噪音水平的变化而变化。

所述确定单元304,适于当确定当前帧的频谱能量域的香农熵能量大于所述阈值时,确定当前帧包括语音信息。

在本发明一实施例中,所述语音活动侦测装置300还可以包括第二计算单元305,其中:

所述第二计算单元305,适于基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。

在本发明一实施例中,所述第二计算单元305,适于采用最大期望值法确定对应的两个高斯分布函数。

因相对于仅包括噪音信息的帧的频谱能量域的香农熵能量,包括语音信息的帧的频谱能量域的香农熵能量更具有规律性,本发明实施例中的方案通过将计算得到的多个重叠的帧对应的频谱能量域的香农熵能量分别与预设的阈值进行比较,便可以比较结果确定对应的帧中是否包括语音信息,因而可以提高语音活动侦测的准确性,且相对于建立语音识别的数学模型,频谱能量域的香农熵能量的计算更加简单,因而可以节省计算资源。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1