用于语音活动检测的听觉特征提取方法与流程

文档序号:13007556阅读:368来源:国知局
用于语音活动检测的听觉特征提取方法与流程

本发明涉及到语音识别领域,特别是涉及到一种用于语音活动检测的听觉特征提取方法。



背景技术:

近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。

在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。

噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。

cn103559893a公开了一种水下目标gammachirp倒谱系数听觉特征提取方法,使用gammachirp听觉滤波器组输出形成倒谱系数,给出水下目标的听觉特征矢量,可在复杂海洋环境干扰条件下,提高水下目标信号特征提取的稳健性,从而提高水下目标识别的正确率。

解决远讲情况下的语音识别问题,需要准确地提取出在远讲情况下的听觉特征。然而,cn103559893a提供的方法,其提取的听觉特征仅限于水下环境,并不适用于远讲情况下的语音识别。

现有的还有一种超定向beamforming技术,其采用环形或者线形麦克风阵列,通过一组空域滤波器,定向增强目标声源方向信号。超定向beamforming技术是从采样方面提高声音信号的质量。但是,采用超定向beamforming技术,需要麦克风的数量比较多,并且对麦克风的一致性、麦克风的几何位置的精确度要求很高,增加了硬件上实现的难度和成本,很难在大多数中、低层次产品中集成,应用范围非常局限。



技术实现要素:

本发明的主要目的为提供一种用于语音活动检测的听觉特征提取方法,可在单麦克风体系下,有效地提取在远讲情况下的听觉特征,提高语音识别率。

本发明提出一种用于语音活动检测的听觉特征提取方法,包括以下步骤:

获取声音信号的时域信号;

利用所述时域信号,计算所述声音信号的先验信噪比γ(k)和后验信噪比ε(k),其中,k为频率坐标;

根据所述时域信号、先验信噪比γ(k)和后验信噪比ε(k)计算当前帧的听觉特征,其中,所述听觉特征包括第一维度参数,第二维度参数和第三维度参数;所述第一维度参数与所述先验信噪比γ(k)相关,第二维度参数与所述后验信噪比ε(k)相关,第三维度参数与所述时域信号相关。

优选地,所述第一维度参数以v(1)表示,其可由以下公式求得:

所述第二维度参数以v(2)表示,其可由以下公式求得:

所述第三维度参数以v(3)表示,其可由以下公式求得:

其中,k为频带整体的数量,lw代表窗长,lt代表起始样本点,函数y为时域混合语音数据,j为时间变量。

优选地,所述先验信噪比γ(k)可由以下公式求得:

其中,l为时间帧坐标,y(l,k)为混合语音频谱,φv(k)代表噪音信号的功率谱密度。

优选地,所述后验信噪比ε(k)可由以下公式求得:

其中,β为平滑因子,β为取值范围为0.6~0.9,为估算语音频谱,max函数表示选择两个变量中的最大值。

优选地,β为0.75。

优选地,所述时域信号以y(t)表示,其可由以下公式表示:

其中,x(t)为带混响语音信号,ν(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。

优选地,所述利用所述时域信号,计算所述声音信号的先验信噪比γ(k)和后验信噪比ε(k)之前,还包括,

对语音参数进行初始化,所述语音参数包括噪音功率谱密度φv(k)、观测信号功率谱密度φy(k)、估算语音频谱先验信噪比γ(k)和后验信噪比ε(k),初始化过程如下:

设定前li时间帧没有语音活动,则

γ(k)=1,ε(k)=κ,k=1,2,...,k

其中,k为频带整体的数量,1为时间帧坐标,y(l,k)为混合语音频谱,κ为衰减因子,φv(k)代表噪音信号的功率谱密度,φy(k)代表观测信号的功率谱密度,为估算语音频谱。

优选地,所述对语音参数进行初始化之后,还包括,

根据前一帧的观测信号功率谱密度,平滑得到下一帧的观测信号功率谱密度估计值,所述观测信号功率谱密度估计值可由以下公式求得:

φ′y(k)=αφy(k)+(1-α)|y(l,k)|2

其中,α为平滑因子,取值范围为0.95~0.995。

优选地,所述根据前一帧的观测信号功率谱密度,平滑得到下一帧的观测信号功率谱密度估计值之后,还包括,

计算噪音功率谱自适应更新步长,所述噪音功率谱自适应更新步长可由以下公式求得:

其中,将平滑因子α作为固定步长。

优选地,所述计算噪音功率谱自适应更新步长之后,还包括,

根据所述噪音功率谱自适应更新步长,更新噪音功率谱,所述噪音功率谱可由以下公式求得:

φv(k)=αv(k)φ′v(k)+(1-αv(k))|y(l,k)|2

本发明提出的一种用于语音活动检测的听觉特征提取方法,采用先验信噪比、后验信噪比联合时域信号表征听觉特征,提取的听觉特征可用于与听觉阈值比较,检测实时的语音活动。

附图说明

图1为本发明用于语音活动检测的听觉特征提取方法一实施例的流程示意图;

图2为汉宁窗示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明所指的声音信号,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。

参照图1,本发明提出一种用于语音活动检测的听觉特征提取方法,包括以下步骤:

s10、获取声音信号的时域信号;

s20、利用所述时域信号,计算所述声音信号的先验信噪比γ(k)和后验信噪比ε(k),其中,k为频率坐标;

s30、根据所述时域信号、先验信噪比γ(k)和后验信噪比ε(k)计算当前帧的听觉特征,其中,所述听觉特征包括第一维度参数,第二维度参数和第三维度参数;所述第一维度参数与所述先验信噪比γ(k)相关,第二维度参数与所述后验信噪比ε(k)相关,第三维度参数与所述时域信号相关。

步骤s10中,声音信号是指由声音采集系统获取的混合语音数据,其通常存储于缓冲区。假设混合语音数据为y(t),则其可视为带混响语音信号x(t)和背景噪声v(t)的卷积。混合语音数据为y(t)是声音信号的时域信号的一种。而带混响语音信号x(t)又可视为混响冲击响应信号h(τ)和无混响语音s(t-τ)的卷积。以数学公式可表示为:

以上仅为声音信号的时域信号的一种获取方式,也可通过其他形式获取声音信号的时域信号。

步骤s20中,先验信噪比可由以下公式获得:

其中,1为时间帧坐标,y(l,k)为混合语音频谱,φv(k)代表噪音信号的功率谱密度。

y(l,k)是混合语音数据y(t)经fft变换所获得,具体变换如下:

其中,w(t)为长度512的汉宁窗。汉宁窗的波形如图2所示。

后验信噪比可由以下公式获得:

其中,β为平滑因子,β为取值范围为0.6~0.9,为估算语音频谱,max函数表示选择两个变量中的最大值。在本实施例中优选取值为0.75。

以上只是先验信噪比和后验信噪比的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。

步骤s30中,当前帧的听觉特征包括第一维度参数v(1),第二维度参数v(2)和第三维度参数v(3),存放于缓冲区中。听觉特征以三维度列向量的形式进行计算。当前帧的听觉特征可用以下方式表示:

v(1)可由以下公式求得:

v(2)可由以下公式求得:

v(3)可由以下公式求得:

其中,k为频带整体的数量,lw代表窗长,lt代表起始样本点,函数y为时域混合语音数据,j为时间变量。

以上只是第一维度参数v(1),第二维度参数v(2)和第三维度参数v(3)的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。

以下为听觉特征具体的计算过程。

首先是背景噪音的估计,噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示:

(1)取缓冲区数据,并加窗做fft变换,把时域信号变换到频谱域:

假设混合语音数据为y(t),其中x(t)为带混响语音信号,ν(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。fft变换(傅里叶变换)如下所示:

其中,w(t)为长度512的汉宁窗,l为时间帧坐标,k为频率坐标。

(2)对前li时间帧假设没有语音活动,并做如下初始化:

γ(k)=1,ε(k)=κ,k=1,2,...,k

其中,k代表频带整体的数量,φv(k)代表噪音信号的功率谱密度,φy(k)代表观测信号的功率谱密度,γ(k)为先验信噪比,ε(k)为后验信噪比,为估算语音频谱,初始化为混合频谱的均值乘以一个衰减因子κ,衰减因子取值为0.1。

(3)从第lt+1时间帧开始做迭代计算,计算流程如下所示:

(3.1)更新观测信号功率谱密度估计值,即根据前一帧的结果,平滑得到下一帧的计算结果:

φ′y(k)=αφy(k)+(1-α)|y(l,k)|2

其中,α为平滑因子,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。

(3.2)计算先验信噪比和后验信噪比

其中,β为平滑因子,β为取值范围为0.6~0.9,本实施例优选取值为0.75。max函数表示选择两个变量中的最大值。

(3.3)根据先验、后验信噪比计算噪音功率谱自适应更新步长:

即采用固定步长加上自适应步长的方式,实现整体更新。

(3.4)根据步长,更新噪音功率谱,基本原则是,如果语音越少,则噪音功率谱更新的步长越大,保证噪音估计的准确性;反之,则采用较慢的步长,以避免语音信号参与噪音功率谱的迭代更新:

φv(k)=αv(k)φ′v(k)+(1-αv(k))|y(l,k)|2

上式输出即为噪音功率谱更新结果,用以下一帧的噪音更新和作为参数参与语音检测过程。

在准确估算出背景噪音参数之后,便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后,将当前帧的听觉特征与设定的听觉阈值比较,便可判断当前帧是否出现语音活动。

语音活动检测主要是为了检测出语音活动的区域,在非语音活动区域,停止对语音的优化处理,减少功耗;在语音活动区域,则可减少噪音干扰,提高语音优化的效果。

在提取当前帧的听觉特征之前,有一初始化过程,具体如下:

对特征缓冲矩阵,特征阈值,语音检测结果缓冲区进行初始化,特征缓冲区矩阵由li个3维度列向量构成,以公式表示如下:

q(1:li)=0

θt(1)=fb(1,1)

θt(2)=fb(2,1)

θt(3)=fb(3,1)

其中,fb为听觉特征缓冲区,q为语音活动检测结果缓冲区,θt为听觉特征阈值缓冲区,即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中,lw代表窗长,lt代表起始样本点,起始样本点取值范围通常在5~20之间,本实施例设定为10。

从第lt+1时间帧开始,计算当前帧听觉特征如下所示:

在获得当前帧听觉特征计算结果之后,更新特征缓冲区和特征阈值,使用当前听觉特征与听觉阈值进行对比,根据对比结果确定语音检测的结果。具体如下:

根据当前帧听觉特征计算结果,更新特征缓冲区和特征阈值,即把缓冲区内时间最久的数据踢出缓冲区,把当前帧数据放入缓冲区:

并求取各维度参数对应的听觉阈值:

当前听觉特征与听觉阈值进行对比,根据对比结果确定语音检测的结果,具体计算如下所示:

q(i)为所述听觉特征的维度参数的得分,qframe为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。

更新语音检测结果缓冲区,同样把缓冲区内时间最久的数据踢出缓冲区,加入当前帧判断结果,并计算缓冲区内平均的语音检测结果:

q=[q′(:,2:lb);qframe]

然后,计算语音检测结果缓冲区内检测结果的统计值,在此处采用的是计算检测结果的总和,具体计算如下:

由于语音通常是连续出现的,对比qm与固定阈值δli,如果小于阈值,表明当前缓冲区内语音存在帧为误检,当前缓冲区内没有语音,更新特征阈值并把语音频谱估计结果设为一个极小值,计算如下所示:

同时,更新估算语音频谱计算如下:

δ取值范围为0.1~0.3,本项发明取值为0.15。若无误检,表明当前缓冲区内有语音出现,可对该声音信号继续优化处理。

kalman自适应增强是假定用一个长为lg的前向预测滤波器,对纯净语音频谱进行预测,通常lg<li。在本项发明中,这两个参数分别设置为lg=15,li=25。由于语音信号可以用一个自回归模型来很好的表达,预测的误差可以理解为混响分量。基于最小均方误差准则,滤波器更新的自适应过程如下所示:

在前li帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:

e(k)=0

其中,预测向量方差矩阵pk为维度lg×lg的0矩阵,为预测误差向量gk为维度lg×1的0向量,e(k)为采用当前预测向量获得的预测误差。

从li+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:

(1.1)更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:

其中,为维度lg×lg的单位矩阵矩阵。

(1.2)预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:

e(k)=η|epre|2-(1-η)|epre,o|2

其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。

(1.3)kalman增益计算,更新预测向量,更新过程如下所示:

gk=g′k+kgepre

(1.4)混响功率谱密度更新,更新过程如下所示:

该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数α。φ′r(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。

(1.5)根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:

该频谱估计值既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。

(1.6)循环执行1.1-1.5至所有频带更新完毕,采用逆傅里叶变换恢复时域信号,计算流程如下所示:

恢复出时域信号之后,发送到后续应用终端,比如通讯设备或者语音识别引擎,实现噪声、混响联合抑制。

本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下,用户距离麦克风大约为1米至3米,会受到家庭噪声和墙壁混响的影响,识别率会迅速下降。本发明提出的听觉特征提取方法,可以有效提取获取的语音信号中的听觉特征,监测语音活动,结合相应的除噪音方法,可以减少误识别时间。经实验证明,在距离麦克风2米左右,输入信噪比10db左右,识别率可以从30%提高到65%,当增加噪声至20db,识别率从10%提高至50%左右。

本发明提出的一种用于语音活动检测的听觉特征提取方法,采用先验信噪比、后验信噪比联合时域信号表征听觉特征,提取的听觉特征用于与听觉阈值比较,检测实时的语音活动。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1