一种基于长时帧背景噪声估计的语音情感特征提取方法与流程

文档序号:15097183发布日期:2018-08-04 14:51阅读:225来源:国知局

本发明涉及一种基于长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法,属于语音情感识别技术领域。



背景技术:

随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介,携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景,吸引了越来越多研究机构与研究学者的广泛关注。

在语音情感识别的实际应用过程中,语音信号或多或少都存在着背景噪声的干扰,为了提高语音情感识别的精度和对噪声的鲁棒性,提取噪声鲁棒的语音情感特征显得至关重要。从原始语音数据中减小噪声对语音情感识别的影响,提取有效的情感信息,是提高语音情感识别系统噪声鲁棒性的重点和难点。

作为一种新兴的语音技术,非对称噪声抑制的噪声补偿因其在语音信号噪声处理中的灵活性和有效性,越来越得到研究者的广泛重视。对与提高语音情感特征的噪声鲁棒性问题,在语音进行小波包基分解后的子频带上利用非对称噪声抑制的噪声补偿方法,可以减小背景噪声对于语音情感识别的影响,提高语音情感识别的准确度,对特征能量进行频谱质心加权,进一步增加了提取特征对于噪声的鲁棒性。这种在语音情感特征提取层面,对语音情感特征进行噪声补偿以及对噪声鲁棒性进行加强的处理,在噪声鲁棒的语音情感识别研究中具有重要的意义。



技术实现要素:

技术问题:本发明提供一种能够提高语音情感识别的噪声鲁棒性,在语音情感特征提取层面,对语音情感特征进行噪声补偿以及对其噪声鲁棒性进行加强的处理方法,能够噪声对于语音识别的影响,可以提高语音情感识别的精度和噪声鲁棒性。

技术方案:本发明的一种基于长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法,该方法包括以下步骤:在麦克风里输入语音信号后,

步骤1:对输入的语音信号进行预处理,得到有效语音帧集合;

步骤2:对有效语音帧集合中的各语音帧sk进行小波包分解,得到小波包树并对全体叶节点进行频率排序,得到小波包系数集合其中为最优小波包树,j是语音信号2倍采样的次数,p是小波包节点的序号,表示排序后小波包树的节点序列;

步骤3:计算语音帧sk在各个子频带的能量分量Ei:

步骤4:计算子频带长时帧长能量

其中x表示语音帧序号,i表示子频带序号,参数M=2;

步骤5:利用非对称噪声抑制进行噪声补偿;

步骤6:谱权重平滑化;

步骤7:采用自回归谱估计方法对语音帧sk在各个子频带内的功率谱Pi(f)进行估计;

步骤8:计算语音帧在各子频带内的子带频谱质心Ci;

其中,λ是控制功率谱幅值动态范围的控制因子;

步骤9:由子带频谱质心计算权重wi,i=1,2,…,I:

步骤10:用权重wi,i=1,2,…,I对相应子频带的对数子带能量进行加权,得到加权的子带能量WLi:

WLi=wi·lg(T[x,i])

步骤11:对加权子带能量WLi进行离散余弦变换,得到L阶的子带频谱质心加权的噪声鲁棒的小波包倒谱系数LW-WPCC:

其中l是小波包倒谱系数LW-WPCC的阶次序号;

最后将语音帧的对数能量作为0阶LW-WPCC系数,与所提取的L阶LW-WPCC特征共同构成(L+1)维的特征向量。

进一步地,所述步骤1中的预处理包括如下步骤:

步骤1.1:根据下式对数字语音信号X按下式进行预加重,得到预加重后的语音信号

其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,和分别表示数字语音信号X在第和个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;

步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合所述语音帧集合中第k'个语音帧的第n个离散点的数据为:

其中为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:

表示向下取整;

步骤1.3:对各语音帧1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk'为:

其中xk'(n)、w(n)分别表示xk'、w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:

步骤1.4:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk':

其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:

其中λ为上述符号函数的自变量;

步骤1.5:确定短时能量阈值τE和短时过零率阈值τZ:

其中K'为语音帧总帧数;

步骤1.6:对各加窗语音帧,首先用短时能量作第一级判别,即将短时能量值大于阈值τE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧;

然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧;

将两级判别后得到的有效语音帧集合记为{pk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,pk为有效语音帧集合中的第k个有效语音帧。

进一步地,所述步骤5中,利用非对称噪声抑制进行噪声补偿,具体步骤如下:

步骤5.1:计算的下包络

非对称抑制过程对于任意的输入和任意输出可以写成下式:

其中λa=0.999,λb=0.5;

步骤5.2:对语音帧sk在每个子频带i上都进行滤波变换:

步骤5.2.1:通过ANS过程得到的下包络

其中被初始化为

步骤5.2.2:将进行一个理想的线性半波整流处理,得到

步骤5.2.3:利用ANS过程得到矫正输出的下包络

步骤5.2.4:计算时域掩蔽输出

首先计算每个子频带的实时峰值能量

其中λt是实时峰值遗忘因子,x,i分别为语音帧序号与子频带序号;

然后计算

其中λt=0.85,μt=0.2;

步骤5.2.5:利用步骤5.2.3得到的作为门限值,来限制时域掩蔽输出

步骤5.2.6:计算非对称抑制过程的输出

其中参数c=2;

进一步地,所述步骤6中,谱权重平滑化的具体步骤包括:

步骤6.1:计算时间频率平均转换函数:

其中i2=min(i+N,I),i1=max(i-N,1),I是子频带的总数;

步骤6.2:利用来调制最初的短时帧能量E[x,i]:

其中T[x,i]为结合了短时帧与长时帧语音能量进行时频标准化的值;

进一步地,所述步骤7中,采用自回归谱估计方法估计的步骤具体包括:

步骤7.1:用Burg算法计算自回归模型的阶数D,自回归模型系数和白噪声方差其中r是自回归模型系数的序号;

步骤7.2:计算小波包系数的能量在第i个子频带中主要集中频率区间:

其中fl(i)是第i个子频带中频率区间的下限,是第i个子频带中频率区间的上限,qi=G[pi],G[·]表示Gray编码的逆运算,fs是语音信号的采样频率,ji表示第i个子频带中语音信号2倍采样的次数;

步骤7.3:计算第i个子频带中的功率谱Pi(f):

进一步地,所述步骤2中,对有效语音帧集合中的各语音帧sk进行小波包分解得到小波包系数集合,再利用Fisher比率准则下得到最优小波包树。

有益效果:本发明与现有技术相比,具有以下优点:

在现有的语音情感特征提取方法中,没有对实际应用中存在的背景噪声进行考虑,从而导致实际的语音情感识别应用的效果比实验环境下存在背景噪声的语音情感识别的效果更差。本发明中对语音信号在小波包基分解的频带上,利用非对称噪声抑制对语音信号进行噪声补偿,实质上是考虑了环境噪声相关的能量变化比语音相关的能量变化更缓慢,通过一个非对称的滤波器,获得时变的噪声门限,然后在瞬时能量中减去噪声门限值,从而减弱背景噪声对语音信号的影响。

子带频谱质心对噪声的敏感度比较低,因此其具有较高的噪声鲁棒性。子带频谱质心反映了子频带中信号能量的分布情况,因而与表征信号的频带能量大小的倒谱特征具有很好的互补性。因此在后续的语音情感特征的提取过程中,本专利利用了子带频谱质心对噪声的低敏感性,以及较高的噪声鲁棒性,通过一定的策略将两者加以结合,构建了一种新的噪声鲁棒的语音情感特征。

本方法在语音情感特征的提取过程中,在小波包基分解的基础上,对子频带进行非对称噪声抑制,从而进行背景噪声的补偿,然后对噪声补偿之后的特征能量进行频谱质心加权处理,进一步增加了特征的语音情感识别能力以及其噪声鲁棒性,减小了背景噪声对语音情感识别的影响,提高了实际应用过程中语音情感识别的准确度以及稳定性,比其他的语音情感特征具有更好的分类效果。

附图说明

图1为本发明的非对称噪声抑制与暂态掩蔽流程图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

本发明的一种基于长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法,其特征在于,该方法包括以下步骤:

步骤1:对输入的语音信号进行预处理,得到有效语音帧集合;

其中预处理具体包括如下步骤:

步骤1.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号

其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,和分别表示数字语音信号X在第和个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;

步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合

其中为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:

表示向下取整;

步骤1.3:对各语音帧选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk'为:

其中xk'(n)、w(n)分别表示xk'、w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:

后续采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:

步骤1.4:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk':

其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:

步骤1.5:确定短时能量阈值tE和短时过零率阈值tZ:

其中K'为语音帧总帧数;

步骤1.6:对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。

步骤2:对有效语音帧集合中的各语音帧sk进行小波包分解,得到小波包树并对小波包树的全体叶节点进行频率排序,得到小波包系数集合其中为最优小波包树,j是语音信号2倍采样的次数,p是小波包节点的序号,表示排序后小波包树的节点序列;

步骤3:计算语音帧sk在各个子频带的能量分量Ei:

步骤4:计算子频带长时帧长能量

其中x表示语音帧序号,i表示子频带序号,参数M=2。

步骤5:利用非对称噪声抑制进行噪声补偿,步骤如下:

步骤5.1:计算的下包络

非对称抑制过程对于任意的输入和任意输出可以写成下式:

其中λa=0.999,λb=0.5;

步骤5.2:对语音帧sk在每个子频带i上都进行滤波变换:

步骤5.2.1:通过ANS过程得到的下包络

其中被初始化为

步骤5.2.2:将进行一个理想的线性半波整流处理,得到

步骤5.2.3:利用ANS过程得到矫正输出的下包络

步骤5.2.4:计算时域掩蔽输出

首先计算每个子频带的实时峰值能量

其中λt是实时峰值遗忘因子,x,i分别为语音帧序号与子频带序号;

然后计算

其中λt=0.85,μt=0.2;

步骤5.2.5:利用步骤5.2.3得到的作为门限值,来限制时域掩蔽输出

步骤5.2.6:计算非对称抑制过程的输出

其中参数c=2。

步骤6:谱权重平滑化

步骤6.1:计算时间频率平均转换函数:

其中i2=min(i+N,I),i1=max(i-N,1),I是子频带的总数。

步骤6.2:利用来调制最初的短时帧能量E[x,i]:

其中T[x,i]为结合了短时帧与长时帧语音能量进行时频标准化的值。

步骤7:采用自回归谱估计方法对语音帧sk在各个子频带内的功率谱Pi(f)进行估计:

步骤7.1:用Burg算法计算自回归模型的阶数D,自回归模型系数和白噪声方差其中r是自回归模型系数的序号;

步骤7.2:计算小波包系数的能量在第i个子频带中主要集中频率区间:

其中是第i个子频带中频率区间的下限,是第i个子频带中频率区间的上限,qi=G[pi],G[·]表示Gray编码的逆运算,fs是语音信号的采样频率,ji表示第i个子频带中语音信号2倍采样的次数;

步骤7.3:计算第i个子频带中的功率谱Pi(f):

步骤8:计算语音帧在各子频带内的子带频谱质心Ci。

其中,λ是控制功率谱幅值动态范围的控制因子;

步骤9:由子带频谱质心计算权重wi,i=1,2,…,I:

步骤10:用权重wi,i=1,2,…,I对相应子频带的对数子带能量进行加权,得到加权的子带能量WLi:

WLi=wi·lg(T[x,i])

步骤11:对加权子带能量WLi进行离散余弦变换,得到L阶的子带频谱质心加权的噪声鲁棒的小波包倒谱系数LW-WPCC:

其中l是小波包倒谱系数LW-WPCC的阶次序号;

最后将语音帧的对数能量作为0阶LW-WPCC系数,与所提取的L阶LW-WPCC特征共同构成(L+1)维的特征向量。

上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1