基于改进的Mel频率尺度和相位修正的耳语音增强算法的制作方法

文档序号：17593406发布日期：2019-05-03 22:07阅读：423来源：国知局

本发明涉及mel频率尺度与耳语音增强算法领域，特别涉及基于改进的mel频率尺度和相位修正的耳语音增强算法。

背景技术：

耳语音是人类交流过程中一种自然但又特殊的语言形式。耳语被定义为轻声说话但声带不振动以避免被偷听到的讲话方式。在许多公共场所，用耳语音进行交流是非常有必要的，如图书馆或会议厅等。

耳语音的发声机制与正常语音不同。第一个不同之处在于，当耳语音发音时，声带没有振动，这点与噪声激励有点相似。第二个区别是气管和声道由于声带打开而耦合。正是由于这两个特点，尤其在嘈杂的环境中耳语音比正常语音更难检测。与正常语音相比，耳语音的第一共振峰频率向更高频率移动。同时，根据sahar和john的研究表明，人耳对耳语音的敏感区域在第二共振峰频率附近，而不是在第一共振峰频率附近。

目前，耳语音在国内外是比较新的研究课题，还处于研究初期。考虑到耳语音和正常语音之间声学特性的差异，常规的语音增强方法并不适用于耳语音增强。但是，在一定程度上，可以在语音增强算法的基础上对耳语音增强有一定的理论帮助。

众所周知，人耳感知的灵敏度在频谱中是呈非线性变化的。从fletcher的实验研究中可以得出结论，外围听觉系统的行为好像包含一组带通滤波器，具有重叠的通带。人耳基底膜上的每个位置对有限的频率范围做出响应，因此每个不同点对应于具有不同中心频率的滤波器。因此，临界频带的概念对于描述听觉感知具有重要意义。虽然mel频率映射函数在正常语音增强中是有效的，但是它并不适合于耳语音增强。从以下方面可以看出(如图1)：(1)由于正常语音的第一共振峰在能量集中区域附近，所以mel频带划分时，特别关注正常语音第一共振峰区域，并且给予了较大的权重。然而对于耳语音而言，其第一共振峰比正常语音向上偏移1.3倍，这可能导致在非共振峰频段中的权重更大而在共振峰频段中的权重较小，从而影响耳语音增强性能。(2)对于正常语音而言，人耳的敏感区域在第一共振峰附近，并且第一共振峰的位置也是能量集中的区域，所以mel频率尺度频带的划分加重了f1区域的权重。然而，耳语音并非如此。根据徐柏龄等人的研究，耳语音中的第二共振峰的能量有时会大于第一共振峰。同时，根据sahar和john的实验结果，人耳对耳语音敏感区域在第二共振峰附近。因此，通过普通传统的正常语音mel频率尺度划分加重第一共振峰的方法与实际人耳的听觉模型不一致。(3)由于对数曲线的特性，当线性频率f转换为mel频率mel(f)时，随着线性频率f的增加，mel(f)在低频部分增长较快，放置的频段较多，权值较大，而高频部分增长较慢，频段较少，权值较小。对于耳语音，由于它没有基频，并且第一共振峰向上偏移，所以低于500hz的耳语音能量较小。这些低频滤波器得到的功率谱主要是噪声信号的频谱，这将会影响耳语音增强的效果。

所以需要基于改进的mel频率尺度多带谱减法与修正相位谱结合产生修正后的复频谱来增强语音。为了评估提出算法的性能，采用客观评价和主观评价，来评价增强后耳语音的质量。

技术实现要素：

为了解决上述问题，本发明提供了基于改进的mel频率尺度和相位修正的耳语音增强算法，根据耳语音的特点，对正常语音的标准mel频带进行了重新划分，该算法针对耳语音共振峰特征，在多带谱减法中引入了改进的mel频率尺度，并对逆短时傅里叶变换(istft)过程中的相位谱进行了修正。

为了实现上述目的，本发明的技术方案为：

基于改进的mel频率尺度和相位修正的耳语音增强算法：

根据耳语音的特点，对正常语音的标准mel频带进行了重新划分，在研究耳语音的共振峰频率和能量以及耳语音听觉模型的基础上，提出了一种其改进的mel频率尺度(称为mel_m尺度)，在此基础上，对mel_m尺度进行了改进并针对耳语音提出了一种新的尺度划分方法，称为mel_improved尺度；

首先，假设线性频率从500hz开始映射，则mel_m频率映射可以设置如下：

mel_m(f^whispered)＝c·log10(1+f^whispered/q)f^whispered≥500hz(1)

其次，由于耳语音的第一共振峰比正常语音向上偏移1.3倍，因此可以认为在第一共振峰f1附近存在以下公式：

f^whispered＝1.3·f^normal(2)

结合公式(1)，公式(2)和可以得到以下结果：

因此，线性频率与mel_m频率之间的映射关系如下：

mel_m(f^whispered)＝2932·log10(1+f^whispered/910)f^whispered≥500hz(4)

与正常语音的标准mel频率映射相比，mel_m尺度有少量的修改，其更适合于处理正常语音。

对本发明进一步的描述：

mel_m尺度可以解决耳语音中第一共振峰f1偏移的问题，但是仍存在人耳敏感区从f1向f2偏移的问题，这是由公式(1)引起的，因为它仍是一个对数函数，对数曲线的特点是低频权重大，高频权重小，根据耳语音的感知特性，需要使用频率映射函数来抑制高、低频，增强中间频率，通常，考虑到耳语音的第二共振峰的频率范围约为1500-2500hz，则两者频率的映射如下：

最后，为了满足映射函数的连续性及对第二共振峰频率权值的加重，mel_improved尺度的频率映射公式是：

与标准mel频率尺度相比，mel_m尺度提高了第一共振峰偏移的权重，并且改进的mel_improved尺度映射对第二共振峰权值的加重明显优于前两种类型。

对本发明进一步的描述：

在计算补偿相位谱时，第一步是利用加性的实数与频率相关的补偿函数对含噪耳语音的复频谱进行补偿：

yγ(n,k)＝y(n,k)+γ(n,k)(7)

其中，相位谱补偿函数γ(n,k)由以下给出：

其中，γ(n,k)应是关于f/2(采样率的一半)的反对称函数，以此来实现消除效果，λ是一个实数，其是由经验所确定的常数，φ(k)是反对称函数。

对本发明进一步的描述：

时不变反对称函数由下式给出：

其中，对应于dstf的非共轭向量的值是零加权的，由于噪声幅度估计是对称的，所以乘以时不变的反对称函数φ(k)得到一个反对称函数。

与现有技术相比，本发明的有益效果：通过改进mel频率尺度，将谱减后的耳语音频谱与改变后的相位谱相结合来合成新的增强后的耳语音信号。其中，补偿相位中的噪声估计值是通过使用补偿相位来获得初级增强耳语音信号，然后从含噪的耳语音频谱中减去噪声估计值来获得新的噪声估计谱。语谱图、客观评价和主观听力测试的实验结果表明，提出的耳语音增强算法优于同类可比较的其他耳语音增强算法。

附图说明

图1是本发明的线性频率与标准mel频率尺度的映射关系图。

图2是本发明的mel频率尺度与线性频率的三种映射关系。

图3是本发明在修正相位过程中改进的噪声估计的流程图。

图4是本发明提出算法的结构框图。

图5是本发明的语谱图。

图6是本发明的不同噪声类型和输入信噪比。

图7是本发明的残余噪声的独立测试。

图8是本发明的耳语音失真的独立测试。

具体实施方式

下面将对本发明实施例中的技术方案结合附图进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图2所示，根据耳语音的特点，对正常语音的标准mel频带进行了重新划分。徐柏龄等人在研究耳语音的共振峰频率和能量以及耳语音听觉模型的基础上，提出了一种其改进的mel频率尺度(称为mel_m尺度)。在此基础上，本文对mel_m尺度进行了改进并针对耳语音提出了一种新的尺度划分方法，称为mel_improved尺度。

首先，假设线性频率从500hz开始映射，则mel_m频率映射可以设置如下：

mel_m(f^whispered)＝c·log10(1+f^whispered/q)f^whispered≥500hz(1)

其次，由于耳语音的第一共振峰比正常语音向上偏移1.3倍，因此可以认为在第一共振峰f1附近存在以下公式：

f^whispered＝1.3·f^normal(2)

结合公式(4)，公式(5)和可以得到以下结果：

因此，线性频率与mel_m频率之间的映射关系如下：

mel_m(f^whispered)＝2932·log10(1+f^whispered/910)f^whispered≥500hz(4)

与正常语音的标准mel频率映射相比，mel_m尺度有少量的修改，其更适合于处理正常语音。

另外，mel_m尺度可以解决耳语音中第一共振峰f1偏移的问题，但是仍存在人耳敏感区从f1向f2偏移的问题。这是由公式(1)引起的，因为它仍是一个对数函数。对数曲线的特点是低频权重大，高频权重小。根据耳语音的感知特性，需要使用频率映射函数来抑制高、低频，增强中间频率。通常，考虑到耳语音的第二共振峰的频率范围约为1500-2500hz，则两者频率的映射如下：

最后，为了满足映射函数的连续性及对第二共振峰频率权值的加重，mel_improved尺度的频率映射公式是：

从上到下，分别是标准mel频率尺度、mel_m尺度和提出的mel_improved尺度。从图中可以看出，与标准mel频率尺度相比，mel_m尺度提高了第一共振峰偏移的权重，并且改进的mel_improved尺度映射对第二共振峰权值的加重明显优于前两种类型。

如图3所示，将一个改变的相位谱与经过谱减处理后的幅度谱相结合，得到了一种新的复频谱。这种改进的相位谱是基于语音处理中分析-修改-合成(ams)框架。在ams框架的分析阶段，含噪耳语音信号是一个实数信号，因此其离散短时傅里叶变换(dstft)是共轭对称的，即y(n,k)＝y^*(n,n-k)。本文通过改变共轭对称复频谱的角度关系来控制增强或消除的程度。因此，为此使用了反对称函数。根据噪声谱估计的幅度，确定相位谱补偿的程度，从而更好地适应噪声环境的变化。改变后的短时相位谱计算如下。在计算补偿相位谱时，第一步是利用加性的实数与频率相关的补偿函数对含噪耳语音的复频谱进行补偿。

yγ(n,k)＝y(n,k)+γ(n,k)(7)

其中，相位谱补偿函数γ(n,k)由以下给出：

其中，γ(n,k)应是关于f/2(采样率的一半)的反对称函数，以此来实现消除效果。kamil等人提出的λ是一个实数，其是由经验所确定的常数，φ(k)是反对称函数，是与kamil提出的补偿相位中的噪声估计参数不同，同时，时不变反对称函数由下式给出：

其中，对应于dstf的非共轭向量的值是零加权的。由于噪声幅度估计是对称的，所以乘以时不变的反对称函数φ(k)得到一个反对称函数。这种反对称性构成了耳语音合成期间噪声消除的主要基础。其中，ym(n)是第m帧的带噪耳语音信号，|s′m(n,k)|是经过初次谱减后的耳语音幅度谱。∠yλ(n,k)是采用kamil提出的方法所获得的相位角。z(n)是将kamil中的相位与经过谱减后的耳语音幅度谱相结合得到时域初次增强后的耳语音信号。在本文中是提出的补偿相位中新的噪声估计参数。

然后，通过计算公式(10)的相位角来获得补偿的相位谱：

∠yγ(n,k)＝arg[yγ(n,k)](10)

其中arg表示求复数相位角的函数。注意，补偿相位谱可能不具有真相位谱的性质。将补偿后的相位谱与谱减后的耳语音幅度谱进行结合，得到增强后改进的复频谱。

在该方法中，最后会将虚部丢弃。通过叠加过程产生增强的耳语音信号。使用补偿相位谱与谱减后的耳语音谱相结合，而并非与含噪耳语音的幅度谱相结合。

将整个耳语音频谱分为15个互不重叠且非均匀临界频带。所提出算法的流程图如图4所示。在框图中，ym(n)是第m帧的含噪耳语音信号，phase′是修正相位，是增强后的耳语音信号。在修正相位过程中，改进了相位谱补偿函数γ(n,k)中的噪声估计参数，这不同于kamil提出的相位谱补偿函数中的噪声估计值。该算法主要包括以下几个步骤：

(1)频谱分解；

(2)根据mel_improved尺度进行子带划分；

(3)计算修正的相位谱；

1)根据图3的流程图得到的改进后的噪声估计值；

2)相位谱补偿函数γ(n,k)的计算；

3)根据公式(13)求出补偿相位谱的相位角；

(4)通过结合改变的相位谱获得最终增强后的耳语音信号。

如图5所示，耳语音没有基音频率，这是与正常语音最大的区别。与其他两种算法相比，该算法中的残余噪声得到了较好的抑制，而其他两种算法仍然存在明显的残余噪声。因此，用该算法增强后的耳语音听起来会更加的舒适，同时残留的噪声和耳语音失真程度是可以接受的。其中，(a)纯净耳语音；(b)含噪耳语音：高斯白噪声信噪比为0db；(c)基于标准mel频率尺度的多带谱减法；(d)徐柏龄提出的mel_m尺度的多带谱减法；(e)本文提出的算法。

如图6所示，为了评价这三种算法的性能，信噪比提高通常是最常用的客观评价之一，该公式表示为：

其中，m是帧数，l是每帧中的样本数。不同噪声类型和不同输入信噪比下信噪比提高情况。

其中，(a)高斯白噪声；(b)汽车噪声；(c)汽车噪声；(d)飞机场噪声；(e)babble噪声。从图6还可以看出，根据输入与输出信噪比之间的差值给出的信噪比提高方面的性能比较。pwse算法在信噪比非常低的环境下取得了最好的效果。这说明该算法能有效地去除背景噪声，并保留耳语音成份，这主要归因于改进的mel频率尺度与修正相位谱相结合。对于高斯白噪声和汽车噪声，结果均优于其他噪声类型，高斯白噪声和汽车噪声相对稳定的，因此可以认为这是一种合理的现象。在耳语音合成过程中，对平稳噪声进行补偿相位噪声估计，可以得到较好的结果。总得来说，pwse算法的效果优于其他两种算法。

如图7、图8所示，为了验证语谱图和客观性能评价，对三种算法在不同信噪比下的情况下，对高斯白噪声和babble噪声进行了非正式听力测试。听众在实验过程中使用耳机。

采用平均意见评分(mos)来评估耳语音增强算法对残余噪声和耳语音失真这两个方面的影响。在mos测试过程中，听众使用1到5之间的数字对测试信号的质量进行评级(1＝令人讨厌，2＝令人烦恼但不令人讨厌，3＝稍微令人烦恼，4＝仅仅可感知到但不令人烦恼，5＝不可感知)。

mos测试包括两个阶段：训练阶段和评估阶段：

1)训练阶段：纯净耳语音和含噪耳语音被重复播放两次。使得听众有个整体感。然后，再次播放纯净耳语音、含噪耳语音和三个测试信号(由三个耳语音增强算法获得)并重复两次。

2)评价阶段：播放三个测试信号并重复三次。听众将从两个方面进行打分，包括残余噪声和耳语音失真。

耳语音材料以随机顺序呈现给听众。此外，为了避免听力疲劳，测试过程没有中断时间不超过20分钟。

在图7中，pwse算法对于残余噪声干扰获得了最好的结果，而另外两种算法则获得了较差的结果。这是由于根据耳语音的特点对mel频率尺度进行改进以及对相位谱进行补偿，使得修正后的频谱低能量分量抵消多于高能量分量，从而使得背景噪声的减少。

同样地，从图8中可以看出，pwse算法获得了耳语音失真的最佳结果。同时。高斯白噪声比babble噪声具有更好的效果。这是因为高斯白噪声相对稳定，而且噪声估计值比babble噪声更加精确。但是，对于babble噪声来说，本文提出的算法仍然优于其他两种可比较的算法，这也与客观评价所得到的结果相一致。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其它的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晨;韦怡;曾毓敏;李天峰
技术所有人：南京师范大学
我是此专利的发明人

上一篇：一种三轴式LED灯管安装装置及安装方法与流程
上一篇：一种用于色选机灯箱的灯管装置的制作方法