改进的语音可懂度的制作方法

文档序号：12485347阅读：277来源：国知局

本发明涉及一种包括处理器和存储器的装置。

背景技术：

在移动装置中，降噪技术大大改进音频质量。为改进在嘈杂环境中的语音可懂度，对于耳机，主动噪声消除(ANC)是有吸引力的提议并且ANC的确在某种程度改进在嘈杂环境中的音频再现。然而，当移动电话在没有ANC耳机的情况下使用时，ANC方法很少或没有益处。此外，ANC方法在可被消除的频率上受到限制。

然而，在嘈杂环境中，难以消除所有噪声分量。为了在存在噪声的情况下使语音信号更可懂，ANC方法不对语音信号进行操作。

语音可懂度可通过提升共振峰来改善。共振峰提升可使用大约表示，通过增加匹配共振峰的共振获得。接着共振可以出自线性预测编码(LPC)系数的参数形式获得。然而，共振意味着使用计算上昂贵的多项式求根算法。为降低计算复杂度，这些共振可通过线谱对表示法(LSP)来操控。增强共振主要在于使自回归传递函数的极点更接近单位圆移动。这种解决方案还遇到相互作用的问题，其中由于彼此接近的共振相互作用，所以它们难以单独操控。因此，需要可计算上昂贵的迭代方法。但是即使小心进行，增强共振使其带宽变窄，这产生人工发声的语音。

技术实现要素：

提供此发明内容以简化形式介绍在下文的具体实施方式中另外描述的概念选择。该发明内容不旨在识别所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。

本文中所描述的实施例解决在存在独立噪声源的情况下改进待再现的语音信号的可懂度的问题。举例来说，位于嘈杂环境中的用户正在通过电话收听对话者。在其中不可能对噪声操作情况下，语音信号可被改进以使其在存在噪声的情况下更可懂。

本文公开了一种包括处理器和存储器的装置。存储器包括从采样的环境噪声计算噪声频谱估值的噪声频谱估计器、从输入语音计算语音频谱估值的语音频谱估计器、使用在输入语音中所检测到的每个共振峰内的噪声频谱估值和语音频谱估值计算SNR估值的共振峰信噪比(SNR)估计器以及共振峰提升估计器，其计算一组增益因数并将该组增益因数应用到输入语音的每个频率分量，使得在每个共振峰内的所得SNR达到预选的目标值。

在一些实施例中，噪声频谱估计器被配置成通过使用通过采样环境噪声的离散傅里叶变换获得的平滑参数和过去频谱幅度值求平均值计算噪声频谱估值。在一个例子中，语音频谱估计器被配置成使用低阶线性预测滤波器计算语音频谱估值。低阶线性预测滤波器可使用莱文森-德宾(Levinson-Durbin)算法。

在一个例子中，共振峰SNR估计器被配置成使用在中心定在共振峰中心频率上的关键波段上的语音与噪声频谱幅度估值平方的总和的比率计算共振峰SNR估值。关键波段是听觉滤波器的频率带宽。

在一些例子中，该组增益因数通过在输入语音中的每个共振峰分段乘以预选因数计算。

在一个实施例中，该装置还可包括输出限制混频器，以将通过共振峰提升估计器形成的滤波器的输出限制为预选的最大均方根水平或峰值水平。共振峰提升估计器产生过滤输入语音的滤波器，并且与输入语音组合的滤波器的输出穿过输出限制混频器。在语音输入中的每个共振峰通过共振峰分段模块检测，其中共振峰分段模块将语音频谱估值分割成多个共振峰。

在另一个实施例中，公开了一种用于执行改进语音可懂度的操作方法。此外，公开了一种对应的计算机程序产品。所述操作包括接收输入语音信号、接收采样环境噪声、从采样环境噪声计算噪声频谱估值、从输入语音计算语音频谱估值、从这些估值计算共振峰信噪比(SNR)、分割在语音频谱估值中的共振峰并基于计算的共振峰提升估值计算用于共振峰中的每个共振峰的共振峰提升因数。

在一些例子中，噪声频谱估值的计算包括通过使用通过采样环境噪声的离散傅里叶变换获得的平滑参数和过去频谱幅度值求平均值。噪声频谱估值的计算还可包括使用低阶线性预测滤波器。低阶线性预测滤波器可使用莱文森-德宾算法。

附图说明

为了可详细地理解本发明的上述特征的方式，可通过参考实施例添加上文简要地概括的本发明的更特定描述，所述实施例中的一些实施例在附图中示出。然而，应注意，附图仅示出本发明的典型实施例，且因此不应被视为限制本发明的范围，因为本发明可准许其它同样有效的实施例。对于结合附图阅读本说明书的本领域的技术人员而言，所要求保护的主题的优点将变得显而易见，其中相同的附图标号已用于指代相同的元件，其中：

图1是根据本公开的一或多个实施例的装置的一部分的示意图；

图2是根据本公开的一或多个实施例的装置的存储器的一部分的逻辑描述；

图3描绘根据本公开的一或多个实施例的装置的各模块之间的相互作用；

图4示出了根据本公开的更多实施例中的一个实施例的共振峰分段模块的操作；以及

图5示出了根据本公开的更多实施例中的一个实施例的共振峰提升估算模块的操作。

具体实施方式

当用户在嘈杂场所中接收移动电话呼叫或收听从电子装置输出的声音时，语音变得不可懂。本公开的各种实施例通过改善语音可懂度和再现质量提高用户体验。本文中所描述的实施例可用于包括语音再现的移动装置和其它电子装置中，诸如包括声音方向的GPS接收器、收音机、音频书、播客等。

声道在被称作共振峰的语音信号-频谱峰值中的特定频率产生共振，其被听觉系统使用以在元音之间区分。然后，在可懂度中的重要因素是频谱对比：在频谱峰值和频谱谷值之间的能量差异。本文中所描述的实施例改进输入语音信号在噪声中的可懂度同时保持其自然度。在本文中所描述的方法仅适用于有声分段。背后的主要推理在于单独频谱峰值应以所解遮蔽特定水平而不是频谱谷值为目标。谷值可得到提升，因为解遮蔽增益被应用于其环绕峰值，但是所述方法不应尝试专门解遮蔽谷值(否则，共振峰结构可被破坏)。此外，不管噪声如何，本文中所描述的方法增加频谱对比，这已被证明改进可懂度。本文中所描述的实施例可用于静态模式而与噪声采样无任何相关性，以根据预定义提升策略改善频谱对比。另选地，噪声采样可用于改进语音可懂度。

本文所述的一或多个实施例提供低复杂度无失真的解决方案，其允许频谱解遮蔽在噪声中再现的有声语音分段。这些实施例适用于实时应用，诸如电话对话。

为解遮蔽关于噪声特性的在嘈杂环境中再现的语音，可使用时域或频域方法的任一个。时域方法遇到噪声的频谱特性的不良适应性。频域方法依赖于允许独立放大频率分量的的语音和噪声两者频域表示法，由此定向特定频谱信噪比(SNR)。然而，共同困难是语音频谱结构失真的风险-即，涉及获得允许小心操作此类修改的语音表示法的语音共振峰和计算复杂度。

图1是无线通信装置100的示意图。如上所述，本文中所描述的实施例的应用不限于无线通信装置。再现语音的任何装置可得益于由本文所述的一或多个实施例所产生的改进的语音可懂度。无线通信装置100仅作为例子使用。以免混淆本文中所描述的实施例，无线通信装置100的许多部件未示出。无线通信装置100可为移动电话或能够与另一个通信装置建立音频/视频通信链路的任何移动装置。无线通信装置100包括处理器102、存储器104、收发器114和天线112。应注意，如图所示的天线112仅为图示。天线112可为内部天线或外部天线且可为与所示不同的形状。此外，在一些实施例中，可存在多个天线。收发器114包括在单个半导体芯片中的发射器和接收器。在一些实施例中，发射器和接收器可彼此分开实现。处理器102包括合适的逻辑和编程指令(可存储在存储器104中和/或处理器102的内部存储器中)以处理通信信号并控制无线通信装置100的至少一些处理模块。处理器102被配置成读取/写入并操控存储器104的内容。无线通信装置100还包括一或多个麦克风108和(一或多个)扬声器和/或(一或多个)扩音器110。在一些实施例中，麦克风108和扩音器110可经由标准接口技术诸如蓝牙耦接至无线通信装置100的外部部件。

无线通信装置100还包括编解码器106。编解码器106包括音频解码器和音频编码器。音频解码器解码从收发器114的接收器接收到的信号并且音频编码器编码用于由收发器114的发射器发射的音频信号。在上行链路上，从麦克风108接收的音频信号由出话语音处理模块120处理用于音频改善。在下行链路上，从编解码器106接收到的解码的音频信号由来话语音处理模块122处理用于音频改善。在一些实施例中，编解码器106可为软件实现的编解码器并且可驻留在存储器104中并由处理器102执行。编解码器106可包括合适逻辑以处理音频信号。编解码器106可被配置成处理通常用于移动电话的在不同采样率的数字信号。来话语音处理模块122，(所述来话语音处理模块122的至少一部分可驻留在存储器104中)，被配置成使用如在以下段落中描述的提升模式改善语音。在一些实施例中，在下行链路中的音频改善处理也可使用在本文的以下章节中描述的其它处理模块。

在一个实施例中，出话语音处理模块120使用降噪、回波消除和自动增益控制改善上行链路语音。在一些实施例中，噪声估值(如下所述)可以借助于降噪和回波消除算法获得。

图2为所述无线通信装置100的存储器104的一部分的逻辑描述。应注意，在图2所描绘的处理模块中的至少一些还可在硬件中实现。在一个实施例中，存储器104包括编程指令，当所述编程指令由处理器102实行时，形成噪声频谱估计器150以执行噪声频谱估计，语音频谱估计器158用于计算语音频谱估值，共振峰信噪比(SNR)估计器154用于形成SNR估值，共振峰分段模块156用于将语音频谱估值分割成共振峰(声道共振)，共振峰提升估计器形成应用到输入语音的每个频率分量的一组增益因数，输出限制混频器118用于查找应用到输入信号和输出信号之间的差值的时变混合因数。

噪声频谱密度是每单位带宽的噪声功率；也就是说，噪声频谱密度是噪声的功率谱密度。噪声频谱估计器150通过使用平滑参数和过去频谱幅度值(举例来说，使用采样环境噪声的离散傅里叶变换获得的)求平均值产生噪声频谱估值。平滑参数可以是时变频率相关的。在一个例子中，在电话呼叫的情形中，近端语音不应是噪声估值的一部分，并因此所述平滑参数通过近端语音存在概率调节。

语音频谱估计器158借助于低阶线性预测滤波器(即，自回归模型)产生语音频谱估值。在一些实施例中，此类滤波器可以使用莱文森-德宾算法计算。然后通过计算该自回归滤波器的频率响应获得频谱估值。莱文森-德宾算法使用自相关法估计一段语音的线性预测参数。线性预测编码(也被称作线性预测分析(LPA))用于以相对较少的参数表示一段语音的波谱的形状。

共振峰SNR估计器154在语音波谱中检测的每个共振峰内产生SNR估值。为了这样做，共振峰SNR估计器154使用来自噪声频谱估计器150和语音频谱估计器158的语音和噪声频谱估值。在一个实施例中，与每个共振峰相关联的SNR被计算为在中心被定在共振峰中心频率上的关键波段上的语音与噪声频谱幅度估值平方的总和的比率。

在听力学和心理声学中，术语“关键波段”是指由在内耳内的耳蜗、听觉的感测器官所形成的“听觉滤波器”的频率带宽。关键波段大约是在该波段内通过听觉掩蔽第二音调将干扰第一音调的感知的音频频率的波段。滤波器是提升某些频率并衰减其它频率的装置。具体而言，带通滤波器允许在带宽内的频率范围穿过而阻止在截断频率之外的频率范围。术语“关键波段”在Moore B.C.J.的“听觉心理学的介绍(An Introduction to the Psychology of Hearing)”中论述，该文献以引用的方式并入本文中。

共振峰分段模块156将语音频谱估值分割为共振峰(例如，声道共振)。在一些实施例中，共振峰被定义为在两个局部最小值(谷值)之间的光谱范围，并因此该模块检测在语音频谱估值中的所有频谱谷值。每个共振峰的中心频率也通过此模块计算为在所述共振峰频谱范围(即，在两个周围的谷值之间)中的最大频谱幅值。然后该模块基于检测的共振峰分段归一化语音波谱。

共振峰提升估计器152产生应用在输入语音的每个频率分量的一组增益因数，以便在每个共振峰内的所得SNR(如上文所论述)达到特定目标或预选目标。这些增益因数通过每个共振峰分段乘以特定或预选因数获得，以确保达到在所述分段内的目标SNR。

输出限制混频器118查找应用到在输入信号和输出信号之间的差值的时变混合因数，以便在与输入信号混合时，最大允许动态范围或均方根(RMS)水平未超出。因此，当输入信号已达到所述最大动态范围RMS水平时，混合因数等于零并且输出等于输入。另一方面，在输出信号未超出最大动态范围或RMS水平时，混合因数等于1，并且输出信号不衰减。

将语音的每个频谱分量独立提升到特定频谱信噪比(SNR)的目标根据噪声引起成形语音。只要频率分辨率低(即，所述频率跨越超过单个语音频谱峰值)，将峰值和谷值同样地处理为给定输出SNR的目标产生可接受的结果。然而，在更精细分辨率的情况下，输出语音可能是高度失真的。噪声可快速波动并且噪声估值可能是不完美的。此外，噪声和语音可能不来自相同的空间位置。因此，收听者可认知地区分语音和噪声。甚至在存在噪声的情况下，可察觉出语音失真，因为所述失真不被噪声完全遮蔽。

此类失真的一个例子是当噪声恰好在频谱语音谷值中存在时：对应于该谷值的所述频率分量的水平的直式调节增加它们的SNR将感知调低其周围的峰值(即，然后频谱对比度下降)。更合理的技术将是提升两个周围的峰值，因为噪声存在于峰值的附近。

共振峰提升通常使用适当的表示法，通过增加匹配共振峰的共振获得。共振可以出自LPC系数的参数形式获得。然而，这意味着使用计算上昂贵的多项式求根算法。应急措施通过线谱对表示法(LSP)操控这些共振。增强共振包括使自回归传递函数的极点移动成更接近单位圆。这种解决方案还遇到相互作用的问题，其中由于彼此接近的共振相互作用，所以它们难以单独操控。因此，解决方案需要计算上昂贵的迭代方法。增强共振还使它们的带宽变窄，这产生人工发声的语音。

图3描绘在装置100的各模块之间的相互作用。基于帧的处理方案同步用于噪声和语音两者。首先，在步骤202和208，计算采样环境噪声和语音输入帧的功率谱密度(PSD)。如上文所解释，目的中的一个是仅改进频谱峰值周围的SNR。换句话说，频率分量越接近去掩蔽的共振峰的峰值，对去掩蔽该共振峰的贡献应该越大。其结果是，在频谱谷值中的频率分量的贡献应该是极小的。在步骤210，执行共振峰分段的过程。应注意，采样环境噪声是环境噪声而不是输入语音中存在的噪声。

共振峰分段模块156专门将在步骤208计算的语音频谱估值分割成共振峰。在步骤204，连同在步骤202计算的噪声频谱估值，该分段用于计算一组SNR估值，一个SNR估值在每个共振峰区域中。该分段的另一个结果是匹配输入语音的共振峰结构的频谱提升模式。

在步骤206，基于该提升模式并且基于SNR估值，应用到每个共振峰的必要提升使用共振峰提升估计器152计算。在步骤212，可应用共振峰去掩蔽滤波器，并且可选地，步骤212的输出与输入语音混合以限制输出语音的动态范围和/或RMS水平。

在一个实施例中，低阶LPC分析，即，可采用自回归模型用于语音的频谱估算。高频共振峰的建模另外可以通过在LPC分析之前在输入语音上应用预加强改进。然后频谱估值以LPC系数的频率响应倒数获得。在下文中，假定频谱估值在对数域中，这避免幂升高运算符(power elevation operators)。

图4示出了共振峰分段模块156的运算。通过共振峰分段模块156执行的运算中的一个是将语音波谱分割成各共振峰。在一个实施例中，共振峰定义为在两个局部最小值之间的频谱分段。然后这些局部最小值的频率指数定义频谱谷值的位置。在频谱谷值未达到相同能级的意义上，语音自然是不均衡的。具体而言，在更多能量朝向低频率的情况下，语音通常是倾斜的。因此，为改进语音波谱分割成共振峰的过程，波谱可以可选地预先“被均衡”。在一个实施例中，在步骤302，该均衡通过使用倒谱低频滤波并从初始频谱减去平滑频谱计算频谱的平滑版本来执行。在步骤304和306，局部最小值通过区分均衡语音频谱检测，一旦检测到，则然后定位标志从负值改变为正值。区分长度n的信号X包括计算X的相邻元素之间的差值：[X(2)-X(1)X(3)-X(2)…X(n)-X(n-1)]。所定位的标志变化的频率分量被标记。在步骤308，分段线性信号由这些标记形成。均衡语音频谱包络的值被指派给所标记的频率分量，并且在两者之间的值以线性方式插入。在步骤310，在所有局部最小值等于0dB的情况下，从均衡语音频谱包络减去该分段线性信号以获得“归一化的”频谱包络。通常，负值设定成0dB。步骤310的输出信号构成共振峰提升模式，该共振峰提升模式被传送到共振峰提升估计器152上，而分段标记被传送到共振峰SNR估计模块156。

图5示出了共振峰提升估计器152的运算。共振峰提升估计器152计算应用到每个共振峰的整体提升量，并接着计算为了这样做应用到每个频率分量的必要增益。在步骤402，采用心理声学模型以单独确定每个共振峰的目标SNR。心理声学模型所需的能量估值通过共振峰SNR估计器154计算。心理声学模型从所述目标SNR扣除一组提升因数βi≥0。在步骤404，然后这些提升因数通过提升模式的分段i的每个采样乘以关联因数βi应用。举例来说，非常基本的心理声学模型将确保在应用提升因数之后，与每个共振峰关联的SNR达到特定的目标SNR。更高级的心理声学型号可以包括听觉掩蔽和语音感知的模型。步骤404的结果是第一增益频谱，在步骤406，所述第一增益频谱被平滑出以形成共振峰揭露滤波器408。然后输入语音通过共振峰去掩蔽滤波器408处理。

在一个例子中，为了示出确保与每个共振峰相关联的SNR达到某一的目标SNR的心理声学模型，提升因数可如下计算。本例子仅考虑在当前帧中检测的所有共振峰的单个共振峰。对于其它共振峰可重复相同过程。在所选的共振峰内的输入SNR可以表述为：

$<mrow> <msub> <mi>ξ</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Σ</mi> <mi>k</mi> </msub> <mi>S</mi> <msup> <mrow> <mo>[</mo> <mi>k</mi> <mo>]</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <msub> <mi>Σ</mi> <mi>k</mi> </msub> <mi>D</mi> <msup> <mrow> <mo>[</mo> <mi>k</mi> <mo>]</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>$

其中，S和D分别是输入语音和噪声信号的幅值频谱(在线性单元中表示)，并且指数K属于中心定在所述共振峰中心频率上的关键波段。A[k]是当前帧的提升模式，并且β是所考虑共振峰的寻求提升因数。然后当增益频谱在线性单元中表示时，将是A[k]^β。在该增益频谱应用之后，与该共振峰相关联的输出SNR变为：

$<mrow> <msub> <mi>ξ</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Σ</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>S</mi> <mo>[</mo> <mi>k</mi> <mo>]</mo> <mi>A</mi> <msup> <mrow> <mo>[</mo> <mi>k</mi> <mo>]</mo> </mrow> <mi>β</mi> </msup> <mo>)</mo> </mrow> <mn>2</mn> </mrow> <mrow> <msub> <mi>Σ</mi> <mi>k</mi> </msub> <mi>D</mi> <msup> <mrow> <mo>[</mo> <mi>k</mi> <mo>]</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>$

在一个实施例中，寻找β的一个简单方式是通过迭代，从0开始，以固定步长增加其值并在每个迭代计算ξout直到达到目标输出SNR。

均衡语音频谱使所有频谱谷值的能级更接近相同值。然后减去分段线性信号确保所有局部最小值，即，每个频谱谷值的“中心”等于0dB。这些0dB连接点提供在所述提升模式的各分段之间的必要一致性：将一组不等的提升因数应用到提升模式直到产生在各连续片段之间具有平滑过渡的增益频谱。所得的增益频谱观察事先陈述的期望特性：因为在归一化频谱中的局部最小值等于0dB，对应于频谱峰值的单独频率分量通过乘法运算提升，并且频谱值越大，所得频谱增益就越大。增益频谱本身确保去掩蔽共振峰中的每个(在心理声学模型中的极限)，但是对于给定共振峰的必要提升可能是非常高的。因此，增益频谱可能是非常陡峭的并且输出语音是不自然的。后续的平滑运算将增益稍微展开成谷值以获得更自然的输出。

在一些应用中，输出动态范围和/或均方根(RMS)水平可被限制为例如在移动通信应用中。为解决该问题，输出限制混频器118提供限制输出动态范围和/或RMS水平的机制。在一些实施例中，由输出限制混频器118提供的RMS水平限制不基于信号衰减。

除非本文中另外指出或明显与内容相矛盾，否则在描述主题的情况下(尤其在以上权利要求书的情况下)使用术语“一(a/an)”和“所述”以及类似指示物应理解为涵盖单数和复数。除非本文中另有说明，否则本文中的值范围的叙述仅旨在充当单独地提及在所述范围内的每一个单独的值的速记方法，并且每一个单独的值并入本说明书中，如同在本文单独地叙述一般。此外，上述描述仅出于说明的目的，而不是出于限制的目的，因为寻求保护的范围由附属权利要求及其任何等效物来限定。本文所提供的任何和所有例子或示例性语言(例如，“诸如”)仅仅是旨在更好说明所述主题并不对所述主题的范围造成限制，除非另有要求。使用术语“基于”和其它类似短语指示在附属权利要求和书面描述中产生结果的条件，并不旨在排除产生该结果的其它条件。本说明书中的任何语言都不应理解为指示实施所要求保护的本发明所必需的任何不要求保护的元件。

本文中描述的本发明的优选实施例，包括本发明人已知的用于进行所要求保护的主题的最佳模式。当然，那些优选实施例的变型对于阅读上述描述的本领域普通技术人员将是显而易见的。本发明人期望熟练的业内人士适当时采用此类变型，并且本发明人旨在以不同于本文中特定描述的其它方式来实施本发明所要求保护的主题。因此，所要求保护的主题包括可适用法律所准许的在附属权利要求中叙述的主题的所有变化和等效物。此外，除非本文另外指示或以其他方式明确指出与内容相矛盾，否则本发明涵盖上述要素以其所有可能的变化形式的任何组合。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿德里安·丹尼尔;
技术所有人：恩智浦有限公司;
我是此专利的发明人

上一篇：一种智能防打鼾的睡眠枕的制作方法与工艺
上一篇：计及虚拟同步发电机接入的电网安全稳定协调控制方法与流程