音频信号噪声衰减的制作方法

文档序号：2825858阅读：1151来源：国知局

音频信号噪声衰减的制作方法
【专利摘要】一种噪声衰减设备接收包括期望信号分量和噪声信号分量的音频信号。两个码本(109，111)分别包括表示可能的期望信号分量的期望信号候选和表示可能的噪声贡献的噪声信号贡献候选。分段器(103)将音频信号分割成时间段，并且针对每个时间段，噪声衰减器(105)通过为期望信号候选中的每一个作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成诸多估计的信号候选。噪声衰减器(105)使指示在所述时间段中的音频信号之间与所估计的信号候选的差的成本函数最小化。信号候选然后针对所述时间段从所估计的信号候选被确定，并且音频信号基于这个信号候选被补偿。
【专利说明】音频信号噪声衰减
【技术领域】
[0001]本发明涉及音频信号噪声衰减，并且特别地但不排他地，涉及针对语音信号的噪声衰减。
【背景技术】
[0002]音频信号中的噪声的衰减在许多应用中被期望来进一步增强或者加重期望信号分量。例如，语音在背景噪声面前的增强由于其实际的相关性已吸引了大量兴趣。特别有挑战的应用是移动通讯中的单话筒噪声降低。单话筒装置的低成本使它在新兴市场中变得有吸引力。另一方面，多个话筒的缺少排除了基于波束形成器的解决方案来抑制可能存在的高水平的噪声。在不稳定条件下很好地工作的单话筒方法因此在商业上是所期望的。
[0003]在其中音频波束形成不是切实可行的或优选的多话筒应用中或者附加于这样的波束形成，单话筒噪声衰减算法同样是相关的。例如，这样的算法可能对于混响和漫射不稳定噪声场中的或其中有许多干扰源存在的免提音频和视频会议系统是有用的。诸如波束形成之类的空间滤波技术在这样的场景中仅能够实现有限的成功，并且需要在后置处理步骤中对波束形成器的输出执行附加的噪声抑制。
[0004]各种噪声衰减算法已被提出了，包括基于关于期望信号分量的特性的知识或假设的系统。特别地，诸如码本驱动方案这样的基于知识的语音增强方法已被表明即便当对单话筒信号操作时在不稳定噪声条件下也很好地执行。这样的方法的例子在s.Srinivasan,J.Samuelsson 和 I B.Kleijn, “Codebook driven short-term predictor parameterestimation for speech enhancement", IEEE Trans.Speech, Audio and LanguageProcessing, vol.14, n0.1, pp.163 {176, Jan.2006 以及 S.Srinivasan, J.Samuelsson和 I B.Kleijn, “Codebook based Bayesian speech enhancement for non-stationaryenvironments, 〃 IEEE Trans.Speech Audio Processing, vol.15, n0.2, pp.441-452，Feb.2007中被呈现。
[0005]这些方法依赖于语音和噪声谱形状的训练的码本，其通过例如线性预测(LP)系数被参数化。语音码本的使用是直观的并且使其容易地适合于实际的实施方案。语音码本可以是扬声器无关的(使用来自若干扬声器的数据所训练的)或扬声器相关的。后者情形对于例如移动电话应用来说是有用的，因为这些往往是个人的并且常常主要地被单个扬声器使用。然而，归因于在实践中可以遇到的各种噪声类型，在实际的实施方案中使用噪声码本是有挑战性的。作为结果，非常大的噪声码本典型地被使用。
[0006]典型地，这样的基于码本的算法寻求找到当被组合时最接近地和所捕获的信号匹配的语音码本条目和噪声码本条目。当适当的码本条目已被找到时，算法基于所述码本条目来补偿所接收到的信号。然而，为了识别适当的码本条目，搜索遍及语音码本条目和噪声码本条目的所有可能的组合被执行。这导致在计算上资源要求很高的过程，其尤其对于低复杂性装置来说常常是不切实际的。此外，大的噪声码本的生成和存储是麻烦的，并且大量可能的噪声候选可能增加错误估计的风险，从而导致次优噪声衰减。[0007]因此，改进的噪声衰减方法将是有利的，并且特别地允许增加的灵活性、降低的计算要求、便利的实施方案和/或操作、降低的成本和/或改进的性能的方法将是有利的。

【发明内容】

[0008]因此，本发明寻求优选地单个地或以任何组合的方式缓和、减轻或者消除上面提到的缺点中的一个或多个。
[0009]根据本发明的一个方面，提供了一种噪声衰减设备，其包括:接收机，其用于接收包括期望信号分量和噪声信号分量的音频信号；第一码本，其包括针对期望信号分量的多个期望信号候选，每个期望信号候选表示可能的期望信号分量；第二码本，其包括多个噪声信号贡献候选，每个噪声信号贡献候选表示针对噪声信号分量的可能的噪声贡献；分段器，其用于将音频信号分割成时间段；噪声衰减器，其被布置成针对每个时间段执行以下步骤:通过为第一码本的期望信号候选中的每一个作为期望信号候选的成比例(scaled)版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选，期望信号候选的比例(scaling)和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化；从所估计的信号候选生成针对时间段中的音频信号的信号候选；以及响应于所述信号候选衰减时间段中的音频信号的噪声。
[0010]本发明可以提供改进的和/或便利的噪声衰减。在许多实施例中，大幅降低的计算资源是需要的。该方法可以在许多实施例中允许更高效的噪声衰减，其可能导致更快的噪声衰减。在许多场景中，该方法可以使能或者允许实时噪声衰减。
[0011]与常规方法相比，大幅地较小的噪声码本(第二码本)能够在许多实施例中被使用。这可以降低存储器要求。
[0012]在许多实施例中，多个噪声信号贡献候选可能无法反映关于噪声信号分量的特性的任何知识或假设。噪声信号贡献候选可以是通用噪声信号贡献候选，并且可以具体地是固定的、预定的、静态的、永久的和/或非训练的噪声信号贡献候选。这可以允许便利的操作和/或可以便利于第二码本的生成和/或分布。特别地，训练阶段可以在许多实施例中被避免。
[0013]期望信号候选中的每一个都可以具有与时间段持续时间相对应的持续时间。噪声信号贡献候选中的每一个都可以具有与时间段持续时间相对应的持续时间。
[0014]期望信号候选中的每一个都可以由表征信号分量的一组参数来表示。例如，每个期望信号候选都可以包括用于线性预测模型的一组线性预测系数。每个期望信号候选都可以包括表征谱分布的一组参数，所述谱分布诸如例如功率谱密度(PSD)。
[0015]噪声信号贡献候选中的每一个都可以由表征信号分量的一组参数来表不。例如，每个噪声信号贡献候选都可以包括表征谱分布的一组参数，所述谱分布诸如例如功率谱密度(PSD)。用于噪声信号贡献候选的参数的数目可以低于用于期望信号候选的参数的数目。
[0016]噪声信号分量可以对应于不是期望信号分量的一部分的任何信号分量。例如，噪声信号分量可以包括白噪声、有色噪声、来自不想要的噪声源的确定性噪声、实施噪声等。噪声信号分量可以是可以针对不同的时间段而改变的不稳定噪声。噪声衰减器对每个时间段的处理对于每个时间段来说可以是独立的。
[0017]噪声衰减器可以具体地包括用于通过为第一码本的期望信号候选中的每一个作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选的处理器、电路、功能单元或装置，期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化；用于从所估计的信号候选生成针对时间段中的音频信号的信号候选的处理器、电路、功能单元或装置；以及用于响应于该信号候选衰减时间段中的音频信号的噪声的处理器、电路、功能单元或装置。
[0018]依照本发明的可选特征，成本函数是最大似然成本函数和最小均方误差成本函数中的一个。
[0019]这可以提供对比例和权重的特别闻效的且闻性能的确定。
[0020]依照本发明的可选特征，噪声衰减器被布置成根据反映成本函数相对于比例和权重的导数为零的方程来计算比例和权重。
[0021]这可以提供对比例和权重的特别闻效的且闻性能的确定。在许多实施例中，它可以允许其中比例和权重能够根据闭式方程被直接地计算的操作。在许多实施例中，它可以允许比例和权重在无需任何递归迭代或搜索操作的情况下的直接计算。
[0022]依照本发明的可选特征，期望信号候选比加权组合具有更高的频率分辨率。
[0023]这可以允许具有高性能的实际的噪声衰减。特别地，它可以在确定所估计的信号候选时允许期望信号候选的重要性相对于噪声信号贡献候选的重要性被加重。
[0024]在定义期望信号候选中的自由度可以高于当生成加权组合时的自由度。定义期望信号候选的参数的数目可以高于定义噪声信号贡献候选的参数的数目。
[0025]依照本发明的可选特征，多个噪声信号贡献候选覆盖某一频率范围，并且其中一群噪声信号贡献候选中的每个噪声信号贡献候选仅在该频率范围的子范围中提供贡献，该群噪声信号贡献候选的不同噪声信号贡献候选的子范围是不同的。
[0026]这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。特别地，它可以通过调整权重来允许所估计的信号候选对于音频信号的便利的和/或改进的适配。
[0027]依照本发明的可选特征，该群噪声信号贡献候选的子范围是不重叠的。
[0028]这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。
[0029]在一些实施例中，该群噪声信号贡献候选的子范围可以是重叠的。
[0030]依照本发明的可选特征，该群噪声信号贡献候选的子范围具有不等的大小。
[0031]这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。
[0032]依照本发明的可选特征，该群噪声信号贡献候选的噪声信号贡献候选中的每一个对应于基本上平坦的频率分布。
[0033]这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。特别地，它可以通过调整权重来允许所估计的信号候选对音频信号的便利的和/或改进的适配。
[0034]依照本发明的可选特征，噪声衰减设备进一步包括噪声估计器，所述噪声估计器用于为至少部分地在时间段外的时间间隔中的音频信号生成噪声估计，并且用于响应于该噪声估计来生成噪声信号贡献候选中的至少一个。
[0035]这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。特别地，它可以在许多实施例中允许对噪声信号分量的更准确的估计，特别是对于其中噪声可以具有稳定分量或慢变分量的系统来说。噪声估计例如可以是从一个或多个先前的时间段中的音频信号所生成的噪声估计。
[0036]依照本发明的可选特征，加权组合是加权求和。
[0037]这可以提供特别高效的实施方案，并且可以特别地降低复杂性以及例如允许权重的便利的确定以用于加权求和。
[0038]依照本发明的可选特征，第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由包括不多于20个参数的一组参数来表示。
[0039]这允许低复杂性。本发明可以在许多实施例和场景中甚至为信号和噪声信号分量的相对粗略的估计提供闻效的噪声裳减。
[0040]依照本发明的可选特征，第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由谱分布来表示。
[0041]这可以提供特别高效的实施方案并且可以特别地降低复杂性。
[0042]依照本发明的可选特征，期望信号分量是语音信号分量。
[0043]本发明可以提供用于语音增强的有利的方法。
[0044]该方法可以特别适合于语音增强。期望信号候选可以表示与语音模型兼容的信号分量。
[0045]根据本发明的一个方面，提供了一种噪声衰减的方法，其包括:接收包括期望信号分量和噪声信号分量的音频信号；提供包括针对期望信号分量的多个期望信号候选的第一码本，每个期望信号候选都表示可能的期望信号分量；提供包括多个噪声信号贡献候选的第二码本，每个噪声信号贡献候选都表示针对噪声信号分量的可能的噪声贡献；将音频信号分割成时间段；以及针对每个时间段执行以下步骤:通过为第一码本的期望信号候选中的每一个作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选，期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化；从所估计的信号候选生成针对时间段中的音频信号的信号候选；以及响应于所述信号候选衰减时间段中的音频信号的噪声。
[0046]本发明的这些和其它方面、特征以及优点从在下文中所描述的(一个或多个)实施例将是明显的，并且将参考在下文中所描述的(一个或多个)实施例而被阐明。
【专利附图】

【附图说明】
[0047]将参考附图仅通过例子对本发明的实施例进行描述，在附图中:
图1是依照本发明的一些实施例的噪声衰减设备的元件的例子的图示；
图2是依照本发明的一些实施例的噪声衰减的方法的图示；以及图3是用于图1的噪声衰减设备的噪声衰减器的元件的例子的图示。
【具体实施方式】
[0048]以下描述集中于可适用于通过对噪声的衰减而进行语音增强的本发明的实施例。然而，应了解本发明不限于本申请，而是可以被应用于许多其它信号。[0049]图1图示了依照本发明的一些实施例的噪声衰减器的例子。
[0050]该噪声衰减器包括接收机101，其接收包括期望的分量和不期望的分量两者的信号。不期望的分量被称为噪声信号并且可以包括不是期望信号分量的一部分的任何信号分量。
[0051]在图1的系统中，信号是具体地可以被从在给定音频环境中捕获音频信号的话筒信号生成的音频信号。以下描述将集中于其中期望信号分量是来自期望的扬声器的语音信号的实施例。噪声信号分量可以包括环境中的环境噪声、来自不期望的声音源的音频、实施
噪声等。
[0052]接收机101被耦合到将音频信号分割成时间段的分段器103。在一些实施例中，时间段可以是不重叠的，但在其它实施例中时间段可以是重叠的。进一步地，可以通过应用适当地成形的窗口函数来执行分段，并且具体地噪声衰减设备可以采用分段的众所周知的叠加技术，其使用适合的窗口，诸如汉宁(Hanning)或汉明(Hamming)窗口。时间段持续时间将取决于特定实施方案，但在许多实施例中将是大约10-100毫秒。
[0053]分段器103被馈送到噪声衰减器105，所述噪声衰减器105执行基于段的噪声衰减以便相对于不期望的噪声信号分量加重期望信号分量。结果得到的噪声衰减的段被馈送到输出处理器107，输出处理器107提供连续音频信号。输出处理器可以具体地例如通过执行叠加函数来执行反分段(desegmentation)。应了解，在其它实施例中，输出信号可以被提供为分段的信号，例如在其中对噪声衰减的信号执行进一步的基于段的信号处理的实施例中。
[0054]噪声衰减是基于码本方法的，所述码本方法使用与期望信号分量以及与噪声信号分量有关的单独码本。因此，噪声衰减器105被耦合到第一码本109，所述第一码本109是期望信号码本，并且在特定例子中是语音码本。噪声衰减器105被进一步耦合到第二码本111，所述第二码本111是噪声信号贡献码本。
[0055]噪声衰减器105被布置成选择语音码本和噪声码本的码本条目使得与所选条目相对应的信号分量的组合最接近地类似该时间段中的音频信号。一旦适当的码本条目(连同这些码本条目的比例一起)已经被找到，它们就表示所捕获的音频信号中的单独的语音信号分量和噪声信号分量的估计。具体地，与所选语音码本条目相对应的信号分量是所捕获的音频信号中的语音信号分量的估计并且噪声码本条目提供噪声信号分量的估计。因此，该方法使用码本方法来估计音频信号的语音和噪声信号分量，并且一旦这些估计已被确定，它们就能够被用来相对于音频信号中的语音信号分量衰减噪声信号分量，因为估计使得区分这些成为可能。
[0056]更具体地，考虑其中语音和噪声被假定为独立的加性噪声模型:
V (η) — Jin)-tw(ti),
其中y(n)、x(n)以及w(n)分别表示采样的有噪声语音(输入音频信号)、干净语音(期望的语音信号分量)以及噪声(噪声信号分量)。
[0057]现有技术码本方法搜遍码本以便找到针对信号分量和噪声分量的码本条目使得成比例组合最接近地类似所捕获的信号，从而提供针对每个短时间段的语音和噪声PSD的估计。假设Py(?)表示所观察到的有噪声信号y (η)的PSD，PX(?)表示语音信号分量x(n)的PSD，以及Ρν(ω)表示噪声信号分量的PSDJlJΡ^ω) = Ρχ(ω) + Ρ￥(ω)
假设~表示所对应的PSD的估计，传统的基于码本的噪声衰减可以通过对所捕获的信号应用频域维纳(Wiener)滤波器Η(ω)来降低噪声，即:
Pna(CO) = Py(CO)H(GJ)
其中维纳滤波器由下式给出:
【权利要求】
1.一种噪声衰减设备，其包括: -接收机(101)，其用于接收包括期望信号分量和噪声信号分量的音频信号； -第一码本(109)，其包括针对期望信号分量的多个期望信号候选，每个期望信号候选表示可能的期望信号分量； -第二码本(111)，其包括多个噪声信号贡献候选，每个噪声信号贡献候选表示针对噪声信号分量的可能的噪声贡献； -分段器(103)，其用于将音频信号分割成时间段； -噪声衰减器(105)，其被布置成针对每个时间段执行以下步骤: 通过为第一码本的期望信号候选中的每一个、作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选，期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化；从所估计的信号候选生成针对时间段中的音频信号的信号候选；以及响应于所述信号候选衰减时间段中的音频信号的噪声。
2.根据权利要求1所述的噪声衰减设备，其中成本函数是最大似然成本函数和最小均方误差成本函数中的一个。
3.根据权利要求1所述的噪声衰减设备，其中噪声衰减器(105)被布置成根据反映成本函数相对于比例和权重的导数为零的方程来计算比例和权重。
4.根据权利要求1所述的噪声衰减设备，其中期望信号候选比加权组合具有更高的频率分辨率。
5.根据权利要求1所述的噪声衰减设备，其中多个噪声信号贡献候选覆盖一频率范围，并且其中一群噪声信号贡献候选中的每个噪声信号贡献候选仅在所述频率范围的子范围中提供贡献，该群噪声信号贡献候选的不同噪声信号贡献候选的子范围是不同的。
6.根据权利要求5所述的噪声衰减设备，其中该群噪声信号贡献候选的子范围是不重置的。
7.根据权利要求5所述的噪声衰减设备，其中该群噪声信号贡献候选的子范围具有不等的大小。
8.根据权利要求5所述的噪声衰减设备，其中该群噪声信号贡献候选的噪声信号贡献候选中的每一个都对应于基本上平坦的频率分布。
9.根据权利要求1所述的噪声衰减设备，进一步包括噪声估计器，所述噪声估计器用于为至少部分地在时间段外的时间间隔中的音频信号生成噪声估计，并且用于响应于所述噪声估计来生成噪声信号贡献候选中的至少一个。
10.根据权利要求1所述的噪声衰减设备,其中加权组合是加权求和。
11.根据权利要求1所述的噪声衰减设备，其中第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由包括不多于20个参数的一组参数来表示。
12.根据权利要求1所述的噪声衰减设备，其中第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由谱分布来表示。
13.根据权利要求1所述的噪声衰减设备，其中期望信号分量是语音信号分量。
14.一种噪声衰减的方法，其包括:-接收包括期望信号分量和噪声信号分量的音频信号； -提供包括针对期望信号分量的多个期望信号候选的第一码本(109)，每个期望信号候选表示可能的期望信号分量； -提供包括多个噪声信号贡献候选的第二码本(111)，每个噪声信号贡献候选都表示针对噪声信号分量的可能的噪声贡献； -将音频信号分割成时间段；以及针对每个时间段执行以下步骤: 通过为第一码本的期望信号候选中的每一个、作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选，期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化；从所估计的信号候选生成针对时间段中的音频信号的信号候选；以及响应于所述信号候选衰减时间段中的音频信号的噪声。
15.一种包括计算机上被运行时执行权利要求14的所有步骤。
【文档编号】G10L21/0208GK103999155SQ201280064187
【公开日】2014年8月20日申请日期:2012年10月22日优先权日:2011年10月24日
【发明者】S.斯里尼瓦桑申请人:皇家飞利浦有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.斯里尼瓦桑
技术所有人：皇家飞利浦有限公司
我是此专利的发明人

上一篇：改善低速率码激励线性预测解码器的非语音内容的制作方法
上一篇：具有并行架构的音频编码器的制造方法