对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统与流程

文档序号：23804649发布日期：2021-02-03 07:39阅读：90来源：国知局

对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统
[0001]
本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为“2015年7月21日”、申请号为“201580051890.1”、发明名称为“对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统”的分案申请。
技术领域
[0002]
本发明涉及处理音频信号的领域，尤其涉及一种用于对音频信号中(例如，待编码的音频信号中或已经解码的音频信号中)的噪声进行估计的方法。实施例描述一种用于对音频信号中的噪声进行估计的方法、一种噪声估计器、一种音频编码器、一种音频解码器及一种用于传输音频信号的系统。

背景技术：

[0003]
在处理音频信号的领域(例如，用于对音频信号进行编码或用于处理经解码的音频信号)中，存在期望对噪声进行估计的情形。例如，以引用的方式并入本文中的pct/ep2012/077525及pct/ep2012/077527描述使用噪声估计器(例如，最小统计噪声估计器)对频域中的背景噪声的谱进行估计。已经(例如)通过快速傅立叶变换(fft)或任意其他合适的滤波器组将被提供给算法的信号逐块变换至频域。成帧通常等同于编解码器的成帧，即，可再使用编解码器中已存在的变换，例如，在evs(增强型语音服务)编码器中，用于预处理的fft。出于噪声估计的目的，计算fft的功率谱。将谱分组为心理声学激励的带且累积带内的功率谱区间(power spectral bins)，以形成每带的能量值。最后，通过通常也用于以心理声学方式处理音频信号的此方法获得能量值的集合。每个带具有其自身的噪声估计算法，即，在每帧中，使用对随时间变化的信号进行分析并在任意给定的帧处针对每个带给出估计的噪声等级的噪声估计算法处理该帧的能量值。
[0004]
用于高质量语音及音频信号的样本分辨率可为16比特，即，该信号具有96db的信杂比(snr)。计算功率谱意味着将信号变换至频域且计算每频率区间的平方(square)。由于平方函数，此需要32比特的动态范围。由于带内的能量分布实际上未知的，将多个功率谱区间汇集到带内需要用于动态范围的额外动态余量(headroom)。因此，需要支持大于32比特(通常，大约40比特)的动态范围以在处理器上运行噪声估计器。
[0005]
在处理音频信号的装置(其基于从能量储存单元(如电池)接收的能量进行操作，例如，如移动电话的便携式装置)中，为了保存能量，音频信号的功率有效处理对于电池使用寿命至关重要。根据已知方法，由定点处理器(其通常支持对呈16或32比特定点格式的数据的处理)执行音频信号的处理。通过处理16比特数据实现用于处理的最低复杂度，而处理32比特数据已需要一些开销。处理具有40比特动态范围的数据需要将该数据分裂成两个，即，尾数和指数，必须在对数据进行修改的时候对二者进行处理，这又导致甚至更高的计算复杂度以及甚至更高的储存需求。

技术实现要素：

[0006]
从上文所论述的现有技术开始，本发明的目标在于提供一种用于使用定点处理器以高效方式对音频信号中的噪声进行估计以避免不必要的计算开销的方法。
[0007]
通过如在独立权利要求中定义的主题实现此目标。
[0008]
本发明提供一种用于对音频信号中的噪声进行估计的方法，该方法包括确定用于音频信号的能量值，将能量值变换至对数域及基于经变换的能量值为音频信号估计噪声等级。
[0009]
本发明提供一种噪声估计器，该噪声估计器包括：用于确定用于该音频信号的能量值的检测器；用于将该能量值变换至对数域的变换器；以及用于基于经变换的能量值为音频信号估计噪声等级的估计器。
[0010]
本发明提供一种用于根据本发明的方法操作的噪声估计器。
[0011]
根据实施例，对数域包括log2域。
[0012]
根据实施例，对噪声等级进行估计包括直接在对数域中基于经变换的能量值执行预定的噪声估计算法。可基于由r.martin描述的最小统计算法(“noise power spectral density estimation based on optimal smoothing and minimum statistics”，基于最优平滑和最小统计的噪声功率谱密度估计，2001)进行噪声估计。在其他实施例中，可使用可选的噪声估计算法，如由t.gerkmann及r.c.hendriks描述的基于mmse的噪声估计器(“unbiased mmse-based noise power estimation with low complexity and low tracking delay”，具有低复杂度和低跟踪延迟的客观的基于mmse的噪声功率估计，2012)，或由l.lin、w.holmes及e.ambikairajah描述的算法(“adaptive noise estimation algorithm for speech enhancement”，用于语音增强的适应性噪声估计，2003)。
[0013]
根据实施例，确定能量值包括通过将音频信号变换至频域获得音频信号的功率谱，将功率谱分组至心理声学激励的带内，及累积带内的功率谱区间以形成用于每个带的能量值，其中将用于每个带的能量值变换至对数域，且其中基于对应的经变换的能量值为每个带估计噪声等级。
[0014]
根据实施例，音频信号包括多个帧，且针对每个帧，能量值被确定并被变换至对数域，且基于经变换的能量值为每个带估计噪声等级。
[0015]
根据实施例，将能量值变换至对数域，如下：
[0016][0017]
x的向下取整(floor(x))，
[0018]
e
n_log
log2域中的带n的能量值，
[0019]
e
n_lin
线性域中的带n的能量值，
[0020]
n分辨率/精度。
[0021]
根据实施例，基于经变换的能量值对噪声等级进行估计产生对数数据，且该方法还包括直接使用对数数据用于进一步处理，或将对数数据变换回至线性域用于进一步处理。
[0022]
根据实施例，倘若在对数域中进行传输，将对数数据直接变换为传输数据，且将对
数数据直接变换为传输数据使用移位函数连同查找表法或近似法，例如，
[0023]
本发明提供一种非易失性计算机程序产品，其包括存储指令的计算机可读介质，当在计算机上执行指令时，进行所发明的方法。
[0024]
本发明提供一种包括所发明的噪声估计器的音频编码器。
[0025]
本发明提供一种包括本发明的噪声估计器的音频解码器。
[0026]
本发明提供一种用于传输音频信号的系统，该系统包括：用于基于接收的音频信号生成经编码的音频信号的音频编码器；以及用于接收经编码的音频信号以对经编码的音频信号进行解码并输出经解码的音频信号的音频解码器，其中音频编码器及音频解码器中的至少一个包括所发明的噪声估计器。
[0027]
本发明基于发明者的如下发现：与对线性能量数据执行噪声估计算法的现有方法相反，出于对音频/语音材料中的噪声等级进行估计的目的，基于对数输入数据执行算法也是可能的。对于噪声估计，对数据精度的需求并不非常高，例如，当为了如在以引用的方式并入本文中的pct/ep2012/077525或pct/ep2012/077527中所描述的舒适噪声生成而使用估计的值时，已发现，估计每带的大致正确的噪声等级已足够，即，噪声等级被估计为(例如)高于还是不高于0.1db在最终信号中将不是那么重要。因此，虽然可能需要40比特以覆盖数据的动态范围，但在现有方法中，用于中/高电平信号的数据精度比实际所需的高得多。基于此发现，根据实施例，本发明的关键要素为将每带的能量值变换至对数域(优选的，log2域)，且直接在允许以16比特表达能量值的对数域中(例如)基于最小统计算法或任意其他合适的算法进行噪声估计，这又允许更高效的处理，例如，使用定点处理器。
附图说明
[0028]
在下文中，将参考附图描述本发明的实施例，其中：
[0029]
图1展示实施用于对待编码的音频信号中或经解码的音频信号中的噪声进行估计的所发明的方法的用于传输音频信号的系统的简化框图；
[0030]
图2展示根据实施例的可用于音频信号编码器和/或音频信号解码器中的噪声估计器的简化框图；以及
[0031]
图3展示根据实施例的绘示用于对音频信号中的噪声进行估计的所发明的方法的流程图。
具体实施方式
[0032]
在下文中，将更详细地描述本发明方法的实施例，且应注意的是，在附图中，由相同附图标记表示具有相同或类似功能的元件。
[0033]
图1展示在编码器侧和/或在解码器侧的实施所发明的方法的用于传输音频信号的系统的简化框图。图1的系统包括在输入102处接收音频信号104的编码器100。该编码器包括接收音频信号104以及生成在编码器的输出108处提供的经编码的音频信号的编码处理器106。编码处理器可被程序化或被创建以用于对音频信号的连续音频帧进行处理及用于实施用于对待编码的音频信号104中的噪声进行估计的所发明的方法。在其他实施例中，
无需将编码器作为传输系统的部分，然而，其可作为生成经编码的音频信号的独立装置，或其可作为音频信号传输器的部分。根据实施例，编码器100可包括天线110以允许音频信号的无线传输，如在112处所指示。在其他实施例中，编码器100可使用有线连接线输出在输出108处提供的经编码的音频信号，如其(例如)在附图标记114处被指示。
[0034]
图1的系统还包括解码器150，该解码器150具有接收待由解码器150处理的经编码的音频信号(例如，经由有线114或经由天线154)的输入152。解码器150包括对经编码的信号进行操作且在输出160处提供经解码的音频信号158的解码处理器156。可程序化或创建解码处理器以用于处理用于实施对经解码的音频信号104中的噪声进行估计的所发明的方法。在其他实施例中，无需将解码器作为传输系统的部分，相反地，其可作为用于对经编码的音频信号进行解码的独立装置，或其可作为音频信号接收器的部分。
[0035]
图2展示根据实施例的噪声估计器170的简化框图。噪声估计器170可用于图1中展示的音频信号编码器和/或音频信号解码器中。噪声估计器170包括用于确定用于音频信号102的能量值174的检测器172、用于将能量值174变换至对数域(参见经变换的能量值178)的变换器176及用于基于经变换的能量值178为音频信号102估计噪声等级182的估计器180。可由用于实施检测器172、变换器176及估计器180的功能而程序化或创建的共用处理器或多个处理器实施估计器170。
[0036]
在下文中，将更详细地描述可在图1的编码处理器106及解码处理器156中的至少一个中实施或由图2的估计器170实施的所发明的方法的实施例。
[0037]
图3展示用于对音频信号中的噪声进行估计的所发明的方法的流程图。在第一步骤s100中，接收音频信号，且确定用于音频信号的能量值174，然后，在步骤s102中，将该能量值变换至对数域。在步骤s104中，基于经变换的能量值178对噪声进行估计。根据实施例，在步骤s106中，确定对由对数数据182表示的经估计的噪声数据的进一步处理是否应在对数域中。倘若期望在对数域中的进一步处理(在步骤s106中，是)，则在步骤s108中处理表示经估计的噪声的对数数据，例如，倘若传输也发生在对数域中，则将对数数据变换为传输参数。否则(在步骤s106中，否)，在步骤s110中，将对数数据182变换回至线性数据，且在步骤s112中对线性数据进行处理。
[0038]
根据实施例，在步骤s100中，如可以以现有方法进行确定用于音频信号的能量值。已被应用至音频信号的fft的功率谱被计算并被分组至心理声学激励的带中。累积带内的功率谱区间以形成每带的能量值，从而获得能量值的集合。在其他实施例中，可基于任何合适的谱变换(如mdct(modified discrete cosine transform，改进离散余弦变换)、cldfb(复杂低延迟滤波器组)或覆盖谱的不同部分的若干变换的组合)对功率谱进行计算。在步骤s100中，确定用于每个带的能量值174，且在步骤s102中将用于每个带的能量值174变换至对数域，根据实施例，变换至log2域。可将带能量变换至log2域，如下：
[0039][0040]
x的向下取整(floor(x))，
[0041]
e
n_log
log2域中的带n的能量值，
[0042]
e
n_lin
线性域中的带n的能量值，
[0043]
n分辨率/精度。
[0044]
根据实施例，执行至log2域的变换，其有利之处在于，通常可使用以定点数确定前导零的数目的“norm”函数在定点处理器上非常快速地(例如，在一个循环中)计算(int)log2函数。有时需要比(int)log2更高的精度，其在上式中由常数n表示。可在norm指令及近似法(其为在可接受较低精度时用于实现低复杂度对数计算的常用方法)之后使用具有最高有效位的简单查找表来实现此稍微较高的精度。在上式中，添加log2函数内部的常数“1”以确保经变换的能量保持为正。根据实施例，倘若噪声估计器依赖于噪声能量的统计模型，则此可为重要的，因为对负值执行噪声估计将违背此模型且将导致估计器的不可预计的行为。
[0045]
根据实施例，在上式中，将n设为6，其等效于26＝64比特的动态范围。此大于40比特的上述动态范围，且因此是足够的。为了处理数据，目标为使用16比特数据，这使得9个比特用于尾数及1个比特用于符号。通常将此格式表示为“6q9”格式。可选地，由于可考虑仅正值，因此可避免符号比特，并将其用于尾数，从而共10个比特用于尾数，此被称作“6q10”格式。
[0046]
可在r.martin的“noise power spectral density estimation based on optimal smoothing and minimum statistics”(2001)中找到最小统计算法的详细描述。其大体上在于，对在用于每个谱带的给定长度的滑动时间窗上(通常在两三秒内)的平滑化功率谱的最小值进行追踪。算法还包括偏压补偿以改良噪声估计的准确性。此外，为了改良时变噪声的追踪，可使用在较短的时间窗上计算的局部最小值来替代原始最小值，假若其引起估计的噪声能量的适度增加。在r.martin的“noise power spectral density estimation based on optimal smoothing and minimum statistics”(2001)中通过参数noise_slope_max确定容许的增加量。根据实施例，使用最小统计噪声估计算法，其传统地对线性能量数据执行。然而，根据发明者的发现，出于对音频材料或语音材料中的噪声等级进行估计的目的，反之，可将对数输入数据提供给算法。在信号处理自身保持未修改时，仅需要的重调最小量，其在于减小参数noise_slope_max，以应对对数数据相比于线性数据的减小的动态范围。迄今为止，假定需要对线性数据执行最小统计算法或其他合适的噪声估计技术，即，实际上作为对数表示的数据被假定为是不合适的。与此现有的假定相反，发明者发现：实际上可基于允许使用仅以16比特表示的输入数据的对数数据执行噪声估计，因此，其以定点实施提供低得多的复杂度，因为大多数操作可以以16比特进行，且仅算法的一些部分仍需要32比特。例如，在最小统计算法中，偏差补偿基于输入功率的方差，因此的通常仍需要32比特表示的四阶统计。
[0047]
如上已关于图3描述，可以以不同方式进一步处理噪声估计过程的结果。根据实施例，第一种方式为直接使用对数数据182，如在步骤s108中所展示，例如，通过将对数数据182直接变换为传输参数(若也在对数域中传输此类参数，情况通常如此)。第二种方式为对对数数据182进行处理，使得将其变换回至线性域用于进一步处理，例如，使用处理器上的通常非常快且通常仅需一个循环的移位函数连同表查找或通过使用近似法，例如：
[0048][0049]
在下文中，将参照编码器描述用于实施用于基于对数数据对噪声进行估计的所发
cng使用噪声估计算法追踪在编码器输入处存在的背景噪声的能量。然后，将噪声估计传输为按sid(silence insertion descriptor，静音插入描述符)帧格式的参数以在非活跃阶段期间更新在解码器侧的每个频带中生成的随机序列的幅度。
[0060]
fd-cng噪声估计器依赖于混合谱分析方法。对应于核心带宽的低频率被高分辨率fft分析覆盖，然而其余较高频率被呈现出400hz的显著较低的谱分辨率的cldfb捕获。应注意的是，cldfb也用作再取样工具来降取样(downsample)输入信号至核心取样率。
[0061]
然而，sid帧的大小实际上受到限制。为了减少描述背景噪声的参数的数目，在后续中被称为划分的谱带的群组之中对输入能量进行平均。
[0062]
1.谱划分能量
[0063]
分别针对fft与cldfb带计算划分能量。然后，对应于fft划分的能量与对应于cldfb划分的能量被串接成大小为的单个数组e
fd_cng
，其将充当至以下描述的噪声估计器(参见“2.fd-cng噪声估计”)的输入。
[0064]
1.1fft划分能量的计算
[0065]
如下获得用于覆盖核心带宽的频率的划分能量
[0066][0067]
其中及分别为用于第一及第二分析窗口的临界带i中的平均能量。根据所使用的配置(参见“1.3fd-cng编码器配置”)，捕获核心带宽的fft划分的数目范围在17与21之间。使用去加重谱权重h
de-emph
(i)对高通滤波器进行补偿，且其被定义为：
[0068][0069]
1.2cldfb划分能量的计算
[0070]
将用于核心带宽之上的频率的划分能量计算为：
[0071][0072]
其中j
min
(i)及j
max
(i)分别为第i个划分中的第一个及最后一个cldfb带的索引，e
cldfb
(j)为第j个cldfb带的总能量，且a
cldfb
为比例因子。常数16指cldfb中的时隙的数目。cldfb划分l
cldfb
的数目取决于所使用的配置，如以下所描述。
[0073]
1.3fd-cng编码器配置
[0074]
下表列出针对在编码器处的不同fd-cng配置的划分的数目及其上边界。
[0075][0076]
表1：在编码器处的fd-cng噪声估计的配置
[0077]
对于每个划分i＝0，...，l
sid-1，f
max
(i)对应于第i个划分中的最后一个带的频率。每个谱划分中的第一个及最后一个带的索引j
min
(i)及j
max
(i)可根据核心的配置而导出，如下：
[0078][0079][0080]
其中f
min
(0)＝50hz为第一谱划分中的第一个带的频率。因此，fd-cng生成仅高于50hz的一些舒适噪声。
[0081]
2.fd-cng噪声估计
[0082]
fd-cng依赖于噪声估计器以对输入谱中存在的背景噪声的能量进行追踪。此主要基于由r.martin描述的最小统计算法(“noise power spectral density estimation based on optimal smoothing and minimum statistics”，2001)。然而，为了减小输入能量的动态范围{e
fd-cng
(0)，...，e
fd-cng
(l
sid-1)}且因此有助于噪声估计算法的定点实施，在噪声估计之前应用非线性变换(参见“2.1用于输入能量的动态范围压缩”)。然后，对所得的噪声估计使用逆变换以恢复原始动态范围(参见“2.3针对估计的噪声能量的动态范围扩展”)。
[0083]
2.1用于输入能量的动态范围压缩
[0084]
通过非线性函数对输入能量进行处理并以9比特分辨率进行量化，如下：
[0085][0086]
2.2噪声追踪
[0087]
可在r.martin的“noise power spectral density estimation based on optimal smoothing and minimum statistics”(2001)中找到最小统计算法的详细描述。其大体上在于，追踪在用于每个谱带的给定长度的滑动时间窗上(通常在两三秒内)的平滑化功率谱的最小值。算法还包括偏置补偿以改良噪声估计的准确性。此外，为了改良时变噪声的追踪，可使用在短得多的时间窗上计算的局部最小值来替代原始最小值，假如其引起经估计的噪声能量的适度增加。在r.martin的“noise power spectral density estimation based on optimal smoothing and minimum statistics”(2001)中通过参数noise_slope_max确定容许的增加量。
[0088]
噪声追踪器的主要输出为噪声估计n
ms
(i),i＝0，...，l
sid-1。为了获得舒适噪声中的较平滑的过渡，可应用一阶递归滤波器，即，
[0089]
此外，在最后5个帧上对输入能量e
ms
(i)进行平均。此用于在每个谱划分中对应用上限。
[0090]
2.3用于经估计的噪声能量的动态范围扩展
[0091]
通过非线性函数对经估计的噪声能量进行处理以补偿上文所描述的动态范围压缩：
[0092][0093]
根据本发明，描述一种用于对音频信号中的噪声进行估计的改良的方法，其允许减小噪声估计器的复杂度，尤其对于使用定点算术在处理器上被处理的音频/语音信号。所发明的方法允许减小用于音频/语音信号处理的噪声估计器的动态范围，例如，在pct/ep2012/077527(其指以高的谱-时间分辨率生成舒适噪声)中或pct/ep2012/077527(其指用于以低比特率将背景噪声模型化的舒适噪声添加)中所描述的环境中。在所描述的情境中，使用基于最小统计算法操作的噪声估计器，以用于增强背景噪声的质量或用于针对有噪语音信号的舒适噪声生成，例如，在存在背景噪声的情况下的语音，其在电话呼叫中是非常普遍的情形并且是evs编解码器的受测种类中的一种。根据标准，evs编解码器将使用利用固定算术的处理器，且所发明的方法允许通过减小用于最小统计噪声估计器的信号的动态范围(通过在对数域中且不再在线性域中处理用于音频信号的能量值)来减小处理复杂度。
[0094]
虽然在装置的上下文中已经描述所描述的概念的一些方面，显然，这些方面也表示对应方法的描述，其中模块或装置对应方法步骤或方法步骤的特征。类似的，在方法步骤的上下文中描述的方面也表示对应模块或项目或对应装置的特征的描述。
[0095]
根据特定的实施需求，本发明的实施例可在硬件或软件中实施。可使用数字存储介质执行此实施，例如软盘、dvd、蓝光光盘、cd、rom、prom、eprom、eeprom或闪存，其具有存储于其上的电子可读取控制信号，其与可编程计算机系统协同操作(或能够协同操作)，以使得执行各个方法。因此，数字存储介质可以是计算机可读取的。
[0096]
根据本发明的一些实施例包括具有电子可读取控制信号的数据载体，其能够与可编程计算机系统协同运作，以执行所述方法的一个。
[0097]
通常，本发明实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，可运作程序代码以执行方法的一个。程序代码可例如存储在机器可读取载体上。
[0098]
其他实施例包括用于执行所述方法的一个的计算机程序，其被存储在机器可读取载体上。
[0099]
换言之，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，该程序代码用于执行本文中所描述的方法中的一个。
[0100]
因此，本发明方法的另一实施例为数据载体(或数字存储介质，或计算机可读介质)，该数据载体包括记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。
[0101]
因此，本发明方法的另一实施例是表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。可(例如)用于经由数据通信连接(例如，经由因特网)传送数据流或信号序列。
[0102]
另一实施例包括处理构件，例如，用于或适于执行本文中所描述的方法中的一个的计算机或可编程逻辑设备。
[0103]
另一实施例包括计算机，其上安装有用于执行本文中所描述的方法中的一个的计算机程序。
[0104]
在一些实施例中，可编程逻辑设备(例如，现场可编程门阵列)可用以执行本文中所描述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器
协作，以便执行本文中所描述方法中的一个。通常，优选地由任何硬件装置执行方法。
[0105]
上文所描述的实施例仅说明本发明的原理。应理解的是，本文中所描述的配置及细节的变形及变化对本领域技术人员是显而易见的。因此，其意图在于仅由待决权利要求的范围限制，而非由通过本文中实施例的描述及解释所呈现的特定细节限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：本杰明
技术所有人：弗劳恩霍夫应用研究促进协会
我是此专利的发明人

上一篇：一种速装型装配式墙体结构的制作方法
上一篇：一种土木工程用基坑支护装置的制作方法