用于码激励线性预测类编码器的无边信息的噪声填充的制作方法

文档序号：9510213阅读：312来源：国知局

用于码激励线性预测类编码器的无边信息的噪声填充的制作方法
【技术领域】
[0001] 本发明的实施方式涉及：用以基于包含线性预测系数（LPC)的已编码音频信息来提供已解码音频信息的音频解码器；用以基于包含线性预测系数（LPC)的已编码音频信息来提供已解码音频信息的方法；用以执行此方法的计算机程序，其中该计算机程序在计算机上运行；以及音频信号或储存有此音频信号的储存介质，该音频信号已经用此方法进行了处理。
【背景技术】
[0002] 当比特率降低至小于每个样本约0. 5至1比特时，基于码激励线性预测（CELP)编码原理的低比特率数字语音（speech)编码器通常会遭受信号稀疏伪影，从而引起略为不自然的金属声。尤其当输入语音中具有背景中的环境噪声时，低速率（low-rate)伪影明显可听见：背景噪声在主动语音区段（active speech sections)期间将会衰减。本发明描述用于诸如AMR-WB [1]及G. 718 [4, 7]的（A) CELP编码器的噪声插入方案，该方案与在诸如 xHE-AAC[5, 6]的基于变换的编码器中所使用的噪声填充技术类似，将随机噪声产生器的输出添加至已解码语音信号来重新建构背景噪声。
[0003] 国际公开案WO 2012/110476 Al展示出一种基于线性预测且使用频谱域噪声整形的编码概念。对音频输入信号的频谱分解（分解成包含连串频谱的频谱图）被用于以下两者：线性预测系数计算，以及用于基于线性预测系数的频域整形的输入。根据引用的文献，音频编码器包含线性预测分析器，其用以分析输入音频信号以便由此导出线性预测系数。音频编码器的频域整形器被配置为基于由线性预测分析器提供的线性预测系数频谱整形频谱图的一连串频谱的当前频谱。将已量化且已频谱整形的频谱连同在频谱整形时使用的线性预测系数一起插入至数据流中，使得在解码侧可执行去除整形（de-shaping)及去除量化（de-quantization)。也可存在时间噪声整形模块以执行时间噪声整形。
[0004] 鉴于现有技术，仍然需要改良的音频解码器、改良的方法、用以执行此方法的改良的计算机程序、以及改良的音频信号或储存有此音频信号的储存介质，该音频信号已经用此方法加以处理。更具体而言，需要找到改良在已编码位流中传递的音频信息的声音质量的解决方案。

【发明内容】

[0005] 在本发明的权利要求中和的实施方式的详细描述中的参考符号仅仅为了改善可读性而添加，绝不意味着是限制性的。
[0006] 本发明的目标是通过一种用以基于包含线性预测系数（LPC)的已编码音频信息来提供已解码音频信息的音频解码器来实现，该音频解码器包含：倾斜调整器（tilt adjuster)，其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息；以及噪声插入器，其被配置为取决于由倾斜计算器获得的该倾斜信息来将该噪声添加至该当前帧。另外，本发明的目标通过一种用以基于包含线性预测系数（LPC)的已编码音频信息来提供已解码音频信息的方法来实现，该方法包含：使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息；以及取决于所获得的倾斜信息来将该噪声添加至该当前帧。
[0007] 作为第二种创造性解决方案，本发明建议一种用以基于包含线性预测系数（LPC) 的已编码音频信息来提供已解码音频信息的音频解码器，该音频解码器包含：噪声水平估计器，其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平，以便获得噪声水平信息；以及噪声插入器，其被配置为取决于由该噪声水平估计器提供的该噪声水平信息来将噪声添加至该当前帧。此外，本发明的目标是通过一种用以基于包含线性预测系数（LPC)的已编码音频信息来提供已解码音频信息的方法来解决，该方法包含：使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平，以便获得噪声水平信息；以及取决于由该噪声水平估计提供的噪声水平信息来将噪声添加至该当前帧。另外，本发明的目标通过以下两者来解决：一种用以执行此方法的计算机程序，其中该计算机程序在计算机上运行；以及一种音频信号或储存有此音频信号的储存介质，该音频信号已经用此方法加以处理。
[0008] 所建议的解决方案避免了必须在CELP位流（bitstream，比特流）中提供边信息以便在噪声填充过程期间调整在解码器侧所提供的噪声。这意味着，可减小将要用位流输送的数据的量，而可仅仅基于当前或先前已解码的帧的线性预测系数来增加所插入噪声的质量。换言之，可省略关于噪声的边信息，该边信息将会增加将要用位流传递的数据的量。本发明允许提供低比特率数字编码器及方法，其与现有技术的解决方案相比而言可占用关于位流的更少的带宽并且提供质量提高的背景噪声。
[0009] 较佳的是，音频解码器包含用以判定当前帧的帧类型的帧类型判定器，该帧类型判定器被配置为在检测到当前帧的帧类型为语音类型时，启动倾斜调整器来调整噪声的倾斜。在一些实施方式中，帧类型判定器被配置为在帧经ACELP或CELP编码时，将该帧辨识为语音类型帧。根据当前帧的倾斜来对噪声加以整形可提供更自然的背景噪声且可减少与编码于位流中的所要信号的背景噪声有关的音频压缩的不良效应。因为这些不良的压缩效应及伪影相对于语音信息的背景噪声常常变得显著，所以可能有利的是：通过在将噪声添加至当前帧之前调整噪声的倾斜来增强将要添加至此类语音类型帧的噪声的质量。因此，噪声插入器可被配置为仅在当前帧为语音帧的情况下将噪声添加至当前帧，因为如果仅语音帧通过噪声填充来进行处理，可减少解码器侧的工作负载。
[0010] 在本发明的一较佳实施方式中，倾斜调整器被配置为使用对当前帧的线性预测系数的一阶分析（first-order analysis)的结果来获得倾斜信息。通过使用对线性预测系数此一阶分析，在位流中省略用以表征噪声的边信息成为可能。此外，对将要添加的噪声的调整可基于当前帧的线性预测系数，该等线性预测系数必须用位流以任何方式加以传递来允许对当前帧的音频信息的解码。这意味着在调整噪声的倾斜的过程中当前帧的线性预测系数被有利地再使用。另外，一阶分析相当简单，使得音频解码器的计算复杂性不会显著增加。
[0011] 在本发明的一些实施方式中，倾斜调整器被配置为使用对当前帧的线性预测系数的增益g的计算作为该一阶分析来获得倾斜信息。更佳地，通过公式g = Σ [ak · ak+1]/ Σ [ak ^ak]给出增益g，其中ak为当前帧的LPC系数。在一些实施方式中，在该计算中使用两个或更多LPC系数a k。较佳地，使用总共16个LPC系数，因此k = 0···. 15。在本发明的实施方式中，位流可利用多于或少于16个LPC系数编码。因为当前帧的线性预测系数容易存在于位流中，所以可在不利用边信息的情况下获得倾斜信息，从而减小将要在位流中传递的数据的量。可仅仅通过使用对已编码音频信息加以解码所必需的线性预测系数来调整将要添加的噪声。
[0012] 较佳地，倾斜调整器可被配置为使用用于当前帧的直接形式滤波器 X(n)-g*x(n-l)的传递函数的计算来获得倾斜信息。此种类型的计算相当容易且不需要解码器侧的高计算能力。如上文所展示，可易于根据当前帧的LPC系数计算出增益g。这允许在仅仅使用对已编码音频信息解码所必需的位流数据的情况下改善低比特率数字编码器的噪声质量。
[0013] 在本发明的一较佳实施方式中，噪声插入器被配置为在将噪声添加至当前帧之前，将当前帧的倾斜信息应用于噪声以便调整噪声的倾斜。若噪声插入器经相应地配置，则可提供简化的音频解码器。通过首先应用倾斜信息，随后将已调整的噪声添加至当前帧，可提供音频解码器的简单且有效的方法。
[0014] 在本发明的一实施方式中，音频解码器另外包含：噪声水平估计器，其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息；以及噪声插入器，其被配置为取决于由该噪声水平估计器提供的该噪声水平信息来将噪声添加至该当前帧。由此，因为可根据可能存在于当前帧中的噪声水平来调整将要添加至当前帧的噪声，所以可增强背景噪声的质量且因此增强整个音频传输的质量。例如，若因为根据先前帧估计了高噪声水平，所以预计在当前帧中为高噪声水平，则噪声插入器可被配置为在将噪声添加至当前帧之前增加将要添加至当前帧的噪声的水平。因此，将要添加的噪声可被调整成与当前帧中的预计噪声水平相比而言既不会太安静也不会太大声。此外，此调整并非基于位流中的专用边信息，而是仅仅使用在位流中传递的必要数据的信息，在此情况下为至少一个先前帧的线性预测系数，该线性预测系数亦提供关于先前帧中的噪声水平的信息。因此，较佳的是，使用g导出的倾斜对将要添加至当前帧的噪声加以整形且考虑到噪声水平估计来缩放（scale)该噪声。更佳的是，在当前帧为语音类型时，调整将要添加至当前帧的噪声的倾斜及噪声水平。在一些实施方式中，在当前帧为例如TCX类型或DTX类型的一般音频类型时，也调整将要添加至当前帧的倾斜和/或噪声水平。
[0015] 较佳地，音频解码器包含用以判定当前帧的帧类型的帧类型判定器，该帧类型判定器被配置为识别当前帧的帧类型为语音还是一般音频，因此可取决于当前帧的帧类型

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：纪尧姆·福奇斯;克里斯蒂安·赫尔姆里希;曼努埃尔·扬德尔;本杰明·苏伯特;横谷嘉一;
技术所有人：弗劳恩霍夫应用研究促进协会;
我是此专利的发明人