用于控制稳态背景噪声的平滑的方法和设备的制作方法

文档序号：2831734阅读：268来源：国知局

专利名称：用于控制稳态背景噪声的平滑的方法和设备的制作方法
技术领域：
本发明大体上涉及电信系统中的语音编码，尤其涉及用于控制此
类系统中稳态背景噪声的平滑(smoothing)的方法和设备。
背景技术：
语音编码是获得话音信号的紧凑(compact)表示以实现在带宽受限的有线和无线信道和/或存储装置上的高效传输的过程。当今，语音编码器已经成为电信和多媒体基础设施中的重要组成部分。依赖于高效语音编码的商用系统包括蜂窝通信、互联网协议语音(VOIP)、视频会议、电子玩具、存档和数字同步语音和数据(DSVD),以及众多的基于PC的游戏和多媒体应用。
作为连续时间信号，可以通过采样和量化过程对语音进行数字表示。通常使用16比特或8比特量化来对语音采样进行量化。类似于许多其他信号，语音信号包含大量冗余信息(信号中的连续采样之间的非零互信息)或者在感知上无关的信息(收听人无法感知的信息)。多数电信编码器是有损耗的，这意味着合成语音在感知上类似于原始语音、但是可能在物理上不一样。
语音编码器将数字化语音信号转换为经编码的表示，后者通常是以帧来传送的。相应地，语音解码器接收经编码的帧并对所重构的语音进行合成。
许多现代语音编码器属于被称作LPC (线性预测编码器)的一大类语音编码器。此类编码器的实例是3GPP FR、 EFR、 AMR和AMR-WB语音编解码器，3GPP2 EVRC、 SMV和EVRC-WB语音编解码器，以及诸如G.278、 G.723、 G.729等等之类的各种ITU-T编解码器。
这些编码器都在信号生成过程中采用合成滤波器概念。该滤波器
用于对将被再生的信号的短时频谱进行建模，而该滤波器的输入被假设为处理所有其他信号变化。
这些合成滤波器模型的共同特征是将被再生的信号是由定义该滤波器的参数来表示的。术语"线性预测"指的是通常用于估计滤波器参数的一类方法。因而，将被再生的信号部分由一组滤波器参数来表示并且部分由驱动滤波器的激励信号来表示。
此类编码概念的益处源于这样的事实能够用相对少的比特高效地描述滤波器和其驱动激励信号这二者。
一个特定类别的基于LPC的编解码器是基于综合分析(AbS)原则。这些编解码器在编码器中包括了解码器的本地复本(local copy ),并且通过在一组候选激励信号之中选择使合成的输出信号与原始语音信号的相似性最高的激励信号来寻找合成滤波器的驱动激励信号。
采用此类线性预测编码并且尤其是AbS编码的概念已被证明对于语音信号而言是比较适用的，即使是在例如4-12kbps的低比特率的情况下也是如此。然而，当使用此类编码技术的移动电话的用户沉默并且输入信号包括环境声音时，目前已知的编码器难以应对该情况，原因是它们是针对语音信号而被优化的。当不能识别所熟悉的声音时(原因是它们已经被编码器"错误处理(mistreat) " 了 )，另一侧的收听者会很容易变得气恼。
所谓的涡流(swirling )引起再生背景声音中最为严重的质量降级。该现象发生于具有相对稳态的背景声音的场景中，诸如汽车噪声，并且是由经解码信号的频谱和功率的非自然时间波动(temporalfluctuation)引起的。这些波动又是由对合成滤波器因子和其激励信号的估计和量化不足引起的。通常，当编解码器比特率增加时，涡流会变小。
涡流先前已经被认为是一个问题，并且在文献中已经针对其提出了多种解决方案。美国专利5632004 [l]公开了一种所提出的解决方案。才艮据该专利，在语音不活动(inactive)期间，通过低通滤波或带宽扩展来修改滤波器参数以使得合成的背景声音的频谱变化减少。美国专利5579432 [2]中进一步改进了该方法，以使得所描述的反涡流技术仅仅在检测到背景噪声的稳态时才应用。
美国专利5487087 [3]公开了另一种解决涡流问题的方法。该方法利用经修改的信号量化方案，后者匹配信号本身和其时变这二者。特别地，设想了在不活动语音的时段(period)期间为LPC滤波器参数和信号增益参数使用此类波动减少的量化器。另一组方法解决了由经合成的信号的不期望的功率波动所引起
的信号质量降级。美国专利6275798 [4]中描述了其中之一，并且该方法也是3GPP TS 26.090 [5]中所描述的AMR语音编解码器算法的一部分。根据该公开，依赖于LPC短期频谱的平稳性(stationarity )来自适应地(adaptively)对合成的滤波器激励信号、固定的码本组成中的至少一个分量的增益进行平滑。专利EP 1096476 [6]和专利申请EP1688920 [7]的公开中进一步研究了该方法，其中平滑操作还包含将在信号合成中使用的增益限制。US 5953697[8]中描述了将用于LPC声码器中的相关方法。根据该公开，控制合成滤波器的激励信号的增益以使得经合成语音的最大幅度刚好达到输入语音波形包络。
另一类解决涡流问题的方法作为语音解码器后的后处理器而运行。专利EP 0665530 [9]描述了一种方法，该方法在所检测到的语音不活动期间用经低通滤波的白噪声和舒适噪声信号来代替部分语音解码器输出信号。类似的方法在各种出版物中被采用，这些出版物公开了相关方法，这些方法用经滤波的噪声来代替部分语音解码器输出信号。
参见图1,可缩放(scalable)或嵌入式编码是一种编码范例，其中，编码是在多层中进行的。基层或核心层以低比特率对信号进行编码，而其他层(一层在另一层之上)相对于编码提供一定增强，这是通过从核心层一直到先前各层的所有层来实现的。每层增加一定额外的比特率。所生成的比特流被嵌入，这意味着较低层编码的比特流被嵌入更高层的比特流。这一特性使得在传输或接收器中的任何地方丢弃属于较高层的比特成为可能。此类经剥离的(stripped)比特流仍能够被解码至保留比特的层。
当今最常使用的可缩放语音压缩算法是6 4 kb p s G. 711A /U律对数算法PCM编解码器。经8kHz采样的G.711编解码器将12比特或13比特线性PCM采样转换为8比特对数采样。对数采样的有序(ordered)比特表示允许偷用G.711比特流中的最低位(LSB)，从而使G.711编码器在48、 56和64kbps之间实际上是SNR可缩放的。出于带内控制信令的目的，将G.711编解码器的该缩放特性用于电路交换通信网络中。使用该G，711缩放特性的最近实例是3GPPTF0协议，该协议支持在传统64kbps PCM链路上进行宽带语音建立和传输。初始使用原始64kbps G.711流中的8kbps,以在不显著影响窄带服务质量的情况下兼顾宽带语音服务的呼叫建立。在呼叫建立之后，宽带语音将使用64kbps G.711流中的16kbps。其他支持开环可缩放性的较早的语音编码标准是G.727 (嵌入式ADPCM)以及一定程度上的G.722 (子带ADPCM)。
可缩放语音编码技术的更新的进展是MPEG-4标准，该标准为MPEG4-CELP提供了缩放性扩展。通过传输额外滤波器参数信息和额外创新参数信息，可以增强MPE基层。国际电信联盟标准化委员会ITU-T近期已经结束了新的可缩放编解码器G.729.1 (也被称作G.729.EV)的标准化。该可缩放语音编解码器的比特率范围是从8kbps到32kbps。该编解码器的主要使用场合是允许在家中或办公室网关中高效地共享有限的带宽资源，例如在若干VOIP呼叫之间共享xDSL64/128kbps上行链路。
可缩放语音编码的一个最近的趋势是为较高层提供对非语音音频信号(诸如音乐)的编码的支持。在此类编解码器中，例如根据综合分析范例(在该范例中，CELP是突出的实例)，较低层仅仅采用传统的语音编码。因为此类编码仅仅非常适合语音而对于诸如音乐之类的非语音音频信号就不那么适合，所以上层根据用于音频编解码器中的编码范例来工作。这里，上层编码通常对下层编码的编码误差有影响。
另一种涉及语音编解码器的相关方法是所谓的频谱倾斜补偿，其是在对经解码的语音的自适应后置滤波(postfiltering )的背景中进行的。其所解决的问题是补偿短期或共振峰(format)后置滤波器所引入的频谱倾斜。此类技术是例如AMR编解码器和SMV编解码器的一部分，并且主要目标是语音期间的编解码器性能而非其背景噪声性能。SMV编解码器在合成滤波前的加权残值域中应用该倾斜补偿，不过并非响应于该残值的LPC分析。
上述任何解决涡流问题的技术的共同点是必须如此应用它们以使得它们对涡流提供最佳可能的增强效果而不对语音再生(reproduction)的质量造成负面影响。因而，所有这些方法Y又在实施了适当规则时才提供益处，其中根据所述规则、依赖于待重构的信号特性而对它们进行激活或去激活。在以下的现有技术中，在如何控制它们的特定方面来讨论防涡流#支术。一个现有技术公开[10]公开了一种特定的噪声平滑方法以及其特定控制。该控制基于对经解码的信号中的背景噪声比的估计，其又操纵(steer)该特定平滑方法中的某些增益因子。值得强调的是，不像其他方法，该平滑方法的激活不是响应于VAD标记或者某些稳态量度(metric)而控制的。与上述现有技术形成对比，另一公开[ll]描述了响应于某些稳态噪声检测器的平滑操作。不使用专用VAD,而是根据LPC参数(LSF) 的测量和能量波动以及音调(pitch)信息来进行硬判决。为了緩解将语音帧误分类为稳态噪声帧的问题，向语音突发中添加延时 (hangover)时段。另一现有技术公开[9]描述了背景噪声平滑方法的控制功能，该功能响应于VAD标记而运行。为了防止语音帧纟皮宣告(declare)为不活动，向其间噪声平滑保持不活动的、被宣告为活动语音的信号突发添加延时时段。为确保从背景噪声平滑被去激活的时段到平滑被激活的时段的平滑过渡，逐渐激活平滑至某一固定最大程度的平滑操作。代替部分经解码的语音信号的噪声信号的功率和谱特征(高通滤波的程度)适应于经解码的语音信号中的背景噪声电平估计。尽管如此，平滑操作的程度，即以噪声代替经解码的语音信号的量，仅仅取决于 VAD判决，而决不取决于对背景噪声的特性(诸如平稳性等等)的分析。先前所提到的[4]的公开描述了用于解码器的参数平滑方法，该解码器允许响应于混频(mix)因子而进行逐渐(增益)参数平滑。该混频因子是对待重构的信号的平稳性的指示，并且控制参数平滑，以使得所检测到的平稳性越大，所执行的平滑就越多。根据上述[10]的平滑操作控制算法的主要问题是其特别适合于其中所描述的特定噪声平滑器(smoother)。因此，其是否能与其他任一种噪声平滑方法结合使用(以及如何与其他任一种噪声平滑方法结合使用)都不明显。没有使用VAD的事实引起了特定问题，即该方法甚至在活动的语音部分执行信号修改，这潜在地使得语音降级或者至少影响其再生的自然性。根据[11 ]和[9]的平滑算法的主要问题是背景噪声平滑的程度不是逐渐依赖于将被近似的背景噪声的特性。例如，根据完全启用或禁用哪种平滑操作，现有技术[ll]利用稳态噪声帧检测。与之类似，[9] 中所公开的方法不能根据背景噪声特性来操纵平滑方法，这样其使用程度较低。这意味着所述方法遭受用于那些背景噪声类型的非自然噪声再生，尽管所述背景噪声类型表现出不能通过所采用的噪声平滑方法而被适当建模的特性，但是它们还是被分类为稳态噪声或不活动语音。[4]中所公开的方法的主要问题是其强烈依赖于至少考虑了当前帧的当前参数和对应的先前参数的稳态估计。尽管如此，在与本发明相关的研究期间，发现平稳性尽管有用，但是不能总提供关于是否希望进行背景噪声平滑的良好指示。此外，仅仅依赖于平稳性度量同样会导致以下情况其中即使某些噪声类型表现出不能通过所采用的噪声平滑方法而被适当建模的特性，它们也被分类为稳态噪声。限制所有上述方法的特定问题来自于以下事实它们仅仅是解码器方法。由于该事实，它们在以一定准确度评价背景噪声特性方面存在概念性问题，如果应利用渐进分辨率来控制噪声平滑操作，则将需要所述准确度。然而，这对于自然噪声再生将是必需的。依赖于平稳性度量的所有方法的共同问题是平稳性本身是指示统计信号特性(如能量和谱)在多大程度上在时间上保持不变的特性。由于这个原因，通常通过将给定帧或子帧的统计特性与先前帧或子帧的特性进行比较来计算平稳性度量。然而，提供平稳性度量仅在较低程度上作为背景信号的实际感知特性的指示。特别地，平稳性度量并不指示信号有多么类似噪声(noise-like),尽管如此，根据发明者的研究，其对于好的防涡流方法而言是必不可少的参数。因此，所需要的是控制电信系统中的背景噪声平滑操作语音会话的方法和"i殳备。发明内容本发明的一个目的是实现电信系统中改进的语音会话质量。本发明的另一目的是实现对电信系统中的语音会话中的稳态背景噪声的改进的平滑控制。这些和其他目的是根据所附权利要求来实现的。基本上，在平滑电信语音会话中的稳态背景噪声的方法中，最初对表示语音会话的信号进行接收和解码S10,所述信号包括语音分量和背景噪声分量这二者。此外，为该信号提供S20噪度(noisiness) 度量，并且根据所提供的噪度度量来自适应地平滑S30背景噪声分量。本发明的优点包含电信系统中改进的语音会话质量。稳态背景噪声信号的改进的重构信号质量。

通过结合附图并参见以下描述，可以清楚地理解本发明以及本发明的其他目的和优点，其中图1是可缩放语音和音频编解码器的示意性框图；图2是图示了根据本发明的背景噪声平滑方法的实施例的流程图；图3是图示了根据本发明的实施例的间接控制平滑的方法的时序图的示意图；图4是图示了根据本发明的方法的实施例的对背景噪声平滑的 VAD驱动激活的时序图的示意图；图5是图示了根据本发明的设备的实施例的流程图；图6是图示了根据本发明的控制器设备的实施例的框图；图7是图示了根据本发明的设备的实施例的框图。缩写AbS综合分析ADPCM自适应差分PCMAMR-WB自适应多速率宽带EVRC-WB增强可变速率宽带编解码器CELP码激励线性预测DXT不连续传输DSVD数字同步语音和数据ISP导抗"i普对(Immittance Spectral Pair)ITU-T国际电信联盟LPC线性预测编码器LSF线性谱频率 MPEG运动图〗象专家组 PCM脉冲编码调制 SMV可选择模式声码器 VAD话音活动4企测器 VOIP基于网际协议的语音具体实施方式
本说明书将在无线移动语音会话的背景中描述本发明。尽管如此，其同样适用于有线连接。在以下描述中，术语语音和话音将被作为同义使用。因而语音会话指示电信网络中至少两个终端或节点之间的话音/语音通信。假设语音会话总是包括两个分量，即语音分量和背景噪声分量。语音分量是该会话的实际有声(voiced)通信，其能够是活动的(例如一个人在讲话)或者不活动的(例如该人在词或短语之间沉默)。背景噪声分量是来自于讲话人周围环境的环境噪声。该噪声在性质上或多或少会是稳态的。如上所述，语音会话的一个问题是如何提高包含稳态背景噪声(或就此而言的其他任意噪声)的环境中的语音会话质量。根据已知方法，存在多种被频繁采用的平滑背景噪声的方法。尽管如此，存在这样的风险通过使语音分量失真或者使得剩余背景噪声甚至更为令人烦扰，平滑操作实际上降低了语音会话的质量或"可听性"。在研究本发明的过程中，发现背景噪声平滑仅对于某些背景信号 (诸如汽车噪声)特别有用。对于其他背景噪声类型(诸如串音(babble)、办公室、重音(double taker)等等)，背景噪声平滑不会向合成的信号提供同等程度的质量改进，并且甚至可能使得背景噪声再生不自然。还发现，"噪度"是适当的表征性特征，其指示背景噪声平滑是否能够提供质量增强。还发现，噪度是比平稳性更为充分的特征，其中平稳性已经在现有技术方法中得以应用。因此，本发明的主要目标是根据背景信号的噪度度量或量度来逐渐控制稳态背景噪声的平滑操作。如果在话音不活动期间，发现背景信号非常类似噪声，则使用更大程度的平滑。如果不活动信号不那么类似噪声，则降低噪声平滑的程度或者根本不执行平滑。噪度度量优选地得自于编码器中，并且被传送至解码器，在解码器中，对噪声平滑的控制取决于此。尽管如此，其还能够得自于解码器本身。参见图2,基本上，根据本发明的一般实施例包括对电信系统中至少两个终端之间的电信语音会话中的稳态背景噪声进行平滑的方法。最初，对表示语音会话(即至少两个移动用户之间的有声信息交换)的信号进行接收和解码SIO，所述信号能够被描述成包括语音分量(即实际话音)和背景噪声分量(即环境声音)这二者。为了在话音不活动期间对背景噪声进行平滑，为语音会话确定噪度度量并为该信号提供S20噪度度量。噪度度量是对稳态背景噪声分量的噪声程度的度量。之后，根据所提供的噪度度量对背景噪声分量进行自适应地平滑S30或修改。最后，将所传送信号的信号表示与由此经平滑的背景噪声分量相合成以使得所接收到的信号的质量得以改进。根据本发明的另一实施例，噪度量度描述信号有多么类似噪声或者其包含了多少随机分量。更特别地，能够根据信号的可预测性来定义并描述噪度度量或量度，其中，具有强随机分量的信号的可预测性很差，而具有弱随机分量的信号则更容易预测。因此，能够通过公知的信号的LPC预测增益Gp来定义此类噪度度量，其被定义为(1 )此处，CT〗表示背景(噪声)信号的方差，并且C7^表示通过p阶LPC分析所获得的该信号的LPC预测误差的方差。除了方差，还可以通过功率或能量来定义预测增益。还已知，预测误差方差《p和预测误差方差序列c7么，可作为Levinson-Durbin算法的副产品而被很容易地获得，Levinson-Durbin算法用于根据背景噪声信号的自相关参数序列来计算LPC参数。通常，预测增益对于具有较弱随机分量的信号而言比较高，而对于类似噪声的信号而言则较低。根据本发明的优选实施例，通过采用具有不同阶数p和q的两个 LPC预测滤波器的预测增益的比率来获得适当的类似的噪度量度，其中p>q，m咖'c(/7, g) = ~^ = ( 2 )G《该量度给出以下指示当将LPC滤波器阶数从q增加到p时，预测增益的增加多少。如果该信号具有低噪度则其给出高值，而如果噪度值高则给出接近1的值。适当的选择是q-2而p= 16，不过LPC 阶数的其他值同样是可能的。应当注意到，优选地，在编码器侧确定或计算上述噪度量度或度量并且此后将其传送至解码器侧，并且在解码器侧提供。尽管如此，根据解码器侧实际接收到的信号来确定或计算噪度量度同样是可能的(仅做微小的调整)。在编码器侧计算量度的一个优势是计算能够基于未量化的 (un-quantized) LPC参数，并且因此潜在地具有最佳可能解。此外，计算该量度不需要额外的计算复杂性，原因是所需的预测误差方差可作为LPC分析的副产品而被很容易获得(如上所述)，所述LPC分析通常在任何情况下都被执行。在编码器中计算量度需要该量度之后被量化，并且需要经量化的量度的编码表示被传送至解码器，在解码器中，其用于控制背景噪声平滑。噪度参数的传输需要某种比特率，例如每20ms帧5比特因此250bps,这可能形成劣势。尽管如此，考虑到在语音不活动时段期间仅需要噪度参数，所以根据特定实施例，在活动的语音期间略过(skip)该传输、并且仅在不活动期间对其进行传送是可能的，其中在所述不活动期间，通常是能够获得该比特率的，原因是编解码器不需要与活动语音期间相同的比特率。与之类似，考虑到以某种特定较低速率模式对无声语音声音和不活动声音进行编码的语音编解码器的特殊情况，提供该额外的比特率而不增加额外成本也是可能的。尽管如此，如上所述，根据所接收到的并经解码的LPC参数在解码器侧得到噪度度量是可能的。公知的提升(step-up) /降低 (step-down)过程提供了一种用于从所接收到的LPC参数计算预测误差方差序列的方法，如上所述，其继而能够被用于计算噪度度量。应当指出，根据实验性结果，本发明的噪度度量在结合特定背景噪声平滑方法的情况下特别有益，在研究中，该度量与所述方法相结合。尽管如此，在结合了其他防涡流方法的情况下，将该度量与在现有技术中已知的稳态度量相结合可能是有益的。噪度度量能够与之相结合的一种此类度量是LPC参数相似性量度。该度量例如通过对应的 LPC参数向量之间的距离来评估两个连续帧的LPC参数，参数向量差异很大，则该量度会引起较大的值并且由此能够被用作信号平稳性的指示。还应当注意，除了本发明的"噪度"与现有技术方法的"平稳性" 之间的上述概念性差异之外，这些度量之间还存在至少一个另外的重要的区别性差异。即，计算平稳性包含得到至少当前帧的当前参数，并且将其与至少某个先前帧的先前参数相关。与之对照，噪度能够被计算为对当前帧的即时度量而不用了解某个较早的帧。其好处是能够节省用于存储来自于先前帧的状态的存储器。以下实施例描述了能够根据所提供的噪度度量来控制防涡流方法的方式。假设通过控制因子来控制平滑操作并且不限制一般性，等于1的控制因子意味着没有平滑操作，而等于0的因子意味着最大可能程度的平滑。根据基本实施例，所提供的噪度度量直接控制对背景噪声信号进行解码期间所应用的平滑的程度。假设通过参数7来控制平滑程度。于是例如，根据以下示例性表达式将来自上文的噪度量度直接映射为 y是可能的v的适当选择是0.5并且对于//而言，是0.5与2之间的值。应当注意到QW表示量化运算符，其还执行数值范围的限制以使得控制因子不超过l。还应注意，优选地根据输入信号的谱含量来选择系数//。特别地，如果编解码器是以16kHz采样率进行操作的宽带编解码器并且输入信号具有宽带频谱(0-7kHz)，则该量度会引起比输入信号具有窄带频谱(0 - 3400Hz)的情况中相对更小的值。为了对该效应进行补偿，针对宽带含量的/z应比针对窄带含量的；/大。适当选择是对于宽带含量而言A-2，而对于窄带含量而言//=0.5。尽管如此，取决于特定情况，其他值也是可能的。因而，根据该信号是包含宽带含量还是窄带含量，能够通过参数/z来对平滑操作程度进行特殊校准。影响重构背景噪声信号的质量的一个重要方面是不活动时段期间的噪度量度会非常快速地变化。如果前述噪度量度用于直接控制背景噪声平滑，其可能会引入不期望的信号波动。参见图3，根据本发明的另一优选实施例，噪度度量用于对背景噪声平滑进行间接控制而非直接控制。一种可能性是例如利用低通滤波的噪度度量的平滑。尽管如此，这可能引起以下情况可应用比量度所指示的程度更强的平滑程度，其继而可能影响合成的信号的自然性。因此，优选原则是避免背景噪声平滑程度快速提高，并且另一方面，当噪度量度突然指示更低程度的平滑是适当的时候允许快速地改变。以下描述指定操纵背景噪声平滑的程度以便实现该行为的一种优选方法。假设通过参数^ 来控制平滑程度。不像上述直接控制，噪度度量现在根据以下公式来操纵间接控制参数<formula>formula see original document page 16</formula>则平滑控制参数^被设置为ymin与先前所使用的平滑控制参数/减去某个量J之后之间的最大值<formula>formula see original document page 16</formula>该操作的效果是只要y仍大于;^,则逐步朝着^n来调整y。否则，其等于Lin。对于该步长大小5的适当选择是0.05。在图3中，所描述的操作被直观化。本发明者的研究已经表明，间接或直接取决于所提供的噪度度量的背景噪声平滑能够提供重构背景噪声信号的质量增强。还已经发现，对于质量而言以下是很重要的确保在活动语音期间避免平滑操作，并且背景噪声平滑的程度不会太频繁且太快速地改变。一个相关方面是语音活动检测(VAD)操作，VAD操作控制是否启用背景噪声平滑。理想情况下，VAD应检测其中启用背景噪声平滑的语音信号的活动部分之间的不活动时段。尽管如此，在实际中，不存在这样的理想VAD,并且会发生部分活动语音被宣告为不活动或者不活动部分被宣告为活动语音的情况。为了提供针对活动语音可能被宣告为不活动的问题的解决方案，通常做法是例如在具有不连续传输(D T X )的语音传输中向被宣告为活动的分段添加所谓的延时时段。这是一种人为扩展被宣告为活动的时段的方法。其降低帧被错误地宣告为不活动的可能性。已经发现，在控制背景噪声平滑操作的背景中，能够有利地应用对应的原则。参见图2和图6,根据本发明的优选实施例，公开了检测语音分量的活动状态的另一步骤S25。之后，控制背景噪声平滑操作并且仅响应于所检测到的语音分量的不活动而发起背景噪声平滑操作。此外，.使用延迟或延时，这意味着仅在VAD已开始宣告帧为不活动的预定数目的帧之后才启用背景噪声平滑。适当的选择(并非限制)是例如在启用噪声平滑之前、VAD已经开始宣告帧为不活动之后等待5 帧(=100ms)。关于VAD有时会宣告非语音帧为活动的问题，发现无论何时VAD宣告帧为活动，不管该VAD判决是否正确，关闭背景噪声平滑操作都是适当的。此外，在乱真(spurious) VAD激活之后，即刻恢复背景噪声平滑(即没有延时)是有益的。如果所检测到活动时段仅仅是短暂的，其例如小于或等于3帧(=60ms)。为了进一步改进背景噪声平滑的性能，发现在延时时段之后逐渐启用背景噪声平滑而非过于突然开启背景噪声平滑是有益的。为了实现此类逐渐启用，定义了渐入(phase-in)时段，在该渐入时段期间，操纵平滑操作逐渐从非激活状态到完全启用状态。假设渐入时段长为 k个帧，并且还假设当前帧为该渐入时段中的第n个帧，则通过在其原始值y与其对应于平滑操作去激活(r一-l)的值之间进行内插来获得用于该帧的平滑控制参数g*:应当注意到，仅在延时时段之后(即不是乱真VAD激活之后) 激活渐入时段是有益的。图4图示了示例性时序图，其指示了平滑控制参数g申与VAD标记、添加的延时和渐入时段的依赖关系。此外，示出了仅当VAD是O、并且在延时时段之后，平滑才被启用。图5的流程图中示出了利用背景噪声平滑的语音活动驱动(VAD ) 激活来实施上述方法的过程的另一实施例，并且下文将对此进行解释。为以起点开始的每个帧(或子帧)执行该过程。首先，检查VAD 标记，并且如果其具有等于1的值，则执行活动语音路径。此处，增加用于活动语音帧的计数器(。然后检查计数器是否超过乱真VAD激活限度(」"—cow"Pe加6—Ao—/Zm)，并且如果情况就是这样，则重置用于不活动帧的计数器(/"a"—cow^=0 )，这又是指示在下一个不活动时段期间将要添加延时时段的信号。此后，该过程停止。尽管如此，如果VAD标记具有指示不活动的等于0的值，则执行不活动语音路径。此处，首先增加不活动帧计数器(/"a"—。然后4全查该计数器是否小于或等于延时限度(/"a" cow"/<=Ao),在该种情况下，执行用于延时时段的执行路径。在这种情况下，噪声平滑控制参数g^皮设定为1,这会禁用平滑。此外，用乱真VAD激活限度对活动帧计凄t器进4亍初始化(^"—cow"f=e"a6—Ao一/i7n ),这意^未着在后续的乱真VAD激活的情况下，仍不会禁用延时时段。此后，该过程停止。如果不活动帧计数器大于延时限度，则检查不活动帧是否小于或等于延时限度加上渐入限度(/"a"—cow"f<=Ao+/ 0 。如果情况是这样，则执行对渐入时段的处理，这意味着利用上述内插(g* =力插)来获得噪声平滑控制参数。否则，不修改噪声平滑控制参数。此后，利用按照噪声平滑参数的程度执行背景噪声平滑过程。之后，舌史、、亡^山*;:丄a厶幼 z ^ _丄 ______丄—八、在n去恭丄b 畜、7 a r\ 、:狄皇且/—力^v'r夕《一f》人s^" 、/lc;f一c;"w/^" —v 乂 , A ^i^冬有卄u^ ，估5Li异 VAJJ /双活之后，禁用延时时段。此后，该过程停止。取决于利用噪声平滑过程所达到的质量，其不仅在不活动语音期间，而且在具有类似噪声特征的无声语音期间可引起质量增强。因此，在这种情况下，背景噪声平滑的语音活动驱动激活可受益于扩展，其不仅在不活动语音帧而且在无声帧期间被激活。通过将所述方法与背景噪声平滑的间接控制和背景噪声平滑的语音活动驱动的激活相结合，获得本发明的优选实施例。根据结合可缩放编解码器的本发明的另一实施例，如果利用更高速率层进行解码，则总体上降低了平滑程度。这是因为更高速率的语音编码在背景噪声时段期间通常具有更少的涡流问题。本发明特别有益的实施例能够与平滑操作相结合，其中，结合了LPC参数平滑(例如低通滤波)和激励信号修改。简而言之，平滑操作包含对表示语音会话的信号进行接收和解码，该信号包括语音分量和背景噪声分量。之后，为该信号确定LPC参数和激励信号。此后，通过降低激励信号的功率和镨波动来修改所确定的激励信号以提供经平滑的输出信号。最后，根据所确定的LPC参数和激励信号，对输出信号进行合成和输出。与本发明的控制操作相结合，提供了质量得以改进的经合成的语音信号。下文参考图6和7来描述根据本发明的设备。图6和图7中的通用输入/输出单元I/O中隐含地公开了不涉及本发明的特定工作的任意公知的通用传输/接收和/或编码/解码功能。参见图6,其示出了用于对电信语音会话中的稳态背景噪声分量的平滑进行控制的控制单元1。控制单元1适于接收和传送与语音会话相关的输入/输出信号。因而，控制器1包括用于处理传入信号和传出信号的通用输出/输出1/0单元。此外，该控制器包括接收器和解码器单元10,其适于对包括语音分量和背景噪声分量这二者的表示语音会话的信号进行接收和解码。此外，单元1包括用于提供与输入信号相关的噪度量度的单元20。根据一个实施例，噪度单元20可适于根据所接收到的信号来实际确定噪度度量，或者根据另一实施例，适于从电信系统中的某个其他节点(优选地从所接收到的信号所源自的节点或用户终端)接收噪度度量。此外，控制器1包括背景平滑单元30, 后者根据来自于噪度度量单元20的噪度度量来实现对所重构的语音信号的平滑。仍参见图6,根据另一实施例，控制器设备1包括语音活动检测器或VAD 25,后者由附图中的虛线框所指示。VAD 25运行以检测信号的语音分量的活动状态，并且将其作为另外的输入而提供以在平滑单元30中实现改进的平滑。参见图7，控制器设备1优选地集成在电信系统中的解码器单元中。尽管如此，如针对图6所描述的那样，控制器l中用于提供噪度度量的单元可适于仅接收从电信系统中的另一节点传送的噪度度量。因而，图7中还公开了编码器设备。编码器包括用于传送和接收信号的通用输入/输出单元I/O。该单元隐含地公开了所有必要的已知的用于使得编码器能够运行的功能。一种此类功能被特别公开为编码和传送单元100，其用于对表示语音会话的信号进行编码和传送。此外，编码器包括单元200和单元300，单元200用于为所传送的信号确定噪度度量，单元300用于将所确定的噪度度量传送至控制器1的噪度提供单元20。本发明的优点包括改进的背景噪声平滑操作；对背景噪声平滑的改进控制。本领域技术人员应当理解，可以对本发明进行各种修改和变化而不脱离由所附权利要求所定义的范围。参考文献[1]美国专利5632004[2]美国专利5579432[3]美国专利5487087[4]美国专利6275798 Bl[5]3GPPTS 26.090, AMR语音编解码器；代码转换功能[6]EP 1096476[7]EP 1688920[8]美国专利5953697[9]EP 665530 Bl[10]Tasaki等人，Post noise smoother toimprove low bit ratespeech-coding performance, IEEE Workshop on speech coding, 1999[11] Ehara等人，Noise Post-Processing Based on a Stationary Noise Generator, IEEE Workshop on speech coding, 200权利要求
1.一种对电信语音会话中的稳态背景噪声进行平滑的方法，其特征在于对表示语音会话的信号进行接收和解码(S10)，所述信号包括语音分量和背景噪声分量这二者；为所述信号提供(S20)噪度度量；以及根据所述提供的噪度度量来自适应地平滑(S30)所述背景噪声分量。
2. 根据权利要求1所述的方法，其特征在于所述噪度度量基于信号的可预测性。
3. 根据权利要求2所述的方法，其特征在于所述噪度度量基于与具有不同阶数的LPC分析滤波相关联的预测误差方差的比率。
4. 根据权利要求1所述的方法，其特征在于响应于所检测到的所述输入信号的窄带或宽带含量而适配所述噪度量度。
5. 根据权利要求1所述的方法，其特征在于所述平滑操作由所述噪度度量直接控制。
6. 根据权利要求1所述的方法，其特征在于所述平滑操作由所述噪度度量间接控制。
7. 根据权利要求6所述的方法，其特征在于所述平滑是根据平滑控制参数来执行的，所述平滑控制参数逐渐跟踪所检测到的所述噪度度量的增加，并且即刻跟踪所检测到的所述噪度度量的减小。
8. 根据权利要求1所述的方法，其特征在于为所述信号的每个帧至少执行一次所述噪度提供步骤(S20)。
9. 根据权利要求8所述的方法，其特征在于为所述信号的每个所述帧的每个子帧执行所述噪度提供步骤(S20)。
10. 根据前述权利要求中任一项所述的方法，其特征在于另外的步骤检测(S25)所述语音分量的活动状态，以及响应于具有不活动状态的所述语音分量而发起所述自适应平滑。
11. 根据权利要求10所述的方法，其特征在于响应于所检测到的不活动语音分量而以预定延迟发起所述自适应平滑。
12. 根据权利要求11所述的方法，其特征在于在少于预定数目的帧的乱真VAD激活之后即刻恢复所述背景噪声平滑。
13. 根据权利要求11所述的方法，其特征在于在所述延迟结束时逐渐发起所述平滑操作。
14. 根据权利要求10所述的方法，其特征在于响应于检测到活动语音分量而即刻终止所述自适应平滑。
15. —种用于电信系统中的背景平滑的控制器，其特征在于用于对表示语音会话的信号进行接收和解码的装置(10)，所述信号包括语音分量和背景噪声分量这二者；用于为所述信号提供噪度度量的装置(20);以及用于根据所述提供的噪度度量来自适应地平滑所述背景噪声分量的装置(30)。
16. 根据权利要求15所述的控制器，其特征在于所述噪度度量提供装置(20)适于从网络节点接收所述噪度度量。
17. 根据权利要求15所述的控制器，其特征在于所述提供装置 (20 )适于根据所接收到且经解码的LPC参数来得到用于所述信号的噪度度量。
18. 根据权利要求15所述的控制器，其特征在于用于检测所述语音分量的活动状态的另外装置(25)，并且所述平滑装置适于响应于具有不活动状态的所述语音分量而发起所述自适应平滑。
19. 根据权利要求18所述的控制器，其特征在于所述平滑装置 (30)还适于响应于所检测到的不活动语音分量而以预定延迟发起所述自适应平滑。
20. 根据权利要求18所述的控制器，其特征在于所述平滑装置适于在所述延迟结束时逐渐发起所述平滑操作。
21. 根据权利要求18所述的控制器，其特征在于所述平滑装置适于响应于检测到活动语音分量而即刻终止所述自适应平滑。
22. —种电信系统中的解码器设备，其特征在于用于对表示语音会话的信号进行接收和解码的装置(10),所述信号包括语音分量和背景噪声分量这二者；用于为所述信号提供噪度度量的装置(20);以及用于根据所述提供的噪度度量来自适应地平滑所述背景噪声分量的装置(30)。
23. 根据权利要求22所述的解码器设备，其特征在于所述噪度度量提供装置适于从网络节点接收所述噪度度量。
24. 根据权利要求22所述的解码器设备，其特征在于所述提供装置适于根据所接收到且经解码的LPC参数来得到用于所述信号的噪度度量。
25. —种电信系统中的编码器设备，其特征在于用于对去往用户终端的表示语音会话的信号进行编码和传送的装置(100),所述信号包括语音分量和背景噪声分量这二者；用于为所述传送的信号确定噪度度量的装置(200); 用于在所述用户终端处提供所述确定的噪度度量的装置(300)。
全文摘要
在对电信语音会话中的稳态背景噪声进行平滑的方法中，最初对表示语音会话的信号进行接收和解码S10，其中所述信号包括语音分量和背景噪声分量。之后，为所述信号提供S20噪度度量，并且根据所提供的噪度度量来自适应地平滑S30背景噪声分量。
文档编号G10L19/00GK101627426SQ200880007274
公开日2010年1月13日申请日期2008年2月27日优先权日2007年3月5日
发明者S·布鲁恩申请人:艾利森电话股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.布鲁恩
技术所有人：艾利森电话股份有限公司
我是此专利的发明人

上一篇：抑制杂音的方法、装置以及程序的制作方法
上一篇：用于对稳态背景噪声进行平滑的方法和设备的制作方法