用于音频编码中的dtx拖尾的方法和装置的制造方法

文档序号:9291756阅读:584来源:国知局
用于音频编码中的dtx拖尾的方法和装置的制造方法
【技术领域】
[0001]本文所述的解决方案大体上涉及音频编码,具体地,涉及与音频编码中的不连续传输(DTX)相关联的拖尾帧。
【背景技术】
[0002]诸如3GPPAMR(3GPP TS 26.071)和 AMR-WB (3GPP TS 26.171)等的当前音频或话音编码标准以及各种ITU-T话音编码标准(例如,ITU-T推荐G.729、ITU-T推荐G.718)包括不连续传输方案(DTX),该不连续传输方案(DTX)在话音非活动期间暂停话音传输,并且取而代之地以与用于编码的活动话音的比特率和帧传输率相比明显降低的比特率和帧传输率来发送静音插入描述符(SID)帧。DTX的目的是提高传输效率,这进而减少了话音通信的成本和/或增加了给定通信系统中同时可能的电话连接的数量。
[0003]当前最先进的利用DTX的通信系统在活动话音段期间发送常规话音编码帧。在诸如话音暂停等的非活动段期间,这些系统更确切地发送SID帧,接收机根据SID帧生成所谓的舒适噪声作为非活动信号的替代信号。为了实现最佳可能的DTX效率,可能期望仅在活动话音期间而非在非活动段期间(例如,在话音暂停期间)发送话音编码帧。
[0004]为了对话音和非活动进行区分,在编码侧或发送侧使用语音活动检测器(VAD) ο在与活动话音段相对应的帧期间,提升(raise) 了 VAD标记。该构思实际上并且特别是在话音存在于背景噪声中的情形中,遭受VAD分类错误。也即是说,非活动时段被分类为活动话音时段,反之亦然。VAD的主要问题之一是话音结束点的检测,S卩,信号从活动话音改变为非活动的精确时间点。该问题的主要原因在于,在话音实际停止之前,很多话音偏移缓慢地衰减,使得聊天进发(talk spurt)结束可能非常好地被背景噪声覆盖。该问题的结果可能是这种话音偏移被分类为非活动,这可能导致未将相应的信号帧作为活动话音而是作为静音信号来编码、发送和重构,其中,针对该静音信号生成舒适噪声。这意味着话音偏移(话音时段的结束)可能被感知为截断的,这导致重构的话音的质量甚至可理解性显著下降。换言之,这可能导致较差的用户体验。
[0005]诸如AMR和AMR-WB等的当前最先进的编解码器通过将利用舒适噪声合成的DTX操作的开始延迟到VAD检测偏移之后多个帧来解决该问题。这是使用编码器处的DTX控制逻辑来完成的,DTX控制逻辑延长或添加将输入信号作为活动话音编码(即使VAD标记指示非活动也是如此)的时间段。该时段被称作拖尾时段,并且在AMR和AMR-WB的情况下,拖尾时段的长度为7个帧。
[0006]拖尾时段不仅用作用于避免话音后段(或偏移)截断的方式,而且还用作用于SID帧参数分析的方式。在AMR和AMR-WB的情况下,未发送(充分长的)聊天进发之后的第一 SID帧参数,而是由解码器根据在拖尾时段期间接收和存储的话音帧参数来计算该第一SID帧参数(3GPP TS 26.092 ;3GPP TS 26.192)。基于在拖尾时段期间接收的话音帧参数进行SID帧参数的计算的目的是节省传输资源(如果不这样的话,传输资源将花费在SID帧传输上)并且最小化潜在的传输错误对第一 SID帧参数的影响。
[0007]在所述的最先进解决方案中描述的拖尾时段的主要问题是它折衷了 DTX方案的效率。将拖尾帧作为活动话音进行编码,而不论它们是否可能是非活动帧。如果话音在非活动时段之间包括频繁的单独聊天进发,则以高比特率将相当大量的帧作为话音帧而不是舒适噪声帧进行编码。
[0008]如果缩短拖尾时段以提高DTX方案的效率,则可能出现相关问题。拖尾时段越短,它未正确地表示非活动噪声信号的可能性越大。这进而可能导致在聊天进发结束之后立即进行的舒适噪声合成的可听下降。
[0009]在AMR和AMR WB中,编码器和解码器使用状态机来跟踪DTX拖尾帧,其中,状态机需要在编码器和解码器中是同步的。

【发明内容】

[0010]将期望在音频解码器侧生成代表音频编码器侧的背景噪声的舒适噪声。此外,期望仅使用最少的资源以高效的方式进行该操作。因此,本文所提出的解决方案的目的是使得能够生成代表编码器侧的背景噪声的舒适噪声并且使用有限数量的资源来进行该操作。
[0011]本文所提出的解决方案提高了利用DTX进行话音传输的效率,而不会折衷聊天进发结束时的舒适噪声合成的质量。
[0012]根据第一方面,提供了一种由发送节点或编码节点执行的方法。所述发送节点能够操作以对诸如话音等的音频进行编码并且与例如通信网络中的其他节点或实体进行通信。所述发送节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括发送SID帧。所述方法包括:从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。所述方法还包括:向接收节点发送所述N个拖尾帧,所述N个拖尾帧包括所述帧集合Y。所述方法还包括:与发送所述N个拖尾帧相关联地向所述接收节点发送第一 SID帧,其中所述SID帧包括向所述接收节点指示所确定的拖尾帧集合Y的信息。上述方法还包括:使所述接收节点能够基于所述拖尾帧集合Y来生成舒适噪声。
[0013]根据第二方面,提供了一种由接收节点或解码节点执行的方法。所述解码节点能够操作以对诸如话音等的音频进行解码并且与例如通信网络中的其他节点或实体进行通信。所述解码节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括接收SID帧并且生成舒适噪声。所述方法包括:从发送节点接收N个拖尾帧。此外,与所述N个拖尾帧相关联地接收第一 SID帧。基于所接收的SID帧中的信息从所接收的多个(N个)拖尾帧中确定拖尾帧集合Y。此外,基于所述拖尾帧集合Y来生成舒适噪声。
[0014]根据第三方面,提供了一种发送或编码节点。所述发送节点能够操作以对诸如话音等的音频进行编码并且能够操作以与例如通信网络中的其他节点或实体进行通信。所述发送节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括发送SID帧。所述发送节点包括处理装置(例如,采取处理器和存储器的形式),所述存储器包含能够由所述处理器执行的指令。所述处理装置能够操作以从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。所述处理装置还能够操作以向接收节点发送所述N个拖尾帧,所述N个拖尾帧包括所述帧集合Y ;以及还与发送所述N个拖尾帧相关联地向所述接收节点发送第一 SID帧,其中所述SID帧包括向所述接收节点指示所确定的拖尾帧集合Y的信息。
[0015]根据第四方面,提供了一种接收节点或解码节点。所述接收节点能够操作以对诸如话音等的音频进行解码并且能够操作以与其他节点或实体进行通信。所述接收节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括接收SID帧。所述接收节点包括处理装置(例如,采取处理器和存储器的形式),所述存储器包含能够由所述处理器执行的指令。所述处理装置能够操作以:从发送节点接收N个拖尾帧;以及还与所述N个拖尾帧相关联地接收第一 SID帧。所述处理装置还能够操作以:基于所接收的SID帧中的信息从所述多个(N个)拖尾帧中确定拖尾帧集合Y;以及基于所述拖尾帧集合Y来生成舒适噪声。
[0016]根据第五方面,提供了一种计算机程序,包括计算机程序代码,当所述计算机程序代码在发送节点中运行时,所述计算机程序代码使所述发送节点执行根据第一方面所述的方法。
[0017]根据第六方面,提供了一种计算机程序,包括计算机程序代码,当所述计算机程序代码在接收节点中运行时,所述计算机程序代码使所述接收节点执行根据第二方面所述的方法。
[0018]根据第七方面,提供了一种计算机程序产品,包括根据第五方面所述的计算机程序。
[0019]根据第八方面,提供了一种计算机程序产品,包括根据第六方面所述的计算机程序。
【附图说明】
[0020]根据附图中示出的实施例的以下更具体的描述,本文所公开的解决方案的前述和其他目的、特征和优点将显而易见。附图不必按比例绘制,而是重点说明本文公开的解决方案的原理。
[0021]图1示出了编码器的框图。编码器包括VAD和拖尾编码器。
[0022]图2是操作于DTX的解码器的框图。
[0023]图3是VAD和拖尾确定逻辑的框图。
[0024]图4是拖尾编码器的框图。
[0025]图5是拖尾编码器的流程图。
[0026]图6a和图6b是拖尾解码器的流程图。
[0027]图7a和图7b是示出了根据本文提出的解决方案由发送节点或编码节点执行的方法的示例性实施例的流程图。
[0028]图8是示出了根据本文提出的解决方案由接收节点或解码节点执行的方法的示例性实施例的流程图。
[0029]图9至图10是示出了根据本文提出的解决方案的发送节点的示例性实施例的框图。
[0030]图11至图12是示出了根据本文提出的解决方案的接收节点的示例性实施例的框图。
【具体实施方式】
[0031]如前所述,在利用不连续传输(DTX)的通信系统中,当使用拖尾技术来避免由于不正确的语音活动检测器(VAD)决策而引起的质量下降时,传输效率下降。
[0032]在诸如话音暂停等的所谓的非活动信号
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1