用于音频编码中的dtx拖尾的方法和装置的制造方法_3

文档序号：9291756阅读：来源：国知局

实施例和附图更详细地描述本文所公开的解决方案的不同方面。为了解释而非限制的目的，阐述了具体细节(例如，特定场景和技术)，以提供对不同实施例的全面理解。然而，其他实施例可以与这些具体细节偏离。
[0051]由发送/编码节点执行的示例性方法，图7
[0052]下面将参照图7a描述由发送节点或编码节点执行的示例性方法。发送节点可操作以对诸如话音等的音频进行编码，并且与例如通信网络中的其他节点或实体进行通信。发送节点还可操作以在话音非活动期间应用DTX方案，该DTX方案包括发送SID帧。发送节点可以是例如蜂窝电话、平板电脑、计算机或能够进行有线和/或无线通信以及音频编码的任何其他设备。
[0053]图7a示出了包括以下步骤的方法:从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。该方法还包括:向接收节点发送704a N个拖尾帧，该N个拖尾帧包括所述帧集合Y。该方法还包括:与发送N个拖尾帧相关联地向接收节点发送705a第一 SID帧，其中，SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。上述方法使接收节点能够基于拖尾帧集合Y生成舒适噪声。
[0054]图7a和图7b中的动作的顺序仅是示例性的。例如，可以在已经发送了 N个拖尾帧之后确定集合Y。
[0055]拖尾帧集合Y中包含的帧应当代表背景噪声。因此，应当识别多个(N个)拖尾帧中最适合于确定或计算用于生成舒适噪声的参数(例如，所谓的SID参数)的拖尾帧。可以例如基于每一个帧中包含的信号的SNR电平来确定或识别集合Y中的帧，并且当该SNR电平满足特定准则时，将帧确定为适合于用作计算例如SID参数的基础。N个拖尾帧中的一些拖尾帧可能不太能代表背景噪声。例如，拖尾帧中的一些拖尾帧可能至少部分地包括话音或瞬时噪声，这使得它们不适合用作用于导出与舒适噪声生成有关的参数的基础。例如，话音帧通常具有共振峰结构，这在背景噪声中是看不见的；并且瞬时噪声帧可以具有比平均背景噪声更高的能量。不应当在集合Y中包括不代表背景噪声的这种拖尾帧。
[0056]可以用不同的方式在第一 SID帧中指示帧集合Y，下面将对此进行进一步描述。“第一 SID帧”意味着DTX时段中的第一 SID帧，其通常指示DTX时段的开始。DTX时段在这里意味着话音非活动时段，在该话音非活动时段期间，以比在非DTX时段期间更低的比特率和/或帧速率从发送节点向接收节点发送经编码的帧。DTX时段在这里意味着活动话音突发之间的时段，该时段由舒适噪声替换。这些时段从用于对向舒适噪声的过渡进行标记的第一 SID开始。然后，其通常后接具有多个“N0_DATA”帧(如其名字一样暗指不包含任何数据)和SID(或SIDJJPDATE)帧的时段。SID帧大多数情况下是每隔一定间隔(标记为“SID间隔”)发送的，直到下一个发声触发返回活动话音编码的过渡为止。也即是说，在SID间隔为8的情况下，DTX时段将被编码为:第一 SID、后接7个N0_DATA帧、后接SID_UPDATE。具有7个N0_DATA帧后接SID更新的该序列然后被重复，直到向活动话音的过渡发生为止。
[0057]如上所述，上述方法的优点是它使接收节点能够根据被确定为适合于该目的的帧导出针对舒适噪声的参数。这提高了生成的舒适噪声的质量，从而提高了用户体验。进一步通过利用用于该目的的第一 SID帧以非常资源有效的方式向接收节点指示集合Y。有利的是在发送节点中确定适合的拖尾帧，这是因为在该节点中，实际的音频信号数据是可访问的，而在接收节点中，仅数据的量化版本是可利用的。
[0058]指示集合Y的信息可以包括暗指序列中的拖尾帧的数量的数；指示N个拖尾帧中属于集合Y的帧的位置的码字或位图；指示N个拖尾帧中包含在集合Y中的一些拖尾帧的码字或位图、和/或指示N个拖尾帧中未包含在集合Y中的拖尾帧的码字或位图。
[0059]例如，SID帧可以包括诸如5等的数，接收节点应当将其解释为例如最后五个拖尾帧应当用于确定用于生产舒适噪声的参数。备选地，该数应当被解释为N个拖尾帧中的另一个具有五个帧的组(例如，倒数第二个至倒数第六个)。拖尾帧的数量(N)可以是例如
6、7、8或9。在特殊情况下，拖尾帧的数量(N)可以等于SID帧中指示的数量，S卩，然后应当基于所有拖尾帧来确定参数。
[0060]备选地或此外，SID帧可以包括指示属于集合Y的帧的位置的码字或位图/位掩码。可以以不同的方式来配置这种码字。可以使用代码系统，其中，发射机节点和接收机节点均知道代码的意义，例如，两侧都有权访问规定例如码字“01”映射到N个拖尾帧中在帧k、k-1、k-2、k-4和k-6处的拖尾帧的码本。备选地，可以使用位图/位掩码。这种位图可以覆盖N个拖尾帧的所有N个位置或者N个位置的子集。应当已经在先前某个时刻向接收节点通知位图/位掩码的字符。例如，如果N = 8，则诸如“11011000”等的示例性位图/位掩码可以包含在SID帧中，其指示第4个、第5个、第7个和第8个先前帧应当用于确定针对舒适噪声的参数。备选地，位图/位掩码“11011”可以包含在第一 SID帧中，其具有与先前示例一样的意义。备选地，可以指示未包含在集合Y中的拖尾帧的位置。与先前示例类似，相应的位图/位掩码然后可以是“00100111”或“00100”或“100111”。
[0061]这些是可以包含在第一 SID帧以指示应当使用拖尾帧中的哪一些拖尾帧的信息的所有不同的实现。通常，用于指示集合Y所需的比特越少越好。
[0062]上面所讨论的在第一 SID帧中发送舒适噪声生成所基于的拖尾帧集合的标识的构思可以与将SID参数作为第一 SID帧的一部分发送相结合。也即是说，第一 SID帧还可以包括SID参数。这些SID参数将给出关于信号在当前帧中如何表现的指示。与来自早前的拖尾帧的信息相比，可以例如对该信息施加更大的权重。当然，在不考虑SID帧的信号参数的情况下可以区分地对拖尾帧进行加权，但是无论如何，先前帧中不去往DTX的指示应当指示我们不是非常确定该帧表示非活动/仅背景噪声。
[0063]如前所述，拖尾帧的数量(N)可以是动态可变的。可以基于输入音频信号的属性来确定数量N。例如，数量N可以取决于停止DTX时段的话音声音和/或背景噪声的特性。通过使用动态数量的拖尾帧，需要向接收节点发送的拖尾帧的数量可以保持最小，因而与具有静态数量的拖尾帧相比，可以节省资源。
[0064]在图7b中示出了可以在图7a中所示的方法之前的一些动作。在图7b中，在动作701b中确定音频流的帧(例如，音频信号的一段，该信号至少部分地包括话音)是否包括活动话音。这通常被称作语音活动检测VAD。当确定一个或多个帧不包括活动话音时，将发送多个拖尾帧，例如以减小切断话音声音的可能性，如前所述。当应用动态数量的拖尾帧时，可以对被确定为不包括活动话音的前几个帧中包含的信号进行分析，并且可以在动作702b中确定拖尾帧的适合数量。当确定拖尾帧的适合数量N时，还可以考虑被确定为包括活动话音的最后几个帧的属性，例如以确定SNR或相邻帧之间的帧能量减小。
[0065]也即是说，可以在话音非活动的决策之前和/或之后基于帧中包括的信号的属性来确定拖尾帧的数量N。此外或备选地，当确定N时，可以考虑被确定为仅包括背景噪声的先前信号帧的属性。
[0066]如前所述，确定拖尾帧的数量可以基于信号帧内和/或之间的SNR或能量的下降的特性。拖尾帧的数量N可以是静态的、半静态的或动态的，并且可以针对不同的话音偏移而不同。
[0067]例如，在动作704b，如前所述，可以根据包括活动话音的帧的编码来对向接收节点发送的拖尾帧进行编码。当拖尾帧的数量N是动态的时，也可以例如在第一 SID帧中向接收节点指示数量N。
[0068]由解码节点执行的示例性方法、图8
[0069]下面将参照图8描述由接收节点或解码节点执行的示例性方法。解码节点可操作以对诸如话音等的音频进行解码，并且与例如通信网络中的其他节点或实体进行通信。解码节点还可操作以在话音非活动期间应用DTX方案，该DTX方案包括接收SID帧并且生成舒适噪声。解码节点可以是例如蜂窝电话、平板电脑、计算机、或能够进行有线和/或无线通信以及音频解码的任何其他设备。
[0070]图8中所示的示例性方法包括:从发送节点接收801 N个拖尾帧。此外，与N个拖尾帧相关联地接收802第一 SID帧。基于所接收的SID帧中的信息来从多个(N个)拖尾帧中确定803拖尾帧集合Y。此外，至少部分地基于拖尾帧集合Y来生成805舒适噪声。
[0071]可以在已经接收到N个拖尾帧中的最后一个拖尾帧之后接收SID帧，该SID帧指示DTX时段的开始。然而，也可以在拖尾帧之前或者在两个拖尾帧之间接收SID帧(如果这被允许并且在DTX方案的传输协议中被规定的话)。
[0072]可以在第一 SID帧中指示拖尾帧的数量N，然而，这是可选的。数量N可以备选地被设置为默认值，例如，7，这暗指DTX时段之前的最后7个接收帧(不计入SID帧)将是拖尾帧。此外，当应用动态数量的拖尾帧时，存在信号通知拖尾帧的数量N的其他方式。例如，可以通过音频信号的属性(例如，长期SNR度量)来隐式地信号通知数量。可以基于解码的音频信号来生成这种度量，并且因此可以在解码器处利用该度量。
[0073]如前所述，S

完整全部详细技术资料下载

当前第3页1 2 3 4 5