用于包括通用音频和语音帧的音频信号的编码器的制作方法

文档序号：2832711阅读：262来源：国知局

专利名称：用于包括通用音频和语音帧的音频信号的编码器的制作方法
技术领域：
本公开一般地涉及语音和音频处理，并且尤其涉及用于处理包括通用音频和语音帧的音频信号的编码器。
背景技术：
很多音频信号可分类为具有较多语音类特性或者较多通用音频特性，典型的有音乐、音调、背景噪声、回响语音等等。基于适合于处理语音信号的源过滤器模型的编解码器不能有效处理通用音频信号。这样的编解码器包括线性预测代码化(LPC)编解码器，比如代码激励线性预测(CELP)代码器。语音代码器易于处理低比特率的语音信号。相反，诸如频域变换编解码器的通用音频处理系统不能很好地处理语音信号。公知的是，提供分类器或辨别器来在逐个帧的基础上确定音频信号更像语音还是不太像语音，并基于分类来将信号引导到语音编解码器或者通用音频编解码器。有时候将能够处理不同信号类型的音频信号处理器称为混合核心编解码器。然而，已知分别使用语音和通用音频编解码器在语音帧与通用音频帧的处理之间的变换在已处理的输出信号中产生音频间隙形式的不连续性。这样的音频间隙通常在用户接ロ处是可感知的，并且一般不受欢迎。现有技术图I图示了在输出帧序列中，在已处理的语音帧与已处理的通用音频帧之间产生的音频间隙。图I还在102处图示了输入帧序列，该序列可分类为语音帧(m-2)和(m-Ι)以及后面的通用音频帧(m)和(m+1)。样本索引η对应于在帧序列内的时间η处获得的样本。为了该曲线的目的，η=0的样本索引对应于获得帧(m)的最后ー个样本的相对时间。这里，可以在已经积累了 320个新样本以后处理帧(m)，这320个新样本与之前积累的160个样本组合，总共480个样本。虽然很多采样率和帧尺寸都可以，但是在该示例中，采样率为16kHz，且对应的帧尺寸为20毫秒。可使用线性预测代码化(LPC)语音代码化来处理语音帧，其中在104处图示了 LPC分析窗ロ。处理的语音帧(m-Ι)在106处被图示，且前面是未图示的与语音帧(m-2)相对应的代码化语音帧(m-2)。图I还在108处图示了重叠代码化通用音频帧。通用音频分析/综合窗ロ对应于已处理的通用音频帧的幅度包络。由于算法处理延迟，已处理的帧106和108的序列在相对于输入帧102的序列的时间上偏移，对于语音和通用音频帧，这里又将算法处理延迟分别称为先行延迟和重叠添加延迟。图I中在108处代码化通用音频帧(m)和(m+1)的重叠部分对110处的对应连续处理的通用音频帧(m)和(m+1)提供附加效果。然而，在108处代码化通用音频帧(m)的导尾不与相邻通用音频帧的拖尾重叠，因为前面的帧是代码化语音帧。因此，在108处对应的已处理的通用音频帧(m)的引导部分具有减小的幅度。将代码化语音和通用音频帧序列组合的结果是在已处理的输出帧序列中已处理的语音帧与已处理的通用音频帧之间的音频间隙，如110处的合成输出帧中所示。题为“Switching Between Coding Schemes (代码化方案之间的切換)”的美国公开No. 2006/0173675公开了通过在逐个帧的基础上在自适应多速率宽带(AMR-WB)编解码器与利用修正离散余弦变换(MDCT)的编解码器(例如，MPEG 3编解码器或者(AAC)编解码器，只要最合适)之间进行选择来兼容语音和音乐的混合代码器。诺基亚改良了作为不能取消的混叠误差出现的不连续性的不利效果，当使用具有接近完美的重构性质(其特征在于混叠误差的最小化)的特殊MDCT分析/综合窗ロ，从AMR-WB编解码器切换到基于MDCT的编解码器时出现上述混叠误差。诺基亚公开的特殊MDCT分析/综合窗ロ包括重叠基于正弦的窗ロ的3个组成部分H0 (n)、H1 (η)和H2 (η)，这3个组成部分应用于跟随语音帧的第一输入音乐帧，以提供改进的已处理的音乐帧。然而，该方法可能经历信号不连续性，信号不连续性可能由于通过H。(n) .H1 (η)和H2 (η)定义的关联谱区域的下建模而出现。也就是说，可能可用的有限数目的比特需要在三个区域上分发，但是仍然需要在前面语音帧的末端与区域Htl (η)的开始之间产生接近完美的波形匹配。对本领域普通技术人员而言，通过仔细考虑本发明后面的具体实施方式
以及后述附图，本发明的各种方案、特征和优点将变得更充分地显而易见。为了清楚起见，附图可被简化，并且不一定按照比例绘制。

现有技术图I示出具有音频间隙的语音和通用音频帧的传统处理的序列。图2是混合语音和通用音频信号代码器的示意性框图。图3是混合语音和通用音频信号解码器的示意性框图。图4图不首频イ目号编码处通。图5图示经历非传统代码化处理的语音和通用音频帧序列。图6图示经历另ー非传统代码化处理的语音和通用音频帧序列。图7图示音频解码处理。
具体实施例方式图2图示配置成将输入帧流代码化的混合核心代码器200，ー些输入帧流是语音帧，而其他输入帧流是不太像语音的帧。不太像语音的帧在此被称为通用音频帧。混合核心编解码器包括模式选择器210，模式选择器210处理输入音频信号s (η)的帧，其中η是样本索引。当采样率是每秒16k个样本时(其对应于20毫秒的帧时间间隔)，帧长度可包括320个音频样本，但是很多其他变化也是可能的。模式选择器被配置成基于特定于每个帧的属性或特性的估计来评估输入帧序列中的帧是更像语音还是不太像语音。音频信号辨别的细节或者更一般地音频帧分类超出了本公开的范围，但是为本领域技术人员所熟知。模式选择码字被提供给复用器220。码字在逐个帧的基础上指示处理输入信号的对应帧的模式。因此，例如，可将输入音频帧处理作为语音信号或者作为通用音频信号，其中码字指示怎样处理帧，并且特别是使用哪种类型的音频代码器来处理帧。码字也可以传递关于从语音到通用音频的转变的信息。虽然转变信息可以暗示来自之前的帧分类类型，但是发射信息的信道可能是有损耗的，并且因此关于之前帧类型的信息可能不可用。在图2中，编解码器一般包括第一代码器230和第二代码器240，第一代码器230适合于将语音帧代码化，第二代码器240适合于将通用音频帧代码化。在一个实施例中，语音代码器基于适合于处理语音信号的源过滤器模型，而通用音频代码器是基于时域混叠抵消(TDAC)的线性正交重叠变换。在一个实现中，除了适合于处理语音信号的其他代码器之外，语音代码器可利用代码激励线性预测(CELP)代码器的线性预测代码化(LPC)典型。通用音频代码器可实现为修正离散余弦变换(MDCT)编解码器，或者修正离散正弦变换(MDST)，或者基于不同类型的离散余弦变换(DCT)的MDCT的形式，或者DCT/离散正弦变换(DST)组合。在图2中，通过基于由模式选择器210选择或确定的模式来控制的选择开关250，第一代码器230和第二代码器240的输入端耦合到输入音频信号。例如，可基于模式选择器的码字输出，通过处理器来控制开关250。开关250选择用于处理语音帧的语音代码器230，并且该开关选择用于处理通用音频帧的通用音频代码器。借助于选择开关250，可以通过仅ー个代码器(例如，语音代码器，或者通用音频代码器)来处理每个帧。更一般地，虽然图2中仅图示了两个代码器，但是可通过若干不同代码器中的ー个将帧代码化。例如，可选择三个或更多个代码器中的ー个来处理输入音频信号的特定帧。然而，在其他实施例中，可通过下面进ー步讨论的所有代码器将每个帧代码化。在图2中，每个编解码器基于通过代码器处理的对应输入音频帧来产生编码比特流和对应处理帧。通过语音代码器产生的处理帧用え(》)表示，而通过通用音频代码器产生的处理帧用ん(め表示。在图2中，代码器230和代码器240输出端上的开关252将所选择的代码器的代码化输出耦合到复用器220。更特别地，开关将代码器的编码比特流输出耦合到复用器。还基于由模式选择器210选择或确定的模式来控制开关252。例如，可基于模式选择器的码字输出，通过处理器来控制开关252。复用器将码字与基于码字选择的对应代码器的编码比特流输出复用。因此，对于通用音频帧，开关252将通用音频代码器240的输出端耦合到复用器220，而对于语音帧，开关252将语音代码器230的输出端耦合到复用器。在通用音频帧代码化处理遵循(follow)语音编码处理的情况下，根据本公开利用特殊“转变模式”帧。转变模式编码器包括通用音频代码器240和音频间隙编码器260，其细节描述如下。图4图示混合音频信号处理编解码器(例如图2的混合编解码器)中实现的代码化处理400。在410，通过将帧序列中的第一音频帧代码化来产生代码化音频样本的第一帧。在示例性实施例中，音频样本的第一代码化帧是使用音频编解码器产生或生成的代码化语音帧。在图5中，输入语音/音频帧序列502包括连续的语音帧(m-2)和(m_l)以及后续的通用语音帧(m)。可部分地基于LPC分析窗ロ将语音帧(m-2)和(m_l)代码化，在504处图示了两者。在506处图示了与输入语音帧(m-Ι)相对应的代码化语音帧。该帧前面可以是未图示的与输入帧(m-2)相对应的另一代码化语音帧。相对于对应的输入帧，代码化语音帧被延迟了由干与LPC “先行”处理缓冲相关联(即，估计代码化语音帧的末端(或末端附近)周围的LPC參数所需要的帧前面的音频样本)的算法延迟所致的间隔。在图4中，在420，通过将帧序列中的第二音频帧的至少一部分代码化，产生代码化音频样本的第二帧的至少一部分。第二帧与第一帧相邻。在示例性实施例中，音频样本的第二代码化帧是使用通用音频编解码器产生或生成的代码化通用音频帧。在图5中，输入语音/音频帧序列502中的帧“m”是基于508处所示的基于TDAC的线性正交重叠变换分析/综合窗ロ(m)代码化的通用音频帧。输入帧序列502中的后续通用音频帧(m+1)通过508处所示的重叠分析/综合窗ロ(m+1)代码化。在图5中，通用音频分析/综合窗ロ在幅度上对应于已处理的通用音频巾贞。在图5中的508处,分析/综合窗ロ(m)和(m+1)的重叠部分对输入帧序列的对应连续处理通用音频帧(m)和(m+1)提供附加效果。结果是与输入帧(m)相对应的已处理通用音频帧的拖尾以及与输入帧(m+1)相对应的相邻处理帧的导尾不逐渐减小。在图5中，因为使用MDCT代码器处理通用音频帧(m)，并且使用LPC代码器处理之前的语音帧(m-Ι)，所以-480与-400之间的重叠区域中的MDCT输出为零。不知道怎样获得通用音频帧(m)的全部320个样本的混叠自由生成，并且同时使用与规则音频帧的MDCT顺序相同顺序的MDCT，通过后续通用音频帧(m+1)的MDCT输出来生成一些样本用于重叠添カロ。根据本公开的ー个方面，如下所述，提供对音频间隙的补偿，否则在处理的通用音频帧与前面已处理的语音帧之间会出现音频间隙。为了保证适当的混叠抵消，必须在M样本重叠添加区域内通过补充窗ロ展示以下性质wlt(M r ) + <( ) = 1,0 ≤η < Μ,和(I)Wnrl (M+n) Wnrl (2M_n_l)-wm (n) wm (M-n-l) = O, O ≤η < M (2)其中，m是当前巾贞索引，η是当前巾贞内的样本索引，wm(n)是巾贞m处的对应分析和综合窗ロ，并且M是关联帧长度。满足以上标准的通用窗ロ形状给出为
权利要求
1.一种用于将音频帧编码的方法，所述方法包括使用第一代码化方法，通过将帧序列中的第一音频帧代码化来产生代码化音频样本的第一中贞; 使用第二代码化方法，通过将所述帧序列中的至少一部分第二音频帧代码化来产生代码化音频样本的至少一部分第二帧；以及产生用于生成音频间隙填充样本的參数，其中所述參数表示代码化音频样本的所述第一帧的加权分段或者代码化音频样本的所述一部分第二帧的加权分段。
2.权利要求I所述的方法，通过选择用于减少在所生成的所述音频间隙填充样本与所述帧序列中基准音频间隙样本集合之间失真的參数，来产生所述參数。
3.权利要求I所述的方法，其中，如果将代码化音频样本的所述第一帧与代码化音频样本的所述一部分第二帧组合，则在代码化音频样本的所述第一帧与代码化音频样本的所述一部分第二帧之间将形成音频间隙，所述方法进ー步包括基于所述參数来生成所述音频间隙填充样本；形成包括所述音频间隙填充样本以及代码化音频样本的所述一部分第二帧的序列，其中，所述音频间隙填充样本填充了所述音频间隙。
4.权利要求I所述的方法，其中代码化音频样本的所述第一帧的所述加权分段包括第一加权參数和第一索引，所述第一加权參数和第一索引用于代码化音频样本的所述第一帧的所述加权分段，以及代码化音频样本的所述一部分第二帧的所述加权分段包括第二加权參数和第二索引，所述第二加权參数和第二索引用于代码化音频样本的所述一部分第二帧的所述加权分段。
5.权利要求4所述的方法，所述第一索引指定从所述帧序列中的基准音频间隙样本到代码化音频样本的所述第一帧中对应样本的第一时间偏移，以及所述第二索引指定从所述基准音频间隙样本到代码化音频样本的所述一部分第二帧中对应样本的第二时间偏移。
6.权利要求4所述的方法，基于所述帧序列中代码化音频样本的所述第一帧的分段与基准音频间隙样本的分段之间的相关性来确定所述第一索引，以及基于代码化音频样本的所述一部分第二帧的分段与基准音频间隙样本的所述分段之间的相关性来确定所述第二索引。
7.权利要求I所述的方法，产生用于生成所述音频间隙填充样本的參数，其中所述參数表示代码化音频样本的所述第一帧的所述加权分段和代码化音频样本的所述一部分第ニ帧的所述加权分段两者。
8.权利要求7所述的方法，其中所述參数基于以下表达式S1 = a 4S(-Tt)+β-Sa(T2) 其中，α是代码化音频样本的所述第一帧的分段SJ-K)的第一加权因子，β是代码化音频样本的所述一部分第二帧的分段^Γ2)的第二加权因子，并且表示所述音频间隙填充样本。
9.权利要求8所述的方法，基于失真度量来产生所述參数，所述失真度量是所述帧序列中基准音频间隙样本集合的函数，其中所述失真度量是方差失真度量。
10.权利要求8所述的方法，基于失真度量来产生所述參数，所述失真度量是基准音频间隙样本集合的函数，其中所述失真度量基于以下表达式 ° = \% -弋I 'K 其中Sg表示所述基准音频间隙样本集合。
11.权利要求8所述的方法，进ー步包括接收所述帧序列，其中所述第一帧与所述第ニ帧相邻，且所述第一帧在所述第二帧前面，并且其中使用通用音频代码化方法来产生代码化音频样本的所述一部分第二帧，并且使用语音代码化方法来产生代码化音频样本的所述第一中贞。
12.权利要求I所述的方法，基于失真度量来产生所述參数，所述失真度量是基准音频间隙样本集合的函数。
13.权利要求I所述的方法，使用通用音频代码化方法来产生代码化音频样本的所述一部分第二中贞。
14.权利要求13所述的方法，使用语音代码化方法来产生代码化音频样本的所述第一帧。
15.权利要求I所述的方法，进ー步包括接收所述帧序列，其中所述第一帧与所述第ニ帧相邻，且所述第一帧在所述第二帧前面。
全文摘要
一种用于通过以下将音频帧编码的方法通过将帧序列中的第一音频帧代码化，产生代码化音频样本的第一帧；通过将帧序列中的第二音频帧的至少一部分代码化，产生代码化音频样本的第二帧的至少一部分；以及产生用于生成音频间隙填充样本的参数，其中所述参数表示代码化音频样本的第一帧的加权分段或者代码化音频样本的所述一部分第二帧的加权分段。
文档编号G10L19/00GK102834862SQ201180012387
公开日2012年12月19日申请日期2011年3月1日优先权日2010年3月5日
发明者乌达·米塔尔, 乔纳森·A·吉布斯, 詹姆斯·P·阿什利申请人:摩托罗拉移动有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乌达·米塔尔;乔纳森·A·吉布斯;詹姆斯·P·阿什利
技术所有人：摩托罗拉移动有限责任公司
我是此专利的发明人

上一篇：社会网络中的数字媒体语音标签的制作方法
上一篇：车辆引擎声音增强的制作方法