用于包括通用音频和语音帧的音频信号的解码器的制作方法

文档序号：2832714阅读：392来源：国知局

专利名称：用于包括通用音频和语音帧的音频信号的解码器的制作方法
技术领域：
本公开一般地涉及语音和音频处理，并且更具体地，涉及用于处理包括通用音频和语音帧的音频信号的解码器。
背景技术：
许多音频信号可以被分类为具有更多类语音特性或音乐、音调、背景噪声、回响语音等更典型的更多的通用音频特性。基于适用于处理语音信号的源滤波器模型的编译码器不会有效地处理通用音频信号。这样的编译码器包括线性预测代码化(LPC)编译码器，如码激励线性预测(CELP)代码器。语音代码器往往以低比特率处理语音信号。相反，诸如频域变换编译码器的通用音频处理系统不会很好地处理语音信号。公知的是，提供分类器或鉴别器来在逐个帧的基础上确定音频信号是更像语音还是不太像语音，并且基于该分类来将信号指引到语音编译码器或通用音频编译码器。能够处理不同信号类型的音频信号处理器有时被称为混合核心编译码器。然而，分别地已知在与使用语音编译码器和通用音频编译码器的语音帧和通用音频帧的处理之间的转变来在已处理输出信号中产生音频间隙形式的不连续。这样的音频间隙通常可在用户接ロ处察觉，并且通常是不期望的。现有技术图I图示了输出帧序列中的在已处理语音帧与已处理通用音频帧之间产生的音频间隙。图I还在102处图示了输入帧的序列，该输入帧的序列可以被分类为语音帧(m-2)和(m-1)，后面是通用音频帧(m)和(m+1)。样本索引η与该帧串内的在时间η处获得的样本相对应。出于该图的目的，η = O的样本索引与其中获得帧(m)的最后ー个样本的相对时间相对应。这里，可以在已经累积了 320个新样本之后处理帧(m)，将该320个新样本与160个先前累积的样本组合，总共480个样本。在该示例中，采样频率是16kHz，并且对应的帧尺寸是20毫秒，但是许多采样速率和帧尺寸都是可能的。可以使用线性预测代码化(LPC)语音代码化来处理语音帧，其中，在104处图示了 LPC分析窗ロ。已处理语音巾贞(m-Ι)在106处进行图示并且其前面是未图示的代码化的语音帧(m-2)，与输入帧(m-2)相对应。图I还在108处图示了重叠的代码化的通用音频帧。通用音频分析/复合窗ロ与已处理通用音频帧的振幅包络相对应。已处理帧106和108的序列由于算法处理延迟而导致在时间上相对于输入帧102的序列偏移，该算法处理延迟在本文中还分别针对语音和通用音频巾贞被称为先行延迟(look-ahead delay)和重叠-添加延迟。图I中的108处的代码化的通用音频(m)和(m+1)的重叠部分提供了对110处的对应顺序已处理通用音频帧(m)和(m+Ι)的加性效应。然而，因为前ー个帧是代码化的语音帧，所以在108处的代码化的通用音频帧(m)的导尾不与相邻的通用音频帧的拖尾重叠。因此，在108处的对应已处理通用音频帧(m)的前导部分具有减小的振幅。将代码化的语音和通用音频帧的序列组合的结果是在已处理输出帧的序列中的已处理语音帧和已处理通用音频帧之间的音频间隙，如110处的复合输出帧中所示。标题为“Switching Between Coding Schemes”(诺基亚)的美国申请No. 2006/0173675公开了ー种混合代码器，该混合代代码器通过在逐帧的基础上在自适应多速率宽带(AMR-WB)编译码器与利用修正的离散余弦变换(MDCT)之间进行选择，例如，在MPEG 3编译码器或(AAC)编译码器之间进行选择，其中最适当的ー个，来适应语音和音乐二者。诺基亚改善了不连续性的不利影响，该不连续性由于在使用具有几乎完美的重构性质(其特征在于混叠误差的最小化)的特殊MDCT分析/复合窗ロ从AMR-WB编译码器切换到基于MDCT的编译码器时产生的未抵消混叠误差而发生。诺基亚公开的特殊MDCT分析/复合窗ロ包括三个组成部分的重叠的基于正弦的窗ロ HtlOihH1 (η)和H2(η)，其被应用于在语音帧之后的第一个输入音乐帧以提供改善的处理音乐帧。然而，该方法可能经历可能由于由H0Oi)、氏(11)和H2 (η)定义的关联谱区的欠建模(under-modeling)所引起的信号不连续。也就是说，可以提供的有限数目的比特需要跨三个区域分布，同时仍然要求产生在前一语音帧的结尾与区域Htl (η)的起始之间的几乎完美的波形匹配。对于本领域的技术人员来说，在结合下述附图仔细考虑本发明的以下具体实施方式
时，本发明的各种方面、特征和优点将变得更加充分地显而易见。已经出于简单的目的简化了附图，并且附图不一定按比例绘制。

·
现有技术图I图示了具有音频间隙的语音帧和通用音频帧的常规处理序列。图2是混合语音和通用音频信号代码器的示意性框图。图3是混合语音和通用音频信号解码器的示意性框图。图4图不了首频イ目号编码过程。图5图示了经历非常规代码化过程的语音帧和通用音频帧的序列。图6图示了经历另一非常规代码化过程的语音帧和通用音频帧的序列。图7图示了音频解码过程。
具体实施例方式图2图示混合核心代码器200，该混合核心代码器200被配置成对输入的帧流进行代码化，该输入的帧流中的ー些是语音帧，而其它的是不不太像语音的帧。不太像语音的帧在本文中被称为通用音频帧。混合核心编译码器包括处理输入音频信号s (η)的帧的模式选择器120，其中η是样本索引。当采样速率是每秒16k个样本时，帧长度可以包括320个音频样本，这与20毫秒的帧时间间隔相对应，但是许多其它修改也是可能的。模式选择器被配置成基于特定于每个帧的属性或特性的评估来评定输入帧的序列中的帧比较像语音还是不太像语音。音频信号辨别或者更一般地音频帧分类的细节超出本公开的范围，但是对于本领域的普通技术人员来说是公知的。对复用器220提供模式选择码字。该码字在逐个帧的基础上指示通过其处理输入信号的对应帧的模式。因此，例如，输入音频帧可以作为语音信号或通用音频信号来进行处理，其中，码字指示如何处理该帧以及具体地使用什么类型的音频代码器来来处理该帧。该码字还可以传递关于从语音到通用音频的转变的信息。虽然可以从前ー帧分类类型暗示转变信息，但是通过其传送信息的信道可能是有损耗的，并且因此关于前一帧类型的信息可能不可用。在图2中，编译码器通常包括适用于对语音帧进行代码化的第一代码器230以及适用于对通用音频帧进行代码化的第二代码器240。在一个实施例中，语音代码器基于适用于处理语音信号的源滤波器模型，并且通用音频代码器是基于时域混叠抵消(TDAC)的线性正交重叠变换。在一个实现中，语音代码器可以利用码激励线性预测代码器(CELP)典型的线性预测代码化(LPC)以及适用于处理语音信号的代码器。通用音频代码器可以基于不同类型的离散余弦变换(DCT)或DCT/离散正弦变换(DST)组合来被实现为修正的离散余弦变换(MSCT)编译码器或修正的离散正弦变换(MSCT)或MDCT的形式。在图2中，第一代码器230和第二代码器240具有通过选择开关250耦合到输入音频信号的输入，该选择开关250基于由模式选择器210选择或确定的模式来控制。例如，处理器可以基于模式选择器的码字输出来控制开关250。开关250选择用于处理语音帧的语音代码器230，并且开关选择用于处理通用音频帧的通用音频代码器。借助于选择开关250，可以仅用例如语音代码器或通用音频代码器的一个代码器来处理每个帧。更一般地，虽然在图2中仅图示了两个代码器，但是可以用若干不同代码器中的一个来对该帧进行代码化。例如，可以选择三个或更多代码器中的ー个来处理输入音频信号的特定帧。然而，在其它实施例中，如下文进ー步讨论的，可以用所有代码器来对每个帧进行代码化。在图2中，每个编译码器基于由代码器处理的对应输入音频帧来产生编码比特流和对应已处理帧。用も(》)来指示由语音代码器产生的处理巾贞，而用·？力;)来指示由通用音频代码器产生的处理帧。在图2中，代码器230和240的输出上的开关252将所选择的代码器的代码化输出耦合到复用器220。更具体地，开关将代码器的编码比特流输出耦合到复用器。而且基于由模式选择器210选择或确定的模式来控制开关252。例如，处理器可以基于模式选择器的码字输出来控制开关252。复用器使码字与基于该码字选择的对应代码器的编码比特流输出进行复用。因此，对于通用音频帧，开关252将通用音频代码器240的输出耦合到复用器220，并且对于语音帧，开关252将语音代码器230的输出耦合到复用器。在通用音频帧代码化过程遵循语音编码过程的情况下，利用根据本公开的特殊“转变模式”帧。转变模式编码器包括通用音频代码器240和音频间隙编码器260，如下描述其细节。图4图示了在混合音频信号处理编译码器中，例如2的混合编译码器中，实现的代码化过程400。在410处，通过对帧序列中的第一音频帧进行代码化来产生代码化音频样本的第一帧。在该示例性实施例中，音频样本的第一代码化帧是使用语音编译码器产生或生成的代码化语音帧。在图5中，输入语音/音频帧序列502包括连续语音帧(m-2)和(m-Ι)以及后续的通用音频帧(m)。可以部分地基于在504处图示的LPC分析窗ロ来对语音帧(m-2)和(m-Ι)进行代码化。在506处图示了与输入语音帧(m_l)相对应的代码化语音帧。该帧的前面可以是未示出的与输入帧(m-2)相对应的另一代码化语音帧。代码化语音帧相对于对应的输入帧被延迟了从与LPC “先行”处理缓冲器相关联的算法延迟所得到的间隔，LPC “先行”处理缓冲器即在估计在代码化语音帧的结尾附近(或接近结尾)集中的LPC參数所需要的帧前面的音频样本。在图4中，在420处，通过对帧序列中的第二音频帧的至少一部分进行代码化来产生代码化音频样本的至少一部分第二帧。该第二帧与第一帧相邻。在本示例性实施例中，音频样本的第二代码化帧是使用通用音频编译码器产生或生成的代码化通用音频帧。在图5中，输入的语音/音频帧序列502中的帧“m”是通用音频帧，该通用音频帧基于在508处图示的基于TDAC的线性正交重叠变换分析/复合窗ロ(m)来被代码化。用在508处图示的重叠分析/复合窗ロ(m+Ι)来代码化输入帧的序列502中的后续通用音频帧(m+Ι)。在图5中，通用音频分析/复合窗ロ在振幅上与已处理通用音频帧相对应。在图5中的508处的分析/复合窗ロ(m)的重叠部分提供了对输入帧序列的对应连续处理通用音频帧(m)和(m+Ι)的加性影响。该结果是，没有衰减与输入帧(m)相对应的已处理通用音频帧的拖尾以及与输入帧(m+Ι)相对应的相邻已处理帧的导尾。在图5中，由于使用MDCT代码器来处理通用音频帧(m)并且使用LPC代码器来处理前ー语音帧(m-Ι)，所以在-480和-400之间的重叠区域中的MDCT输出是零。并不知道如何具有通用音频帧(m)的全部320个样本的无混叠生成，并且同时生成用于使用与规则音频帧的MDCT顺序相同顺序的MDCT来与后续通用音频帧(m+Ι)的MDCT输出重叠添加的ー些样本。根据本公开的一方面，为在已处理语音帧之后的已处理通用音频帧之间另外发生的音频间隙提供补偿，如下文所讨论的。为了保证适当的混叠抵消，必须通过M个样本重叠添加区域内的补充窗ロ来显示以下属性 w;: I (M + H) + π (〃)= I，O s；"< ル/，以及 (I)W^1 (M+n) W^1 (2Μ_η_1) _wm (n) wm (Μ_η_1) =0, O ^ η〈Μ, (2)其中，m是当前巾贞索引，η是当前巾贞内的样本索引，wm(n)是巾贞m处的对应的分析和复合窗ロ，并且M是关联帧长度。给出满足以上准则的公共窗ロ形状为
( I、疋w(//) = sin //+— - ， O < // < 2M5(3)
L 2 J 2 A/然而，公知的是，许多窗ロ形状都可以满足这些条件。例如，在本公开中，通过如下对2M帧结构进行零填充来减小通用音频代码化重叠添加过程的算法延迟
O,O < a < —,
.\( M η ^·] M 3Μ
sm Ii---1— — , — h H く-,
4 2JM \ 44
r n /、,3M SM“、w(n) = \1，——<n<——，(4)
44
(Y 5M Ιλ π SM TM
cos η--+ — —, -<η<-,
[I 4 2； MJ 44
ΛTM ^,
O,——<ιι<2Μ,
L4这通过允许处理在获取仅3Μ/2个样本或者用于M = 320的帧长度的480个样本之后开始来减小算法延迟。注意，虽然w(n)是针对2M个样本(这是处理具有50%重叠添加的MDCT结构所需要的)定义的，但仅需要480个样本以进行处理。返回以上等式⑴和(2)，如果前ー帧(m-Ι)是语音帧并且当前帧(m)是通用音频帧，则将不存在重叠添加数据，并且来自帧(m-Ι)的窗ロ基本上是零或Wm^1 (M+n) =0, O ( n〈M。因此，等式⑴和⑵将变成= L O < // < ル/，以及 (5)wm(n)wm(M-n-l)=0,0 ^ n<M. (6)根据这些修订的等式，明显的是，等式(3)和(4)中的窗ロ函数不满足这些约束，并且实际上，对于间隔M/2 < n〈M，存在的对于等式(5)和(6)的唯一可能的解为Wm (n)=l, M/2 < η〈Μ，以及 (7)wm (η) =0，O ^ η〈Μ/2·(8)因此，为了确保适当的混叠抵消，在本公开中给出了语音到音频帧转变窗ロ为

权利要求
1.一种用于对音频帧进行解码的方法，所述方法包括；使用第一解码方法来产生代码化音频样本的第一帧；使用第二解码方法来产生代码化音频样本的至少一部分第二帧；基于下述參数来生成音频间隙填充样本所述參数表示代码化音频样本的所述第一中贞的加权分段或代码化音频样本的所述一部分第二帧的加权分段；形成包括所述音频间隙填充样本和代码化音频样本的所述一部分第二帧的序列。
2.根据权利要求I所述的方法，进ー步包括形成包括代码化音频样本的所述第一帧的序列，其中，所述音频间隙填充样本至少部分地填充了在代码化音频样本的所述第一帧与代码化音频样本的所述一部分第二帧之间的音频间隙。
3.根据权利要求I所述的方法，其中，代码化音频样本的所述第一帧的所述加权分段包括第一加权參数和第一索引，所述第一加权參数和第一索引用于代码化音频样本的所述第一帧的所述加权分段，并且代码化音频样本的所述一部分第二帧的所述加权分段包括第二加权參数和第二索引，所述第二加权參数和第二索引用于代码化音频样本的所述一部分第二帧的所述加权分段。
4.根据权利要求3所述的方法，其中，所述第一索引指定从所述音频间隙填充样本到代码化音频样本的所述第一帧中对应样本的第一时间偏移，所述第二索引指定从所述音频间隙填充样本到代码化音频样本的所述一部分第二帧中对应样本的第二时间偏移。
5.根据权利要求I所述的方法，基于下述參数来生成所述音频间隙填充样本所述參数表示代码化音频样本的所述第一帧的所述加权分段以及代码化音频样本的所述一部分第二帧的所述加权分段二者。
6.根据权利要求5所述的方法，其中，所述參数基于以下表达式
7.根据权利要求6所述的方法，其中，所述參数基于失真度量，所述失真度量是基准音频间隙样本集合的函数，其中，所述失真度量是方差失真度量。
8.根据权利要求6所述的方法，其中，所述參数基于失真度量，所述失真度量是基准音频间隙样本集合的函数，其中，所述失真度量基于以下表达式
9.根据权利要求6所述的方法，使用通用音频代码化方法来产生代码化音频样本的所述一部分第二中贞。
10.根据权利要求9所述的方法，使用语音代码化方法来产生代码化音频样本的所述第一中贞。
11.根据权利要求I所述的方法，其中，所述參数基于失真度量，所述失真度量是所述基准间隙填充样本集合的函数。
12.根据权利要求I所述的方法，使用通用音频代码化方法来产生代码化音频样本的所述一部分第二中贞。
13.根据权利要求12所述的方法，使用语音代码化方法来产生代码化音频样本的所述第一中贞。
14.根据权利要求3所述的方法，其中，所述第一索引基于在所述帧序列中基准音频间隙样本分段与代码化音频样本的所述第一帧的分段之间的相关性，以及所述第二索引基于在代码化音频样本的所述一部分第二帧的分段与所述基准音频间隙样本的所述分段之间的相关性。
15.根据权利要求I所述的方法，基于下述參数来生成所述音频间隙填充样本所述參数被选择为减小在所述音频间隙填充样本与基准音频间隙样本集合之间的失真。
全文摘要
一种用于对音频帧进行解码的方法，包括产生代码化音频样本的第一帧；产生代码化音频样本的至少一部分第二帧；基于下述参数来生成音频间隙填充样本，该参数表示代码化音频样本的第一帧的加权分段或代码化音频样本的一部分第二帧的加权分段；以及形成包括代码化音频样本的一部分第二帧和音频间隙填充样本的序列。
文档编号G10L19/12GK102834863SQ201180012623
公开日2012年12月19日申请日期2011年3月1日优先权日2010年3月5日
发明者乌达·米塔尔, 乔纳森·A·吉布斯, 詹姆斯·P·阿什利申请人:摩托罗拉移动有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乌达·米塔尔;乔纳森·A·吉布斯;詹姆斯·P·阿什利
技术所有人：摩托罗拉移动有限责任公司
我是此专利的发明人

上一篇：编码方法、解码方法、装置、程序及记录介质的制作方法
上一篇：兴趣区间抽取装置、兴趣区间抽取方法