对语音和/或非语音音频输入信号编码或解码的方法和设备的制作方法

文档序号：2832273阅读：251来源：国知局

专利名称：对语音和/或非语音音频输入信号编码或解码的方法和设备的制作方法
技术领域：
本发明涉及对语音和/或非语音音频输入信号进行编码或解码的方法和设备。
背景技术：
已知多种宽带或者语音/音频编解码，例如
S. Ragor等人的"ITU-T G.729.1: An 8-32 Kbit/s scalable coder interoperable with G.729 for wideband telephony and voice over IP", IEEE International Conference on Acoustics, Speech and Signal Processing 2007, ICASSP 2007, vol.4, pp.IV-529至IV-532。该宽带语音编码器包括被永久性地使用的嵌入式G729语音编码器。因此，类似音乐的信号(非语音)的质量不是很好。尽管该编码器使用了变换编码技术，但是其是语音编码器。
S.A. Ramprashad的"A two stage hybrid embedded speech/audio coding structure", Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing 1998, ICASSP 1998， vol.1, pp.337-340。该编码器使用了类似于上述编码器的原理结构。该处理是基于时间域信号的，这意味着难以处理核心编码器/解码器(语音编码器)中的延迟。为了抑制该问题，该处理是基于普通变换的。同样，永久性地使用该核心编码器(即，语音编码器)，这造成了针对类似音乐(非语音)信号的非最优质量。
M. Purat ， P. Noll 的 "A new orthonormal wavelet packet decomposition for audio coding using frequency-varying modulated lapped transforms", IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics, 1995， pp. 183-186。
M. Purat ， P. Noll的"Audio coding with a dynamic wavelet packetdecomposition based on frequency-varying.modulated lapped transforms" IEEE International Conference on Acoustics, Speech, and Signal Processing 1996, ICASSP 1996, vol.2, pp.l021-1024。

发明内容
已知音频/语音编解码的不足之处在于编码质量对内容类型的明显依赖性，即，类似音乐的音频信号最好由音频编解码器来编码，而类似语音的音频信号最好由语音编解码器来编码。没有任何已知编解码针对混合的语音/音乐内容掌握着主导地位。
本发明要解决的问题是提供一种针对语音和音乐二者而言的良好编解码性能，并且进一步提高针对此类混合信号的编解码性能。该问题由权利要求1和3中披露的方法所解决。使用了这些方法的设备在权利要求2和4中披露。
本发明的联合语音/音频编解码使用了语音编码技术以及音频变换编码技术。通过在编解码输入处使用一个或者更多调制重叠变换 (Modulated Lapped Transform),并且在编解码输出处使用一个或者更多调制重叠逆变换(IMLT)，以有利的方式将已知的基于变换的音频编码处理与基于线性预测的语音编码处理相结合。MLT输出频谱被划分为分配给编解码的语音编码部分的频率箱(低频率)，以及分配给编解码的基于变换的编码部分的剩余频率箱(高频率)，其中,在编解码输入和输出处的变换长度可以是以信号适应性的方式切换的。
作为备选，在基于变换的编码/解码部分中，变换长度可以是以输入信号适应性的方式切换的。
本发明实现了针对类似语音和类似音乐的音频信号二者的统一、优良的编解码质量，特别是既针对非常低的比特率，也针对较高的比特率。
从原理上讲，本发明方法适合对语音和/或非语音音频输入信号进行编码，包括下列步骤
-通过至少一个初始MLT变换对所述输入信号的连续且可能重叠的部分进行变换，并且将得到的输出频率箱(fr叫uency bin)划分为低频带信号和剩余频带信号；
-将所述低频带信号传递至语音/音频切换并通过语音编码/解码
环(loop),所述语音编码/解码环包括至少一个第一型短MLT变换、语音编码、相应的语音解码、以及类型与上述第一型短MLT变换相反的至少一个第二型短MLT变换；
-在接收所述音频输入信号作为输入的心理声学模型 (psycho-acoustic model)的控制下，对所述剩余频带信号进行量化和编码；
-将所述量化和编码的输出信号、所述切换的切换信息信号、可能地所述语音编码的输出信号、以及可选地其它编码辅助信息结合起来，以针对所述输入信号的当前部分形成输出比特流，
其中，所述语音/音频切换接收所述低频带信号、以及从所述第二型短MLT变换的输出导出的第二输入信号，并且决定是使所述第二输入信号绕开所述量化和编码步骤，还是将所述低频带信号与所述剩余频带信号一起在所述量化和编码步骤中编码，
在后一种情况下，所述语音编码的所述输出信号不包括在所述输出比特流的当前部分中。
从原理上讲，本发明设备适用于对语音和/或非语音音频输入信号进行编码，所述设备包括适用于如下的装置
-通过至少一个初始MLT变换对所述输入信号的连续且可能重叠的部分进行变换，并且将得到的输出频率箱(frequency bin)划分为低频带信号和剩余频带信号；
-将所述低频带信号传递至语音/音频切换并通过语音编码/解码环，所述语音编码/解码环包括至少一个第一型短MLT变换、语音编码、相应的语音解码、以及类型与上述第一型短MLT变换相反的至少一个第二型短MLT变换；
-在接收所述音频输入信号作为输入的心理声学模型 (psycho-acoustic model)的控制下，对所述剩余频带信号进行量化和编码；
-将所述量化和编码的输出信号、所述切换的切换信息信号、可
9能地所述语音编码的输出信号、以及可选地其它编码辅助信息结合起来，以针对所述输入信号的当前部分形成输出比特流，
其中，所述语音/音频切换接收所述低频带信号、以及从所述第二
型短MLT变换的输出导出的第二输入信号，并且决定是使所述第二输
入信号绕开所述量化和编码步骤，还是将所述低频带信号与所述剩余频带信号一起在所述量化和编码步骤中编码，
在后一种情况下，所述语音编码的所述输出信号不包括在所述输出比特流的当前部分中。
从原理上讲，本发明方法适用于对代表了编码的语音和/或非语音音频输入信号的比特流进行解码，其中该比特流是依照于上述方法被编码的，该解码方法包括步骤-
-对所述比特流的连续部分进行解多路复用(demultiplexing), 以恢复所述量化和编码的输出信号、所述切换信息信号，可能地还恢复所述语音编码的输出信号，以及如果存在的话还恢复所述编码辅助信息；
-如果在所述比特流的当前部分中存在所述语音编码的输出信号，将所述语音编码的输出信号传递通过语音解码以及所述第二型短 MLT变换；
-如果存在的话，在所述编码辅助信息的控制下，对所述量化和编码的输出信号进行解码，以佝所述当前部分提供重建的剩余频带信号以及重建的低频带信号；
-向语音/音频切换提供所述重建的低频带信号以及从所述第二型MLT变换的输出导出的第二输入信号，并且根据所述切换信息信号，传递所述重建的低频带信号或传递所述第二输入信号；
-对与所述重建的剩余频带信号结合的所述切换的输出信号、以及可能地重叠的连续部分进行MLT逆变换，以形成重建输出信号的当前部分。
从原理上讲，本发明设备适用于对代表了编码语音和/或非语音音频输入信号的比特流进行解码，其中该比特流是依照于上述编码方法被编码的，上述设备包括适用于如下的装置-对所述比特流的连续部分进行解多路复用(demultiplexing), 以恢复所述量化和编码的输出信号、所述切换信息信号，可能地还恢复所述语音编码的输出信号，以及如果存在的话还恢复所述编码辅助信息；
-如果在所述比特流的当前部分中存在所述语音编码的输出信号，将所述语音编码的输出信号传递通过语音解码以及所述第二型短 MLT变换；
-如果存在的话，在所述编码辅助信息的控制下，对所述量化和编码的输出信号进行解码，以向所述当前部分提供重建的剩余频带信号以及重建的低频带信号；
-向语音/音频切换提供所述重建的低频带信号以及从所述第二型MLT变换的输出导出的第二输入信号，并且根据所述切换信息信
号，传递所述重建的低频带信号或传递所述第二输入信号；
-对与所述重建的剩余频带信号结合的所述切换的输出信号、以及可能地重叠的连续部分进行MLT逆变换，以形成重建输出信号的当前部分。
在各个从属权利要求中披露了本发明其他的有利实施例。

参照附图，描述本发明的示例实施例，附图中
图1示出了本发明的联合语音和音频编码器的框图2示出了 "量化&编码"步骤/级(短的块编码)中的较高时间分辨率处理；
图3示出了本发明的联合语音和音频解码器的框图；图4示出了 "解码"步骤/级(短的块解码)中的较高时间分辨率处理；
图5示出了本发明的联合语音和音频编码器的其它实施例的框
图6示出了其它实施例的"量化&编码"步骤/级(短的块编码) 中的较高时间分辨率处理；图7示出了其它实施例的本发明联合语音和音频解码器的框图；图8示出了其它实施例的"解码"步骤/级(短的块解码)中的较
高时间分辨率处理；
图9示出了本发明联合语音和音频编码器(短的块编码)的又一
实施例的框图。
具体实施例方式
在根据图l的本发明联合语音和音频编解码中，针对类似语音的信号的己知编码处理(基于线性预测的语音编码处理，例如CELP， ACELP， cf.ISO/IEC 14496-3，分部2和3，以及MPEG4-CELP)与针对普通音频或者类似音乐的信号的基于时间-频率变换的当前技术编码处理(例如MDCT)结合在一起。在步骤/级10中，通过具有预定长度的调制重叠变换MLT (Modulated Lapped Transform)对PCM音频输入信号IS进行变换。作为MLT的特殊处理，例如改进的离散余弦变换 MDCT (Modified Discrete Cosine Transform),其适合音频编码应用。 MDCT最初被Princen和Bradley称作"Oddly-stacked Time Domain Alias Cancellation Transform",并且公开在John P. Princen以及Alan B, Bradley的"Analysis/synthesis filter bank design based on time domain aliasing cancellation"中，IEEE Transactions on Acoustics Speech Sigal Processing ASSP-34 (5), pp.1153-1161, 1986。
在H.S.Malvar， "'Signal processing with lapped transform", Artech House Inc., Norwood, 1992，以及M.Temerinac, B.Edler， "A unified approach to lapped or-thogonal transforms", IEEE Transactions on Image Processing, Vol.1, No. 1, pp. 111—116, Januar 1992中，称为调制重叠变换 (MLT)并且大体上示出了其与重叠正交变换(Lapped Orthoginal Transform)的关系，还证明了其是QMF滤波器组的特殊情况。改进的离散余弦变换(MDCT)以及逆MDCT (iMDCT)可以被认为是具有完美重建属性的临界采样滤波器组(critically sampled filter-bank)。
MDCT计算如下<formula>formula see original document page 13</formula>
在MLT输出处，获得的频谱被划分为属于语音频带(代表了低频带信号)的频率箱和代表了剩余频带信号RBS的剩余箱(高频)。在步骤/级ll中，使用变换长度相对于步骤/级10中的预定长度而言较短的逆MLT，例如逆MDCT，将语音频带箱变换回时域。得到的时间信号具有比输入时间信号低的采样频率，并且仅包含语音频带箱的对应频率。背后的理论在逆MLT中仅使用MLT箱的子集，该背后的理论在上面引用的1995和1996年的Purat文章中有所描述。
然后，使用生成的时域信号作为语音编码步骤/级12的输入信号。语音编码的输出可以在输出比特流OBS中传送，这取决于下面描述的由语音/音频交换15进行的决定。编码的"语音"信号在相关的语音解码步骤/级13中被解码，并且在步骤/级14，使用对应于步骤/级ll的逆 MLT的MLT (即，具有短长度的"相反类型"MLT)，将解码的"语音"信号变换回频域，以重新生成语音频带信号，即，重建的语音信号RSS。在这些频率箱和原始低频箱之间的差信号DS，以及原始低频箱信号，作为语音/音频切换15的输入。在该切换中，决定是将原始低频箱与剩余高频箱一起编码(这意味着编码的"语音"信号不在比特流OBS中传送)，还是将差信号08与剩余高频箱一起*下面的量化& 编码步骤/级16中编码(这意味着编码的"语音"信号在比特流OBS中传送)。该切换可以通过使用速率失真最优化(rate-distortion optimization)来操作。关于切换15的决定的信息项SWI被包括在比特流中以供解码之用。不仅在该切换中，也在其它步骤/级中，应当考虑到级联的变换所引入的不同延迟。针对这些步骤/级，可以使用对应的缓冲来平衡这些不同的延迟。
可以使用低频频带中的原始频率箱和差信号频率箱的混合，作为步骤/级16的输入。在这种情况下，关于该混合是如何构成的信息被传递至解码侧。在任何情况下，步骤/级io输出的剩余频率箱(即，高频)均在量
化&编码步骤/级16中受到处理。
在步骤/级16中，使用适合的量化(例如，类似于AAC中使用的量化技术)，随后使用例如哈夫曼(Huffman)编码或者算术编码来对量化的频率箱进行编码。
在语音/音频切换15决定存在类似音乐的信号并因此根本不使用
语音编码器/解码器或者其输出的情况下，对应于语音频带的原始频率箱将在量化&编码步骤/级16中被编码(与剩余频率箱一起)。
量化&编码步骤/级16由心理声学模型计算18来控制，心理声学模型计算18利用了针对量化的输入信号IS的遮蔽属性(masking properties)。因此辅助信息SI可以在比特流多路复用中传送至解码器。
切换15还可以从心理声学模型步骤/级18接收合适的控制信息(例
如，音调或者频谱平坦的程度，或者信号类似噪音的程度)。
比特流多路复用步骤/级17将语音编码器12的输出码(如果存在的话)、切换15的切换信息、量化&编码步骤/级16的输出码、以及可选的辅助信息码SI结合起来，并且提供输出比特流OBS。
如图2所示，为了达到在基于变换的编码中的较高时间分辨率，在量化&编码步骤/级16的输入处，可以使用若干个小的逆MLT (与 MLT10的类型匹配)(例如，逆MDCT， iMDCT)，以将具有高频率分辨率的初始MLT 10的长输出频谱变换22为若干个具有较低频率分辨率但较高时间分辨率的较短频谱。逆MLT步骤/级22布置在第一分组步骤/级21和第二分组步骤/级23之间，并提供两倍数量的输出值。同样，该处理的背后理论在上面引用的1995和1996年的Purat文章中被描述。在第一分组21中，若干个相邻的MLT箱被结合并被用作逆MLT22的输入。表示逆MLT的变换长度的、结合后的MLT箱的数量定义了得到的时间和频率分辨率，其中较长的逆MLT产生了较高的时间分辨率。在随后的分组23中，执行重叠/相加(可选地，还包括窗函数的应用)，并且应用在相同输入频谱上的逆MLT的输出被排序，从而得到若干个 (该数量依赖于逆MLT的大小)时间(temporally)上连续的"短块" 谱(spectra),该短块"谱在步骤/级16中被量化和编码。关于所使用的"短块编码"模式的信息包括在辅助信息SI中。可选地，可以使用
具有不同MLT逆变换长度的多个"短块编码"模式，并且在SI中对这
些模式进行告知。由此方便实现了在短块谱上的非均匀时间-频率分辨率，例如，针对高频的较高时间分辨率以及针对低频的较高频率分辨
率。例如，对于最低频率来说，逆MLT可以获得2个连续频率箱的长度，并且对于最高频率来说，逆MLT可以获得16个连续频率箱的长度。在选择了非均匀濒率分辨率的情况中，不可能使例如8个短块谱 (spectra)成组。可以使用对得到的频率箱进行编码的不同顺序，例如一个"频谱"可以不仅包含同一时刻的不同频率箱，还可以包含不同时间点的相同频率箱。
在根据图1的处理和根据图2的处理之间的输入信号IS适应性的切换是由心理声学模型步骤/级18控制的。例如，如果从一帧到下一帧，输入信号IS中的信号能量增长到阈值之上(即，在输入信号中存在瞬变(transient)),则执行根据图2的处理。在信号能量低于该阈值的情况中，执行根据图l的处理。该切换信息也被包括在输出比特流OBS 中，以用于解码中的对应切换。变换块部分可以由窗函数来加权，特别是以重叠方式，其中窗函数的长度对应于当前变换长度。
分析和合成窗可以是相同的，但不需要是相同的。分析和合成窗 hA (n)以及hs (n)的函数必须满足针对连续块i和i+l的重叠区域的一些约束，以使得完美重建成为可能
W + l,")W + l,") + W',w +緒)W，" + W/2) = 1, W + l,") = /js(/，iV_l-"), + = 卜")，"=H2-1
已知的窗函数类型是正弦窗
具有增强远距抑制(far away rejection)但较宽主瓣(main lobe) 的窗是OGG窗，其非常类似于Kaiser-Bessel导出窗(Kaiser-Bessel derived window ):W (") = sin(sin(^. (" + 5》2. y) ， "=0... TV-1
另一窗函数在AC-3音频编码标准的表7.33中公开。在切换变换长度的情况下，使用转换窗函数(transition window function), 例如，如B.Edler在"Codierung von Audiosignalen mit iiberlappender Transformation und adaptiven Fensterfunktionen"， FREQUENZ, vol.43， pp.252-256, 1989中描述的，或者如在MP3中使用的并且在M》EGl标准ISO/IEC 11172-3(具体是节2.4.3.4.10.3)中描述的，或者如在AAC中使用的(例如，如MPEG4标准ISO/IEC 14496-3，分部4中描述的)。
在图3的本发明解码器中，接收到的或者重放的比特流OBS在相应步骤/级37中被解多路复用(demultiplexing),从而提供了针对语音解码器33的码(如果存在的话)、针对切换35的切换信息SWI、针对解码步骤/级36的码和切换信息、以及可选地辅助信息码SI。在针对当前数据帧在编码侧使用了语音子编码器ll， 12， 13， 14的情况下，在该当前帧中，由语音解码步骤/级33以及下游MLT步骤/级34相应地重建相应的编码语音频带频率箱，从而提供重建的语音信号RSS。在解码步骤/级36中，相应地解码剩余的编码频率箱，由此相应地逆转了编码侧量化操作。在切换信息SWI的控制下，语音/音频切换35与编码侧的操作相对应地进行操作。在切换信号SWI指示了在当前帧中存在类似
音乐的输入信号并因此不使用语音编码/解码的情况下，对应于低频带的频率箱与剩余频率箱一起在解码步骤/级36中被解码，从而提供重建的剩余频带信号RKBS以及重建的低频带信号RLBS。
步骤/级36以及切换35的输出信号在逆MLT (例如iMDCT)步骤/ 级30中被相应地结合，并被合成，以提供解码输出信号OS。在切换35 和其它步骤/级中，要考虑级联的变换引入的不同延迟。针对这些步骤 /级，可以使用相应的缓冲来平衡不同的延迟。
在编码侧使用相应的选项的情况中，针对在切换35和在步骤/级30 中的相应处理，不是使用结合的信号CS的频率箱，而是使用重建语音信号RSS的频率箱，即分别在步骤/级16和36中均不存在对低频带频谱的编码/解码。
图4示出了在编码侧使用"短块模式"编码以达到基于变换的编
码中的较高时间分辨率的情况下，"短块模式"的步骤/级36中的解码。根据编码过程，在步骤/级36中对若干个时间上连续的"短块"谱进行解码，并且在第一分组步骤/级43中将其收集。执行重叠/相加(可选地，还包括窗函数的应用)。其后，使用对应的MLT步骤/级42，对时间上连续的频谱系数的每个集合进行变换，并且提供数量减半的输出值。然后，生成的频谱系数在第二分组步骤/级41中被分组成具有初始高频率分辨率和变换长度的一个MLT频谱。可选地，可以如SI中告知的一样，使用具有不同MLT变换长度的多个"短块解码"模式，从而方便实现短块谱(spectra)上的非均匀时间-频率分辨率，例如针对高频的较高时间分辨率和针对低频的较高频率分辨率。
作为备选实施例，可以使用MLT的不同的级联，其中切换了语音编码器中的内MLT/逆MLT对(inner MLT/inverse MLT pair)的顺序。在图5中，示出了相应编码的框图，其中图l的附图标记表示图l中相同操作。
逆MLT 11由MLT步骤/级51替代，并且MLT 14由逆MLT步骤/级54 替代(即"相反类型"MLT)。由于这些MLT的交换后的顺序，语音编码器输入信号相比于图1中的那些具有不同属性。因此对语音编码器 52和语音解码器53进行适配，以适合这些不同的属性(例如，从而可以剔除掉混叠分量)。
类似于针对图1实施例的图2所示，在针对图5的实施例的解码步骤/级36中，可以如图6所示使用"短块模式"处理，其中对应于图4 中所述步骤的MLT步骤/级62替代了图2中的逆MLT步骤/级22。
在图7中所示的备选实施例解码器中，图3中的语音解码步骤/级33 被相应地适配的语音解码步骤/级73所替代，并且图3中的MLT步骤/级 34被相应的逆MLT步骤/级74所替代。
类似于针对图3实施例的图4所示，针对图7实施例，可以使用图8 所示的"短块模式"处理，其中对应于图1中所示步骤的相应的逆MLT 步骤/级82替代了图4中的MLT步骤/级42。在图9的另一实施例中，执行了不同方式的块切换，而不是通过
结合图2和图6而描述的处理来达到较高时间分辨率(在量化&编码步骤/级16以及解码步骤/级36中的块切换)。可以开启若干个短MLT (或者MDCT)卯，而不是在划分成语音和音频频带之前使用固定的较大 MLT 10 (例如MDCT)。例如，不是使用具有2048个采样的变换长度的一个MDCT，而是可以使用具有256个采样的变换长度的8个短 MDCT。尽管如此，短变换的长度之和不是一定要等于长的变换长度 (尽管如果相等，缓冲处理更容易)。
相应地，在语音编码器12之前使用若干个短的逆MLT91,并且在语音解码器13之后使用若干个短的MLT94。有利的是，对于图9的长/ 短块模式切换来说，内部缓冲处理比根据图l至8的长/短块模式切换中的更容易，但是以在语音频带和剩余频带之间的频带划分较不尖锐为代价的。对内部缓冲处理更容易的原因如下至少对于每个逆MLT操作而言，需要附加的缓冲器，这在内变换的情况下会导致在并行高频路径中也必须使用附加缓冲器。因此，在最外部变换处的切换对于缓冲器的副作用最少。另一方面，由于仅仅针对编码瞬变输入信号使用短块，所以时域中的尖锐(sharp)划分更重要。
在图9中，图1中的附图标记确实表示如图1中相同的操作。MLT10 是由短MLT步骤/级90以输入信号IS适应性的方式而替代的，逆MLT 11 由较短的逆MLT步骤/级91所替代，并且MLT 14由较短的MLT步骤/级 94所替代。
由于这种块切换，协调了第一变换90， 30、以及第二变换ll， 34， 51， 74 (用于重建语音频带的iMDCT)、以及第三变换14， 54的长度。
此外，为了收集针对语音编码器的完整的输入数据帧的足够采样，可以在图9的iMDCT91之后对语音频带信号的若干个短块进行缓冲。也可以对应于图5所述的编码，对图9的编码进行适配。基于图9的实施例，对根据图3的解码或者根据图7的解码进行相应地适配，即，逆MLT34以及30被相应的适应性切换的较短逆MLT所替代。基于图9的实施例，在MLT90中的编码侧以及在逆MLT30的解码侧，由窗函数对变换块部分进行加权，具体地以重叠的方式，其中窗函数的长度对应于当前变换长度。在切换变换长度的情况下，为了实现在长和短块之间的平滑转换，使用特别地形状的较长窗(开始和
结束窗，或者转换窗(transistion window))。
权利要求
1、一种对语音和/或非语音音频输入信号(IS)进行编码的方法，所述方法包括下列步骤-通过至少一个初始MLT变换对所述输入信号(IS)的连续且可能重叠的部分进行变换(10，90)，并且将得到的输出频率箱划分为低频带信号和剩余频带信号(RBS)；-将所述低频带信号传递至语音/音频切换(15)并通过语音编码/解码环，所述语音编码/解码环包括至少一个短的第一型MLT变换(11，51，91)、语音编码(12，52)、相应的语音解码(13，53)、以及类型与所述短第一型MLT变换的相反的至少一个短的第二型MLT变换(14，54，94)；-在接收所述音频输入信号(IS)作为输入的心理声学模型的控制下，对所述剩余频带信号(RBS)进行量化和编码(16)；-将所述量化和编码(16)的输出信号、所述切换(15)的切换信息信号(SWI)、可能地所述语音编码(12，52)的输出信号、以及可选地其它编码辅助信息(SI)结合起来(17)，以针对所述输入信号(IS)的所述当前部分，形成输出比特流(OBS)，其中，所述语音/音频切换(15)接收所述低频带信号以及从所述短的第二型MLT变换(14，54，94)的输出导出的第二输入信号(DS)，并且决定是使所述第二输入信号绕开所述量化和编码(16)步骤、还是将所述低频带信号与所述剩余频带信号(RBS)一起在所述量化和编码(16)步骤中编码，在后一种情况下，所述语音编码(12，52)的所述输出信号不被包括在所述输出比特流(OBS)的当前部分中。
2、一种用于对语音和/或非语音音频输入信号(IS)进行编码的设备，所述设备包括适用于如下的装置-通过至少一个初始MLT变换对所述输入信号(IS)的连续且可能重叠的部分进行变换(10， 90)，并且将得到的输出频率箱划分为低频带信号和剩余频带信号(RBS);-将所述低频带信号传递至语音/音频切换(15)并通过语音编码 /解码环，所述语音编码/解码环包括至少一个短的第一型MLT变换 (11， 51， 91)、语音编码(12， 52)、相应的语音解码(13， 53)、以及类型与所述短第一型MLT变换的相反的至少一个短的第二型MLT 变换(14， 54， 94);-在接收所述音频输入信号(IS)作为输入的心理声学模型的控制下，对所述剩余频带信号(RBS)进行量化和编码(16);-将所述量化和编码(16)的输出信号、所述切换(15)的切换信息信号(SWI)、可能地所述语音编码(12， 52)的输出信号、以及可选地其它编码辅助信息(SI)结合起来(17)，以针对所述输入信号 (IS)的所述当前部分，形成输出比特流(OBS)，其中，所述语音/音频切换(15)接收所述低频带信号以及从所述短的第二型MLT变换(14， 54， 94)的输出导出的第二输入信号(DS)，并且决定是使所述第二输入信号绕开所述量化和编码(16)步骤、还是将所述低频带信号与所述剩余频带信号(RBS) —起在所述量化和编码(16)步骤中编码，在后一种情况下，所述语音编码(12， 52)的所述输出信号不被包括在所述输出比特流(OBS)的当前部分中。
3、一种对代表了编码语音和/或非语音音频输入信号(IS)的比特流(OBS)进行解码的方法，其中所述比特流是根据权利要求l的方法被编码的,所述解码方法包括步骤-对所述比特流的连续部分进行解多路复用(37)，以恢复所述量化和编码(16)的输出信号、所述切换信息信号(SWI)、可能地所述语音编码(12， 52)的输出信号，以及如果存在的话还有所述编码辅助信息(SI);-如果在所述比特流(OBS)的当前部分中存在所述语音编码的所述输出信号，将所述语音编码的所述输出信号传递通过语音解码 (33， 73)以及所述短的第二型MLT变换(34， 74);-如果存在的话，则在所述编码辅助信息的控制下，对所述量化和编码(16)的所述输出信号进行解码(36)，以向所述当前部分提供重建的剩余频带信号(RRBS)以及重建的低频带信号(RLBS);-向语音/音频切换(15)提供所述重建的低频带信号以及从所述第二型MLT变换(34， 74)的输出导出的第二输入信号(CS)，并且根据所述切换信息信号(SWI)，传递所述重建的低频带信号(RLBS) 或者传递所述第二输入信号(CS);-对与所述重建的剩余频带信号(RRBS)结合的所述切换(15) 的输出信号、以及可能地重叠的连续部分进行MLT逆变换(30)，以形成重建输出信号(OS)的当前部分。
4、一种对代表了编码语音和/或非语音音频输入信号(IS)的比特流(OBS)进行解码的设备，其中该比特流是根据权利要求l的方法被编码的，所述设备包括适用于如下的装置-对所述比特流的连续部分进行解多路复用(37)，以恢复所述量化和编码(16)的输出信号、所述切换信息信号(SWI)、可能地所述语音编码(12， 52)的输出信号，以及如果存在的话还有所述编码辅助信息(SI);-如果在所述比特流(OBS)的当前部分中存在所述语音编码的所述输出信号，将所述语音编码的所述输出信号传递通过语音解码 (33， 73)以及所述短的第二型MLT变换(34， 74);-如果存在的话，则在所述编码辅助信息的控制下，对所述量化和编码(16)的所述输出信号进行解码(36),以向所述当前部分提供重建的剩余频带信号(RRBS)以及重建的低频带信号(RLBS);-向语音/音频切换(15)提供所述重建的低频带信号以及从所述第二型MLT变换(34， 74)的输出导出的第二输入信号(CS)，并且根据所述切换信息信号(SWI)，传递所述重建的低频带信号(RLBS) 或者传递所述第二输入信号(CS);-对与所述重建的剩余频带信号(RRBS)结合的所述切换(15) 的输出信号、以及可能地重叠的连续部分进行MLT逆变换(30)，以形成重建输出信号(OS)的当前部分。
5、根据权利要求1或3所述的方法，或者根据权利要求24所述的设备，其中，在编码的输入处使用单一MLT变换(10)并且在解码的输出处使用单一MLT逆变换(30)的情况下，以输入信号(IS)适应性的方式，在所述量化和编码(16)的输入处以及在所述解码(36) 的输出处，分别执行各自长度均比所述单一MLT变换(10)和所述单一MLT逆变换(30)的长度小的若干个短的MLT变换要么是在所述量化和编码(16)的输入处的短的MLT逆变换(22) 以及在所述解码(36)的输出处的短的MLT变换(22)，要么是在所述量化和编码(16)的输入处的短的MLT变换(62) 以及在所述解码(36)的输出处的短的MLT逆变换(82)。
6、根据权利要求5所述的方法或者设备，其中，如果在所述输入信号(IS)的当前部分中的信号能量超过了阈值水平，则分别执行所述短的MLT变换以及所述短的MLT逆变换。
7、根据权利要求1或者3所述的方法，或者根据权利要求2或者4 所述的设备，其中，在编码的输入处，以输入信号(IS)适应性的方式，从单一MLT变换(10)切换到多个较短的MLT变换(卯)，并且在所述解码(36)的输出处，相应地从单一MLT逆变换(30)切换到多个较短的MLT逆变换。
8、根据权利要求7所述的方法或者设备，其中，如果所述输入信号(IS)的当前部分中的信号能量超过阈值水平，则分别执行所述多个较短的MLT变换和所述多个较短的MLT逆变换。
9、根据权利要求l、 3以及5至8的任意一个权利要求所述的方法，或者根据权利要求2以及4至8的任意一个权利要求所述的设备，其中，所述第二输入信号(DS)是在所述低频带信号和所述第二型MLT变换(14， 54， 94)的输出信号(RSS)之伺的差信号。
10、根据权利要求l， 3以及5至8的任意一个权利要求所述的方法，或者根据权利要求2以及4至8的任意一个权利要求所述的设备，其中，所述第二输入信号(DS)是所述第二型MLT变换(14， 54， 94)的所述输出信号(RSS)。
11、根据权利要求l, 3以及5至10的任意一个权利要求所述的方法，或者根据权利要求2以及4至10的任意一个权利要求所述的设备，其中，上述切换(15)是由从所述心理声学模型(18)接收到的信息所控制的。
12、根据权利要求l， 3以及5至11的任意一个权利要求所述的方法，或者根据权利要求2以及4至11的任意一个权利要求所述的设备，其中，所述切换(15)是通过使用速率-失真最优化来操作的。
13、根据权利要求l， 3以及5至12的任意一个权利要求所述的方法，或者根据权利要求2以及4至12的任意一个权利要求所述的设备，其中，所述输入信号(IS)的连续部分和所述输出信号(OS)的连续部分由长度与相关的变换长度相对应的窗函数来加权，具体地以重叠的方式，以及，如果变换长度被切换，则使用对应的转换窗函数。
14、一种根据权利要求l， 3以及5至13的任意一个权利要求所述的方法被编码的数字音频信号。
15、一种存储介质，例如光盘，其包含或者存储、或者在其上记录了根据权利要求14的数字音频信号。
全文摘要
已知音频/语音编解码的不足之处在于编码质量对内容类型的明显依赖性，即，类似音乐的音频信号最好由音频编解码器来编码，而类似语音的音频信号最好由语音编解码器来编码。没有任何已知编解码针对混合的语音/音乐内容掌握着主导地位。本发明的联合语音/音频编解码使用了语音编码技术以及音频变换编码技术。通过在编解码输入处使用调制重叠变换，以有利的方式将基于变换的音频编码处理与基于线性预测的语音编码处理相结合，其中MLT输出频谱被划分成分配给语音编码的频率箱(低频率)以及分配给基于变换的音频编码的剩余频率箱(高频率)。本发明实现了针对类似语音和类似音乐的音频信号二者的统一、优良的编解码质量，特别是既针对非常低的比特率，也针对较高的比特率。
文档编号G10L19/04GK101615393SQ20091015030
公开日2009年12月30日申请日期2009年6月19日优先权日2008年6月25日
发明者奥利弗·威伯特, 约翰尼斯·伯姆申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：奥利弗.威伯特;约翰尼斯.伯姆
技术所有人：汤姆森许可贸易公司
我是此专利的发明人

上一篇：语音情感识别设备和进行语音情感识别的方法
上一篇：电子音乐设备和音调控制方法