用于编码多对象音频信号的设备和方法

文档序号:7862527阅读:210来源:国知局
专利名称:用于编码多对象音频信号的设备和方法
技术领域
本发明涉及一种用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法;且更具体地,涉及一种包括边信息(side information)比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法,所述边信息比特流转换用于变换边信息比特流、并基于变换后的边信息比特流来恢复具有所期望的输出信号(即,各种声道)的多对象音频信号。具有各种声道的多对象音频信号表示用于针对每个音频对象具有不同声道(例 如,单声道、立体声和5. I声道)的多对象的音频信号。这项工作受MIC/IITA 的 IT R&D 规划[2005-S-403-02,“Development ofSuper-intelligent Multimedia Anytime-anywhere Realistic TV SmarTV Technology(超智能多媒体任何时间任何地点逼真TV智能TV技术的开发)”]支持。
背景技术
根据传统的音频编码/解码技术,用户应该被动地(inactively)聆听音频内容。这样,需要开发一种用于对在用于多个音频对象的多声道中的音频信号进行编码和解码的设备和方法,使得可以通过根据用户的需要而控制其每一个具有不同声道的音频对象并以各种方法而组合一个音频内容,来消费各种音频对象。传统的空间音频编码(SAC)是一种用于将多声道音频信号代表、传送、和恢复为缩混后的单声道或立体声信号的技术,并且它可以以低比特率来传送高质量的多声道音频信号。然而,由于传统的SAC能够对在仅用于一个音频对象的多声道中的信号进行编码和解码,所以它不能编码/解码多声道和多对象音频信号,例如,用于多声道(例如,单声道、立体声和5. I声道)中的各种对象的音频信号。此外,传统的心理声学编码(BCC :Binaural Cue Coding)技术可以编码/解码用于多对象的音频信号。然而,由于音频对象的声道限于单声道,所以不能对具有包括单声道的各种声道的多对象音频信号进行编码/解码。总之,由于传统的技术仅可以编码/解码具有单个声道的多对象音频信号、或者具有多声道的单对象音频信号,所以不能对具有各种声道的多对象音频信号进行编码/解码。因此,根据传统的音频编码/解码技术,用户应该被动地聆听音频内容。相应地,需要开发一种用于对在用于每个多音频对象的各种声道中的音频信号进行编码和解码的设备和方法,以通过控制根据用户的需要而不同的多声道中的每个音频对象、并根据各种方法而组合一个音频内容来消费各种音频对象。
此外,需要一种用于将多对象音频比特流转换为传统的SAC比特流并且反之亦然的设备和方法,以提供在多对象音频编码器中创建的边信息比特流与传统的SAC编码器/解码器的边信息比特流之间的后向兼容性。如上所述,作为用于通过单独控制具有不同声道的多个音频对象并根据各种方法而组合一个音频内容来对各种声道的多对象音频信号进行编码和解码的设备和方法,需要开发一种可执行比特流转换的多声道和多对象音频编码和解码设备及方法,以提供与传统SAC比特流的后向兼容性,并控制具有多声道的每个多音频对象,从而以多样的方法来组合一个音频对象。

发明内容
技术问题本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码和解码、以提供与传统的空间音频编码(SAC)比特流的后向兼容性的设备和方法。·
技术解决方案根据本发明的一方面,提供了一种用于编码多对象音频信号的设备,包括音频对象编码单元,用于基于空间线索(spatial cue)来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对象音频信号的代码转换设备,包括第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;和渲染单元,用于基于第一矩阵单元所创建的渲染信息和用于从编码设备输入的已编码音频对象信号的渲染信息,来创建用于要从解码设备输出的音频信号的空间线索信肩、O根据本发明的又一方面,提供了一种用于创建多声道音频信号和用于解码多声道音频信号的渲染信息的代码转换设备,包括解析单元,用于从用于由编码设备输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;第二矩阵单元,用于基于由解析单元单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和渲染单元,用于基于第一矩阵单元所创建的渲染信息、第二矩阵单元所创建的渲染信息、和由解析单元单独获取的用于已编码音频对象信号的渲染信息,来创建用于从解码设备输出的音频信号的空间线索信息。根据本发明的又一方面,提供了一种用于编码多对象音频信号的方法,包括如下步骤基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对象音频信号的代码转换方法,包括如下步骤基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;和基于在所述创建渲染信息的步骤中创建的渲染信息和用于在编码之后输入的已编码音频对象信号的渲染信息,来创建用于要在解码之后输出的音频信号的空间线索信息。根据本发明的又一方面,提供了一种用于创建渲染信息以解码多声道音频信号和多对象音频信号的代码转换方法,包括如下步骤从用于在编码之后输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;基于用于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;基于在所述分出渲染信息的步骤中单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和基于在所述创建包括功率增益信息和输出位置信息的渲染信息的步骤中创建的渲染信息、在所述创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息的步骤中创建的渲染信息、和在所述分出渲染信息 的步骤中单独获取的用于已编码音频对象信号的渲染信息,来创建用于要在解码之后输出的音频信号的空间线索信息。有利效果通过提供一种能够执行边信息比特流转换的用于编码和解码具有各种声道的多对象音频信号的设备和方法,本发明可通过有效地编码和解码各种声道中的多对象音频内容而根据用户的需要来主动地消费音频内容。此外,本发明可通过提供与传统上使用的比特流的后向兼容性,来提供与传统编码和解码设备的兼容性。


图I是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。图3是图示了根据本发明实施例的图2的代码转换器(transcoder) 103的框图。图4图示了根据本发明实施例的由图2的比特流格式器(formatter) 205创建的代表性空间音频对象编码(SAOC)比特流。图5示出了根据本发明另一实施例的图2的代表性SAOC比特流。图6是示出了根据本发明另一实施例的图2的代码转换器103的框图。图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC解码器105的情况的框图。
具体实施例方式根据下文中陈述的参考附图的以下实施例描述,本发明的优点、特征和方面将变明显。下文中将参考附图来详细描述本发明的特定实施例。图I是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。参考图1,本发明包括空间音频对象编码器(SAOC) 101、代码转换器103、和空间音频编码(SAC) 105。根据SAOC方法,输入到编码器的信号被编码为音频对象。每个音频对象不由解码器恢复并独立地播放。然而,用于音频对象的信息被渲染(render)以形成所期望的音频场景,并输出具有各种声道的多对象音频信号。因此,SAC解码器需要用于渲染被输入以获取所期望的音频场景的用于音频对象的信息的设备。SAOC编码器101是基于空间线索的编码器,并将输入音频信号编码为音频对象。所述音频对象是向SAOC编码器101输入的单声道或立体声信号。SAOC编码器101输出来自多于一个输入音频对象的缩混信号,并通过提取空间线索和边信息来创建SAOC比特流。所输出的缩混信号是单声道或立体声信号。SAOC编码器101基于“异类布局SA0C”或者“Faller”技术来分析所输入的音频对象信号。所提取的SAOC比特流包括空间线索和边信息,并且所述边信息包括输入音频对象的空间信息。一般基于频率区域子带单位来分析并提取所述空间线索。所述空间线索是在编码和解码音频信号中使用的信息。它提取自频率区域,并包括用于所输入的两个信号之间的大小差、延迟差和相关性的信息。例如,空间线索包括用于示出音频信号的功率增益信息的、音频信号之间的声道电平差(CLD);音频信号之间的声道间电平差(ICLD);音频信号之间的声道间时间差(ICTD);用于示出音频信号之间的相关信息的、音频信号之间的相关声道间相关(ICC);和音频信号之间的虚拟源位置信息,但是不限于这些示例。此外,所述边信息包括用于恢复并控制空间线索和音频信号的信息。所述边信息包括标首信息。所述标首信息包括用于恢复并播放具有各种声道的多对象音频信号的信息,并且可通过定义用于音频对象的声道信息和音频对象的标识(ID)来提供用于具有单声道、立体声或多声道的音频对象的解码信息。例如,定义用于每个对象的ID和信息,以标识已编码的特定音频对象是单声道音频信号还是立体声音频信号。作为实施例,所述标首信息可包括空间音频编码(SAC)标首信息、音频对象信息和预设信息。代码转换器103渲染被输入到SAOC编码器101的音频对象,并基于从外部输入的控制信号(即,每个对象的声音信息和播放环境信息)来将从SAOC编码器101提取的SAOC比特流变换为SAC比特流。也就是说,代码转换器103基于所提取的SAOC比特流执行渲染,以将输入到SAOC编码器101的音频对象恢复为具有各种声道的多对象音频信号。可以在参数区域执行基于边信息的渲染。此外,代码转换器103将SAOC比特流变换为SAC比特流。所述代码转换器103从SAOC比特流获得输入音频对象的信息,并与所期望的音频场景对应地渲染输入音频对象的信息。在渲染过程中,代码转换器103预测与所期望的音频场景对应的空间信息,变换并输出已预测的空间信息作为SAC边信息比特流。将参考图3来详细描述代码转换器103。SAC解码器105是基于空间线索的多声道音频解码器,基于从代码转换器103输出的SAC比特流而将从SAOC编码器101输出的缩混信号恢复为每个对象的音频信号,并将每个对象的音频信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用运动图象专家组(MPEG)环绕解码器和心理声学编码(BCC)解码器来替换。
图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图,并示出了输入信号是具有各种声道的多对象音频信号的情况。参考图2和图I,本发明包括SAOC编码器101、代码转换器103、SAC解码器105、SAC编码器201、预设音频场景信息(ASI) 203和比特流格式器205。当SAOC编码器101仅支持单声道或立体声音频对象时,SAC编码器201从所输入的多声道音频信号输出一个音频对象。所输出的音频对象是缩混后的单声道或立体声信号。此外,SAC编码器201提取空间线索和边信息,并创建SAC比特流。SAOC编码器101从包括由SAC编码器201输出的一个音频对象的多于一个音频对象输出代表性缩混信号,提取空间线索和边信息,并创建SAOC比特流。预设ASI 203将从外部输入的控制信号(即,每个对象的声音信息和播放环境信 息)形成为预设ASI,并创建包括预设ASI的预设ASI比特流。将参考图4来详细描述预设ASI。比特流格式器205基于由SAOC编码器101创建的SAOC比特流、由SAC编码器201创建的SAC比特流、和由预设ASI 203创建的预设ASI比特流,来创建代表性SAOC比特流。代码转换器103渲染向SAOC编码器101输入的音频对象,并基于从外部输入的每个对象的声音信息和播放环境信息来将比特流格式器205所创建的代表性SAOC比特流变换为代表性SAC比特流。代码转换器103被包括在SAC解码器105中并如上所述地起作用。SAC解码器105基于从代码转换器103输出的SAC比特流,来将从SAOC编码器101输出的缩混信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用MPEG环绕解码器和BCC解码器来替换。图3是图示了根据本发明实施例的图2的代码转换器103的框图。参考图3,代码转换器103包括解析单元301、渲染单元303、第二矩阵单元311、和第一矩阵单元313,并将代表性SAOC比特流变换为代表性SAC比特流。在图I中,代码转换器103将SAOC比特流变换为SAC比特流。解析单元301解析由比特流格式器205创建的代表性SAOC比特流或者由图I的SAOC编码器101创建的SAOC比特流,并划分在所述代表性SAOC比特流中包括的SAOC比特流和SAC比特流。此外,解析单元301从已划分SAOC比特流中提取用于输入到SAOC编码器101的音频对象数目的信息。由于当解析由图I的SAOC编码器101创建的SAOC比特流时没有SAC比特流,所以不必划分SAC比特流。第二矩阵单元311基于由解析单元301划分的SAC比特流创建第二矩阵。第二矩阵是关于输入到SAC编码器201的多声道音频信号的行列式。当在代表性SAOC比特流中不包括SAC比特流时,即当解析由图I的SAOC编码器101创建的SAOC比特流时,不需要第二矩阵单元311。第二矩阵示出了输入到SAC编码器201的多声道音频信号的功率增益值,并示出在等式I中。wi/ iyijik)
_I, (lr\
yyCh 2fh , , xl Γ# i!,\l ^ch lK- }
_SSf MJr t. ■■■■■■■■ I WfI tjf' I ■■———;卜rW」—LY rW」—等式 i
μ ,4rj4 M(k)
—Jt3^ I4 ,I—~—
'-v-~'
矩阵II通常,在将一个帧划分为子带之后的分析是SAC的基本分析过程。虼 是从SAC编码器201输出的缩混信号冰是频率系数索引;并且b是子带索弓I。W〗, ,是从SAC比特流获得的多声道信号的空间线索信息,并用于恢复第i声道信号的频率信息,I < i < M。因此,i可以表达为频率系数的大小信息或相位信息。因此,在等式I的右边项中,1丨^&)是等式I的结果,并示出了从SAC解码器105输出的多声道音频信号。和是向量,并且的转置矩阵的维数是M’fft ,的维数。例如,这将被描述为等式2。由于从SAC编码器201输出的缩混信号是单声道或立体声,所以m是I或2。
f (k)h £ τχW*;J , X U^r (k) = [ wf ηξwf,] Μ2· ' 等式 2
妻)_如上所述,是包括在SAC比特流中的空间线索信息。当wfA ,指示每个声道的子带中的功率增益时,可以从声道电平差空间线索中预测必」。当被用作用于补偿频率系数的相位差的系数时,可以从声道时间差空间线索或声道间相干空间线索中预测。作为示例,将描述 <—(被用作用于补偿频率系数之间的相位差的系数的情况。等式I的第二矩阵应表达每个声道的功率增益值,并且是缩混信号的向量的维数的逆,使得可以利用从SAC编码器201输出的缩混信号通过矩阵运算来创建输出信号
YLM。当第二矩阵单元311创建满足等式I和2的第二矩阵时,渲染单元303组合所创建的第二矩阵和第一矩阵单元313的输出。第一矩阵单元313基于控制信号(例如,对象控制信息和播放系统信息),来创建期望多于一个的、输入到SAOC编码器101的音频对象的输出,即要被映射到具有各种声道的多对象音频信号的第一矩阵。当输入到SAOC编码器101的音频对象的数目是N时,从SAC编码器201输出的缩混信号被认为是一个音频对象并包括在所输入的N个音频对象中。相应地,除了从SAC编码器201输出的缩混信号之外的每个音频对象可以基于第一矩阵而被映射到从SAC解码器105输出的声道。当从SAC解码器105输出的声道的数目是M时,第一矩阵可满足接下来的条件。"Pu PU] Γ<j I ΓWiftj"
P (φ) WA — ^2'1 P,2 Pl- — I (·) -:2 _ dr 2; '-. "等式 3
Pw.iPL.2-"PL,M-1N-I ^lh M
—·—*w‘ —4Ib * * J·卷.\ 11 /\
i..J
矩阵I
其中是用于示出音频对象i的子带信号的信息的向量,N-1,并且是可以从SAOC比特流获得的空间线索信息。当音频对象i是立体声时,!<_,是2X I矩阵向量。PA;是示出用于将第j音频对象映射到第i输出声道的功率增益信息或相位信息的第一矩阵的元素向量,并且可以从由外部输入或者被设置为初始值的控制信息(例如,对象控制信息和播放系统信息)中获得。满足等式3的条件的第一矩阵被传送到渲染单元303,并且在渲染单元303中运算等式3。将在等式4和5中详细描述等式3的运算符和运算过程O。
Kj ][P;:, p;:2 - P;:.、'..,](·) Wf-3 | = [PX ,+pJ^W;; 2·" + ρ ,_;^.—"]等式 4
I
-/ J . V Dj
「A IW,
丨邛I
_fih厂六hh "I /—、 ^2, / i
U)ww/—, =Lrm Pxij …Γ ,A', XWL·,—, ... pL.,xwLv」]等式 5当所输入的音频对象是单声道和立体声时,m是2。例如,当所输入的音频对象的数目是Y、m = 2、并且所输出的声道的数目是M时,第一矩阵的维数是MX Y,且Y数目个被形成为2X1矩阵。当包括从SAC编码器201输出的音频对象时,考虑Y = Y-1。作为等式3的运算结果,应该能够表达包括所输出的声道的功率增益向量的矩阵。所表达的向量的维数是MX2,并反映作为所输出的声道的数目的M和作为所输入的音频对象的布局的2。再次参考图3,渲染单元303从第一矩阵313和第二矩阵311接收第一矩阵和第二矩阵。渲染单元303获得从由解析单元301划分的SAOC比特流获得的每个音频对象的空间线索信息,通过组合基于第一矩阵和第二矩阵计算的输出向量来获得所期望的空间线索信息,并创建包括所期望的空间线索信息的代表性SAC比特流。所期望的空间线索指的是与输出多声道音频信号有关的空间线索,期望由用户从SAC解码器105输出所述输出多声道音频信号。
如等式6地示出了用于基于第一矩阵和第二矩阵来获得所期望的空间线索信息的运算。
权利要求
1.一种用于编码多对象音频信号的设备,包括 音频对象编码装置,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息, 其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
2.根据权利要求I的编码设备,还包括 音频声道编码装置,用于将输入到编码设备的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染信息; 预设声音场景创建装置,用于基于输入到编码设备的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息;和 代表性比特流创建装置,用于创建代表性比特流,该代表性比特流包括从音频对象编码装置输出的渲染信息、从音频声道编码装置输出的渲染信息、和预设信息, 其中从音频声道编码装置输出的渲染信息包括用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。
3.根据权利要求2的编码设备,其中所述音频声道编码装置是运动图象专家组(MPEG)环绕编码器。
4.一种用于编码多对象音频信号的方法,包括如下步骤 基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息, 其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
5.根据权利要求4的编码方法,还包括如下步骤 将所输入的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染信息; 基于所输入的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息;和 创建代表性比特流,该代表性比特流包括从所述对所输入的音频对象信号进行编码的步骤输出的渲染信息、从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息、和预设信息, 其中从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息包括用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。
6.根据权利要求5的编码方法,其中所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤是在运动图象专家组(MPEG)环绕编码器中执行的。
全文摘要
本发明提供了一种用于编码和解码具有各种声道的多对象音频信号的设备和方法,所述设备和方法提供了与传统的空间音频编码(SAC)比特流的后向兼容性。所述设备包括音频对象编码单元,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息提供了包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息的编码设备,并且所述编码设备使用在音频信号的编码和解码中。
文档编号H04S7/00GK102883257SQ20121038137
公开日2013年1月16日 申请日期2007年12月27日 优先权日2006年12月27日
发明者白承权, 徐廷一, 李泰辰, 李用主, 张大永, 洪镇佑, 金镇雄, 姜京玉 申请人:韩国电子通信研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1