用于运动图象专家组环绕解码的代码转换设备的制作方法

文档序号：7552323阅读：159来源：国知局

专利名称：用于运动图象专家组环绕解码的代码转换设备的制作方法
技术领域：
本发明涉及一种用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法；且更具体地，涉及一种包括边信息(side information)比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法，所述边信息比特流转换用于变换边信息比特流、并基于变换后的边信息比特流来恢复具有所期望的输出信号(即，各种声道)的多对象音频信号。
具有各种声道的多对象音频信号表示用于针对每个音频对象具有不同声道(例如，单声道、立体声和5.1声道)的多对象的音频信号。
这项工作受MIC/IITA 的 IT R&D 规划[2005-S-403-02，“Development ofSuper-1ntelligent Multimedia Anytime-anywhere Realistic TV SmarTV Technology(超智能多媒体任何时间任何地点逼真TV智能TV技术的开发)”]支持。
背景技术：
根据传统的音频编码/解码技术，用户应该被动地(inactively)聆听音频内容。这样，需要开发一种用于对在用于多个音频对象的多声道中的音频信号进行编码和解码的设备和方法，使得可以通过根据用户的需要而控制其每一个具有不同声道的音频对象并以各种方法而组合一个音频内容，来消费各种音频对象。
传统的空间音频编码(SAC)是一种用于将多声道音频信号代表、传送、和恢复为缩混后的单声道或立体声信号的技术，并且它可以以低比特率来传送高质量的多声道音频信号。
然而，由于传统的SAC能够对在仅用于一个音频对象的多声道中的信号进行编码和解码，所以它不能编码/解码多声道和多对象音频信号，例如，用于多声道(例如，单声道、立体声和5.1声道)中的各种对象的音频信号。
此外,传统的心理声学编码(BCC:Binaural Cue Coding)技术可以编码/解码用于多对象的音频信号。然而，由于音频对象的声道限于单声道，所以不能对具有包括单声道的各种声道的多对象音频信号进行编码/解码。
总之，由于传统的技术仅可以编码/解码具有单个声道的多对象音频信号、或者具有多声道的单对象音频信号，所以不能对具有各种声道的多对象音频信号进行编码/解码。因此，根据传统的音频编码/解码技术，用户应该被动地聆听音频内容。
相应地，需要开发一种用于对在用于每个多音频对象的各种声道中的音频信号进行编码和解码的设备和方法，以通过控制根据用户的需要而不同的多声道中的每个音频对象、并根据各种方法而组合一个音频内容来消费各种音频对象。
此外，需要一种用于将多对象音频比特流转换为传统的SAC比特流并且反之亦然的设备和方法，以提供在多对象音频编码器中创建的边信息比特流与传统的SAC编码器/解码器的边信息比特流之间的后向兼容性。
如上所述，作为用于通过单独控制具有不同声道的多个音频对象并根据各种方法而组合一个音频内容来对各种声道的多对象音频信号进行编码和解码的设备和方法，需要开发一种可执行比特流转换的多声道和多对象音频编码和解码设备及方法，以提供与传统SAC比特流的后向兼容性，并控制具有多声道的每个多音频对象，从而以多样的方法来组合一个音频对象。发明内容
技术问题
本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码和解码、以提供与传统的空间音频编码(SAC)比特流的后向兼容性的设备和方法。
技术解决方案
根据本发明的一方面，提供了一种用于编码多对象音频信号的设备，包括:音频对象编码单元，用于基于空间线索(spatial cue)来编码输入到编码设备的音频对象信号，并创建用于编码后的音频对象信号的渲染信息，其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
根据本发明的又一方面，提供了一种用于创建渲染信息来解码多对象音频信号的代码转换设备，包括:第一矩阵单元，用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；和渲染单元，用于基于第一矩阵单元所创建的渲染信息和用于从编码设备输入的已编码音频对象信号的渲染信息，来创建用于要从解码设备输出的音频信号的空间线索信肩、O
根据本发明的又一方面，提供了一种用于创建多声道音频信号和用于解码多声道音频信号的渲染信息的代码转换设备，包括:解析单元，用于从用于由编码设备输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息；第一矩阵单元，用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；第二矩阵单元，用于基于由解析单元单独获取的用于已编码多声道音频信号的渲染信息，来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息，和渲染单元，用于基于第一矩阵单元所创建的渲染信息、第二矩阵单元所创建的渲染信息、和由解析单元单独获取的用于已编码音频对象信号的渲染信息，来创建用于从解码设备输出的音频信号的空间线索信息。
根据本发明的又一方面，提供了一种用于编码多对象音频信号的方法，包括如下步骤:基于空间线索来对所输入的音频对象信号进行编码，并创建用于编码后的音频对象信号的渲染信息，其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
根据本发明的又一方面，提供了一种用于创建渲染信息来解码多对象音频信号的代码转换方法，包括如下步骤:基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；和基于在所述创建渲染信息的步骤中创建的渲染信息和用于在编码之后输入的已编码音频对象信号的渲染信息，来创建用于要在解码之后输出的音频信号的空间线索信息。
根据本发明的又一方面，提供了一种用于创建渲染信息以解码多声道音频信号和多对象音频信号的代码转换方法，包括如下步骤:从用于在编码之后输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息；基于用于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；基于在所述分出渲染信息的步骤中单独获取的用于已编码多声道音频信号的渲染信息，来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息，和基于在所述创建包括功率增益信息和输出位置信息的渲染信息的步骤中创建的渲染信息、在所述创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息的步骤中创建的渲染信息、和在所述分出渲染信息的步骤中单独获取的用于已编码音频对象信号的渲染信息，来创建用于要在解码之后输出的音频信号的空间线索信息。
根据本发明的又一方面，提供了一种用于运动图象专家组(MPEG)环绕MPS解码的代码转换设备，该代码转换设备用于变换多对象音频信号，该多对象音频信号被利用基于空间线索的音频编码方法编码，该代码转换设备包括:代码转换装置，用于基于从外部输入的用于所述多对象音频信号的渲染信息、或者从音频编码器传送的并包括用于所述多对象音频信号的渲染信息的比特流来创建MPS比特流，该MPS比特流包括用于所述多对象音频信号的空间线索信息；以及信号处理装置，用于基于所述从外部输入的渲染信息、或者所述从音频编码器传送的比特流来将所述多对象音频信号变换为适合于MPS解码的信号。
有利效果
通过提供一种能够执行边信息比特流转换的用于编码和解码具有各种声道的多对象音频信号的设备和方法，本发明可通过有效地编码和解码各种声道中的多对象音频内容而根据用户的需要来主动地消费音频内容。此外，本发明可通过提供与传统上使用的比特流的后向兼容性，来提供与传统编码和解码设备的兼容性。

图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
图3是图示了根据本发明实施例的图2的代码转换器(transcoder) 103的框图。
图4图示了根据本发明实施例的由图2的比特流格式器(formatter) 205创建的代表性空间音频对象编码(SAOC)比特流。
图5示出了根据本发明另一实施例的图2的代表性SAOC比特流。
图6是示出了根据本发明另一实施例的图2的代码转换器103的框图。
图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。
图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC解码器105的情况的框图。
具体实施方式
根据下文中陈述的参考附图的以下实施例描述，本发明的优点、特征和方面将变明显。下文中将参考附图来详细描述本发明的特定实施例。
图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
参考图1，本发明包括:空间音频对象编码器(SAOC) 101、代码转换器103、和空间音频编码(SAC) 105。
根据SAOC方法，输入到编码器的信号被编码为音频对象。每个音频对象不由解码器恢复并独立地播放。然而，用于音频对象的信息被渲染(render)以形成所期望的音频场景，并输出具有各种声道的多对象音频信号。因此，SAC解码器需要用于渲染被输入以获取所期望的音频场景的用于音频对象的信息的设备。
SAOC编码器101是基于空间线索的编码器，并将输入音频信号编码为音频对象。所述音频对象是向SAOC编码器101输入的单声道或立体声信号。
SAOC编码器101输出来自多于一个输入音频对象的缩混信号，并通过提取空间线索和边信息来创建SAOC比特流。所输出的缩混信号是单声道或立体声信号。SAOC编码器101基于“异类布局SA0C”或者“Faller”技术来分析所输入的音频对象信号。
所提取的SAOC比特流包括空间线索和边信息，并且所述边信息包括输入音频对象的空间信息。一般基于频率区域子带单位来分析并提取所述空间线索。
所述空间线索是在编码和解码音频信号中使用的信息。它提取自频率区域，并包括用于所输入的两个信号之间的大小差、延迟差和相关性的信息。例如，空间线索包括:用于示出音频信号的功率增益信息的、音频信号之间的声道电平差(CLD);音频信号之间的声道间电平差(ICLD);音频信号之间的声道间时间差(ICTD);用于示出音频信号之间的相关信息的、音频信号之间的相关声道间相关(ICC);和音频信号之间的虚拟源位置信息，但是不限于这些示例。
此外，所述边信息包括用于恢复并控制空间线索和音频信号的信息。所述边信息包括标首信息。所述标首信息包括用于恢复并播放具有各种声道的多对象音频信号的信息，并且可通过定义用于音频对象的声道信息和音频对象的标识(ID)来提供用于具有单声道、立体声或多声道的音频对象的解码信息。例如，定义用于每个对象的ID和信息，以标识已编码的特定音频对象是单声道音频信号还是立体声音频信号。作为实施例，所述标首信息可包括:空间音频编码(SAC)标首信息、音频对象信息和预设信息。
代码转换器103渲染被输入到SAOC编码器101的音频对象，并基于从外部输入的控制信号(即，每个对象的声音信息和播放环境信息)来将从SAOC编码器101提取的SAOC比特流变换为SAC比特流。
也就是说，代码转换器103基于所提取的SAOC比特流执行渲染，以将输入到SAOC编码器101的音频对象恢复为具有各种声道的多对象音频信号。可以在参数区域执行基于边信息的渲染。
此外，代码转换器103将SAOC比特流变换为SAC比特流。所述代码转换器103从SAOC比特流获得输入音频对象的信息，并与所期望的音频场景对应地渲染输入音频对象的信息。在渲染过程中，代码转换器103预测与所期望的音频场景对应的空间信息，变换并输出已预测的空间信息作为SAC边信息比特流。
将参考图3来详细描述代码转换器103。
SAC解码器105是基于空间线索的多声道音频解码器，基于从代码转换器103输出的SAC比特流而将从SAOC编码器101输出的缩混信号恢复为每个对象的音频信号，并将每个对象的音频信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用运动图象专家组(MPEG)环绕解码器和心理声学编码(BCC)解码器来替换。
图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图，并示出了输入信号是具有各种声道的多对象音频信号的情况。
参考图2和图1，本发明包括:SAOC编码器101、代码转换器103、SAC解码器105、SAC编码器201、预设音频场景信息(ASI) 203和比特流格式器205。
当SAOC编码器101仅支持单声道或立体声音频对象时，SAC编码器201从所输入的多声道音频信号输出一个音频对象。所输出的音频对象是缩混后的单声道或立体声信号。此外，SAC编码器201提取空间线索和边信息，并创建SAC比特流。
SAOC编码器101从包括由SAC编码器201输出的一个音频对象的多于一个音频对象输出代表性缩混信号，提取空间线索和边信息，并创建SAOC比特流。
预设ASI203将从外部输入的控制信号(S卩，每个对象的声音信息和播放环境信息)形成为预设ASI，并创建包括预设ASI的预设ASI比特流。将参考图4来详细描述预设ASI。
比特流格式器205基于由SAOC编码器101创建的SAOC比特流、由SAC编码器201创建的SAC比特流、和由预设ASI203创建的预设ASI比特流，来创建代表性SAOC比特流。
代码转换器103渲染向SAOC编码器101输入的音频对象，并基于从外部输入的每个对象的声音信息和播放环境信息来将比特流格式器205所创建的代表性SAOC比特流变换为代表性SAC比特流。代码转换器103被包括在SAC解码器105中并如上所述地起作用。
SAC解码器105基于从代码转换器103输出的SAC比特流，来将从SAOC编码器101输出的缩混信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用MPEG环绕解码器和BCC解码器来替换。
图3是图示了根据本发明实施例的图2的代码转换器103的框图。
参考图3，代码转换器103包括:解析单元301、渲染单元303、第二矩阵单元311、和第一矩阵单元313，并将代表性SAOC比特流变换为代表性SAC比特流。
在图1中，代码转换器103将SAOC比特流变换为SAC比特流。
解析单元301解析由比特流格式器205创建的代表性SAOC比特流或者由图1的SAOC编码器101创建的SAOC比特流，并划分在所述代表性SAOC比特流中包括的SAOC比特流和SAC比特流。此外，解析单元301从已划分SAOC比特流中提取用于输入到SAOC编码器101的音频对象数目的信息。由于当解析由图1的SAOC编码器101创建的SAOC比特流时没有SAC比特流，所以不必划分SAC比特流。
第二矩阵单元311基于由解析单元301划分的SAC比特流创建第二矩阵。第二矩阵是关于输入到SAC编码器201的多声道音频信号的行列式。当在代表性SAOC比特流中不包括SAC比特流时，即当解析由图1的SAOC编码器101创建的SAOC比特流时，不需要第二矩阵单元311。
第二矩阵示出了输入到SAC编码器201的多声道音频信号的功率增益值，并示出在等式1中。
权利要求
1.一种用于运动图象专家组(MPEG)环绕MPS解码的代码转换设备，该代码转换设备用于变换多对象音频信号，该多对象音频信号被利用基于空间线索的音频编码方法编码，该代码转换设备包括: 代码转换装置，用于基于从外部输入的用于所述多对象音频信号的渲染信息、或者从音频编码器传送的并包括用于所述多对象音频信号的渲染信息的比特流来创建MPS比特流，该MPS比特流包括用于所述多对象音频信号的空间线索信息；以及信号处理装置，用于基于所述从外部输入的渲染信息、或者所述从音频编码器传送的比特流来将所述多对象音频信号变换为适合于MPS解码的信号。
2.根据权利要求1的代码转换设备，其中所述信号处理装置基于下面的公式将所述多对象音频信号变换为适合于MPS解码的信号:
3.根据权利要求2的代码转换设备，其中所述用于多对象音频信号的渲染信息被表达为如下的公式:
4.根据权利要求1的代码转换设备，其中所述信号处理装置基于作为所述从外部输入的渲染信息的输出位置信息、或者所述从音频编码器传送的比特流来将所述多对象音频信号变换为适合于MPS解码的信号。
全文摘要
一种用于运动图象专家组环绕解码的代码转换设备。提供了一种用于编码和解码具有各种声道的多对象音频信号的设备和方法，所述设备和方法提供了与传统的空间音频编码(SAC)比特流的后向兼容性。所述设备包括音频对象编码单元，用于基于空间线索来编码输入到编码设备的音频对象信号，并创建用于编码后的音频对象信号的渲染信息，其中所述渲染信息提供了包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息的编码设备，并且所述编码设备使用在音频信号的编码和解码中。
文档编号H04S7/00GK103137131SQ201310053709
公开日2013年6月5日申请日期2007年12月27日优先权日2006年12月27日
发明者白承权, 徐廷一, 李泰辰, 李用主, 张大永, 洪镇佑, 金镇雄, 姜京玉申请人:韩国电子通信研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白承权;徐廷一;李泰辰;李用主;张大永;洪镇佑;金镇雄;姜京玉
技术所有人：韩国电子通信研究院
我是此专利的发明人

上一篇：手持电子装置与开启应用程序方法
上一篇：用于创建空间线索信息的代码转换设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。