用于编码和解码具有各种声道的多对象音频信号的设备和方法

文档序号：2830575阅读：170来源：国知局

专利名称：用于编码和解码具有各种声道的多对象音频信号的设备和方法
技术领域：
本发明涉及用于编码和解码多对象音频信号的设备和方法；并且，更具体地，涉及用于对具有各种声道的多对象音频信号进行编码和解码以及对形成有各种声道的多对象音频信号进行编码和解码的设备和方法。具有各种声道的多对象音频信号是包括其每一个形成有不同声道(例如，单声道、立体声声道、和5.1声道)的多个音频对象的音频信号。该工作得到韩国信息通信部(MIC )和/或韩国信息技术(IT )研究院(IITA ) 的信息技术研究和开发规划的部分支持[2005-S-403-02, "super-intelligent multimedia anytime-anywhere realistic TV (SmaRTV) technology"]。
背景技术：
根据现有技术的音频编码和解码技术使得用户能够被动收听音频内容。因此，已存在对于以下对由不同声道组成的多个音频对象进行编码和解码的设备和方法的需求，通过根据用户需求控制由不同声道组成的每一音频对象，使用各种方法合并一个音频上下文，而使得用户能够消费各种音频对象。作为现有技术，介绍了空间音频编码(SAC)。 SAC是用于将多声道音频信号表达为缩混后的(down mixed)单声道信号或缩混后的立体声信号和空间线索、传送并恢复多声道音频信号的技术。基于SAC，可以以低比特率传送高质量多声道音频信号。然而，SAC不能编码和解码多声道多对象音频信号-例如包括其每一个由诸如单声道、立体声、和5.1声道的不同声道组成的各种对象的音频信号，因为尽管音频信号由多个声道组成，但是SAC是用于编码和解码单对象音频信号的技术。作为另一现有技术，介绍了双耳线索编码(BCC)。 BCC可编码和解码多对象信号。然而，BCC不能编码和解码由除了单声道的各种声道组成的多对象音频信号，因为在BCC中音频对象限于形成有单声道的音频对象。如上所述，根据现有技术的音频信号编码和解码技术不能对由各种声道组成的多对象音频信号进行编码和解码，因为它们被设计为对由单声道组成的多对象信号或具有多声道的单对象音频信号进行编码和解码。所以，根据现有技术，用户必须根据音频信号编码和解码技术来被动收听音频上下文。所以，已存在对于以下对由各种声道组成的多个音频对象进行编码和解码的设备和方法的需求，通过根据用户需求控制其每一个具有不同声道的每一音频对象，使用各种方法混合一个音频内容，以便消费各种音频对象。
发明内容
技术问题本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码和解码以及对由各种声道组成的多对象音频信号进行编码和解码的设备牙口方法。本发明的其他目的和优点可通过以下描述而理解，并通过参考本发明的可通过要求保护的部件及其组合来实现本发明的目的和优点。技术方案根据本发明的一个方面，提供了一种用于编码具有不同声道的多对象音频信号的设备，包括缩混单元，用于将具有不同声道的多对象音频信号缩混为一个缩混后的音频信号，并提取用于所述具有不同声道的多对象音频信号中的每一个的报头信息和包括空间线索信息的补充信息；编码单元，用于对缩混后的音频信号进行编码；和补充信息编码单元，用于生成该补充信息作为比特流，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。根据本发明的另一方面，提供了一种用于编码具有不同声道的多对象音频信号的方法，包括步骤将具有不同声道的多对象音频信号缩混为一个缩混后的音频信号，并提取用于所述具有不同声道的多对象音频信号中的每一个的报头信息和包括空间线索信息的补充信息；对缩混后的音频信号进行编码；和生成该补充信息作为比特流，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析单元，用于从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充信息比特流中提取报头信息和具有空间线索信息的补充信息；音频对象提取单元，用于使用来自该输入信号分析单元的所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和输出单元，用于使用该输入的音频信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充信息比特流中提取报头信息和具有空间线索信息的补充信息；使用所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和使用该输入的音频信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析单元，用于从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充比特流中提取报头信息和包括空间线索信息的补充信息；补充信息控制单元，用于使用该输入的音频信号的控制信息，来控制所提取的补充信息；和输出单元，用于使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充比特流中提取报头信息和包括空间线索信息的补充信息；使用该输入的音频信号的控制信息，来控制所提取的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。有利效果根据本发明实施例的用于对具有各种声道的多对象音频信号进行编码和解码以及对由各种声道组成的多对象音频信号进行编码和解码的设备和方法通过有效编码和解码由不同声道组成的包括各种音频对象的音频内容，而使得用户能够根据其需求来主动消费音频内容。

图1是图示了根据本发明示范实施例的用于编码多对象音频信号的设备的图。图2是描绘了图1中示出的单声道缩混器的图。图3是示出了图1的立体声声道缩混器的图。图4是图1的多声道缩混器的图。图5是图示了图1的第二缩混器的图。图6是示出了从图1的补充信息编码器生成的补充信息比特流的结构的图。图7是图示了图6中示出的补充信息比特流的结构的详细图。图8是图示了根据本发明另一实施例的图6中示出的补充信息比特流的结构的详细图。图9是图示了根据本发明实施例的用于解码多对象音频信号的设备的框图。图10是图示了根据本发明另一实施例的用于解码多对象音频信号的设备的框图。图ll是根据本发明实施例的用于使用图1的设备来编码多对象音频信号的方法的流程图。是根据本发明实施例的用于使用图9的设备来解码多对象音频信号的方法的流程图。图13是根据本发明另一实施例的用于使用图IO的设备来解码多对象音频信号的方法的流程图。
具体实施方式
通过下面阐明的参考附图对实施例进行的以下描述，本发明的优点、特征和方面将变得清楚。图1是图示了根据本发明实施例的用于编码多对象音频信号的设备的图。例如，根据本实施例的设备接收多声道音频对象，例如单声道音频对象、立体声声道音频对象、以及5.1声道音频对象。如图1中所示，根据本实施例的多对象音频编码设备包括第一缩混器 101、第二缩混器103、音频编码器105、和补充信息编码器107、以及多路复用器109。第一缩混器101包括单声道缩混器lll、立体声声道缩混器113、和多声道缩混器115。第一缩混器101使用输入的音频对象的报头信息而将输入的各种声道多对象音频信号标识为单声道音频对象、立体声声道音频对象、以及多声道音频信号。然后，第一缩混器101通过对应声道来对标识的音频信号进行分组。所以，通过声道对多对象音频信号的不同声道进行分组，而分组后的音频对象由对应缩混器111 、 113和115进行缩混。第一缩混器101还从输入的音频对象中提取缩混后的音频信号和包括空间线索的补充信息。即，声源由同一声道分组并被输入到第一缩混器101。单声道缩混器111从单声道音频对象中提取缩混后的信号和包括空间线索的补充信息，而立体声声道缩混器113从输入的立体声声道音频对象中提取缩混后的信号和包括空间线索的补充信息。多声道缩混器115从输入的多声道音频对象(例如，5.1声道)中提取缩混后的信号和具有空间线索的补充信息。音频编码器105对从第二缩混器103输出的第二缩混后的信号进行编码。补充编码器107使用从第一缩混器101输出的补充信息和从第二缩混器 103输出的补充信息来生成补充信息比特流。.这里，将参考图6来描述补充比特流中包括的信息。多路复用器109通过对来自音频编码器105的编码后的信号和从补充编码器107生成的补充比特流进行多路复用，而生成要传送到解码设备的比特流。从第一缩混器101输出的第一缩混后的信号是立体声信号或单声道信号。即，从单声道缩混器111输出的缩混后的信号是单声道信号，而从其余混音器113和115输出的缩混后的信号是单声道信号或立体声信号。第二缩混器103对从第一缩混器101输出的第一缩混后的信号进行缩混，并输出第二缩混后的信号。第二缩混器103提取在第二缩混过程中分析的包括空间线索的补充信息。第二缩混后的信号根据模式是单声道信号或立体声信号。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。将参考图6来描述补充信息。图2是描绘了图1中示出的单声道缩混器的图。例如，单声道缩混器111 接收N个单声道音频对象ml到mN。如图2中所示，单声道缩混器111包括层叠(cascade)结构的第一基本缩混器201a到201d。根据单声道音频对象的数目来判断单声道缩混器ill中包括的第一基本缩混器201a到201b的数目。即，如果单声道音频对象为N，则第一基本缩混器201的数目为N-1。如果单声道音频对象为1,则旁路(bypassed)输入信号，而没有基本缩混器。在本实施例中，可基于层叠方法使用一个第一基本缩混器N-1次。 .基本上，第一基本缩混器对两个输入信号进行缩混，生成一个缩混后的单声道信号，并对于该输入信号提取包括空间线索的补充信息。第1个第一基本缩混器201a生成缩混后的单声道信号，并使用输入到单声道缩混器111 的两个单声道音频对象来提取包括空间线索的补充信息。第2个第一基本缩混器201b生成缩混后的单声道信号，并使用从第1个第一基本缩混器201a 输出的缩混后的单声道信号和输入到单声道缩混器111的单声道音频对象来提取包括空间线索的补充信息。第(N-l)个第一基本缩混器生成缩混后的单声道信号，并使用从第(N-2)个基本缩混器(未示出)输出的缩混后的单声道信号和输入到单声道缩混器111的单声道音频对象来提取包括空间线索的补充信息。空间线索是用于编码和解码音频信号的信息。空间线索是从频域提取的，并包括有关输入到第一基本缩混器201的两个信号之间的幅度差、延迟差、和相关性的信息。例如，根据本实施例的空间线索包括声道声级差(CLD)、声道间声级差(ICLD)、声道间时间差(ICTD)、声道间相关性(ICC)、以及音频信号之间的虚拟源位置信息，表示音频信号的功率增益信息。然而，本发明不限于此。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。将参考图6来描述补充信息。图3是示出了图1的立体声声道缩混器的图。例如，该立体声声道缩混器接收M个左信号SL1到SLM以及M个右信号SR1到SRM作为立体声音频对象。输入到立体声声道缩混器113的立体声音频对象被划分为左立体声信号和右立体声信号，并且所划分的信号被再次分组。如图3中所示，立体声声道缩混器113包括多个第一基本缩混器201。立体声声道缩混器113需要2^(M-l)个第一基本缩混器201，以对M个左信号和M个右信号进行缩混。这里，可在另一实施例中使用一个第一基本缩混器 2 欠。如图3中所示，用于分析M个左信号的(M-l)个第一基本缩混器2011a到 2011e通过分析输入的信号而生成一个混音后的左信号，并提取包括空间线索的补充信息。如图3中所示，用于分析M个右信号的(M-l)个第一基本缩混器201ra到 201re通过分析输入的信号而生成一个混音后的右信号，并提取包括空间线索的补充信息。如图3中所示，如果立体声音频对象为1，则可旁路输入的左信号和右信号。立体声声道缩混器113输出立体声缩混信号，并通过生成缩混后的左信号和缩混后的右信号而提取包括空间线索的补充信息。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。将参考图6来描述补充信息。图4是图1的多声道缩混器的图。例如，该多声道缩混器接收P个5.1 声道音频对象。如图4中所示，多声道缩混器115是采用MPEG环绕或空间音频编码 (SAC)的缩混器。多声道缩混器115从多声道音频信号中提取包括空间线索的补充信息，并将音频信号缩混为单声道缩混后音频信号或立体声缩混后音频信号。即，多声道缩混器115从P个多声道音频对象中提取空间线索，并传送所提取的空间线索。多声道缩混器115还将音频信号缩混为单声道信号或立体声信号。
一般来说，多声道音频对象为一。图5是图示了图1的第二缩混器的图。第二缩混器103对从第一缩混器101输出的信号再次进行缩混，输出立体声缩混信号，并提取包括空间线索的补充信息。如图5所示，第二缩混器103包括第一基本缩混器201f和201g以及第二基本缩混器501。如果来自立体声声道缩混器113和多声道缩混器115的缩混后信号是立体声信号，则将对应的缩混后立体声信号分组为左信号和右信号，并且第一基本缩混器201f和201g对分组后的左信号和分组后的右信号进行缩混。从第一基本缩混器201f和201g输出的缩混后的单声道信号是左信号和右信号的代表性缩混信号。即，第一基本缩混器201f对由立体声声道缩混器113缩混和输出的左信号和由多声道缩混器115缩混和输出的左信号再次进行缩混，并输出一个缩混后的左信号作为代表性左信号。然后，第一基本缩混器201f提取补充信息。第一基本缩混器201 g对由立体声声道缩混器113缩混和输出的右信号和由多声道缩混器115缩混和输出的右信号再次进行缩混，并输出一个代表性右信号。然后，第一基本缩混器201g提取补充信息。如图2中所示，根据另一实施例，可使用一个第一基本缩混器两次。第二基本缩混器501对从单声道缩混器111输出的缩混后的单声道信号和从第一基本缩混器201f和201g输出的左代表性缩混信号和右代表性缩混信号进行缩混，并输出整个缩混后的左信号和右信号。然后，第二基本缩混器501提取包括空间线索的补充信息。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。稍后将参考图6描述补充信息。第一基本缩混器201和第二基本缩混器501基于以下方程1和方程2对输入音频信号进行缩混。方程1<formula>formula see original document page 19</formula>方程2<formula>formula see original document page 19</formula>在方程1和方程2中，《是用于控制输入音频信号的缩混声级的加权因子。《(,)是作为第一基本缩混器201和第二基本缩混器501的输入音频信号的单声道信号或立体声左和右信号。下标b是表示子带的索引，并且每一加权因子《由子带定义。可根据输入音频对象的表达目的而不同地定义加权因子。例如，'《(/)的加权因子可被定义为相对大的值，以便将单声道信号《(/)编码为主信号。如果方程1中的<=0乂《=0.3，则缩混后的信号是《(/) = 0.74(/>0.3《(/)。即，《(力被缩混为主信号。可根据缩混后信号的表达目的的限制条件来判断加权因子。该限制条件是用于声音场景(sound scene)的限制条件。例如，小提琴和吉他的加权因子被设置为0.7和0.3，以便从缩混后的音频信号按照小提琴和吉他比率0.7 和0.3来重放小提琴和吉他的音频信号。基于来自例如系统或用户的外部装置的输入来判断限制条件信息。其间，加权因子必须被反映为空间线索声级信息。例如，如果将CLD用作空间线索，则可象用于方程l的方程3那样预测空间线索信息。X！)、<formula>formula see original document page 19</formula>方程在方程3中，P()是功率运算符，而可使用'F"。来计算信号功率之和。 ,和"i' + i表示子带的边界。第二基本缩混器501提取空间线索-MPEG环绕的三到二 (TTT)盒。图6是示出了从图1的补充信息编码器生成的补充信息比特流的结构的如图6中所示，补充比特流包括报头信息和空间线索。报头信息包括用于恢复和再现由各种声道组成的多对象音频信号的信息。报头信息还通过定义音频对象的声道信息和对应音频对象的ID来提供用于单声道、立体声、多声道音频对象的解码信息。例如，可定义分类ID和每一对象的信息，以标识编码后的预定音频对象是单声道音频信号还是立体声音频信号。在实施例中，报头信息包括空间音频编码(SAC)报头信息、音频对象信息、和预置信息。在实施例中，SAC报头信息是在基于空间线索和时隙信息编码音频信号的过程中生成的信息。当第一和第二缩混器101和103提取补充信息时，第一和第二缩混器101和103提取SAC报头信息。在实施例中，音频对象信息包括用于标识缩混后的音频对象是单声道、立体声还是多声道音频对象的信息和对象ID信息。例如，音频对象信息包括有关每一声道的音频对象的数目的信息(单声道音频对象数目、立体声音频对象数目、和多声道音频对象数目)和每一声道的音频对象的索引信息，该索引信息包括音频对象是单声道、立体声还是多声道的ID和信息。在本实施例中，预置信息是报头信息的补充信息，并包括所定义的每一对象的控制信息。例如，预置信息包括预置模式信息和预置模式支持信息。预置模式信息例如包括卡拉OK模式、诸如提取吉他演奏音频对象和提取钢琴演奏音频对象的独奏对象提取模式、偏好渲染信息、和重放模式设置信息。例如，预置模式支持信息包括用于支持卡拉OK模式的嗓音索引信息、用于支持独奏对象提取模式的对应对象索引信息、用于支持偏好渲染的诸如旋转、提升、和速度的用于每一对象的渲染信息、以及用于支持基本立体声和多声道重放模式设置的用于每一音频对象的最佳渲染信息。而且，补充信息中包括的空间线索包括输入的多对象音频信号的每一对象的空间线索信息。可根据设计者的选择按照各种方式来形成该补充信息的格式。图7是图示了图6中示出的补充信息比特流的结构的详细图。即，图7 示出了用于由单声道和立体声声道组成的多对象音频信号的补充信息。如图7中所示，报头信息包括有关每一声道的音频对象的数目的信息，例如单声道音频对象的数目和立体声音频对象的数目。报头信息还包括有关每一声道的音频对象的索引信息，包括有关ID的信息和有关音频对象是单声道、立体声、还是多声道的信息。而且，补充比特流包括空间线索。作为示例，CDL或ICC被用作图7中示出的实施例中的空间线索的示例。如图7中所示，补充信息包括与单声道和立体声对象中的每一个对应的例如CLD或ICC的空间线索。即，与输入音频对象对应的空间线索信息包括所有补充信息o图8是图示了根据本发明另一实施例的图6中示出的补充信息比特流的结构的详细图。即，图8示出了用于由单声道、立体声、和多声道组成的多对象音频信号的补充信息。如图8中所示，报头信息包括有关每一声道的音频对象的数目的信息，例如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目。报头信息还包括每一声道的音频对象的索引信息，诸如ID以及音频对象是单声道、立体声、还是多声道。而且，补充比特流包括空间线索。作为空间线索的示例，在图8的示例中使用CLD和ICC 。通过对多声道对象的空间线索与单声道和立体声对象的空间线索进行层叠多路复用，可将多声道对象的空间线索表达为一个补充比特流。由单声道缩混器lll、立体声声道缩混器113、和第二缩混器103提取的空间线索是用于图8的单声道和立体声音频对象的空间线索。而且，图8的多声道音频对象的空间线索是由多声道缩混器115提取的空间线索。图9是图示了根据本发明实施例的用于解码多对象音频信号的设备的框图。根据本实施例的多对象音频信号解码设备通过从图1中示出的多对象音频信号编码设备生成的音频比特流中提取空间线索信息并使用提取的空间线索预测每一声道信息，来恢复由各种声道组成的多对象音频信号，该多对象音频信号是包括单声道音频对象、立体声音频对象、和多声道音频对象的音频信号。如图9中所示，根据本实施例的多对象音频信号解码设备包括解多路复用器(DEMUX) 901、音频解码器903、补充信息分析器卯5、音频对象提取器卯7、和渲染处理器909。例如，解多路复用器901从图1的多对象音频信号编码设备生成的音频比特流中分离出音频信息比特流和补充信息比特流。音频解码器903从来自解多路复用器901的分离的音频信息比特流中恢复缩混后的音频信号。补充信息分析器卯5从来自解多路复用器卯l的补充比特流中提取包括每一音频对象的空间线索信息的补充信息。音频对象提取器卯7使用来自补充信息分析器905的提取的补充信息的报头信息，来从缩混后的音频信号恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以音频对象提取器907可基于从补充信息分析器905提取的补充信息的报头信息和空间线索信息，来从音频解码器903输出的缩混后的音频信号中恢复每一对象的音频信号。渲染处理器909对于从音频对象提取器907输出的所恢复的音频对象中的每一个从外部装置接收诸如空间音频对象的位置和尺寸的渲染控制信息和诸如5.1或7.1声道或立体声的输出声道控制信息。基于该渲染控制信息和该输出声道控制信息，渲染处理器909安排所恢复的每一对象的音频信号并输出该音频信号。图10是图示了根据本发明另一实施例的用于解码多对象音频信号的设备的框图。与用于渲染根据每一对象恢复的音频信号的图9的解码设备不同，图10中所示的根据另一实施例的多对象音频信号解码设备通过控制补充信息并根据控制的补充信息渲染音频对象，来恢复音频信号。如图10中所示，根据另一实施例的多对象音频信号解码设备包括解多路复用器901、音频解码器903、补充信息分析器905、补充信息控制器IOOI、和SAC解码器1003。图10的解多路复用器901、音频解码器903、和补充信息分析器905与图9的解多路复用器901、音频解码器、和补充信息分析器905相同。补充信息控制器1001对于从音频解码器903恢复的缩混后的音频信号从外部装置接收诸如空间音频对象的位置和尺寸的渲染控制信息和诸如5.1或 7.1声道和立体声的输出声道控制信息，并根据外部输入信号控制从补充信息分析器905提取的诸如每一音频对象的信号幅度和相关性信息的补充信息。SAC解码器1003使用来自补充信息控制器1001的受控制的补充信息，来从音频解码器903恢复的缩混后的音频信号中恢复多声道多对象音频信号。SAC解码器1003使用来自补充信息控制器1001的受控制的补充信息的报头信息，来从缩混后的音频信号中恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以SAC解码器103可基于从补充信息控制器1001控制的补充信息的报头信息和空间线索信息，来从音频解码器903输出的缩混后的音频信号中恢复每一对象的音频信号。图ll是根据本发明实施例的用于使用图1的设备来编码多对象音频信号的方法的流程图。参考图11，在步骤S1101中，输入的各种声道的多对象音频信号基于输入音频对象的报头信息被分类为单声道音频信号、立体声音频信号、和多声道音频信号，并通过每一声道分组。在步骤S1103中，对同一声道所分组的声源进行缩混，并提取包括空间线索的补充信息。即，从输入的单声道音频对象中提取缩混后的信号和包括空间线索的补充信息，从输入的立体声音频对象中提取缩混后的信号和包括空间线索的补充信息，并从例如5.1声道的输入的多声道音频对象中提取缩混后的信号和包括空间线索的补充信息。在步骤S1103中输出的第一缩混后的信号是立体声信号或单声道信号。即，从输入的单声道音频对象输出的缩混后的信号是单声道信号，而从输入的立体声音频对象或输入的多声道音频对象输出的缩混后的信号是单声道信号或立体声信号。然后，在步骤S1105中，第一缩混后的信号被再次缩混，并且提取包括空间线索的补充信息。这里，第二缩混后的信号根据模式可以是单声道信号或立体声信号。然后，在步骤S1107中，对步骤S1105中输出的第二缩混后的信号进行编码。在步骤S1109中，使用在步骤S1103中输出的补充信息和在步骤S1105 中输出的补充信息，来生成补充信息比特流。在步骤Sllll中，通过对从步骤S1107生成的补充信息比特流进行多路复用，而生成要传送到解码设备的比特流。图12是根据本发明实施例的用于使用图9的设备来解码多对象音频信号的方法的流程图。参考图12,在步骤S1201中，从步骤Sllll生成的音频比特流中分离出音频信息比特流和补充信息比特流。在步骤S1203中，从分离的音频信息比特流中恢复缩混后的音频信号。在步骤S1205中，从分离的比特流中提取包括每一音频对象的空间线索信息的补充信息。在步骤S1207中，使用提取的补充信息的报头信息来从缩混后的音频信号中恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以可基于在步骤 S1205中提取的所提取的补充信息的报头信息和空间线索信息，来从步骤 S1203中输出的缩混后的音频信号中恢复每一对象的音频信号。在步骤S1207中，从外部装置接收例如空间音频对象的位置和尺寸的用于每一恢复的音频对象的渲染控制信息和例如5.1或7.1声道或立体声的输出声道控制信息，并安排每一恢复的对象的音频信号，并输出多对象音频信号。图13是根据本发明另一实施例的用于使用图IO的设备来解码多对象音频信号的方法的流程图。在步骤S1301中，从步骤Sllll中生成的音频比特流中分离音频信息比特流和补充信息比特流。在步骤S1303中，从分离的音频信息比特流中恢复缩混后的音频信号。在步骤S1305中，从分离的补充比特流中提取包括每一音频对象的空间线索信息的补充信息。在步骤S1307中，从外部设备接收例如空间音频对象的位置和尺寸的用于每一恢复的音频对象的渲染控制信息和例如5.1或7.1声道和立体声的输出声道控制信息，并根据外部输入信号控制从步骤S1305提取的补充信息，其中所提取的补充信息例如包括有关每一音频对象的信号幅度的信息和相关性信息。在步骤S1309中，使用受控制的补充信息来从来自步骤S1303的缩混后的音频信号中恢复各种声道的多对象音频信号。使用受控制的补充信息的报头信息来从缩混后的音频信号中恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以可基于来自步骤S1307的受控制的补充信息的报头信息和空间线索信息，来从步骤S1303输出的缩混后的音频信号中恢复每一对象的音频信号。上。计算机可读记录介质是可存储其后可由计算机系统读取的数据的任何数据储存装置。计算机可读记录介质包括只读存储器(ROM)、随机存取存储器(RAM)、 CD-ROM 、软盘、硬盘和石兹光盘。尽管已针对某些优选实施例而描述了本发明，但是本领域技术人员将理解，可进行各种改变和变型，而不脱离以下权利要求中限定的本发明的精神和范围。工业实用性根据本发明实施例的用于编码和解码多对象音频信号的设备和方法通过有效编码和解码由各种声道组成的各种对象的音频内容，使得用户能够根据需求来主动消费音频内容。
权利要求
1.一种用于编码具有不同声道的多对象音频信号的设备，包括缩混部件，用于将具有不同声道的多对象音频信号缩混为一个缩混后的音频信号，并提取用于所述具有不同声道的多对象音频信号中的每一个的报头信息和包括空间线索信息的补充信息；编码部件，用于对缩混后的音频信号进行编码；和补充信息编码部件，用于生成该补充信息作为比特流，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。
2. 根据权利要求l的设备，其中该声道信息包括用于所述具有不同声道的多对象音频信号中的每一个的声道信息；和用于所述具有不同声道的多对象音频信号中的每一声道的音频对象的数目。
3. 根据权利要求l的设备，其中该报头信息还包括作为基于空间线索的音频编码信息的时隙信息。
4. 根据权利要求l的设备，其中该报头信息还包括用于具有不同声道的多对象音频信号的预置信息。
5. 根据权利要求4的设备，其中该预置信息包括用于定义用于具有不同声道的多对象音频信号的预置模式的预置模式信息；和用于定义用于支持该预置模式所需的信息的预置模式支持信息。
6. 根据权利要求1的设备，其中该空间线索信息顺序包括用于单声道和立体声音频对象的空间线索信息和用于多声道音频对象的空间线索信息。
7. 根据权利要求l的设备，其中该缩混部件包括第一缩混器，用于通过声道对具有不同声道的多对象音频信号进行缩混；和第二缩混器，用于将来自该第一缩混器的缩混后的信号缩混为一个缩混后的信号。
8. 根据权利要求7的设备，其中该第一缩混器包括基本缩混器，用于提取所述具有不同声道的多对象音频信号中包括的用于单声道的多对象信号的补充信息，并对所述单声道的多对象音频信号进行缩混。
9. 根据权利要求8的设备，其中对于单声道的N个多对象音频信号，按照层叠结构安排(N-l)个基本缩混器。
10. 根据权利要求8的设备，其中一个基本缩混器基于层叠方案，对于单声道的N个多对象音频信号，执行缩混操作(N-1 )次。
11. 根据权利要求7的设备，其中该第一缩混器包括基本缩混器，用于提取有关作为由不同声道组成的多对象音频信号中包括的立体声声道的多对象信号的左信号和右信号的补充信息，并对作为所述立体声声道的多对象音频信号的左信号和右信号进行缩混。
12. 根据权利要求ll的设备，其中对于形成立体声声道的多对象音频信号的M个左信号和M个右信号，按照层叠结构安排(M-l )个基本缩混器。
13. 根据权利要求ll的设备，其中一个基本缩混器基于层叠方案，对于形成立体声声道的多对象音频信号的M个左信号和M个右信号中的每一个，执行缩混操作(M-l )次。
14. 根据权利要求ll的设备，其中该第一缩混器包括多声道缩混器，用于基于MPEG环绕方案或空间音频编码(SAC)方案来提取用于多声道多对象音频信号的补充信息，并对所述多声道多对象音频信号进行缩混。
15. 根据权利要求7的设备，其中该第二缩混器包括第一基本缩混器，用于提取由该第一缩混器缩混为立体声声道的缩混后的信号的左信号和右信号中的每一个的补充信息，并将由该第一缩混器缩混为立体声声道的缩混后的信号的左信号和右信号中的每一个缩混为单声道信号；和第二基本缩混器，用于从由该第一基本缩混器和该第一缩混器缩混为单声道的缩混后的信号中提取补充信息，并将由该第一基本缩混器和该第一缩混器缩混为单声道的缩混后的信号缩混为立体声声道信号。
16. 根据权利要求1的设备，还包括多路复用部件，用于对来自该编码部件的编码后的音频信号和来自该补充信息编码部件的所生成的补充信息进行多路复用。
17. —种用于编码具有不同声道的多对象音频信号的方法，包括步骤将具有不同声道的多对象音频信号缩混为一个缩混后的音频信号，并提取用于所述具有不同声道的多对象音频信号中的每一个的报头信息和包括空间线索信息的补充信息；对缩混后的音频信号进行编码；和生成该补充信息作为比特流，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。
18. 根据权利要求17的方法，其中该声道信息包括用于所述具有不同声道的多对象音频信号中的每一个的声道信息；和用于所述具有不同声道的多对象音频信号中的每一声道的音频对象的数目。
19. 根据权利要求17的方法，其中该报头信息还包括作为基于空间线索的音频编码信息的时隙信息。
20. 根据权利要求17的方法，其中该报头信息还包括用于具有不同声道的多对象音频信号的预置信息。
21. 根据权利要求20的方法，其中该预置信息包括用于定义用于具有不同声道的多对象音频信号的预置模式的预置模式信息；和用于定义用于支持该预置模式所需的信息的预置模式支持信息。
22. 根据权利要求17的方法，其中该空间线索信息顺序包括用于单声道和立体声音频对象的空间线索信息和用于多声道音频对象的空间线索信息。
23. 根据权利要求17的方法，其中所述对多对象音频信号进行缩混的步骤包括通过声道对具有不同声道的多对象音频信号进行第一缩混；和将该第一缩混后的信号第二缩混为一个缩混后的信号。
24. 根据权利要求23的方法，其中所述对多对象音频信号进行第一缩混的步骤包括基本缩混步骤，用于提取所述具有不同声道的多对象音频信号中包括的用于单声道的多对象信号的补充信息，并对所述单声道的多对象音频信号进行缩混。
25. 根据权利要求24的方法，其中在该基本缩混步骤中，对于单声道的N个多对象音频信号，按照层叠结构执行(N-l)个缩混操作。
26. 根据权利要求24的方法，其中在该基本缩混步骤中，对于单声道的 N个多对象音频信号，执行缩混操作(N-l)次。
27. 根据权利要求23的方法，其中所述对多对象音频信号进行第一缩混的步骤包括基本缩混步骤，用于提取有关作为由不同声道组成的多对象音频信号中包括的立体声声道的多对象信号的左信号和右信号的补充信息，并对作为所述立体声声道的多对象音频信号的左信号和右信号进行缩混。
28. 根据权利要求27的方法，其中在该基本缩混步骤中，对于形成立体声声道的多对象音频信号的M个左信号和M个右信号，按照层叠结构执行(M-l)个缩混操作。
29. 根据权利要求27的方法，其中在该基本缩混步骤中，对于形成立体声声道的多对象音频信号的M个左信号和M个右信号，执行缩混操作(M-l ) 次。
30. 根据权利要求27的方法，其中所述对多对象音频信号进行第一缩混的步骤包括多声道缩混步骤，用于基于MPEG环绕方案或空间音频编码(SAC)方案来提取用于多声道多对象音频信号的补充信息，并对所述多声道多对象音频信号进行缩混。
31. 根据权利要求23的方法，其中所述对第一缩混后的音频信号进行第二缩混的步骤包括以下步骤提取由该第一缩混步骤缩混为立体声声道的缩混后的信号的左信号和右信号中的每一个的补充信息，并将由该第一缩混步骤缩混为立体声声道的缩混后的信号的左信号和右信号中的每一个第一缩混为单声道信号；和从所述第一缩混后的单声道信号中提取补充信息，并将所述第一缩混后的单声道信号第二缩混为立体声声道信号。
32. 根据权利要求17的方法，还包括步骤用于对来自所述对缩混后的音频信号进行编码的步骤的编码后的音频信号和来自所述对补充信息进行编码的步骤的所生成的补充信息进行多路复用。
33. —种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析部件，用于从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充信息比特流中提取报头信息和具有空间线索信息的补充信息；音频对象提取部件，用于使用来自该输入信号分析部件的所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和输出部件，用于使用该输入的音频信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。
34. 根据权利要求33的设备，其中该声道信息包括用于所述具有不同声道的多对象音频信号中的每一个的声道信息；和用于所述具有不同声道的多对象音频信号中的每一声道的音频对象的数目。
35. 根据权利要求33的设备，其中该报头信息还包括作为基于空间线索的音频编码信息的时隙信息。
36. 根据权利要求33的设备，其中该报头信息还包括用于具有不同声道的多对象音频信号的预置信息。
37. 根据权利要求36的设备，其中该预置信息包括用于定义用于具有不同声道的多对象音频信号的预置模式的预置模式信息；和用于定义用于支持该预置模式所需的信息的预置模式支持信息。
38. 根据权利要求33的设备，其中该空间线索信息顺序包括用于单声道和立体声音频对象的空间线索信息和用于多声道音频对象的空间线索信息。
39. 根据权利要求33的设备，其中该控制信息是用于所恢复的音频对象中的每一个的渲染控制信息和输出声道控制信息。
40. 根据权利要求33的设备，其中该输入信号分析部件包括解多路复用单元，用于从输入的音频信号中分离出音频信息比特流和补充信息比特流；音频恢复单元，用于从来自该解多路复用单元的分离出的音频信息比特流中恢复缩混后的音频信号；和补充信息分析单元，用于从来自该解多路复用单元的分离出的补充比特流中提取包括每一音频对象的空间线索信息的补充信息。
41. 一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充信息比特流中提取报头信息和具有空间线索信息的补充信息；使用所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和使用该输入的音频信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。
42. 根据权利要求41的方法，其中该声道信息包括用于所述具有不同声道的多对象音频信号中的每一个的声道信息；和用于所述具有不同声道的多对象音频信号中的每一声道的音频对象的数目。
43. 根据权利要求41的方法，其中该报头信息还包括作为基于空间线索的音频编码信息的时隙信息。
44. 根据权利要求41的方法，其中该报头信息还包括用于具有不同声道的多对象音频信号的预置信息。
45. 根据权利要求44的方法，其中该预置信息包括用于定义用于具有不同声道的多对象音频信号的预置模式的预置模式信息；和用于定义用于支持该预置模式所需的信息的预置模式支持信息。
46. 根据权利要求41的方法，其中该空间线索信息顺序包括用于单声道和立体声音频对象的空间线索信息和用于多声道音频对象的空间线索信息。
47. 根据权利要求41的方法，其中该控制信息是用于所恢复的音频对象中的每一个的渲染控制信息和输出声道控制信息。
48. 根据权利要求41的方法，其中所述从输入的音频信号中恢复缩混后的音频信号的步骤包括步骤从输入的音频信号中分离出音频信息比特流和补充信息比特流；从分离出的音频信息比特流中恢复缩混后的音频信号；和从分离出的补充比特流中提取包括每一音频对象的空间线索信息的补充信息。
49. 一种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析部件，用于从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充比特流中提取报头信息和包括空间线索信息的补充信息；补充信息控制部件，用于使用该输入的音频信号的控制信息，来控制所提取的补充信息；和输出部件，用于使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。
50. 根据权利要求49的设备，其中该声道信息包括用于所述具有不同声道的多对象音频信号中的每一个的声道信息；和用于所述具有不同声道的多对象音频信号中的每一声道的音频对象的数目。
51. 根据权利要求49的设备，其中该报头信息还包括作为基于空间线索的音频编码信息的时隙信息。
52. 根据权利要求49的设备，其中该报头信息还包括用于具有不同声道的多对象音频信号的预置信息。
53. 根据权利要求52的设备，其中该预置信息包括用于定义用于具有不同声道的多对象音频信号的预置模式的预置模式信息；和用于定义用于支持该预置模式所需的信息的预置模式支持信息。
54. 根据权利要求49的设备，其中该空间线索信息顺序包括用于单声道和立体声音频对象的空间线索信息和用于多声道音频对象的空间线索信息。
55. 根据权利要求49的设备，其中该控制信息包括用于所恢复的缩混后的音频信号的渲染控制信息和输出声道控制信息。
56. 根据权利要求49的设备，其中该输入信号分析部件包括解多路复用单元，用于从输入的音频信号中分离出音频信息比特流和补充信息比特流；音频恢复单元，用于从来自该解多路复用单元的分离出的音频信息比特流中恢复缩混后的音频信号；和补充信息分析单元，用于从分离出的补充比特流中提取包括每一音频对象的空间线索的补充信息。
57. —种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的音频信号中恢复缩混后的音频信号，并从该输入的音频信号中包括的补充比特流中提取报头信息和包括空间线索信息的补充信息；使用该输入的音频信号的控制信息，来控制所提取的补充信息；和使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。
58. 根据权利要求57的方法，其中该声道信息包括用于所述具有不同声道的多对象音频信号中的每一个的声道信息；和用于所述具有不同声道的多对象音频信号中的每一声道的音频对象的数目。
59. 根据权利要求57的方法，其中该报头信息还包括作为基于空间线索的音频编码信息的时隙信息。
60. 根据权利要求57的方法，其中该报头信息还包括用于具有不同声道的多对象音频信号的预置信息。
61. 根据权利要求60的方法，其中该预置信息包括用于定义用于具有不同声道的多对象音频信号的预置模式的预置模式信息；和用于定义用于支持该预置模式所需的信息的预置模式支持信息。
62. 根据权利要求57的方法，其中该空间线索信息顺序包括用于单声道和立体声音频对象的空间线索信息和用于多声道音频对象的空间线索信息。
63. 根据权利要求57的方法，其中该控制信息是用于所恢复的缩混后的音频信号的渲染控制信,t、和输出声道控制信息。
64. 根据权利要求57的方法，其中所述从输入的音频信号中恢复缩混后的音频信号的步骤包括步骤从输入的音频信号中分离出音频信息比特流和补充信息比特流；从分离出的音频信息比特流中恢复缩混后的音频信号；和从分离出的补充比特流中提取包括每一音频对象的空间线索的补充信
全文摘要
提供了一种用于编码和解码多对象音频信号的设备和方法。该设备包括缩混器，用于将具有不同声道的多对象音频信号缩混为一个缩混后的音频信号，并提取用于所述具有不同声道的多对象音频信号中的每一个的报头信息和包括空间线索信息的补充信息；编码器，用于对缩混后的音频信号进行编码；和补充信息编码器，用于生成该补充信息作为比特流。该报头信息包括用于所述具有不同声道的多对象音频信号中的每一个的标识信息和用于所述具有不同声道的多对象音频信号中的每一个的声道信息。
文档编号G10L19/00GK101617360SQ200780043560
公开日2009年12月30日申请日期2007年10月1日优先权日2006年9月29日
发明者刘载铉, 姜京玉, 张仁瑄, 张大永, 徐廷一, 李泰辰, 李用主, 洪镇佑, 白承权, 金镇雄申请人:韩国电子通信研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白承权;徐廷一;李泰辰;李用主;张仁瑄;刘载铉;张大永;洪镇佑;金镇雄;姜京玉
技术所有人：韩国电子通信研究院
我是此专利的发明人

上一篇：基音滞后估计的制作方法
上一篇：用于立体声编码的方法、装置和计算机程序产品的制作方法