用于编码和解码具有各种声道的多对象音频信号的设备和方法

文档序号：2833243阅读：150来源：国知局

专利名称：用于编码和解码具有各种声道的多对象音频信号的设备和方法
技术领域：
本发明涉及用于编码和解码多对象音频信号的设备和方法；并且，更具体地，涉及用于对具有各种声道的多对象音频信号进行编码和解码以及对形成有各种声道的多对象音频信号进行编码和解码的设备和方法。具有各种声道的多对象音频信号是包括其每ー个形成有不同声道(例如，单声道、立体声声道、和5. I声道)的多个音频对象的音频信号。该工作得到韩国信息通信部(MIC)和/或韩国信息技术(IT)研究院(IITA)的信息技术研究和开发规划的部分支持[2005-S-403-02, “super-intelligent multimediaanytime-anywhere realistic TV (bmaRTV) technology，.」。
背景技术：
根据现有技术的音频编码和解码技术使得用户能够被动收听音频内容。因此，已存在对于以下对由不同声道组成的多个音频对象进行编码和解码的设备和方法的需求，通过根据用户需求控制由不同声道组成的每一音频对象，使用各种方法合井一个音频上下文，而使得用户能够消费各种音频对象。作为现有技术，介绍了空间音频编码(SAC)。SAC是用于将多声道音频信号表达为缩混后的(down mixed)单声道信号或缩混后的立体声信号和空间线索、传送并恢复多声道音频信号的技木。基于SAC，可以以低比特率传送高质量多声道音频信号。然而，SAC不能编码和解码多声道多对象音频信号一例如包括其每ー个由诸如单声道、立体声、和5. I声道的不同声道组成的各种对象的音频信号，因为尽管音频信号由多个声道组成，但是SAC是用于编码和解码单对象音频信号的技木。作为另ー现有技术，介绍了双耳线索编码(BCC)。BCC可编码和解码多对象信号。然而，BCC不能编码和解码由除了单声道的各种声道组成的多对象音频信号，因为在BCC中音频对象限于形成有单声道的音频对象。如上所述，根据现有技术的音频信号编码和解码技术不能对由各种声道组成的多对象音频信号进行编码和解码，因为它们被设计为对由单声道组成的多对象信号或具有多声道的单对象音频信号进行编码和解码。所以，根据现有技术，用户必须根据音频信号编码和解码技术来被动收听音频上下文。所以，已存在对于以下对由各种声道组成的多个音频对象进行编码和解码的设备和方法的需求，通过根据用户需求控制其每ー个具有不同声道的每一音频对象，使用各种方法混合一个音频内容，以便消费各种音频对象。

发明内容
技术问题本发明的实施例g在提供ー种用于对具有各种声道的多对象音频信号进行编码和解码以及对由各种声道组成的多对象音频信号进行编码和解码的设备和方法。本发明的其他目的和优点可通过以下描述而理解，并通过參考本发明的实施例而变得清楚。而且，对于本发明的领域的技术人员来说显而易见的是，可通过要求保护的部件及其组合来实现本发明的目的和优点。技术方案根据本发明的ー个方面，提供了ー种用于编码具有不同声道的多对象音频信号的设备，包括缩混单元，用于将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每ー个的包括报头信息和空间线索信息的补充信息；编码单元，用于对缩混后的音频信号进行编码；和补充信息编码单元，用于生成该补充信息作为比特流，其中该报头信息包括用于所述音频信号中的每ー个的标识信息；和用于所述音频信号的声道信息。根据本发明的另一方面，提供了ー种用于编码具有不同声道的多对象音频信号的方法，包括步骤将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每ー个的包括报头信息和空间线索信息的补充信息；对缩混后的音频信号进行编码；和生成该补充信息作为比特流，其中该报头信息包括用于所述音频信号中的每ー个的标识信息；和用于所述音频信号的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析単元，用于从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充信息比特流中提取具有报头信息和空间线索信息的补充信息；音频对象提取单元，用于使用来自该输入信号分析单元的所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每ー对象的音频信号；和输出单元，用于使用该输入的信号的控制信息，来输出所恢复的每ー对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每ー个的标识信息；和用于所述音频信号的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充信息比特流中提取具有报头信息和空间线索信息的补充信息；使用所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每ー对象的音频信号；和使用该输入的信号的控制信息，来输出所恢复的每ー对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每ー个的标识信息；和用于所述音频信号的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析単元，用于从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充比特流中提取包括报头信息和空间线索信息的补充信息；补充信息控制单元，用于使用该输入的信号的控制信息，来控制所提取的补充信息；和输出单元，用于使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每ー个的标识信息；和用于所述音频信号的声道信息。根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充比特流中提取包括报头信息和空间线索信息的补充信息；使用该输入的信号的控制信息，来控制所提取的补充信息；和使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每ー个的标识信息；和用于所述音频信号的声道信息。有利效果根据本发明实施例的用于对具有各种声道的多对象音频信号进行编码和解码以及对由各种声道组成的多对象音频信号进行编码和解码的设备和方法通过有效编码和解码由不同声道组成的包括各种音频对象的音频内容，而使得用户能够根据其需求来主动消费音频内容。

图I是图示了根据本发明示范实施例的用于编码多对象音频信号的设备的图。图2是描绘了图I中示出的单声道缩混器的图。图3是示出了图I的立体声声道缩混器的图。图4是图I的多声道缩混器的图。图5是图示了图I的第二缩混器的图。图6是示出了从图I的补充信息编码器生成的补充信息比特流的结构的图。图7是图示了图6中示出的补充信息比特流的结构的详细图。图8是图示了根据本发明另ー实施例的图6中示出的补充信息比特流的结构的详细图。图9是图示了根据本发明实施例的用于解码多对象音频信号的设备的框图。图10是图示了根据本发明另ー实施例的用于解码多对象音频信号的设备的框图。图11是根据本发明实施例的用于使用图I的设备来编码多对象音频信号的方法的流程图。图12是根据本发明实施例的用于使用图9的设备来解码多对象音频信号的方法的流程图。图13是根据本发明另一实施例的用于使用图10的设备来解码多对象音频信号的方法的流程图。
具体实施例方式通过下面阐明的參考附图对实施例进行的以下描述，本发明的优点、特征和方面
将变得清楚。图I是图示了根据本发明实施例的用于编码多对象音频信号的设备的图。例如，根据本实施例的设备接收多声道音频对象，例如单声道音频对象、立体声声道音频对象、以及5. I声道音频对象。
如图I中所示，根据本实施例的多对象音频编码设备包括第一缩混器101、第二缩混器103、音频编码器105、和补充信息编码器107、以及多路复用器109。第一缩混器101包括单声道缩混器111、立体声声道缩混器113、和多声道缩混器115。第一缩混器101使用输入的音频对象的报头信息而将输入的各种声道多对象音频信号标识为单声道音频对象、立体声声道音频对象、以及多声道音频信号。然后，第一缩混器101通过对应声道来对标识的音频信号进行分组。所以，通过声道对多对象音频信号的不同声道进行分组，而分组后的音频对象由对应缩混器111、113和115进行缩混。第一缩混器101还从输入的音频对象中提取缩混后的音频信号和包括空间线索的补充信息。即，声源由同一声道分组并被输入到第一缩混器101。单声道缩混器111从单声道音频对象中提取缩混后的信号和包括空间线索的补充信息，而立体声声道缩混器113从输入的立体声声道音频对象中提取缩混后的信号和包括空间线索的补充信息。多声道缩混器115从输入的多声道音频对象(例如，5. I声道)中提取缩混后的信号和具有空间线索的补充信息。音频编码器105对从第二缩混器103输出的第二缩混后的信号进行编码。补充编码器107使用从第一缩混器101输出的补充信息和从第二缩混器103输出的补充信息来生成补充信息比特流。这里，将參考图6来描述补充比特流中包括的信息。多路复用器109通过对来自音频编码器105的编码后的信号和从补充编码器107生成的补充比特流进行多路复用，而生成要传送到解码设备的比特流。从第一缩混器101输出的第一缩混后的信号是立体声信号或单声道信号。即，从单声道缩混器111输出的缩混后的信号是单声道信号，而从其余混音器113和115输出的缩混后的信号是单声道信号或立体声信号。第二缩混器103对从第一缩混器101输出的第一缩混后的信号进行缩混，并输出第二缩混后的信号。第二缩混器103提取在第二缩混过程中分析的包括空间线索的补充信息。第二缩混后的信号根据模式是单声道信号或立体声信号。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。将參考图6来描述补充信息。图2是描绘了图I中示出的单声道缩混器的图。例如，单声道缩混器111接收N个单声道音频对象ml到mN。如图2中所示，单声道缩混器111包括层叠(cascade)结构的第一基本缩混器201a 到 201d。根据单声道音频对象的数目来判断单声道缩混器111中包括的第一基本缩混器201a到201b的数目。即，如果单声道音频对象为N，则第一基本缩混器201的数目为N-I。如果单声道音频对象为1，则旁路(bypassed)输入信号，而没有基本缩混器。在本实施例中，可基于层叠方法使用ー个第一基本缩混器N-I次。基本上，第一基本缩混器对两个输入信号进行缩混，生成一个缩混后的单声道信号，并对于该输入信号提取包括空间线索的补充信息。第I个第一基本缩混器201a生成缩混后的单声道信号，并使用输入到单声道缩混器111的两个单声道音频对象来提取包括空间线索的补充信息。第2个第一基本缩混器201b生成缩混后的单声道信号，并使用从第I个第一基本缩混器201a输出的缩混后的单声道信号和输入到单声道缩混器111的单声道音频对象来提取包括空间线索的补充信息。第(N-I)个第一基本缩混器生成缩混后的单声道信号，并使用从第(N-2)个基本缩混器(未示出)输出的缩混后的单声道信号和输入到单声道缩混器111的单声道音频对象来提取包括空间线索的补充信息。空间线索是用于编码和解码音频信号的信息。空间线索是从频域提取的，并包括有关输入到第一基本缩混器201的两个信号之间的幅度差、延迟差、和相关性的信息。例如，根据本实施例的空间线索包括声道声级差(CLD)、声道间声级差(ICLD)、声道间时间差(ICTD)、声道间相关性(ICC)、以及音频信号之间的虚拟源位置信息，表示音频信号的功率増益信息。然而，本发明不限于此。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。将參考图6来描述补充信息。图3是示出了图I的立体声声道缩混器的图。例如，该立体声声道缩混器接收M个左信号SLl到SLM以及M个右信号SRl到SRM作为立体声音频对象。输入到立体声声道缩混器113的立体声音频对象被划分为左立体声信号和右立体声信号，并且所划分的信号被再次分组。如图3中所不,立体声声道缩混器113包括多个第一基本缩混器201。立体声声道缩混器113需要2* (M-I)个第一基本缩混器201，以对M个左信号和M个右信号进行缩混。这里，可在另ー实施例中使用ー个第一基本缩混器2* (M-I)次。如图3中所不,用于分析M个左信号的(M-I)个第一基本缩混器2011a到2011e通过分析输入的信号而生成一个混音后的左信号，并提取包括空间线索的补充信息。如图3中所示，用于分析M个右信号的(M-I)个第一基本缩混器201ra到201re通过分析输入的信号而生成一个混音后的右信号，并提取包括空间线索的补充信息。如图3中所示，如果立体声音频对象为1，则可旁路输入的左信号和右信号。立体声声道缩混器113输出立体声缩混信号，并通过生成缩混后的左信号和缩混后的右信号而提取包括空间线索的补充信息。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。将參考图6来描述补充信息。图4是图I的多声道缩混器的图。例如，该多声道缩混器接收P个5. I声道音频对象。如图4中所示，多声道缩混器115是采用MPEG环绕或空间音频编码(SAC)的缩混器。多声道缩混器115从多声道音频信号中提取包括空间线索的补充信息，并将音频信号缩混为单声道缩混后音频信号或立体声缩混后音频信号。S卩，多声道缩混器115从P个多声道音频对象中提取空间线索，并传送所提取的空间线索。多声道缩混器115还将音频信号缩混为单声道信号或立体声信号。一般来说，多声道音频对象为一。图5是图示了图I的第二缩混器的图。第二缩混器103对从第一缩混器101输出的信号再次进行缩混，输出立体声缩混信号，并提取包括空间线索的补充信息。如图5所示，第二缩混器103包括第一基本缩混器201f和201g以及第二基本缩混器501。如果来自立体声声道缩混器113和多声道缩混器115的缩混后信号是立体声信号，则将对应的缩混后立体声信号分组为左信号和右信号，并且第一基本缩混器201f和201g对分组后的左信号和分组后的右信号进行缩混。从第一基本缩混器201f和201g输出的缩混后的单声道信号是左信号和右信号的代表性缩混信号。即，第一基本缩混器201f对由立体声声道缩混器113缩混和输出的左信号和由多声道缩混器115缩混和输出的左信号再次进行缩混，并输出一个缩混后的左信号作为代表性左信号。然后，第一基本缩混器201f 提取补充信息。第一基本缩混器201g对由立体声声道缩混器113缩混和输出的右信号和由多声道缩混器115缩混和输出的右信号再次进行缩混,并输出ー个代表性右信号。然后，第一基本缩混器201g提取补充信息。如图2中所示，根据另ー实施例，可使用ー个第一基本缩混器两次。第二基本缩混器501对从单声道缩混器111输出的缩混后的单声道信号和从第一基本缩混器201f和201g输出的左代表性缩混信号和右代表性缩混信号进行缩混，并输出整个缩混后的左信号和右信号。然后，第二基本缩混器501提取包括空间线索的补充信息。补充信息包括用于恢复和控制空间线索和音频信号的报头信息。稍后将參考图6描述补充信息。第一基本缩混器201和第二基本缩混器501基于以下方程I和方程2对输入音频信号进行缩混。
则卜”卿
し......」心/)
—"Tv1 (T)I
_]ド1 つミし
W 1 wf W；3 :
L ％へ」メ(/)—在方程I和方程2中，是用于控制输入音频信号的缩混声级的加权因子。Sj1(J)是作为第一基本缩混器201和第二基本缩混器501的输入音频信号的单声道信号或立体声左和右信号。下标b是表示子带的索引，并且每ー加权因子由子带定义。可根据输入音频对象的表达目的而不同地定义加权因子。例如，<(/)的加权因子可被定义为相对大的值，以便将单声道信号<(/)编码为主信号。如果方程I中的=0,7 wf = O.3,则缩混后的信号是4(/) = 0. (/)+0.34(./)。即，< (/)被缩混为主信号。可根据缩混后信号的表达目的的限制条件来判断加权因子。该限制条件是用于声音场景(sound scene)的限制条件。例如，小提琴和吉他的加权因子被设置为0. 7和0. 3,以便从缩混后的音频信号按照小提琴和吉他比率0. 7和0. 3来重放小提琴和吉他的音频信号。基于来自例如系统或用户的外部装置的输入来判断限制条件信息。
其间，加权因子必须被反映为空间线索声级信息。例如，如果将CLD用作空间线索，则可象用于方程I的方程3那样预测空间线索信息。
权利要求
1.一种用于编码具有不同声道的多对象音频信号的设备，包括缩混部件，用于将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每一个的包括报头信息和空间线索信息的补充信息；编码部件，用于对缩混后的音频信号进行编码；和补充信息编码部件，用于生成该补充信息作为比特流，其中该报头信息包括用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。
2.一种用于编码具有不同声道的多对象音频信号的方法，包括步骤将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每一个的包括报头信息和空间线索信息的补充信息；对缩混后的音频信号进行编码；和生成该补充信息作为比特流，其中该报头信息包括用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。
3.一种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析部件，用于从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充信息比特流中提取具有报头信息和空间线索信息的补充信息；音频对象提取部件，用于使用来自该输入信号分析部件的所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和输出部件，用于使用所输入的所述音频信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。
4.一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充信息比特流中提取具有报头信息和空间线索信息的补充信息；使用所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和使用所输入的所述音频信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。
5.一种用于解码由不同声道组成的多对象音频信号的设备，包括输入信号分析部件，用于从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充比特流中提取包括报头信息和空间线索信息的补充信息；补充信息控制部件，用于使用所输入的所述音频信号的控制信息，来控制所提取的补充信息；和输出部件，用于使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。
6.一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充比特流中提取包括报头信息和空间线索信息的补充信息；使用所输入的所述音频信号的控制信息，来控制所提取的补充信息；和使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。
全文摘要
本发明提供了一种用于编码和解码多对象音频信号的设备和方法。该设备包括缩混器，用于将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每一个的包括报头信息和空间线索信息的补充信息；编码器，用于对缩混后的音频信号进行编码；和补充信息编码器，用于生成该补充信息作为比特流。该报头信息包括用于所述音频信号中的每一个的标识信息和用于所述音频信号的声道信息。
文档编号G10L19/14GK102768836SQ20121022788
公开日2012年11月7日申请日期2007年10月1日优先权日2006年9月29日
发明者刘载铉, 姜京玉, 张仁瑄, 张大永, 徐廷一, 李泰辰, 李用主, 洪镇佑, 白承权, 金镇雄申请人:韩国电子通信研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白承权;徐廷一;李泰辰;李用主;张仁瑄;刘载铉;张大永;洪镇佑;金镇雄;姜京玉
技术所有人：韩国电子通信研究院
我是此专利的发明人

上一篇：一种应用于工业监控设备的音频监控终端及音频处理方法
上一篇：基于自然言语理解的语音情感识别方法