音频对象的编码与解码的制作方法

文档序号：2830546阅读：214来源：国知局

专利名称：音频对象的编码与解码的制作方法
技术领域：
本发明涉及音频对象的编码和解码，并且特别地但不专门地涉及
对下混合(down-mix)空间信号的音频对象的操控。
背景技术：
近几十年来，随着数字信号表示和通信已经日益代替了模拟表示和通信，各种音频信号的数字编码已经变得愈加重要。
在近十年中，已经出现朝着多声道音频的趋势，并特别地出现朝着扩展超越传统立体声信号的空间音频的趋势。例如，传统的立体声记录仅仅包括两个声道，而现代高级音频系统典型地使用五个或六个声道，如在流行的5.1环绕声系统中。这提供了更复杂的收听体验，其中用户可以被声源环绕。
针对这样的多声道信号的通信，已经开发了多种技术和标准。例如可以根据标准(比如高级音频编码(AAC)或杜比(Dolby)数字标准)来传输代表5.1环绕系统的六个离散声道。
然而，为了提供向后的兼容性，公知的是将较高数量的声道下混合为较低数量，并且特别地频繁使用的是将5.1环绕声信号下混合为立体声信号，其允许由传统(立体声)解码器再现立体声信号并由环绕声解码器再现5. 1信号。
一个实例是由运动图像专家组(MPEG)标准化的MPEG环绕向后兼容的编码方法。在这样的系统中，多声道信号被下混合为立体声信号，并且附加信号被辅助数据部分中的参数化数据编码，这允许MPEG环绕多声道解码器生成多声道信号的表示。传统的单声道或立体声解码器将忽视辅助数据，因此仅仅对单声道或立体声下混合进行解码。
因此，在(参数化的)空间音频编码器中，从原始音频信号提取参数从而产生具有数量减少了的声道的音频信号(例如仅仅单个声道) 加上描述原始音频信号的空间属性的参数集合。在(参数化的)空间音频解码器中，由被传输的空间参数描述的空间属性被用于重新创建原始的空间多声道信号。最近，对可以在接收端被处理和操控的各个音频对象进行分布的
技术已经引起显著兴趣。例如，在MPEG架构内，工作项目开始于基于对象的空间音频编码。该工作项目的目标是探索新技术和对当前MPEG 环绕组件和技术的重用，以用于把多个声源或对象节省比特率(bit rate)地编码为多个下混合声道和相应的空间参数。因此，意图是使用如用于将空间(环绕)声道下混合为更少声道的相似技术来将独立音频对象下混合为更少数量的声道。
在面向对象的音频系统中，解码器可以提供这些源/对象的离散定位和对各种扬声器装置的适应以及双声道立体声呈现(rendering)。此外，用户交互可以用于控制在再现侧上各个源的重定位/筛选 (panning )。
换句话说，研究的目的是在伴有参数的下混合声道的有限集中对多个音频对象进行编码。在解码器侧，用户可以例如通过重新定位各个对象而与内容进行交互。作为特定实例，多个单独的仪器可以被编码并分发为音频对象，由此允许接收编码的数据的用户在声像中独立地定位所述单独的仪器。
图1示出根据现有技术的面向对象的音频编码器和解码器的实例。在该实例中，在面向对象的编码器101中对一组音频对象(Ot到04) 进行编码，所述编码器101生成下混合信号和对象参数。这些被发送到面向对象的解码器103，解码器103使用被发送的对象参数来生成音频对象信号的近似的拷贝。
随后，呈现元件105生成具有所期望的特性的输出信号。例如，呈现元件105可以将对象定位在由用户指示的声源位置，例如使用筛选法则来定位。所述输出信号配置是灵活的。例如，如果输出信号是单声道的，则用户仍然可以操控每一个对象的相对响度/音量。在立体声输出信号配置中，为了将每一个对象定位在所期望的位置处可以应用简单的筛选法则。显然，对于多声道输出配置，灵活性甚至更大。
然而，虽然所述系统可以提供有利的性能，但是它也存在很多缺陷。例如，在许多情况下，所再现的质量是次优的，并且对各个音频对象的完全自由和独立的操控是不可能的。特别地，编码器的下混合在解码器处一般不完全是可逆的，所述解码器因此仅仅可以生成原始音频对象的近似。因此，解码器不能完全重建各个对象信号，而只能
8根据感性标准来评估这些信号。这特别地导致音频对象之间的交叉干扰(串扰)，由此导致所述音频对象不再是完全独立的。结果，对一个音频对象的操控会影响另一个对象的特性和感知。
例如，用户典型地想要调整的最重要的参数之一是每一个音频对象的相对音量。然而，如果进行大的音量调整，则这会导致相当大的
赝象(artefact)和不想要的串扰，从而导致质量的显著下降。
因此，一种用于音频对象编码/解码的改进的系统是有利的，并且特别地一种允许提高灵活性、改进质量、便于实现和/或改进性能的系统将是有利的。

发明内容
因此，本发明设法优选单独地或以任何组合方式减轻、緩解或消除上述缺陷中的一个或多个缺陷。
根据本发明的第一方面，提供一种用于对音频对象进行编码的编码器，该编码器包括用于接收多个音频对象的装置；用于把多个音频对象编码为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据的编码装置，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合；用于从远程单元接收编码修改数据的装置；以及用于响应于所述编码修改数据而确定所述参数化数据的参数装置。
本发明可以允许对音频对象的改进的编码并且特别地可以允许音频分发系统，其中可以例如利用各个音频对象的改进的各个用户控制来获得改进的用户体验。本发明可以允许各个音频对象的特性的改进的控制并且可以特别地在操控音频对象时减少交叉音频对象干扰衰减。所述编码器可以允许高效的远程控制的操控同时修改所述编码修改数据，从而使得面向对象的解码器将对被操控的音频对象进行正确的解码。本发明可以允许在编码器与解码器之间的音频对象操控的改进的分布，由此产生改进的灵活性、性能和/或质量。
所述编码装置可以进一步响应于所述编码修改数据而生成若干音频信号。对象参数可以是强度参数，例如指示不同音频对象之间的相对强度差和/或一个或若干音频信号与音频对象之间的能量转换因子。所述对象参数可以包括用于各个频率时间块的参数。根据本发明的可选特征，所述编码装置^ML布置以通过音频对象的
下混合而生成若干音频信号，并且所述参数装置被布置以响应于所述编码修改数据来修改至少一个音频对象的下混合权重。
这可以提供听者对音频对象的相对音量的高效率和/或高质量控制，同时减少或消除对其他音频对象的影响。可以获得高性能的各个音频对象音量控制。
根据本发明的可选特征，所述参数装置被布置以响应于所述编码修改数据而缩放至少第一音频对象，并且响应于所述缩放来修改用于第一音频对象的对象参数。
这可以提供听者对音频对象的相对音量的高效率和/或高质量控制，同时减少或消除对其他音频对象的影响。可以获得高性能的各个音频对象音量控制。
根据本发明的可选特征，至少一些编码修改数据是特定频率的，并且参数装置被布置以响应于对象参数的频率特性而确定至少一个对象参数。
这可以允许对收听体验的改进的控制，并且可以特别地允许由听者操控音频的频率响应。各个对象的频率特性可以被单独地和分离地修改以减少或消除对其他音频对象的影响。特别地，可以实现各个音频对象的高效和/或高质量的均衡。
根据本发明的可选特征，所述编码装置被布置以在音频对象下混合到若干音频信号之前响应于所述编码修改数据而修改至少一个音频对象。
所述参数装置可以被布置以响应于被修改的音频对象的特性而确定参数化数据。这可以允许高性能和/或便于实现。
根据本发明可选的特征，所述编码装置被布置以生成若干音频信号作为空间下混合。
这可以允许在许多实施例中改进的性能，并且可以特别地允许与没有或有限制的呈现能力的编码器相关联的改进的操作。所述编码器可以例如被布置以呈现包括音频对象的空间多声道信号，并且可以特别地被布置以生成空间两路立体声信号。
根据本发明的可选特征，所述编码装置被布置以响应于所述编码
修改数据而修改选自由以下组成的组合的至少一个特性至少一个音
10频对象的空间位置；至少一个音频对象的距离特性；编码器的空间呈现模式，和至少一个音频对象的频率特性。
这可以允许改进的性能并且所述参数可以特别地允许听者感性地修改被呈现的空间信号的重要参数。
根据本发明的可选特征，每一个音频对象与独立于其他音频对象的音频源的音频源集合相关联。
所述音频对象可以相互独立。这些音频对象可以对应于不同的独立声源。特别地，这些音频对象可以是从其他音频对象单独并分离地生成的、并且不具有任何特定关系的不同音频对象。例如，这些音频对象可以单独地被记录/捕获乐器或声音。
这些音频对象可以是非空间音频对象。这些音频对象可以是没有相关联的空间特性或信息的简单声源，并且特别地在这些音频对象之间可能不存在空间关系、了解或联系。
根据本发明的可选特征，编码器被布置以从远程单元接收第一音频对象，并且用于接收编码修改数据的装置被布置以从所接收的用于第一音频对象的编码数据中提取所述编码修改数据。
例如，所述编码修改数据可以嵌在语音、音乐或其他音频信号中。
辅助或用户数据段中，比如MPEG4比特流。这可以允许高效的、向后兼容的和低复杂性的控制数据的通信，并且特别地可以用于在包括编码器的设备与远程单元之间采用双向通信的系统中。
根据本发明的可选特征，编码器被布置以从多个远程单元接收编码修改数据并且响应于从不同远程单元接收不同的编码修改数据来对不同远程单元生成不同的参数化数据。
这可以在许多实施例中允许改进的操作和/或附加的服务。所述编码装置可以进一步4皮布置以对于不同的远程单元生成不同的音频信号。因此，该方法可以允许例如集中式的音频对象编码器根据远程单元的各个用户的要求和偏好来定制被发送的数据。
根据本发明的另一方面，提供一种用于对音频对象进行解码的解码器，该解码器包括接收器，其用于从编码器接收若干音频信号和参数化数据，所述音频信号是多个音频对象的下混合而所述参数化数据代表与所述若干音频信号有关的所述多个音频对象，该参数化数据包括用于不同音频对象中的至少一个音频对象的对象参数集合；解码装置，其用于响应于参数化数据而从所述若干音频信号解码音频对象；呈现装置，其用于从音频对象生成空间多声道输出信号；用于生成用于对象编码器的编码修改数据的装置；以及用于将所述编码修改数据发送到对象编码器的装置。
解码装置和呈现装置可以在一些实施例中组合，并且可以在没有明确生成音频对象的情况下从音频信号直接生成所述空间多声道输出信号。例如，可以将矩阵乘法应用于音频信号的信号值以生成音频对象信号值。随后可以将第二矩阵乘法应用于音频对象信号值以生成空间多声道音频信号值。可替代地，第一和第二矩阵乘法可以被组合为单个矩阵乘法。因此，可以将单个矩阵乘法应用于音频信号的信号值以直接生成空间多声道音频信号值。因此，音频对象的解码在呈现/矩阵乘法中可以是隐式的，并且不必明确地/直接地生成音频对象值。
根据本发明的另一个方面，提供一种用于支持多个通信单元之间的电话会议的电话会议集线器，该电话会议集线器包括用于从所述多个通信单元接收第一多个语音信号的装置；编码装置，其用于为第一通信单元把第一多个语音信号编码为若干音频信号和代表与若干音频信号有关的所述多个语音信号的参数化数据，所述参数化数据包括用于不同语音信号中的至少一个语音信号的对象参数集合；用于从第一通信单元接收编码修改数据的装置；以及参数装置，其用于响应于所述修改数据确定参数化数据；以及用于将所述若干音频信号和参数化数据发送到第一通信单元的装置。
根据本发明的另一个方面，提供一种用于发送音频信号的发送器，该发送器包括用于接收多个音频对象的装置；编码装置，其用于把多个音频对象编码为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个对象的对象参数集合；用于从远程单元接收编码修改数据的装置；以及参数装置，其用于响应于所述修改数据来确定所述参数化数据。
根据本发明的另一个方面，提供一种用于接收可缩放的音频比特流的接收器，该接收器包括接收器元件，其用于从编码器接收若干音频信号和参数化数据，该音频信号是多个音频对象的下混合而所述
12参数化数据代表与所述若干音频信号有关的所述多个音频对象，所述参数化数据包括用于不同音频对象中的至少一个对象的对象参数集
合；解码装置，其用于响应于所述参数化数据而从若干音频信号中解码音频对象；呈现装置，其用于从音频对象生成空间多声道输出信号；用于生成用于对象编码器的编码修改数据的装置；以及用于将所述编码修改数据发送到对象编码器的装置。
根据本发明的另一个方面，提供一种用于传输音频信号的通信系统，该通信系统包括发送器，其包括用于接收多个音频对象的装置、用于把多个音频对象编码为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据的编码装置、以及用于将所述若干音频信号和参数化数据发送到接收器的装置，其中所述参数化数据包括用于不同音频对象中的至少一个对象的对象参数集合；和接收器，其包括用于从发送器接收若干音频信号和参数化数据的接收器元件、用于响应于参数化数据从若干音频信号中解码音频对象的解码装置、用于从音频对象生成空间多声道输出信号的呈现装置、用于生成用于编码装置的编码修改数据的装置、以及用于将所述编码修改数据发送到发送器的装置；并且其中所述发送器包括用于从接收器接收所述编码修改数据的装置、用于响应于所述编码修改数据而确定参数化数据的参数装置。
根据本发明的另一个方面，提供一种对音频信号进行编码的方法，该方法包括接收多个音频对象；把多个音频对象编码为若干音频信
据，所述参数化数据包括用于不同音频对象中的至少一个对象的对象参数集合；从远程单元接收编码修改数据；以及响应于所述修改数据来确定所述参数化数据。
根据本发明的另一个方面，提供一种对音频信号进行解码的方法，该方法包括从编码器接收若干音频信号和参数化数据，所述音频信号是多个音频对象的下混合而所述参数化数据代表与所述若干音频信号有关的所述多个音频对象，该参数化数据包括用于不同音频对象中的至少一个音频对象的对象参数集合；响应于所述参数化数据从所述若干音频信号解码音频对象；从所述音频对象生成空间多声道输出信号；生成用于所述对象编码器的编码修改数据；以及将所述编码修改
13数据发送到所述对象编码器。
根据本发明的另一个方面，提供一种发送音频信号的方法，该方
法包括接收多个音频对象；把多个音频对象编码为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个对象的对象参数集合；从远程单元接收编码修改数据；响应于所述修改数据来确定所述参数化数据；以及发送所述若干音频信号和参数化数据。
根据本发明的另一个方面，提供一种接收音频信号的方法，该方法包括从编码器接收若干音频信号和参数化数据，该音频信号是多个音频对象的下混合而所述参数化数据代表与所述若干音频信号有关的所述多个音频对象，所述参数化数据包括用于不同音频对象中的至少一个对象的对象参数集合；响应于所述参数化数据而从若干音频信号解码音频对象；从音频对象生成空间多声道输出信号；生成用于对象编码器的编码修改数据；以及将所述编码修改数据发送到对象编码器。
根据本发明的另一个方面，提供一种发送和接收音频信号的方法，该方法包括发送器(101)执行下列步骤接收多个音频对象、把多个音频对象编码为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据、以及将所述若干音频信号和参数化数据发送到接收器，其中所述参数化数据包括用于不同音频对象中的至少一个对象的对象参数集合；并且接收器执行下列步骤从发送器接收若干音频信号和参数化数据、响应于参数化数据从若干音频信号解码音频对象、从音频对象生成空间多声道输出信号、生成用于编码装置的编码修改数据、以及将所述编码修改数据发送到对象编码器；并且其中所述发送器进一步执行下列步骤从接收器接收所述编码修改数据、和响应于所述编码修改数据而确定参数化数据。
根据本发明的另一个方面，提供一种用于执行上述方法的计算机程序产品。
根据本发明的另一个方面，提供一种包括如上所述的编码器的音频记录设备。
根据本发明的另一个方面，提供一种包括如上所述的解码器的音频播放设备。通过并参照下面所描述的(多个)实施例，本发明的这些和其他方面、特征和优点将被阐明并显现出来。

将仅通过实例并参照附图来描述本发明的实施例，其中
图l是根据现有技术的音频系统的图解；
图2示出根据本发明的一些实施例的用于音频信号通信的通信系统的实例；
图3示出根据本发明的一些实施例的在编码器和解码器之间的交
互；
图4示出根据本发明的一些实施例的编码器的实例；图5示出根据本发明的一些实施例的解码器的实例；图6示出根据本发明的一些实施例的对音频信号进行编码的方法的实例；和
图7示出根据本发明的一些实施例的对音频信号进行解码的方法的实例。
具体实施例方式
下面的描述集中在适用于电话会议应用中的音频对象编码和/或解码的本发明的实施例。然而，将被理解的是，本发明不限于这种应用，而是可以适用于许多其他的应用，包括例如音乐音频分布应用。
图2示出根据本发明的一些实施例的通信系统200，其用于音频信号的通信。传输系统200包括通过网络205而耦合到接收器203的发送器201，所述网络特别地可以是互联网。
在该特定实例中，发送器201是电话会议集线器的一部分。在电话会议的应用中，几个远端谈话人的语音信号在电话会议集线器中被混合。随后对于电话会议中每一个人，除了他/她自己之外的所有信号的混合被发送到所有接收器。因此，发送器201可以从多个参加电话会议的远程通信单元接收语音信号，并且可以生成语音信号并将之分发给所述远程通信单元。在该实例中，接收器203是信号播放设备，其可以生成语音输出到会议呼叫的参加者。特别地，接收器203是远程通信单元(比如电话)的一部分。
15将被理解的是，在其他实施例中发送器和接收器可以用于其他应
用中和用于其他目的。例如，发送器201和/或接收器203可以是转码功能的一部分，并且可以例如提供到其他信号源或目的地的接口。
在该特定实施例中，发送器201包括接收器207，其从包含在电话会议呼叫中的远程通信单元接收语音信号.每一个所述语音信号被视为分离的、独立的音频对象。
接收器207被耦合到图2的编码器209,所述编码器209被提供所述各个语音音频对象并且根据编码算法对所述音频对象进行编码。编码器209被耦合到网络发送器211，所述网络发送器211接收编码的信号并与互联网205接口。网络发送器可以将编码的信号通过互联网205 发送到接收器203。
接收器203包括网络接收器213，所述网络接收器213与互联网 205接口并且被布置以从发送器201接收编码的信号。
网络接收器213被耦合到解码器215。解码器215接收编码的信号并根据解码算法对其进行解码。特别地，解码器215是面向对象的解码器，其可以将所述各个音频对象解码并基于解码的音频对象呈现音频输出信号。
在支持信号播放功能的特定实例中，接收器203进一步包括信号播放器217，该播放器从解码器215接收解码的音频信号并将其提供给用户。特别地，信号播放器217可以包括如输出解码的音频信号所需的数字模拟转换器、放大器和扬声器。
图3更详细地示出编码器209与解码器215之间的交互。
如图所示，面向对象的编码器209从接收器207接收多个音频对象。所述音频对象是相互独立的各个声音信号，并且特别地其对应于各个独立的声源。在一些实施例中，所述音频对象可以是被单独记录的声源。而且音频对象没有任何空间关联并且特别地在不同音频对象之间不存在空间关系。
因此，与例如环绕声记录相比，本实例的音频对象是各个孤立的声源，在所述环绕声记录中在不同位置记录相同的声像(和声源)从而生成相同空间信号的不同声道。
在电话会议的应用中，每一个音频对象对应于从电话会议呼叫中的一个参加者处接收的语音信号。因此，编码器209接收以从多个参加所述会议呼叫的远程通信单元接收的语音信号的形式的音频对象。
面向对象的编码器209在有限数量的声道中对音频对象进行编码，并且另外地生成参数化数据，该参数化数据允许并帮助从在解码器侧所生成的音频声道重新生成原始音频对象。特别地，音频编码器209 可以以与生成空间环绕声信号到例如立体声信号的下混合相似的方式来生成音频对象的下混合。例如，编码器209可以通过用音频对象样本值乘以下混合矩阵以生成下混合的样本值来生成下混合。
编码器209生成包括用于有限数量的声道的编码数据和相关联的参数化数据的比特流。该数据被发送到解码器215。
解码器215包括面向对象的解码器单元303，其基于所接收的音频声道和所接收的参数化数据而生成原始音频对象的本地近似副本。特別地，面向对象的解码器单元303可以通过将上混合矩阵应用于所接收的音频样本而生成音频对象。响应于从编码器209接收的参数化数据来确定上混合矩阵的系数。
解码器215进一步包括呈现单元305，其被布置以基于音频输入而生成输出信号。呈现单元305可以自由地操控并混合所接收的音频对象以生成所需的输出信号。例如，呈现单元305可以生成五声道的环绕声信号并且可以自由地将每一个单独的音频对象定位在所生成的声像中。作为另一个实例，呈现单元305可以生成两路立体声信号，其可以通过例如一套头戴式耳机提供空间体验。
在许多实际的系统中，解码单元303和呈现单元305的功能可以合并到单个处理步骤。例如，解码单元303的操作典型地对应于关于上混合矩阵的矩阵乘法，而呈现单元305的操作相似地对应于对上混合矩阵乘法的输出执行的矩阵乘法。因此，通过将上混合和呈现矩阵合并为单个矩阵，级联的矩阵乘法可以被合并为单个矩阵乘法。
在该特定实例中，呈现单元305可以将所述会议呼叫的每一个单独的扬声器置于声像中的不同位置上，其中每一个扬声器的特定位置例如可由控制呈现单元305的用户自由选择。作为另一个实例，如果音频对象对应于来自一首乐曲的不同乐器，则用户可以自由地混合各个乐器、使各个乐器均衡等等，并自由地将它们定位在声像中。因此，所述的方法允许单个用户高度自由地操控所述不同的音频对象从而生成定制的音频输出，该定制的音频输出可以独立于针对来自编码器209
17的编码信号的接收方和其他用户所生成的输出对象。
然而，尽管通过在呈现单元305中操控音频对象而提供了很大的灵活度，但这种操控还可能导致所生成的音频信号的质量降低。特别地，为了在解码器215中生成音频对象的精确的副本，必需应用上混合矩阵，所述上混合矩阵是编码器209中使用的下混合矩阵的逆。然而，这通常是不可能的(例如当所生成的音频信号的数量小于音频对象的数量时由于在这种情况中下混合矩阵不存在逆矩阵，所以这是不可能的)，因此只能生成原始音频信号的近似。特别地，在解码器中生成的音频对象将包括来自其他音频对象的许多交叉干扰。结果，对一个音频对象的操控将影响另一个音频对象的感知和特性，这可能导致性能的降低和明显的赝象。
在图3的系统中，编码器215进一步能够生成具有被发送到编码器209的编码修改数据的形式的控制数据。随后由编码器209评估所述编码修改数据，所述编码器209根据所接收的控制信息来修改编码过程。特别地，编码器209可以修改音频对象的下混合和为下混合生成的空间参数。作为特定实例，编码修改数据可以指定一个特定音频对象的音量应该被降低。因此，编码器209降低了该音频对象的水平 (例如先于下混合操作或作为其一部分)并且修改(直接或间接)用于音频对象的参数化数据，从而使得当音频对象在解码器处被解码时，所述水平将被适当地降低，并且优选地从而使得所修改的参数化数据准确地表示各个音频对象水平的变化。
因此所述方法允许一些或所有对象操控在编码侧执行。由于编码器可以使用原始的独立音频对象而不是仅仅使用近似副本，所以可以获得改进的性能并且特别地可以提供改进的质量。例如减少交叉干扰，因此可以基本上减少乃至完全消除提高或降低一个音频对象的音量对其他音频对象的影响。
图4更详细地示出编码器209。在下面，将参照特定实例更详细地描述编码器209的操作，在所述特定实例中解码器侧生成编码修改数据，该数据被发送到编码器并用于控制各个音频对象的相对水平。
编码器209包括接收音频对象的接收单元401，该音频对象在这种
情况下是从参加所述电话会议呼叫的远程通信单元(比如电话)接收到的语音信号。该语音对象被供给编码单元403,编码单元403将所述
18对象下混合为若干音频信号，其数量低于语音音频对象的数量。特别
地，编码单元403执行由下式给出的矩阵乘法
Y-DxX
其中X表示包括语音对象样本的N维向量(其中N是语音对象的数量), Y是包括下混合输出样本的M维向量(其中M是输出声道的数量)，而 D是N, M下混合矩阵。M可能明显小于N。例如，对于六路电话会议，可以将五个语音信号下混合为单个单声道信号，其被发送到第六个通信单元。
编码器209进一步包括参数单元405，其生成可以用于从下混合信号重建音频对象的参数化数据。特别地，参数单元405生成用于每一个语音对象的对象参数集合，其被解码器215使用以重建语音对象。理想地，将这样确定对象参数使得对应于下混合矩阵的逆的上混合矩阵将被确定，即上混合矩阵l^D1。然而，对于下混合矩阵(其中N>M) 不存在逆矩阵，因此只能生成允许原始语音对象的非理想重新生成的参数数据。
因此，参数单元405生成代表与下混合信号有关的各个语音对象的特性的参数。在该特定实例中，参数单元首先将语音对象转换为时间块中的频域(例如通过使用FFT)并且随后对每一个时间频率块(或时间频率片(tile))执行下混合矩阵乘法。而且，对于时间频率块，与下混合结果有关的每一个语音对象的相对振幅被确定。因此，参数单元405生成以用于所述各种语音对象的分离的时间/频率片描述的相对水平信息。由此，为时间/频率片生成了水平向量，其中向量的每一个元素代表在该元素的对象的时间/频率片中的能量的大小。该过程可能产生关于频带b、时间片段t和信号n的能量参数Ob、集合。这些参数随后可以(优选地在量化的、对数域中)被发送到接收端。因此，用于生成所述参数数据的方法可以与用于MPEG环绕空间编码的方法相似，并且功能的重用在许多实施例中是可以实现的。
参数单元405和编码单元403被耦合到发送处理器407，其生成包括编码数据和参数化数据这两者的比特流。特别地，所述比特流可以是MPEG兼容的编码立体声信号，其参数化数据包括在比特流的辅助数据部分中。所生成的比特流随后被发送到适当的通信单元。
图5更详细地示出解码器215。解码器215包括面向对象的解码单
19元303，其生成语音对象的近似副本。特别地，解码单元303可以通过修改由如参数化数据中给出的该对象的相应相对水平差表示的接收到的下混合信号的相应时间频率片来生成各个语音对象的时间频率片。
如果由与能量参数(J,，t和下混合信号m ( t)相关联的xn ( t)给出对象n的各个语音信号，则关于时间/频率片(b， t)的语音信号xn(t)的解码器侧评估可以由下式给出
语音对象被供给呈现单元305，其可以继续为用户生成输出信号。而且，在该实例中，用户可以能够调整各种呈现参数和特性，其包括例如改变一个或多个所述语音对象在所生成的声像中的位置。
此外，解码器215包括控制处理器501，其可以响应于用户输入而生成编码修改数据。所述编码修改数据被提供给发送单元503，其将该编码修改数据发送到编码器209。
编码器209包括控制数据接收器409,其接收所述编码修改数据。所述控制数据接收器409被耦合到编码单元403和参数单元405,其被
成。因此除了在解码器处对语一音对象的呈现进行控制之外，所述用户还可以控制在编码器侧执行的面向对象的编码的编码操作。
作为特定实例，所生成的解码器输出信号中的空间图像和对象空间位置可以通过修改解码器的呈现操作来控制，而(大)音量调整可以通过在编码器处控制下混合来执4亍。
因此，解码器用户可以要求特定语音对象的音量充分增加。如果通过在解码器处放大相应的语音对象来执行之，则该放大操作也会放大来自其他语音对象的交叉干扰分量，这不仅可以导致这些对象的更高音量，还会导致这些对象的失真并且可能导致这些对象的移位。
然而，根据该实例，解码器215不改变所生成的语音对象副本的缩放，而是生成编码修改数据，该数据将使得编码器修改所需的语音对象的下混合权重。
因此，在该实例中通过在编码器侧控制相对水平来减轻或消除与在解码器侧改变各个音频对象相关联的缺陷。特别地，在解码器侧用户所希望的水平修改被发送到编码器并且被用作下混合权重。
在所述电话会议的实例中，接收端还将本地产生的语音发送回电话会议集线器。因此，该语音信号可以包括用于所有由接收器接收的对象的下混合权重(或通过导致接收器改变下混合权重的数据，例如应用于特定语音对象的相对减弱或放大)。例如，如果接收端产生信
号"语音0"并从其他通信单元接收信号"语音1"、"语音2"和"语音3"，则它可以生成并发送用于对象"语音1"、"语音2"和"语音3"的下混合权重。随后所述电话会议集线器使用这些下混合权重以生成用于该接收端的下混合信号。
该方案的优点是，用户在修改例如每一个单独的语音信号的音量或距离方面具有很大的自由度。而且，所述下混合权重(和其他参数)可能在整个时间上相当稳定，因此编码修改数据所需的数据速率典型地非常低。
在一些实施例中，编码器209可以被布置以在所述下混合被执行之前修改至少一个所述音频对象。例如，编码单元403可以在执行下混合矩阵乘法之前缩放所收到的音频对象。因此，如果指示特定语音对象应当更低的编码修改数据被接收，则所接收的用于该对象的信号样本可以乘以大于1的因子。随后，所生成的信号可以用于下混合矩阵乘法中以生成下混合信号。该方法可以允许使用固定的下混合矩阵并且特别地使得乘以被使用的系数相对容易(例如下混合矩阵可以仅仅包括统一的系数，由此将下混合乘法有效地筒化为若干简单的加法)。
在该实例中，对象参数的确定可基于修改的信号来确定。因此，被缩放的语音信号也可以被供给参数单元405，其可以确定被修改信号的频率时间片的相对水平。该方法将导致由解码器执行的上混合处理，以生成具有所希望的音量水平的语音对象。因此，在该方法中，依赖于所述编码修改数据而对参数化数据的修改就下列意义而言是间接的所述编码修改数据首先被用于修改语音对象并且随后所述参数数据在经修改的语音对象的基础上生成。
在其他实施例中，可以更直接地修改参数化数据。例如，语音对象可以在任何修改被执行之前直接被供给参数单元405。随后，参数单元405可以确定不同频率时间片的相对强度水平，并且随后响应于所述编码修改数据而调整所测量的水平。可以使得该修改与先于所述下混合的语音对象的修改匹配，由此确保在解码器处正确地生成音量补偿的语音对象。
在一些实施例中，响应于所述编码修改数据仅仅改变参数化数据，而语音对象和下混合保持不变。在该实例中，可以这样改变对象参数使得解码器将通过应用修改的对象参数来生成所希望的语音对象。在这种情况下，为了修改给定的语音对象，可能必须不仅改变该语音对象的对象参数，而且还要改变其他语音对象的对象参数。
在一些实施例中，可以响应于所收到的编码修改数据来改变下混合权重(例如，下混合矩阵系数)。例如，可以通过加大特定语音对象的下混合矩阵系数来提高该语音对象的音量。在这种情况下，修改的语音对象信号典型地不可用，因此可以响应于所述编码数据直接改变对象参数，从而使得它们反映所改变的下混合权重。
还将被理解的是，在一些这样的实施例中，一个语音对象的修改还可能影响其他语音对象。例如，当改变一个语音对象的下混合权重时，其他下混合权重可以被这样调整使得下混合信号的全部能量保持不变。可替代地或此外，用于其他语音对象的频率时间片的相对能量参数可以被修改以反映所生成的下混合信号的改变的能量。
在一些实施例中，所述编码修改数据可以是特定频率的，从而使得对于不同频率提供不同的修改数据。例如，该下混合权重不是仅仅指示用于给定语音对象的修改的下混合权重，而是可以^皮作为频率的函数给出。因此，总体来说远程用户不仅可以总体上调整语音对象的增益而且可以f务改该对象的频率特性。这可以允i午远程用户有效地控制各个语音对象的均衡操作。因此，在该实例中，至少一些编码修改数据是作为频率的函数提供的，因此参数单元405继续根据频率修改参数化数据。
将被理解的是，发送器201可以被布置以生成用于不同解码器的各个信号。例如，在电话会议集线器的示范性应用中，发送器201可
用于各个参加者的下混合和独立的参数化数据。
在一些实施例中，编码器209进一步包括用于生成作为空间下混
22合的输出信号的功能。因此在该实例中，编码器209被布置以将语音对象呈现为空间输出信号，其中每个语音对象在特定位置被呈现为具有特定音量水平和频率特性等等，特别地，编码器209的输出可以是立体声信号、环绕声多声道信号和/或例如使用头相关传递函数生成的双声道立体声空间环绕信号。
在这样的实施例中，从解码器215接收的编码修改数据可以包括空间呈现参数，其影响空间信号中的语音对象的呈现。
所述空间呈现参数可以例如指示在空间输出混合中应当改变一个或多个所述音频对象的位置，作为另一个实例，可提供均衡数据，其可以应用于各个音频对象。作为另一个实例，可以从解码器端远程控制每一个音频对象的感知距离。例如，如果指示在空间下混合中音频对象应当向更远处移动的编码修改数据被接收，则该音频对象的呈现可被这样改变使得音量水平降低并且前声道和后声道的相关性增加。已知这种改变影响距离的感知，从而导致用户感觉音频对象的声源进一步远离听者。
作为另一个实例，远程用户可以控制编码器的空间呈现模式。例如，对于二声道输出信号，用户可以选择是否应该针对扬声器或头戴式耳机优化所述呈现。特别地，远程用户可以选择所述输出是否应该被生成为传统立体声信号或被生成为与头戴式耳机一起使用的双声道立体声空间环绕信号。
这种方法可以提供多个优点。例如，用于发送空间呈现参数所需的比特率典型地相对较低，因为呈现参数仅仅是根据每个声源定义的(即，它们典型地不是频率相关的)。而且，这些参数可能在时间上相当稳定。另一方面，对于每一个声源和对于每一个时间/频率片，用于解码器侧呈现方法所需的参数必须被发送，从而导致大量数据被发送。因此，通过将一些或所有所述呈现移动到编码器侧，可以获得高效的音频系统。
而且，可以获得传统解码器的改进的兼容性。中心的编码器可以生成为每一个解码器而独立地被优化的比特流(即，单声道、立体声或环绕解码器都可以被满足并且可以为特定的目的地解码器而优化所生成的信号)。
该方法可以允许提供附加的和增强的服务。例如，每一个顾客可
23以为某些呈现可能性支付附加费用(即，水平调整是第一服务水平，而空间呈现可以是第二、更昂贵的服务水平)。
而且，因为可以降低对于解码器的呈现要求，所以在许多应用中可以降低目的地解码器的复杂性。
图6示出根据本发明的一些实施例的编码音频信号的方法的实例。该方法开始于步骤601，其中多个音频对象被接收。步骤601之后是步骤603，其中从远程单元接收编码修改数据。步骤603之后是步骤605，其中多个音频对象被编码成若干音频信
号和代表与所述若干音频信号有关的多个音频对象的参数化数据。所
述参数化数据包括用于每一个所述不同音频对象的对象参数集合，并
且该参数化数据响应于所述修改数据而被确定。
图7示出根据本发明的一些实施例的解码音频对象的方法的实例。该方法开始于步骤701，其中从编码器接收若干音频信号和代表与
所述若干音频信号有关的音频对象的参数化数据。所述音频信号是音
频对象的下混合，并且所述参数化数据包括用于每一个所述不同音频
对象的对象参数集合。
步骤701之后是步骤703，其中响应于参数化数据从若干音频信号
中解码音频对象。
步骤703之后是步骤705，其中从音频对象生成空间多声道输出信号。
步骤705之后是步骤707，其中生成用于对象编码器的编码修改数据。
步骤707之后是步骤709，其中所述编码修改数据被发送到所述对象编码器。
将被理解的是，为了清楚目的上面的说明已经参照不同的功能单元和处理器描述了本发明的实施例。然而，显而易见，在不有损本发明的情况下，可以使用不同功能单元或处理器之间的任何合适的功能性分布。例如，被示为由分离的处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此，对特定功能单元的引用将仅仅被看作对用于提供所描述的功能的合适装置的引用而不是指示严格的逻辑或物理结构或组织。
本发明可以通过任何适当的形式来实现，包括硬件、软件、固件
24以被至少部分地实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。可以以任何适当的方式在物理上、功能上和逻辑上实现本发明的实施例的元件和组件。实际上，所述功能可以在单个单元、多个单元中实现或作为其他功能单元的一部分。因此，可以在单个单元上实现本发明，或者可以在不同单元和处理器之间在物理上和功能上分配本发明。
虽然已经结合一些实施例描述了本发明，但是本发明不限于这里所阐述的特定形式。相反地，本发明的范围仅仅由所附权利要求限定。此外，虽然特征可以结合特定实施例被描述，但是本领域的技术人员将会认识到可以根据本发明将所述的实施例的各种特征组合。在权利要求中，术语"包括"不排除其他元件或步骤的存在。
另外，多个装置、元件或方法步骤虽然被单独地列出，但是可以通过单个单元或处理器来实现。此外，虽然各个特征可以包括在不同
的权利要求中，但是这些可以被有利地组合，并且包括在不同的权利要求中并不意味着这些特征的组合不是可行的或有利的。而且，在一
类权利要求中包含特征并不意味着限制于该类型，而是表示如果适合，该特征同样适用于其他权利要求类型。而且，权利要求中的特征的顺序并不表示任何特定的顺序(所述特征必须以该顺序工作)，并且特别地在方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行所述步骤。相反地，可以以任何适当的顺序执行所述步骤。此外，单数引用不排除多个。因此对"一个，，、"第一"、"第二"等等的引用不排除多个。在权利要求中，仅仅为阐明实例所提供的附图标记不应当被解释为以任何方式限制权利要求的范围。
权利要求
1.一种用于对音频对象进行编码的编码器，该编码器包括-用于接收多个音频对象的装置(401)；-编码装置(403)，其用于把所述多个音频对象编码成若干音频信号和代表与所述若干音频信号相关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合；-用于从远程单元接收编码修改数据的装置(409)；以及-参数装置(405)，其用于响应于所述编码修改数据而确定所述参数化数据。
2. 权利要求1的编码器，其中所述编码装置被布置以通过音频对象的下混合而生成若干音频信号，并且所述参数装置H05)被布置以响应于所述编码修改数据而修改至少一个所述音频对象的下混合权重。
3. 权利要求1的编码器，其中所述参数装置(405 )被布置以响应于所述编码修改数据而缩放至少第一音频对象，并且响应于所述缩放来修改用于第一音频对象的对象参数。
4. 权利要求1的编码器，其中至少一些编码修改数据是特定频率的，并且参数装置(405 )被布置以响应于所述对象参数的频率特性而确定至少一个对象参数。
5. 权利要求1的编码器，其中编码装置(403 )被布置以在音频对象下混合为若干音频信号之前响应于所述编码修改数据而修改至少一个音频对象。
6. 权利要求1的编码器，其中编码装置(403 )被布置以生成若干音频信号作为空间下混合。
7. 权利要求6的编码器，其中编码装置(403 )被布置以响应于所述编码修改数据而修改选自由下面组成的组合的至少一个特性-至少一个音频对象的空间位置； -至少一个音频对象的距离特性； -编码器的空间呈现模式，和 -至少一个音频对象的频率特性。
8. 权利要求1的编码器，其中每一个音频对象与独立于其他音频对象的音频源的音频源集合相关联。
9. 权利要求1的编码器，其中编码器被布置以从远程单元接收第一音频对象，并且所述用于接收编码修改数据的装置(409 )被布置以从接收的用于第一音频对象的编码数据中提取所述编码修改数据。
10. 权利要求1的编码器，其中编码器被布置以从多个远程单元接收编码修改数据并且响应于从不同远程单元接收不同的编码修改数据来生成用于不同远程单元的不同参数化数据。
11. 一种用于对音频对象进行解码的解码器，该解码器包括 -接收器(303 )，其用于从编码器接收若干音频信号和参数化数据，所述音频信号是多个音频对象的下混合而所述参数化数据代表与所述若干音频信号有关的所述多个音频对象，该参数化数据包括用于不同音频对象中的至少一个的对象参数集合；-解码装置(303 )，其用于响应于参数化数据而从所述若干音频信号中解码音频对象；-呈现装置(305 )，其用于从音频对象生成空间多声道输出信号； -用于生成用于对象编码器的编码修改数据的装置(501);以及 -用于将所述编码修改数据发送到对象编码器的装置(503 )。
12. —种用于支持在多个通信单元之间的电话会议的电话会议集线器，该电话会议集线器包括-用于从所述多个通信单元接收第一多个语音信号的装置(401); -编码装置(403 )，其用于为第一通信单元把第一多个语音信号的i数化数据，^述参数化i据包括用^不同语音信号中的至少丄个的对象参数集合；—用于从第一通信单元接收编码修改数据的装置(409 );以及 -参数装置(405 )，其用于响应于所述修改数据确定参数化数据；以及-用于将所述若干音频信号和参数化数据发送到第一通信单元的装置(407 )。
13. —种用于发送音频信号的发送器，该发送器包括 -用于接收多个音频对象的装置(401);-编码装置(403 )，其用于把多个音频对象编码为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合；-用于从远程单元接收编码修改数据的装置(409 );以及 -参数装置(405 ),其用于响应于所述修改数据来确定所述参数化数据。
14. 一种用于接收音频信号的接收器，该接收器包括 -接收器单元(303 )，其用于从编码器接收若干音频信号和参数化数据，所述音频信号是多个音频对象的下混合而所述参数化数据代表与所述若干音频信号有关的所述多个音频对象，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合；-解码装置(303 ),其用于响应于所述参数化数据而从若干音频信号中解码音频对象；-呈现装置(305 )，其用于从音频对象生成空间多声道输出信号； -用于生成用于对象编码器的编码修改数据的装置(501);以及 —用于将所述编码修改数据发送到对象编码器的装置(503 )。
15. —种用于传输音频信号的通信系统，该通信系统包括 -发送器(201)，其包括-用于接收多个音频对象的装置(401)，-编码装置(403 )，其用于把多个音频对象编码为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合，以及-用于将所述若干音频信号和参数化数据发送到接收器的装置 (407 ) j和-接收器(203 )，其包括-接收器元件(303 )，其用于从发送器接收所述若干音频信号和参数化数据，-解码装置(303 )，其用于响应于参数化数据从若干音频信号中解码音频对象，—呈现装置(305 )，其用于从音频对象生成空间多声道输出信号，-用于生成用于编码装置的编码修改数据的装置(501)，以及-用于将所述编码修改数据发送到发送器的装置(503 ); -并且其中所述发送器(201)包括-用于从接收器接收所述编码修改数据的装置(409 ); —参数装置(405 )，用于响应于所述编码修改数据而确定参数化数据。
16. —种对音频信号进行编码的方法，该方法包括 -接收(601)多个音频对象；-把多个音频对象编码(603 )为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合； -从远程单元接收(605 )编码修改数据；以及 -响应于所述修改数据来确定(603 )所述参数化数据。
17. —种对音频信号进行解码的方法，该方法包括-从编码器接收(701)若干音频信号和参数化数据，所述音频信号是多个音频对象的下混合而所述参数化数据代表与所述若干音频信号有关的所述多个音频对象，该参数化数据包括用于不同音频对象中的至少一个的对象参数集合；-响应于所述参数化数据从所述若干音频信号中解码(703 )音频对象；-从所述音频对象生成(705 )空间多声道输出信号；—生成(707 )用于所述对象编码器的编码修改数据；以及-将所述编码修改数据发送(709 )到所述对象编码器。
18. —种发送音频信号的方法，该方法包括 —接收(601)多个音频对象；-把多个音频对象编码(603 )为在若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合；-从远程单元接收(605 )编码修改数据；-响应于所述修改数据来确定(603 )所述参数化数据；以及-发送所述若干音频信号和参数化数据。
19. 一种接收音频信号的方法，该方法包括-从编码器接收(701)若干音频信号和参数化数据，所述音频信号是多个音频对象的下混合，所述参数化数据代表与若干音频信号有关的所述多个音频对象，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合；-响应于所述参数化数据而从若干音频信号中解码(703 )音频对象；-从音频对象生成(705 )空间多声道输出信号；-生成(707 )用于对象编码器的编码修改数据；以及—将所述编码修改数据发送(709 )到对象编码器。
20. —种发送和接收音频信号的方法，该方法包括 -发送器(101)执行下列步骤-接收(601)多个音频对象，-把多个音频对象编码(603 )为若干音频信号和代表与所述若干音频信号有关的所述多个音频对象的参数化数据，所述参数化数据包括用于不同音频对象中的至少一个的对象参数集合，以及-将所述若干音频信号和参数化数据发送到接收器；并且 -接收器执行下列步骤-从发送器接收(701)若干音频信号和参数化数据；-响应于参数化数据从若干音频信号中解码(703 )音频对象；-从音频对象生成(705 )空间多声道输出信号；-生成(707 )用于编码装置的编码修改数据；以及—将所述编码修改数据发送(709 )到对象编码器；-并且其中所述发送器进一步执行下列步骤-从接收器接收(605 )所述编码修改数据，以及-响应于所述编码修改数据而确定(603 )参数化数据。
21. —种用于执行权利要求16-20中任意一项的方法的计算机程序产品。
22. —种包括根据权利要求11的解码器(215)的音频播放设备 (203 )
全文摘要
一种音频系统，包括在编码单元(403)中对音频对象进行编码的编码器(209)，所述编码单元生成下混合(down-mix)音频信号和代表多个音频对象的参数化数据。所述下混合音频信号和参数化数据被发送到包括解码单元(301)和呈现单元(303)的解码器(215)，所述解码单元生成音频对象的近似的副本，而所述呈现单元从音频对象生成输出信号。解码器(215)进一步包括处理器(501)，其用于生成被发送到编码器(209)的编码修改数据。随后，编码器(209)响应于所述编码修改数据而修改音频对象的编码，并且特别地修改所述参数化数据。所述方法允许由解码器(215)来控制音频对象的操控，而完全地或部分地由编码器(209)执行音频对象的操控。因此，可以对实际独立的音频对象而不是对近似的副本执行所述操控，由此提供改进的性能。
文档编号G10L19/008GK101517637SQ200780034538
公开日2009年8月26日申请日期2007年9月17日优先权日2006年9月18日
发明者D·J·布里巴尔特申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·J·布里巴尔特
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人