将音频信号编解码的方法

文档序号：2830122阅读：139来源：国知局

专利名称：将音频信号编解码的方法
技术领域：
本发明涉及将音频信号编解码的方法。
技术背景近来，进行了许多工作以研究和发展用于数字音频信号的各种编码方案和方法，并且制造了许多与各种编码方案及方法相关联的产品。并且，己经发展了使用多声道音频信号的空间信息将单声道或立体声音频信号改变成多声道音频信号的编码方案。然而，在将音频信号存储在一些记录介质中的情形中，不存在用于存储空间信息的辅助数据区。所以，在这种情形中，由于仅单声道或立体声音频信号被存储和发送，所以仅再现该单声道或立体声音频信号。因此，声音质量较为单调。此外，在单独存储或发送空间信息的情形中，存在与普通单声道或立体声音频信号的播放器的兼容性问题。发明内容因此，本发明针对用于将音频信号编解码的装置及其方法，其基本避免了由于相关技术的局限和缺点而引起的一个或多个问题。本发明的一个目的在于提供一种用于将音频信号编解码的装置及其方法，籍此可在编码音频信号时提供与普通单声道或立体声音频信号的播放器的兼容性。本发明的另一目的在于提供一种用于将音频信号编解码的装置及其方法，籍此可在不存在辅助数据区的情况下存储或发送多声道音频信号的空间信息。本发明的其它特征和优点将在以下描述中进行阐述，并且部分将因该描述而显而易见或可通过本发明的实践而获得示教。本发明的目的和其它优点将通过在书面描述及其权利要求以及附图中特别指出的结构来实现和获得。为了实现这些和其它优点并根据本发明的用途，一种根据本发明的解码音频信号的方法包括提取以其中插入帧长度按帧来定义的插入帧单元嵌入在音频信号中的辅助信息并使用该辅助信息来解码音频信号的步骤。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的用于解码音频信号的方法包括:提取以其中附加帧长度按帧来定义的附加帧单元附加到音频信号的辅助信息并使用该辅助信息来解码音频信号的步骤。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的解码音频信号的方法包括提取以其中插入帧长度为预定的插入帧单元嵌入在音频信号中的辅助信息并使用该辅助信息来解码音频信号的步骤。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的编码音频信号的方法包括生成解码音频信号所需的辅助信息并以其中插入帧长度按帧来定义的插入帧单元将该辅助信息嵌入在音频信号中的步骤。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的编码音频信号的方法包括生成解码音频信号所需的辅助信息并以其中附加帧长度按帧来定义的驻留(biding)帧单元将该辅助信息附加到音频信号的步骤。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的数据结构包括音频信号以及以按帧定义的插入帧长度嵌入在该音频信号的不可识别的分量中的辅助信息。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的数据结构包括:音频信号以及以按帧定义的附加帧长度附加到未被用于解码音频信号的区域的辅助信息。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的用于编码音频信号的装置包括辅助信息生成单元，用于生成解码该音频信号所需的辅助信息；以及嵌入单元，用于以按帧定义的插入帧长度将该辅助信息嵌入在该音频信号中。为了进一步实现这些和其它优点并根据本发明的用途，一种根据本发明的用于解码音频信号的装置包括嵌入信号解码单元，用于提取以按帧定义的插入帧长度嵌入在音频信号中的辅助信息；以及多声道生成单元，用于通过使用该辅助信息来解码该音频信号。应该认识到的是，以上综述和以下详述是示例性和解释性的，并旨在提供对所要求保护的本发明的进一步的解释。附图简述被包括以提供对本发明的进一步理解以及被包含在本说明书内且构成其一部分的附图示出了本发明的实施例，并与描述一同起解释本发明的原理的作用。在附图中

图1是用于解释根据本发明的人体识别音频信号的空间信息的方法的示图；图2是根据本发明的空间编码器的框图；图3是根据本发明的用于配置图2中所示的空间编码器的嵌入单元的详细框图；图4是根据本发明的用于重排空间信息位流的第一方法的示图；图5是根据本发明的用于重排空间信息位流的第二方法的示图；图6A是根据本发明的经整形的空间信息位流的示图；图6B是图6A中所示的空间信息位流的配置的详细示图；图7是根据本发明的空间解码器的框图；图8是根据本发明的包括在空间解码器中的嵌入信号解码器的具体框图；图9是用于解释根据本发明的普通PCM解码器再现音频信号的情形的示图；图IO是根据本发明的用于将空间信息嵌入在下混(downmix)信号中的编码方法的流程图；图11是根据本发明的用于对嵌入在下混信号中的空间信息解码的方法的流程图；图12是根据本发明的嵌入在下混信号中的空间信息位流的帧大小的示图；图13是根据本发明的按固定大小嵌入在下混信号中的空间信息位流的示图；图14A是解释用于解决按固定大小嵌入的空间信息位流的时间对准问题的第一方法的示图；图14B是解释用于解决按固定大小嵌入的空间信息位流的时间对准问题的第二方法的示图；图15是根据本发明的用于将空间信息位流附加到下混信号的方法的示图；图16是根据本发明的用于对按不同大小嵌入在下混信号中的空间信息位流编码的方法的流程图；图17是根据本发明的用于对按固定大小嵌入在下混信号中的空间信息位流编码的方法的流程图；图18是根据本发明的将空间信息位流嵌入到被下混在至少一个声道上的音频信号中的第一方法的示图；图19是根据本发明的将空间信息位流嵌入到被下混在至少一个声道上的音频信号中的第二方法的示图；图20是根据本发明的将空间信息位流嵌入到被下混在至少一个声道上的音频信号中的第三方法的示图；图21是根据本发明的将空间信息位流嵌入到被下混在至少一个声道上的音频信号中的第四方法的示图；图22是根据本发明的将空间信息位流嵌入到被下混在至少一个声道上的音频信号中的第五方法的示图；图23是根据本发明的将空间信息位流嵌入到被下混在至少一个声道上的音频信号中的第六方法的示图；图24是根据本发明的将空间信息位流嵌入到被下混在至少一个声道上的音频信号中的第七方法的示图；图25是根据本发明的用于对要嵌入到被所下混在至少一个声道上的音频信号中的空间信息位流编码的方法的流程图；以及图26是根据本发明的用于对要嵌入到被所下混在至少一个声道上的音频信号中的空间信息位流解码的方法的流程图；具体实施方式
现在将具体参照其示例在附图中示出的本发明的优选实施例。首先，本发明涉及一种将解码音频信号所需的辅助信息嵌入到该音频信号中的装置及其方法。为了解释方便，该音频信号和辅助信息在以下描述中分别用下混信号和空间信息来表示，它们并不对本发明作出任何限制。在这种情形中，该音频信号包括PCM信号。图1是用于解释根据本发明的人体识别音频信号的空间信息的方法的示图。参照图1，基于人体能够3维地识别音频信号这一事实，用于多声道音频信号的编码方案利用该音频信号可通过多个参数设置表示为3维空间信息这一事实。用于表示多声道音频信号的空间信息的空间参数包括CLD (声道电平差异)、ICC (声道间相干性)、CTD (声道时间差异)等。CLD表示两个声道之间的能量差异，ICC表示两个声道之间的相关性，而CTD表示两个声道之间的时间差异。参照图1对人体如何空间地识别音频信号以及如何产生空间参数的概念进行解释。一直接声波103从远程声源101到达人体的左耳，而另一直接声波102围绕头部被衍射以到达该人体的右耳106。这两个声波102和103在到达时间和能级上彼此不同。并且，CTD和CLD参数通过使用这些差异来生成。如果经反射的声波104和105分别到达两个耳朵，或者如果该声源是散布的，则彼此之间无相关性的声波将分别到达两个耳朵以生成ICC参数。使用根据上述原理所生成的空间参数，能够将多声道音频信号作为单声道或立体声信号来发送并将该信号输出为多声道信号。本发明提供了一种将空间信息一即空间参数一嵌入在单声道或立体声音频信号中、发送该经嵌入的信号、并将所发送的信号再现为多声道音频信号的方法。本发明并不限于多声道音频信号。在本发明的以下描述中，为了解释方便而对多声道音频信号进行解释。图2是根据本发明的编码装置的框图。参照图2，根据本发明的该编码装置接收多声道音频信号201。在该情形中， 'n'指输入声道的数目。多声道音频信号201通过音频信号生成单元203转换为下混信号(Lo和Ro) 205。该下混信号包括单声道或立体声音频信号并且可以是多声道音频信号。在本发明中，在以下描述中立体声音频信号将被用作示例。然而，本发明并不限于立体声音频信号。多声道音频信号的空间信息一即空间参数一是由辅助信息生成单元204从多声道音频信号201生成的。在本发明中，该空间信息指示在发送通过下混多声道(例如，左、右、中置、左环绕、右环绕等)信号生成的下混信号205并将所发送的下混信号再次上混(upmix)为多声道音频信号时所用的音频信号声道的信息。任选地，下混信号205可以是使用直接从外部提供的诸如艺术下混信号202的下混信号来生成的。辅助信息生成单元204中生成的空间信息被辅助信息编码单元206编码为空间信息位流以供传输和存储。空间信息位流被适当整形以通过嵌入单元207直接插入到音频信号一即要发送的下混信号205—中。在这么做时，可使用'数字音频嵌入方法'。例如，与通过AAC等压縮编码的情形不同，在下混信号205是将被存储在难以在其中存储空间信息的存储介质(例如，立体声压縮盘)中或将通过SPDIF (索尼(Sony) /飞利浦(Philips)数字接口)来发送的原始PCM音频信号的情形中，不存在用于存储该空间信息的辅助数据字段。在这种情形中，如果使用了 "数字音频嵌入方法"，则该空间信息可在无音质失真的情况下被嵌入在该原始PCM音频信号中。并且，在普通解码器看来，其中嵌入有该空间信息的音频信号与原始信号并没有区别。即，在普通PCM解码器看来，其中嵌入有空间信息的输出信号Lo'/Ro' 208可被认为是与输入信号Lo/Ro 205相同的信号。作为'数字音频嵌入方法，，具有M立替换编码方法，"、'回音隐匿方法'、 '基于扩展频谱的方法'等。位替换编码方法是一种通过修改量化的音频样本的较低位来插入特定信息的方法。在音频信号中，较低位的修改几乎不对该音频信号的质量产生影响。回音隐匿方法是一种在音频信号中插入足够小以致不为人耳所觉察的回音的方法。而基于扩展频谱的方法是一种经由离散余弦变换、离散傅立叶变换等将音频信号变换到频域中、对特定二进制信息执行扩频以形成PN (伪噪声)序列、并将其添加到被转换到频域中的该音频信号。在本发明中，在以下描述中将主要解释位替换编码方法。然而，本发明并不限于位替换编码方法。图3是根据本发明的用于配置图2中所示的空间编码器的嵌入单元的详细框图。参照图3，在通过位替换编码方法将空间信息嵌入在下混信号组件的不可感知的分量中时，用于嵌入该空间信息的插入位长度(下文称为'K值，)可根据预先决定的方法使用K位(K>0)来代替仅使用较低的1位。这K位可使用下混信号的较低位，但并不仅限于较低位。在这种情形中，该预先决定的方法是一种例如根据心理声学模型来寻找掩蔽阈值并根据该掩蔽阈值来分配合适的位的方法。如图中所示的下混信号Lo/Ro301经由该嵌入单元内的缓冲器303被转移到音频信号编码单元306。掩蔽阈值计算单元304将输入的音频信号分段为预定区段(例如，块)并随后为相应区段寻找掩蔽阈值。时使用的位数是按照块来分配的。在本发明的描述中，块表示存在于帧内的使用一个插入位长度(即，K值) 插入的数据单元。在一个帧内可存在至少一个或多个块。如果帧长度是固定的，则块长度可随着块数目的增加而减小。一旦K值被确定，就能在空间信息位流中包括该K值。即，位流整形单元305 能够以使该空间信息位流能将该K值包括其中的方式来对空间信息位流整形。在该情形中，同步字、检错码、纠错码等可被包括在该空间信息位流中。经整形的空间信息位流可被重排为可嵌入形式。经重排的空间信息位流通过音频信号编码单元306嵌入到下混信号中，并随后作为其中嵌入有空间信息位流的音频信号Lo，/Ro， 307被输出。在该情形中，空间信息位流可被嵌入在下混信号的 K个位中。K值在一个块中可具有一个固定值。总之，K值在空间信息位流的整形或重排过程中被插入空间信息位流并随后被转送到解码装置。并且，该解码装置能够使用该K值来提取空间信息位流。如在之前描述中所提到的，空间信息位流历经按块被嵌入在下混信号中的过程。该过程是通过各种方法之一来执行的。第一种方法是以简单地使用零来替代下混信号较低的K个位并添加经整形的空间信息位流数据的方式来实施的。例如，如果K值为3，如果下混信号的样本数据是11101101并且如果要嵌入的空间信息位流数据是111，则'11101101，的较低3位使用零来替代以提供11101000。并且，空间信息位流数据'111'被添加到 "11101000"以提供"11101111"。第二种方法是使用抖动法来实施的。首先，从下混信号的插入区减去经重排的空间信息位流数据。然后下混信号基于该K值来重新量化。并且，该经重排的空间信息位流数据被添加到该经重新量化的下混信号。例如，如果K值是3，如果下混信号的样本数据是11101101并且如果要嵌入的空间信息位流数据是111，则从'iiioiior减去'ur以提供iiiooiio。较低3位随后被重新量化以提供 'iiioiooo，(通过舍入)。并且，'iir被添加到qiioiooo，以提供'iiioiiir由于嵌入在下混信号中的空间信息位流是随机位流，所以其可能不具备白噪声特性。由于向下混信号添加白噪声型信号在音质特性上是有利的，所以空间信息位流历经白化(whitening)过程以被添加到下混信号。并且，该白化过程适用于除同步字外的空间信息位流。在本发明中，"白化"表示使随机信号在频域的所有区域具有相等或几乎相似的音频信号的声量。此外，在将空间信息位流嵌入在下混信号时，可通过对空间信息位流应用噪声成形方法将听觉失真最小化。在本发明中，'噪声成形方法，表示修改噪声特性以使从量化生成的量化噪声的能量移到可听频段上的较高频段的过程或生成对应于从相应音频信号得到的掩蔽阈值的时变滤波器并通过所生成的该滤波器来修改从量化生成的噪声的特性的过程。图4是根据本发明的用于将空间信息位流重排的第一方法的示图。参照图4，如在之前描述中所提到的，可使用K值将空间信息位流重排为可嵌入形式。在该情形中，空间信息位流可通过以各种方式进行重排来嵌入到下混信号中。并且，图4示出了以样本平面次序嵌入空间信息的方法。该第一方法是一种以按K比特为单位来散布相应块的空间信息位流并顺序地嵌入被散布的空间信息位流的方式来重排空间信息位流的方法。如果K值为4并且如果一个块405是由N个样本403构成的，则空间信息位流401可被重排成顺序地嵌入在每个样本的较低4位中。如在之前描述中所提到的，本发明并不限于将空间信息位流嵌入在每个样本的低4位这种情形。此外，在每个样本的较低的K位中，如图所示，空间信息位流可首先被嵌入 MSB (最高有效位)或首先被嵌入LSB (最低有效位)。在图4中，箭头404指示嵌入方向而括号内的数字指示数据重排顺序。位平面指示由多个位构成的一特定位层。在要嵌入的空间信息位流的位数小于将在其中嵌入空间信息位流的插入区中的可嵌入位数的情形中，用零来填塞剩余位406、在剩余位中插入随机信号、或者可用原始下混信号来替换剩余位。例如，如果配置成一个块的样本数目(N)为100并且如果K值为4，则该块中的可嵌入位数(W)为W=N*K=100*4=400。如果要嵌入的空间信息位流的位数(V)是390个位(即，V<M)，则用零来填塞剩余的IO个位、在这剩余的IO个位中插入随机信号、或者用原始下混信号来替换这剩余的IO个位、用指示数据结束的尾序列来填充这剩余的IO个位、或者可用它们的组合来填充这剩余的IO个位。尾序列表示一指示相应块中空间信息位流的结束的位序列。虽然图4显示剩余位是按块来填塞的，但本发明也包括以上述方式按插入帧来填塞剩余位。图5是根据本发明的用于重排空间信息位流的第二方法的示图。参照图5，该第二方法是以按位平面502顺序重排空间信息位流501的方式来实施的。在该情形中，空间信息位流可按块从下混信号的较低位被顺序嵌入，当然这并未对本发明作出任何限制。例如，如果配置成一个块的样本数目(N)是100并且如果K值是4，则配置成位平面0 502的100个最低有效位被优先填塞并且配置成位平面1 502的100个位可被填塞。在图5中，箭头505指示嵌入方向而括号内的数字指示数据重排顺序。该第二方法在提取随机位置上的同步字时特别有利。在从经重排和编码的信号搜索所插入的空间信息位流的同步字时，仅可提取LSB来搜索同步字。并且可以预料，根据要嵌入的空间信息位流的位数(V)，该第二方法仅使用最小的LSB。在该情形中，如果要嵌入的空间信息位流的位数(V)小于将在其中嵌入空间信息位流的插入区的可嵌入位数(W)，则用零来填塞剩余位506，剩余位中被插入随机信号、用原始下混信号来替换剩余位、用指示数据结束的结束尾序列来填塞剩余位、或者可用它们的组合来填塞剩余位。特别地，使用下混信号的方法是有利的。虽然图5显示按块来填塞剩余位的示例，但本发明也包括以上述方式按插入帧来填塞剩余位的情形。图6A示出了根据本发明的将空间信息位流嵌入在下混信号中的位流结构。参照图6A，空间信息位流607可通过位流整形单元305来重排以包括用于该空间信息位流的同步字603和K值604。并且，在整形过程中可将至少一个检错码或纠错码606或608 (以下将对检错码进行描述)包括在经整形的空间信息位流中。检错码能够判定该空间信息位流 607在传输或存储过程中是否失真。检错码包括CRC (循环冗佘校验)。可通过分为两个步骤来包括检错码。用于具有K值的标头601的检错码1和用于空间信息位流的帧数据602的检错码2 可被分开地包括在空间信息位流中。此外，其余信息605可被分开地包括在空间信息位流中。并且，关于该空间信息位流的重排方法等的信息可被包括在该其余信息 605中。图6B是图6A中所示的空间信息位流的配置的详细示图。图6B示出了空间信息位流601的一帧包括两个块(本发明并不限于此)的实施例。参照图6B，图6B中所示的空间信息位流包括同步字612、 K值(Kl、 K2、K3、 K4) 613到616、其余信息617以及检错码618和623。空间信息位流610包括一对块。在立体声信号的情形中，块1可由分别用于左声道和右声道的块619和620组成。而块2可由分别用于左声道和右声道的块621和622组成。虽然在图6B中示出了立体声信号，但本发明并不限于立体声信号。这些块的插入位长度(K值)被包括在标头部分中。Kl 613指示块1的左声道的插入位长度。K2 614指示块1的右声道的插入位长度。K3 615指示块2的左声道的插入位长度。而K4 616指示块2的右声道的插入位大小。并且，可通过分为两个步骤来包括检错码。例如，其中包括K值的标头609 的检错码1618和该空间信息位流的帧数据611的检错码2可被分开包括。图7是根据本发明的解码装置的框图。参照图7，根据本发明的解码装置接收其中嵌入了空间信息位流的音频信号 Lo，/Ro' 701。其中嵌入有空间信息位流的音频信号可以是单声道、立体声和多声道信号中的一种。为了便于解释，立体声信号被用作本发明的示例，但这对本发明并不作出任何限制。嵌入信号解码单元702能够从音频信号701提取空间信息位流。由嵌入信号解码单元702提取的空间信息位流是经编码的空间信息位流。并且，经编码的空间信息位流可以是去往空间信息解码单元703的输入信号。空间信息解码单元703将经编码的空间信息位流解码并随后将经解码的空间信息位流输出到多声道生成单元704。多声道生成单元704接收下混信号701以及从解码得到的空间信息作为输入并随后将所接收的输入输出为多声道音频信号705。图8是根据本发明的用于配置成该解码装置的嵌入信号解码单元702的详细框图。参照图8，其中嵌入了空间信息的音频信号Lo'/Ro'被输入到嵌入信号解码单元702。并且，同步字搜索单元802从音频信号801检测同步字。在该情形中，可从该音频信号的一个声道检测该同步字。在已检测到同步字之后，标头解码单元803将标头区解码。在该情形中，预定长度的信息提取自该标头区并且数据逆向修改单元804能够将逆白化方案应用于所提取信息中除同步字之外的标头区信息。接着，可从在其上应用了逆白化方案的标头区信息获得该标头区的长度信息等。并且，数据逆修改单元804能将逆白化方案应用于其余的空间信息位流。诸如K值等的信息可通过标头解码获得。原始空间信息位流可通过使用诸如K值等信息对经重排的空间信息位流再次进行排列而获得。此外，可获得排列下混信号和空间信息位流的帧的同步位置信息，即帧排列信息806。图9是用于解释根据本发明的一般PCM解码装置再现音频信号的情形的图。参照图9，其中嵌入有空间信息位流的音频信号LoVRo'被用作一般PCM解码装置的输入。一般PCM解码装置将其中嵌入有空间信息位流的音频信号LoVRo'识别为普通立体声音频信号以再现声音。并且，再现的声音与嵌入空间信息前的音频信号 902就音质而言并没有区别。因此，根据本发明的其中嵌入空间信息的音频信号兼容于一般PCM解码装置中的立体声信号的正常再现并且具有在能够多声道解码的解码装置中提供多声道音频信号的优点。图IO是根据本发明的在下混信号中嵌入空间信息的编码方法的流程图。参照图10，音频信号从多声道信号被下混(1001、 1002)。在这种情形下，下混信号可以是单声道、立体声和多声道信号中的一种。接着，从多声道信号提取空间信息(1003)。并且使用空间信息生成空间信息位流(1004)。空间信息位流被嵌入到下混信号中(1005)。并且，包括其中嵌入有空间信息位流的下混信号的整个位流被传送至解码装置(1006)。特别地，本发明使用下混信号找到将在其中插入空间信息位流的插入区的插入位长度(即K值)并可将空间信息位流嵌入到该插入区中。图11是根据本发明的对嵌入在下混信号中的空间信息解码的方法的流程图。参照图11，解码装置接收包括其中嵌入有空间信息位流的下混信号的整个位流(1101)并从该位流提取下混信号(1102)。解码装置从整个位流中提取并解码空间信息位流(1103)。解码装置通过解码提取空间信息(1104)并随后用所提取的空间信息解码该下混信号(1105)。在这种情形下，下混信号可被解码为两个声道或多个声道。特别地，本发明可提取空间信息位流嵌入方法的信息以及K值的信息并可使用所提取的嵌入方法和所提取的K值对该空间信息位流解码。图12是根据本发明的嵌入在下混信号中的空间信息位流的帧长度的示图。参照图12，'帧，表示具有一个标头并允许独立解码一预定长度的单元。在本发明的描述中，'帧，表示即将出现的'插入帧，。在本发明中，'插入帧'表示在下混信号中嵌入空间信息位流的单元。并且，插入帧的长度可按帧来定义或者可使用预定长度。例如，使插入帧长度与空间信息位流中对应于解码和应用空间信息的单元的帧长度(s)(下文中称之为"解码帧长度")具有相同长度(参看，图12(a))、为'S'的倍数(参看，图12(b))、或使'S'为'N，的倍数(参看，图12(c))。在N二S的情形下，如图12(a)所示，解码帧长度(S， 1201)与插入帧长度(N， 1202) —致以便于解码处理。在N〉S的情形下，如图12(b)所示，能通过将多个解码帧(1203)连在一起以传送一个插入帧(N， 1204)的方式减少由于标头、检错码(例如CRC)等所附加的位数。在N〈S的情形下，如图12(c)所示，可通过将若干插入帧(N， 1206)连在一起来配置一个解码帧(S, 1205)。在插入帧标头中，可插入用于在其中嵌入空间信息的插入位长度的信息、插入帧长度(N)的信息、包括在该插入帧中的多个子帧的信息等。图13是根据本发明的按插入帧单元嵌入在下混信号中的空间信息位流的图。首先，在图12(a)、 12(b)、 12(c)中所示的每种情形中，插入帧和解码帧被配置成互为倍数。参照图13，为了传送，可配置固定长度的位流，例如，传输流(TS)格式的分组1303。特别地，空间信息位流1301可以预定长度的分组单元为界而不管空间信息位流的解码帧长度如何。其中插入有诸如TS标头1302等信息的分组被传送给解码装置。插入帧的长度可按每帧来定义或使用预定长度而不是在帧内定义。考虑到根据下混信号的特性每个块的掩蔽阈值各自不同以及在下混信号没有音质失真的情况下所能分配的最大位数(K—max)不同，这种方法对于改变空间信息位流的数据速率是必要的。例如，在K^max不足以完全表示相应块所需的空间信息位流的情形中，高至 K_maX的数据被传送并且其余数据之后通过另一块传送。在K—max足够的情形下，下一块的空间信息位流被预先加载。在这种情形下，每个TS分组具有一个独立的标头。并且，标头中可包括同步字、TS分组长度信息、包括在该TS分组中的多个子帧的信息、分组内分配的插入位长度的信息等。图14A是解释用于解决通过插入帧单元嵌入的空间信息位流的时间对准问题的第一方法的示图。参照图14A，按每帧定义插入帧的长度或可使用一预定长度。通过插入帧单元的嵌入方法可能引起嵌入的空间信息位流的插入帧起始位置与下混信号帧之间的时间对准问题。因此，需要一种时间对准问题的解决方案。在图14A所示的第一方法中，空间信息的解码帧1403的标头1402 (下文中称之为'解码帧标头')被分开放置。指示是否存在将对其应用空间信息的音频信号的位置信息的区别信息可被包括在解码帧标头1402中。例如，在TS分组1404和1405的情形下，指示是否存在解码帧标头1402的区别信息1408 (例如，标志)被包含在TS分组标头1404中。如果区别信息1408为1，即如果解码帧标头1402存在，则可从该解码帧标头中提取指示是否将向其应用该空间信息位流的下混信号的位置信息的区别信息。接着，将对其应用空间信息位流的下混信号的位置信息1409 (例如延迟信息) 可根据所提取的区别信息从解码帧标头1402中提取。如果区别信息1411为0，则TS分组的标头内可能不包括位置信息。一般而言，空间信息位流1403优选地出现在相应下混信号1401的前面。因此，位置信息1409可以是针对一延迟的样本值。同时，为了防止由于过大的延迟而造成的表示样本值所需的信息的量过度增大的问题，定义了表示一组样本等的样本组单元(例如粒度单元)。因此，位置信息可由该样本组单元来表示。如前面描述提及，TS同步字1406、插入位长度1407、指示是否存在解码帧标头的区别信息以及其余信息140可被包括在TS标头内。图14B是解释用于解决通过具有按帧来定义的长度的插入帧嵌入的空间信息位流的时间对准问题的第二方法的示图。参照图14B，在例如TS分组的情形下，第二方法采用匹配解码帧的起始点 1413、 TS分组的起始点以及相应下混信号1412的起始点的方式来实现。对于经匹配的部分，指示这三种类型的起始点被对准的区别信息1420或1422 (例如标志)可被包括在TS分组的标头1415中。图14B示出这三种起始点在下混信号的第n帧1412处匹配。在这种情形下，区别信息1422可具有值l。如果三种起始点不匹配，则区别信息1420可具有值0。为了将这三种起始点匹配到一起，在前一 TS数据分组之后的特定部分1417 用零来填塞、其中插入随机信号、用原始下混的音频信号替换或用它们的组合来填塞。如前面描述所提到的，TS同步字1418、插入位长度1419以及其余信息1421 可被包含在TS分组标头1415内。图15是根据本发明的将空间信息位流附加至下混信号的方法的示图。参照图15，其上附加空间信息位流的帧(下文中称之为'附加帧')的长度可以是按帧来定义的长度单元或不按帧定义的预定长度单元。例如，如图所示，可通过将空间信息的解码帧长度1504乘以或除以N得到插入帧长度(其中N是正整数)或者插入帧长度可具有固定长度单元。如果解码帧长度1504与插入帧长度不同，能够在例如无需对空间信息位流分段而是随机地切割空间信息位流以适合插入帧的情况下生成与解码帧长度1504具有相同长度的插入帧。在这种情形下，空间信息位流被配置成嵌入在下混信号中或可被配置成附加于下混信号上而不是嵌入在下混信号中。在像PCM信号这样是从模拟信号转换成数字信号的信号中(下文中称之为^第一音频信号')，空间信息位流可被配置成嵌入在该第一音频信号中。在像MP3信号这样的进一步压縮的数字信号(下文中称之为'第二音频信号') 中，空间信息位流可被配置成附加到该第二音频信号。例如在使用第二音频信号的情形下，下混信号被表示为压縮格式的位流。因此如图所示，下混信号位流1502以压縮格式存在并且解码帧长度1504的空间信息被附加到下混信号位流1502。因此，空间信息位流能够以突发进行传送。标头1503可存在于解码帧中。并且，对其应用了空间信息的下混信号的位置信息被包含在该标头1503中。同时，本发明包括一种情形，即空间信息位流被配置成压縮格式的附加帧(例如TS位流1506)以将该附加帧附加到压縮格式的下混信号位流1502。在这种情形下，可存在TS位流1506的TS标头1505。而且，在附加帧标头 (例如TS标头1505)中可包括附加帧同步信息1507、指示该附加帧内是否存在解码帧的标头的区别信息1508、包含在该附加帧中的子帧数目的信息以及其余信息1509中的至少一个。并且，指示附加帧的起始点和解码帧的起始点是否匹配的区别信息也可被包含在附加帧中。如果解码帧标头存在于附加帧内，则从解码帧标头中提取指示是否存在对其应用了空间信息的下混信号的位置信息的区别信息。接着，可根据区别信息提取对其应用空间信息的下混信号的位置信息。图16是根据本发明的对通过各种大小的插入帧被嵌入在下混信号中的空间信息位流编码的方法的流程图。参照图16，音频信号从多声道音频信号被下混(1601、 1602)。在这种情形下，下混信号可以是单声道、立体声或多声道音频信号。并且，空间信息从多声道音频信号中被提取(1601、 1603)。随后采用所提取的空间信息生成空间信息位流(1604)。所生成的空间信息可通过具有与每个帧的解码帧长度的整数倍对应的长度的插入帧单元被嵌入在下混信号中。如果解码帧长度(S)大于插入帧长度(N) (1605)，则插入帧长度(N)通过将多个N连结在一起而被配置成等于一个S (1607)。如果解码帧长度(S)小于插入帧长度(N) (1606)，则插入帧长度(N)通过将多个S连结在一起而被配置成等于一个N (1608)。如果解码帧长度(S)等于插入帧长度(N)，则插入帧长度(N)被配置成等于解码帧长度(S) (1609)。以上述方式配置的空间信息位流被嵌入到下混信号中(1610)。最后，包括其中嵌入有空间信息位流的下混信号的整个位流被传送(1611)。此外，在本发明中，空间信息位流的插入帧长度的信息可被嵌入在整个位流中。图17是根据本发明的对按固定长度嵌入在下混信号中的空间信息位流编码的方法的流程图。参照图17，音频信号从多声道音频信号(1701、 1702)被下混。在这种情形下，下混信号可以是单声道、立体声或多声道音频信号。并且，从多声道音频信号提取空间信息(1701、 1703)。随后使用所提取的空间信息生成空间信息位流(1704)。在空间信息位流已被分界为例如传输流(TS)的具有固定长度(分组单元)的位流之后(1705)，该固定长度的空间信息位流被嵌入到下混信号中(1706)。接着，包括其中嵌入有空间信息位流的下混信号的整个位流被传送(1707)。此外，在本发明中，使用下混信号获得在其中嵌入空间信息位流的插入区的插入位长度(即K值)，并且可将空间信息位流嵌入在插入区中。图18是根据本发明的将空间信息位流嵌入在被下混到至少一个声道上的音频信号中的第一方法的示图。在下混信号配置有至少一个声道的情形下，空间信息被认为是与该至少一个声道共用的数据。因此，需要一种通过将空间信息散布在该至少一个声道上来嵌入空间信息的方法。图18示出在具有至少一个声道的下混信号的一个声道上嵌入空间信息的方法。参照图18，空间信息被嵌入在下混信号的K位中。特别地，空间信息被嵌入在仅一个声道中而不被嵌入到其它声道中。并且，每个块或声道的K值可以不同。如前面描述所提到的那样，这些与K值相对应的位可对应于下混信号的低位，但本发明不仅限于此。在这种情形下，空间信息位流可按从LSB开始的位平面顺序或按样本平面顺序被插入到一个声道中。图19是根据本发明的将空间信息位流嵌入在被下混到至少一个声道上的音频信号中的第二方法的示图。为便于解释，图19示出具有两个声道的下混信号，但本发明不仅限于此。参照图19，第二方法是采用依次将空间信息嵌入一个声道(例如左声道)的块-n、另一声道(例如右声道)的块-n、前一声道(左声道)的块-(n+l)等的方式来实现的。在这种情形下，同步信息可仅被嵌入在一个声道中。尽管空间信息位流可被嵌入到每个块的下混信号中，然而也能在解码过程中按块或按帧来提取空间信息位流。由于混频信号的两个声道的信令特征彼此不同，因此能通过单独找到两个声道各自的掩蔽阈值来向两个声道分配K值。特别地，如图所示，K1和K2分别被分配给两个声道。在这种情形下，空间信息可按从LSB开始的位平面顺序或样本平面顺序被嵌入到每个声道中。图20是根据本发明的将空间信息位流嵌入在被下混到至少一个声道上的音频信号中的第三方法的示图。图20示出具有两个声道的下混信号，但本发明不仅限于此。参照图20，第三方法采用通过将空间信息散布到两个声道上来嵌入空间信息的方式实现。特别地，空间信息以针对两个声道按样本单元交替相应嵌入顺序的方式被嵌入。由于下混信号的两个声道的信令特征彼此不同，因此能通过单独地找到两个声道各自的掩蔽阈值而将K值不同地分配到两个声道中。具体而言，如图所示的 K,和K2被分别分配给两个声道。每个块的K值可彼此不同。例如，空间信息被依次放在一个声道(例如左声道)的样本-1的Ki个低位中、另一声道(例如右声道)的样本-1的K2个低位中、前一声道(例如左声道)的样本-2的&个低位中以及后一声道(例如右声道)的样本2的K2个低位中。在附图中，括号内的数字指示填充空间信息位流的顺序。尽管图20示出空间信息位流是从MSB开始填充的，然而空间信息位流也可从LSB开始填充。图21是根据本发明的将空间信息位流嵌入在被下混到至少一个声道上的音频信号中的第四方法的示图。图21示出具有两个声道的下混信号，但本发明不仅限于此。参照图21，第四方法是采用通过将空间信息散布到至少一个声道上以嵌入空间信息的方式来实现的。具体而言，空间信息是以针对两个声道按位平面单元从 LSB开始交替相应嵌入顺序的方式被嵌入的。由于下混信号的两个声道的信令特征彼此不同，因此能通过单独找到两个声道各自的掩模阈值而将K值(Ki和K2)不同地分配给两个声道。具体而言，如图所示的Kl和K2可分别被分配给两个声道。每个块的K值可彼此不同。例如，空间信息被依次放置在一个声道(例如左声道)的样本-1的1位最低有效位、另一声道(例如右声道)的样本-1的1位最低有效位、前一声道(例如左声道)的样本-2的1位最低有效位和后一声道(例如右声道)的样本-2的1位最低有效位中。在附图中，块中的数字指示填充空间信息的顺序。在音频信号被存储在没有辅助数据区的存储介质(例如，立体声CD)或者通过SPDIF等被发送的情形下，L/R声道按样本单元进行交织。因而，如果通过第三或第四方法存储音频信号，则解码器根据所接收的顺序来处理音频信号是有利的。并且，第四方法适用于空间信息位流通过按位平面单元重排来存储的情形。如前面描述中提到的那样，在空间信息位流通过被散布在两个声道上而被嵌入的情形下，能够分别向诸声道不同地分配K个值。在这种情形下，可按位流内的每个声道来单独传送K值。在传送多个K值的情形下，差分编码适用于编码K 值的情形。图22是根据本发明的将空间信息位流嵌入在被下混到至少一个声道上的音频信号中的第五方法的示图。图22示出具有两个声道的下混信号，但本发明不限于此。参照图22，第五方法采用通过将空间信息散布在两个声道上以嵌入空间信息的方式来实现。具体而言，第五方法是以在两个声道的每一个中反复插入相同值的方式来实现。在这种情形下，具有相同正负号的值可被插入到至少两个声道的每一个中，或者正负号不同的值可被分别插入到至少两个声道中。例如，值1被插入到两个声道中的每一个声道或者值1和-1被分别交替地插入到两个声道中。第五方法的优点是利于通过比较至少一个声道的最低有效插入位(例如K位) 来检査传输错误。具体而言，在将单声道音频信号传送至诸如CD等立体声介质的情形下，由于下混信号的声道-L (左声道)和下混信号的声道-R (右声道)彼此等同，因此可通过均衡插入的空间信息来提高鲁棒性等。在这种情形下，空间信息按始于LSB 的位平面顺序或按样本平面顺序嵌入到每个声道中。图23是根据本发明的将空间信息位流嵌入在被下混到至少一个声道上的音频信号中的第六方法的示图。第六方法涉及在每个声道的帧包括多个块(长度B)的情形下将空间信息插入具有至少一个声道的下混信号中的方法。参照图23，每个声道和块的插入位长度(即K值)可各自具有不同值或者每个声道和块可具有相同值。插入位长度(例如Ki、 K2、 K3、和K》可被存储在对一个完全帧一次传送的帧标头中。并且，帧标头可位于LSB上。在这种情形下，标头可按位平面单元被插入。并且，空间信息数据可按样本单元或块单元被交替地插入。在图23中，帧内的块数为2。因此，块的长度(B)为N/2。在这种情形下，被插入到该帧内的位数是(Kl+K2+K3+K4) *B。图24是根据本发明的将空间信息位流嵌入在被下混到至少一个声道上的音频信号中的第七方法的示图。图24示出具有两个声道的下混信号，但本发明不仅限于此。参照图22，第七方法是采用通过将空间信息散布到两个声道上以嵌入空间信息的方式来实现的。具体而言，第七方法的特征在于将按始于LSB或MSB的位平面顺序在两个声道中交替地插入空间信息的方法以及按样本平面顺序在两个声道中交替地插入空间信息的方法相混合。该方法按帧单元来执行或可按块单元来执行。如图24所示的阴影部分1到C与标头对应并可按位平面顺序插入LSB或MSB 中以便于搜索插入帧同步字。其它部分(非阴影部分)C+l和更高位部分对应于除标头以外的部分并可按样本单元被交替地插入两个声道中以便提取出空间信息数据。对于每个声道和块，插入位大小(例如K值)可彼此具有不同或相同的值。并且，所有插入位长度都可被包含在标头中。图25是根据本发明的对要嵌入到具有至少一个声道的下混信号中的空间信息编码的方法的流程图。参照图25，音频信号从多声道音频信号被下混至一个声道中(2501、 2502)。并且，从多声道音频信号提取空间信息(2501、 2503)。随后使用提取的空间信息生成空间信息位流(2504)。空间信息位流被嵌入具有至少一个声道的下混信号中(2505)。在这种情形下，可使用在至少一个声道中嵌入空间信息位流的那七种方法中的一种。接着，包括其中嵌入有空间信息位流的下混信号的整个流被传送(2506)。在这种情形下，本发明使用下混信号找到K值并将空间信息位流嵌入在K位中。图26是根据本发明的对嵌入在具有至少一个声道中的下混信号中的空间信息位流解码的方法的流程图。参照图26，空间解码器接收包括其中嵌入有空间信息位流的下混信号的位流(2601)。从接收到的位流检测下混信号(2602)。嵌入在具有至少一个声道的下混信号中的空间信息位流被提取并根据接收到的位流来解码(2603)。接着，使用通过解码获得的空间信息将下混信号转换成多声道信号(2604)。本发明提取嵌入空间信息位流的顺序的区别信息并可使用该区别信息提取和解码空间信息位流。另外，本发明从空间信息位流提取K值的信息并可使用该K值解码空间信息位流。工业应用因此，本发明提供下列效果或优点。首先，在根据本发明编码多声道音频信号时，空间信息被嵌入到下混信号中。因此，多声道音频信号可被存储入/再现到/自不具有辅助数据区的存储介质(例如立体声CD)或不具有辅助数据区的音频格式。其次，空间信息可按各种帧长度或固定帧长度被嵌入到下混信号中。并且，空间信息可被嵌入到具有至少一个声道的下混信号中。因此，本发明提高了编码和解码效率。尽管在此已结合其较佳实施例对本发明进行阐述和说明，然而对于本领域技术人员而言，可在其中作出各种更改和变化而不背离本发明的精神和范围是显而易见的。因此，本发明旨在涵盖其落在所附权利要求书及其等效物范围内的所有更改和变化。
权利要求
1.一种解码音频信号的方法，包括提取按插入帧单元嵌入在所述音频信号中的辅助信息，其中插入帧长度是按帧来定义的；以及使用所述辅助信息来解码所述音频信号。
2. 如权利要求1所述的方法，其特征在于，还包括从插入帧的标头提取所述插入帧长度的信息。
3. 如权利要求l所述的方法，其特征在于，还包括提取关于插入帧内存在还是不存在所述辅助信息的解码帧标头的区别信息。
4. 如权利要求3所述的方法，其特征在于，还包括提取指示所述解码帧标头内是否存在对其应用了所述辅助信息的所述音频信号的位置信息的区别信息。
5. 如权利要求4所述的方法，其特征在于，还包括根据所述区别信息提取所述音频信号的所述位置信息。
6. 如权利要求1所述的方法，其特征在于，所述插入帧长度是正整数并且是通过将所述辅助信息的解码帧长度乘以或除以N得到的，其中N是正整数。
7. 如权利要求1所述的方法，其特征在于，所述插入帧长度对应于固定长度。
8. 如权利要求l所述的方法，其特征在于，所述音频信号包括多声道信号的下混音信号。
9. 如权利要求l所述的方法，其特征在于，所述辅助信息包括多声道信号的空间信息。
10. —种解码音频信号的方法，包括提取以附加帧单元附加到所述音频信号的辅助信息，其中附加帧长度是按帧来定义的；以及使用所述辅助信息来解码所述音频信号。
11. 如权利要求IO所述的方法，其特征在于，还包括从所述附加帧提取指示是否存在对其应用了所述辅助信息的所述音频信号的位置信息的区别信息。
12. 如权利要求ll所述的方法，其特征在于，还包括根据所述区别信息提取所述音频信号的所述位置信息。
13. —种解码音频信号的方法，包括提取以插入帧单元嵌入在所述音频信号中的辅助信息，其中插入帧长度是预定的；以及使用所述辅助信息来解码所述音频信号。
14. 如权利要求13所述的方法，其特征在于，所述插入帧长度对应于所述辅助信息的解码帧长度的整数倍。
15. 如权利要求13所述的方法，其特征在于，所述插入帧长度对应于固定长度。
16. —种编码音频信号的方法，包括生成解码音频信号所需的辅助信息；以及按插入帧单元将所述辅助信息嵌入在所述音频信号中，其中插入帧长度是按帧来定义的。
17. 如权利要求16所述的方法，其特征在于，还包括在所述插入帧标头中包括以下中的至少一种所述辅助信息的插入位长度信息、插入帧长度信息以及包括在所述插入帧中的子帧数目的信息。
18. —种编码音频信号的方法，包括生成解码音频信号所需的辅助信息；以及按附加帧单元将所述辅助信息附加到所述音频信号，其中附加帧长度是按帧来定义的。
19. 如权利要求18所述的方法，其特征在于，还包括在所述附加帧中包括以下中的至少一种附加帧同步信息、附加帧长度信息以及所述附加帧中的子帧数信息，其中所述子帧被包括在所述附加帧中。
20. —种数据结构，包括音频信号；以及以按帧定义的插入帧长度嵌入在所述音频信号的不可识别分量中的辅助信息。
21. 如权利要求20所述的数据结构，其特征在于，所述插入帧长度对应于所述辅助信息的解码帧长度的整数倍。
22. 如权利要求20所述的数据结构，其特征在于，所述插入帧长度对应于固定长度。
23. —种数据结构，包括音频信号；以及以按帧定义的附加帧长度附加到不被用于对所述音频信号解码的区域的辅助"(曰息。
24. —种用于编码音频信号的装置，包括辅助信息生成单元，用于生成解码音频信号所需的辅助信息；以及嵌入单元，用于以按帧定义的插入帧长度将所述辅助信息嵌入在所述音频信号中。
25. —种用于解码音频信号的装置，包括嵌入信号解码单元，用于提取以按帧定义的插入帧长度嵌入在所述音频信号中的辅助信息；以及多声道生成单元，用于通过使用所述辅助信息来解码所述音频信号。
全文摘要
公开了一种用于编码和解码音频信号的装置及其方法，通过其可在编码音频信号时提供与普通单声道或立体声音频信号的播放器的兼容性，并且通过其可在不存在辅助数据区的情况下存储或发送多声道音频信号的空间信息。本发明包括提取嵌入在音频信号分量的不可识别的分量中的辅助信息并使用所提取的辅助信息来解码该音频信号。
文档编号G10L19/00GK101253550SQ200680026310
公开日2008年8月27日申请日期2006年5月26日优先权日2005年5月26日
发明者吴贤午, 房熙锡, 林宰显, 郑亮源, 金东秀申请人:Lg电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴贤午;郑亮源;房熙锡;金东秀;林宰显
技术所有人：LG电子株式会社
我是此专利的发明人

上一篇：将音频信号编解码的方法
上一篇：用于消除参数多通道音频编码与矩阵环绕多通道编码之间的差距的构思的制作方法