利用频域维纳滤波对空间音频编码进行时间包络整形的制作方法

文档序号：2833615阅读：246来源：国知局

专利名称：利用频域维纳滤波对空间音频编码进行时间包络整形的制作方法
技术领域：
本发明涉及基于块的音频编码器，其中音频信息在被解码时具有由块率限定的时间包络分辨率，该编码器包括感知的且参数化的音频编码器、解码器及系统，本发明还涉及对应的方法，用于实现这种方法的计算机程序，以及由这种编码器生成的位流。
背景技术：
很多降低比特率的音频编码技术都是“基于块”的，其中，编码包括如下处理对解码成多个时间块的一个或更多个音频信号中的每一个进行划分，并且以不高于块率的频率对与解码音频相关联的一些附带信息(side information)进行更新。因此,音频信息在被解码时具有由块率限定的时间包络分辨率。因此，基于时间的解码音频信号的具体结构被保留的时间段不小于编码技术的粒度(granularity)(通常在每块8到50毫秒的范围内)。这种基于块的音频编码技术不仅包括已经建立的感知编码技术，已知有AC_3、AAC以及各种MPEG，在该技术中通常通过编码/解码处理保留离散的声道，而且包括最近引入的比特率受限编码技术，有时将其称为“心理声学编码(Binaural Cue Coding)”以及“参数立体声编码”，在该技术中通过编码/解码处理将多个输入声道缩混为单个声道，并且从单个声道上混为多个声道。这种编码系统的详情包含在不同文档中，包括下面在标题“引用并入”下所引用的那些文档。由于在这种编码系统中使用了单个声道，所以重构的输出信号必须是彼此幅度成比例的——对于特定块，不同输出信号必须具有基本上相同的精细包络结构。虽然所有基于块的音频编码技术都可因为其解码音频信号的时间包络分辨率的提高而得益，但是在整个编码/解码处理中不保留离散声道的、基于块的编码技术中，对这种提高的需要尤为强烈。对于这种系统来说，特定类型的输入信号(例如，欢呼)尤其存在问题，该输入信号使得再现的感觉到的空间图像变窄或塌缩。

图I是实施本发明方面的编码器或编码功能的示意性功能框图。图2是实施本发明方面的解码器或解码功能的示意性功能框图。

发明内容
根据本发明第一方面，提供了一种用于音频信号编码的方法，其中，将一个或更多个音频信号编码为位流，该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息，所述编码包括以下处理将所述一个或更多个音频信号中的每一个划分为多个时间块；并且以不高于块率的频率对至少一些所述附带信息进行更新，使得所述音频信息在被解码时具有由所述块率限定的时间包络分辨率。将至少一个音频信号的时间包络与经估计解码重构的每一个所述至少一个音频信号的时间包络进行比较，该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息，比较结果的表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率。。根据本发明另一方面，提供了一种音频信号编码及解码的方法，其中，将一个或更多个输入音频信号编码为位流，该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息，接收所述位流并利用所述附带信息对所述音频信息进行解码来提供一个或更多个输出音频信号，所述编码和解码包括如下处理将所述一个或更多个输入音频信号中的每一个和经解码的位流分别划分为多个时间块，所述编码以不高于块率的频率对至少一些所述附带信息进行更新，使得所述音频信息在被解码时具有其分辨率被所述块率限定的时间包络。在至少一个输入音频信号的时间包络与经估计解码重构的每一个所述至少一个输入音频信号的时间包络之间进行比较，该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息，所述比较提供了比较结果的表示，所述表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率。进行对至少一些所述表示的输出，并且进行对所述位流的解码，所述解码采用所述音频信息、所述附带信息以及所述输出的表示。根据本发明又一方面，提供了一种音频信号解码的方法，其中，将一个或更多个输入音频信号编码为位流，该位流包括音频信息和与该音频信息相关联且在对该位流进行解码时有用的附带信息，所述编码包括如下处理将所述一个或更多个输入音频信号中的每一个分为多个时间块，并且以不高于块率的频率对至少一些所述附带信息进行更新，使得所述音频信息在采用所述附带信息对其解码时具有由所述块率限定的时间包络分辨率，所述编码进一步包括在至少一个输入音频信号的时间包络与经估计解码重构的每一个所述至少一个输入音频信号的时间包络之间进行比较，该经估计的重构采用至少一些所述音频信息和至少一些所述附带信息，所述比较提供了比较结果的表示，所述表示有助于提高至少一些所述音频信息在被解码时的时间包络分辨率，并且所述编码进一步包括输出至少一些所述表示。进行对所述位流的接收和解码，所述解码采用所述音频信息、所述附带信息以及所述输出的表示。本发明的其他方面包括适于执行上述方法的设备、存储在计算机可读介质上以用于使计算机执行上述方法的计算机程序、由上述方法生成的位流、以及由适于进行上述方法的设备生成的位流。
具体实施例方式图I示出了可以采用本发明方面的编码器或编码处理环境的示例。将诸如PCM信号的多个音频输入信号、各个模拟音频信号的时间采样(I到η)应用到相应的时域到频域转换器或者转换功能块(“T/F”)2-1至2-η。音频信号例如可表示诸如左、中、右等的空间方向。例如可通过如下操作来实现各T/F :将输入音频采样划分为多个块、对这些块进行加窗(windowing)、使这些块交叠、通过计算离散频率变换(DFT)来将经加窗和交叠的块中的每一块变换到频域、并且采用例如等效矩形频带(ERB)尺度(scale)将所得频谱划分为模拟人耳临界频带的多个频带，例如二十一个频带。这种DFT处理在本领域中是广为公知的。可采用其他的时域到频域转换参数和技术。具体参数或是具体技术对于本发明来说并非关键。然而，出于易于解释的目的，下面的描述假设采用这种DFT转换技术。T/F 2-1至2-η的多个频域输出中的每一个是一组谱系数。这些组可分别表示为￥[101至￥[ 11。可将所有这些组应用于基于块的编码器或编码器功能块(“基于块的编码器”)4。基于块的编码器例如可以是上述的已知基于块的编码器中的单独任一种或有时是它们的组合，或者是包括上述这些编码器的变型的任何未来的基于块的编码器。尽管本发明的方面尤其适于与在编码和解码期间不保留离散声道的基于块的编码器结合来使用，但是本发明的方面事实上与任何基于块的编码器结合都是有用的。典型的基于块的编码器4的输出的特征为“音频信息”和“附带信息”。音频信息例如可包括表示多个信号声道的数据(如可能在基于块的编码系统(例如，AC-3、AAC及其他) 中存在的)，或者该音频信息可仅包括通过缩混多个输入声道而获得的单个声道，例如上述心理声学编码系统及参数立体声编码系统(还可利用例如AAC或某一其他适合编码对心理声学编码编码器或参数立体声编码系统中的缩混声道进行感知编码)。该音频信息还可以包括通过缩混多个输入声道而获得的单个声道或多个声道，例如在Davis等人于2004年7月 14 日提交的题为 “Low Bit Rate Audio Encoding and Decoding in Which MultipleChannels are Represented By Monophonic Channel and Auxiliary Information，，的美国临时专利申请S. N. 60/588256中所公开的。在此通过引用并入所述S. N. 60/588256的全部内容。附带信息可包括与音频信息相关且在对其进行解码时有用的数据。在各种缩混编码系统的情况下，附带信息例如可包括如下空间参数，诸如声道间幅值差、声道间时间差或相位差以及声道间互相关性。然后可将来自基于块的编码器4的音频信息和附带信息应用于相应的频域到时域转换器或转换功能块(“F/T”)6，所述频域到时域转换器或转换功能块(“F/T”)6中的每一个通常执行上述T/F的相反功能，即逆FFT，接着进行加窗和交叠相加。将来自F/T 6的时域信息应用于提供经编码的位流输出的位流打包器或打包功能块(“位流打包器”)10。另选的是，如果编码器要提供表示频域信息的位流，则可省略F/T 6。还将来自基于块的编码器4的频域音频信息和附带信息应用于解码估计器或估计功能块(“解码估计器”)14。解码估计器14可模拟被设计用来对位流打包器10提供的编码位流进行解码的解码器或解码功能块的至少一部分。下面结合图2来描述这种解码器或解码功能块的示例。解码估计器14可提供多组谱系数X [k]!到X[k]n，多组谱系数X [k]!到X [k] n近似于对应输入音频信号的多组谱系数Y [k]!到Y [k] n (期望要在解码器或解码功能块处获得)。另选的是，可以为少于所有输入音频信号、为少于输入音频信号的所有时间块、以及/或者为少于所有频带，提供这种谱系数(即，它可能不提供所有谱系数)。这例如可能起因于希望仅改进表示被认为比其他声道更重要的声道的输入信号。作为另一示例，这可能起因于希望仅改进信号中的、人耳对其时间波形包络的精细细节更为敏感的较低频部分。将T/F 2-1至2-η的频域输出、即多组谱系数￥[101到￥[1011中的每一个也分别应用于相应的比较设备或功能块(“比较”)12-1至12-η。在相应的比较12-1至12_η中将这些组与对应多组对应时间块的估计谱系数X[k]jljX[k]n的进行比较。将各比较12-1至12-η中的比较结果分别应用于滤波器计算器或计算功能块(“滤波器计算”)15-1至15-η。该信息应当足以进行各滤波器计算以限定各时间块的滤波器系数，所述滤波器在应用于输入信号的解码重构之后应得到具有提高的分辨率的时域包络的信号。换言之，该滤波器将对信号进行整形以使得它更为接近地复制原始信号的时间包络。提高的分辨率是比块率更精细的分辨率。下面将进一步具体阐述优选滤波器。尽管图I中的示例示出了在频域上的比较和滤波器计算，但是原理上也可在时域上进行比较和滤波器计算。无论在频域还是在时域上进行，每时间块仅确定一个滤波器结构(尽管可将相同的滤波器结构应用于某一数量的连续时间块)。尽管原理上可逐带地(例如，每ERB尺度的频带地)确定滤波器结构，但是执行该操作将需要发送大量附带信息位，这将消除本发明的优势，即，以较低的比特率增长来提高时域包络分辨率。将各比较12-1至12-η中的比较测定值分别应用于判定设备或功能块(“判定”) 16-1至16-η。各判定将比较测定值与阈值相比较。比较测定值可采取各种形式且并非关键。例如，可计算各对应系数值之差的绝对值并对这些差求和，来提供单个数目，其值表示在一时间块期间信号波形彼此不同的程度。可将该数目与阈值进行比较，使得如果该数目超过了阈值，则向对应的滤波器计算提供“是”指示。在没有“是”指示的情况下，可能禁止对于该块的滤波器计算，或者如果计算的话，则它们可能不通过滤波器计算输出。各信号的这种是/否信息构成了可能还应用于位流打包器10以包括在位流中的标志(因此，可能有多个标志，每个输入信号一个，并且这些标志中的每一个可由一位来表示)。另选的是，代替来自对应比较12-1至12-η的信息，或者除了来自对应比较12_1至12-η的信息之外，各判定16-1至16-η还可能接收来自对应滤波器计算14_1至14_η的信息。相应的判定16可采用计算出的滤波器特性(如，其平均值或其峰值幅值)作为进行判定的基础或辅助进行判定。如上所述，各滤波器计算14-1至14-η提供了比较结果的表示，这可能构成滤波器系数，所述滤波器在应用于经解码重构的输入信号时将得到具有分辨率提高的时间包络的信号。如果谱估计谱系数XDO1到乂^丸是不完全的(在解码估计器针对少于所有输入音频信号、针对少于输入音频信号的所有时间块、并且/或者针对少于所有频带，提供谱系数的情况下)，则可能对于所有时间块、频带和输入信号，不存在各比较12-1至12-η的输出。读者应当注意，X [k] i到X [k]n是指经重构的输出，而Y [k] i到Y [k]n是指输入。可将各滤波器计算14-1至14-η的输出应用于位流集合器10。尽管可将滤波器信息与位流分开发送，但是优选地将其作为位流的一部分并作为附带信息的一部分来发送。当将本发明的方面应用于现有的基于块的编码系统时，可将由本发明的方面提供的附加信息插入到这些系统的位流的、旨在载带附加信息的部分中。在实际实施例中，可以按照某种方式，不仅对音频信息而且或许对附带信息和滤波器系数进行量化或编码来是它们的发送成本最小化。然而，出于简洁表示的目的并因为这种细节是广为公知的且无助于理解本发明，在图中未示出量化和反量化。频域中的维纳滤波器设计滤波器计算设备或功能块14-1至14-η中的每一个优选地在频域表征了 FIR滤波器，其表示获得信号声道的原始时间包络的更精确再现所需的时域中的乘法改变。该滤波器问题可公式化为最小二乘问题，这通常称作维纳滤波器设计。例如参见X. Rong Li，Probability, Random Signals, and Statistics, CRC Press 1999, New York, pp. 423。应用维纳滤波器技术具有减少将整形滤波器信息传输到解码器所需的附加位的优点。通常在时域设计并应用维纳滤波器的常规应用。可如下定义频域最小二乘滤波器设计问题给定原始信号的DFT谱表示Y[k]以及这种原始声道的近似的DFT谱表示X[k]，计算使式I最小化的一组滤波器系数(am)。注意，Y[k]和X[k]是复数值，由此通常am也是复数。
权利要求
1.一种用于对解码的输出信号的时间包络进行整形以更接近地近似于输入信号的时间包络的方法，所述方法包括接收包含缩混信号和包络附带信息的经空间编码的位流，其中所述缩混信号包括被划分成时隙的音频信息，并且包络附带信息与音频信息相关并且在对解码的输出信号的时间包络进行整形时有用，包络附带信息表示输入信号的包络与从缩混信号导出的信号的包络的比较的结果，缩混信号至少从所述输入信号缩混，对所述经空间编码的位流进行解码以产生解码的输出信号，以及根据包络附带信息对解码的输出信号的时间包络进行整形以更接近地近似于输入信号的时间包络。
2.根据权利要求I所述的方法，其中，时隙的粒度与相对于缩混信号的包络的输入信号的包络相关。
3.根据权利要求I所述的方法，其中，对位流进行解码包括利用所述包络附带信息控制去相关整形滤波器。
4.根据权利要求I所述的方法，其中，输入信号的包络与从缩混信号导出的信号的包络的比较包括被比较的包络的附带信息中的表示。
5.根据权利要求I所述的方法，其中，经空间编码的位流包括由一个或多个输入音频信号构成的位流。
6.根据权利要求5所述的方法，其中，所述一个或多个输入音频信号包括多信道声场。
7.根据权利要求I所述的方法，其中，音频信息被划分成的时隙中的每一个包含时间块。
8.根据权利要求7所述的方法，其中，时隙的粒度包含由时间块的块率限制的分辨率。
9.根据权利要求7所述的方法，其中，时间块具有限制包络附带信息的分辨率的块率。
10.根据权利要求I所述的方法，其中，从缩混信号导出的信号包括所述输入信号的经估计解码的重构。
11.一种用于对解码的输出信号的时间包络进行整形以更接近地近似于输入信号的时间包络的设备，所述设备包括用于接收包含缩混信号和包络附带信息的经空间编码的位流的装置，其中所述缩混信号包括被划分成时隙的音频信息，并且包络附带信息与音频信息相关并且在对解码的输出信号的时间包络进行整形时有用，包络附带信息表示输入信号的包络与从缩混信号导出的信号的包络的比较的结果，缩混信号至少从所述输入信号缩混，用于对所述经空间编码的位流进行解码以产生解码的输出信号的装置，以及用于根据包络附带信息对解码的输出信号的时间包络进行整形以更接近地近似于输入信号的时间包络的装置。
12.根据权利要求11所述的设备，其中，时隙的粒度与相对于缩混信号的包络的输入信号的包络相关。
13.根据权利要求11所述的设备，其中，用于对位流进行解码的装置包括用于利用所述包络附带信息控制去相关整形滤波器的装置。
14.根据权利要求11所述的设备，其中，输入信号的包络与从缩混信号导出的信号的包络的比较包括被比较的包络的附带信息中的表示。
15.根据权利要求11所述的设备，其中，经空间编码的位流包括由一个或多个输入音频信号构成的位流。
16.根据权利要求15所述的设备，其中，所述一个或多个输入音频信号包括多信道声场。
17.根据权利要求11所述的设备，其中，音频信息被划分成的时隙中的每一个包含时间块。
18.根据权利要求17所述的设备，其中，时隙的粒度包含由时间块的块率限制的分辨率。
19.根据权利要求17所述的设备，其中，时间块具有限制包络附带信息的分辨率的块率。
20.根据权利要求11所述的设备，其中，从缩混信号导出的信号包括所述输入信号的经估计解码的重构。
全文摘要
本发明涉及利用频域维纳滤波对空间音频编码进行时间包络整形。特定类型的参数空间编码编码器采用声道间幅值差、声道间时间差以及声道间相干或相关性来建立多声道声场的参数模型，解码器采用该参数模型来构造对原始声场的近似。然而，所述参数模型没有构造声场声道的原始时间包络，而声场声道的原始时间包络被发现对于一些音频信号极为重要。本发明在空间编码系统中对一个或更多个解码声道的时间包络进行整形以更好地与一个或更多个原始时间包络相匹配。
文档编号G10L19/008GK102968996SQ201210467810
公开日2013年3月13日申请日期2005年8月15日优先权日2004年8月25日
发明者马克·S·温顿, 阿兰·J·泽费尔特申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马克·S·温顿;阿兰·J·泽费尔特
技术所有人：杜比实验室特许公司
我是此专利的发明人

上一篇：一种语音识别方法及系统的制作方法
上一篇：一种音频信号的混音方法及装置的制作方法