使用扩展带频率编码的复变换信道编码的制作方法

文档序号:2833077阅读:222来源:国知局
专利名称:使用扩展带频率编码的复变换信道编码的制作方法
使用扩展带频率编码的复变换信道编码本发明专利申请是国际申请号为PCT/US2007/000021,国际申请日为2007年I月3日,进入中国国家阶段的申请号为200780002567.0,名称为“使用扩展带频率编码的复变换信道编码”的发明专利申请的分案申请。
背景技术
工程师使用各种技术以在保持数字音频的质量的同时高效地处理数字音频。为理解这些技术,理解在计算机中如何表示和处理音频信息是有帮助的。
_3] I.计算机中音频信息的表示计算机将音频信息处理为表示音频信息的一系列数字。例如,单个数字可表示一个音频样本,该样本在特定时刻是一幅值。若干因素影响了音频信息的质量,包括样本深度、采样速率和声道模式。 样本深度(或精度)指示用于表示一个样本的数字的范围。对样本的可能值越多,质量也越高,因为该数字能捕捉幅度的更细微变化。例如,8位样本具有256个可能值,而16位样本具有65,536个可能值。采样速率(通常是作为每秒的样本数来测量的)也影响质量。采样速率越高,质量就越高,因为可表示更多声音频率。一些常见的采样速率是8,000、11,025,22, 050,32, 000,44, 100,48, 000 和 96,000 样本 / 秒。单声道和立体声是对于音频的两种常见的声道模式。在单声道模式中,音频信息存在于一个声道中。在立体声模式中,音频信息存在于通常标为左声道和右声道的两个声道中。具有更多声道,诸如5. I声道、7. I声道或9. I声道环绕声(“I指示亚低音扬声器或低频音效声道)的其它模式也是可能的。”表I示出了具有不同质量水平的若干音频格式,以及对应的原始比特率成本。
样本深度采样速率模式原始比特率
__(位/样本) (样本/秒)___(比特/秒)
因特网电话__8__8,000__单声道 64,000
电话__8__11,025__单声道 88,200
CD 音频_[_16_ 44,100_I 立体声 I I,411,200表I :用于不同质量音频信息的比特率环绕声音频通常具有甚至更高的原始比特率。如表I所示,高质量音频信息的成本是高比特率。高质量音频信息消耗了大量的计算机存储和传输能力。然而,公司和消费者越来越依赖于计算机来创建、分发和回放高质量音频内容。II.在计算机中处理音频信息许多计算机和计算机网络缺少处理原始数字音频的资源。压缩(也称为编码或译码)通过将信息转换成较低比特率的形式降低了储存和传送音频信息的成本。解压(也称为解码)从压缩形式中提取原始信息的重构版本。编码器和解码器系统包括微软公司的Windows媒体音 频(“WMA”)编码器和解码器以及WMA Pro编码器和解码器的某些版本。压缩可以是无损(其中质量不受损害)或有损(其中质量受到损害,但是因随后的无损压缩而得到的比特率减小更显著)。例如,使用有损压缩来逼近原始音频信息,然后对该逼近进行无损压缩。无损压缩技术包括行程长度编码、行程等级编码、可变长度编码以及算术编码。对应的解压技术(也称为熵解码技术)包括行程长度解码、行程等级解码、可变长度解码和算术解码。音频压缩的一个目的是数字地表示音频信号以用可能的最少量比特来提供所察觉信号的最大质量。有了这一目的作为目标,各种当代的音频编码系统利用了各种不同的有损压缩技术。这些有损压缩技术通常涉及在频率变换之后的知觉建模/加权和量化。相应的解压涉及反量化、反加权和频率反变换。频率变换技术将数据转换成使得能更容易地将知觉上不重要的信息与知觉上重要的信息相分离的形式。较不重要的信息然后可进行更有损的压缩,而较重要的信息被保留,以提供对给定比特率的最佳察觉质量。频率变换通常接收音频样本,并将其从时域转换成频域中的数据,该数据有时也称为频率系数或频谱系数。知觉建模涉及根据人类听觉系统的模型来处理音频数据以改进对给定比特率的重构音频信号的察觉质量。例如,一听觉模型通常考虑人类听见的范围和临界频带。使用知觉建模的结果,编码器以最小化对给定比特率的失真可听见性为目标来对音频数据中的失真(例如,量化噪声)整形。量化将输入值的范围映射到单个值,从而引入了不可逆的信息损失,但也允许编码器调节输出的质量和比特率。有时,编码器结合调整量化的速率控制器来执行量化以调节比特率和/或质量。有各种类型的量化,包括自适应和非自适应、标量和向量、均匀和非均匀。知觉加权可被认为是一种形式的非均匀量化。反量化和反加权将加权的、量化的频率系数数据重构成原始的频率系数数据的逼近。频率反变换然后将重构的频率系数数据转换成重构的时域音频样本。音频声道的联合编码涉及将来自多于一个声道的信息一起编码以降低比特率。例如,中/侧编码(mid/side coding)(也称为M/S编码或和-差编码)涉及在编码器处对左和右立体声声道执行矩阵运算,并将所得的“中”和“侧”声道(归一化的和和差声道)发送到解码器。解码器从“中”和“侧”声道中重构实际物理声道。Μ/S编码是无损的,从而允许在编码过程不使用其它有损技术(例如,量化)的情况下进行完美的重构。强度立体声编码是可在低比特率下使用的有损联合编码技术的一个示例。强度立体声编码涉及在编码器处将左和右声道相加,然后在重构左和右声道期间在解码器处对来自和声道的信息进行缩放。通常,强度立体声编码是在较高频率下执行的,其中此有损技术引入的伪像较不会引起注意。给定压缩和解压对于媒体处理的重要性,压缩和解压是丰富开发的领域并不是令人惊奇的。然而,不论现有技术和系统有什么优点,它们都没有此处所描述的技术和系统的各种优点。

发明内容
提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些概念。本概述并不旨在标识要求保护的主题的关键特征或本质特征,也不旨在用于帮助确定要求保护的主题的范围。概括而言,详细描述涉及用于编码和解码多声道音频的策略。例如,一音频解码器使用一种或多种技术来改善多声道音频数据的质量和/或比特率。这改善了总体收听体验,并且使得计算机系统成为用于创建、分发和回放高质量多声道音频的更引人注目的平台。此处所描述的编码和解码策略包括可组合或独立使用的各种技术和工具。例如,一音频编码器接收多声道音频数据,该多声道音频数据包括一组多个源声道。编码器对该多声道音频数据执行声道扩展编码。声道扩展编码包括对用于该组的组合声道进行编码,并确定用于将该组的各个源声道表示为已编码的组合声道的经修改的形式 的多个参数。编码器还对该多声道音频数据执行频率扩展编码。频率扩展编码可包括,例如将多声道音频数据中的频带划分成基带组和扩展带组,并且基于基带组中的音频系数对扩展带组中的音频系数编码。作为另一示例,一音频解码器接收包括声道扩展编码数据和频率扩展编码数据的已编码多声道音频数据。该解码器使用声道扩展编码数据和频率扩展编码数据来重构多个音频声道。声道扩展编码数据包括用于多个音频声道的组合声道,以及用于将多个音频声道的各个声道表示为组合声道的经修改的形式的多个参数。作为另一示例,音频解码器接收多声道音频数据,并对所接收的多声道音频数据执行多声道反变换、基本时-频反变换、频率扩展处理和声道扩展处理。解码器可执行对应于在编码器中执行的编码的解码,和/或诸如接收数据的前向复变换等附加步骤,并且可用各种次序来执行这些步骤。对于此处关于音频编码器所描述的几个方面,音频解码器执行对应的处理和解码。参考附图阅读以下详细描述,将更清楚前述和其它目的、特征和优点。


图I是可结合来实现所描述的各实施例的通用操作环境的框图。图2、3、4和5是可结合来实现所描述的各实施例的通用编码器和/或解码器的框图。图6是示出示例小块配置的图。图7是示出用于多声道预处理的通用技术的流程图。图8是示出用于多声道后处理的通用技术的流程图。图9是示出用于在声道扩展编码中导出用于组合声道的复比例因子的技术的流程图。图10是示出用于在声道扩展解码中使用复比例因子的技术的流程图。图11是示出声道重构中对组合声道系数的缩放的图。图12是示出实际功率比与在定位点处从功率比内插的功率比的图形比较的图表。
图13-33是示出某些实现中的声道扩展处理的细节的等式和相关矩阵排列。图34是执行频率扩展编码的编码器的各方面的框图。图35是示出用于编码扩展带子带的示例技术的流程图。图36是执行频率扩展解码的解码器的各方面的框图。图37是执行声道扩展编码和频率扩展编码的编码器的各方面的框图。图38、39和40是执行声道扩展解码和频率扩展解码的解码器的各方面的框图。图41是示出用于两个音频块的位移向量的表示的图。图42是示出具有用于比例参数的内插的定位点的音频块的排列的图。
具体实施例方式描述了用于表示、编码和解码音频信息的各种技术和工具。这些技术和工具便于即使以非常低的比特率来创建、分发和回放高质量音频内容。本文描述的各种技术和工具可以独立使用。某些技术和工具也可以结合使用(例如,在组合的编码和/或解码过程的各不同阶段)。如下将参考处理动作的流程图描述各种技术。在流程图中示出的各种处理动作可以合并为更少的动作或者分割成更多的动作。为了简明,在特定流程图中示出的各动作与在其它地方描述的各动作之间的关系通常没有示出。在许多情况下,可以重排流程图中的动作。大部分详细描述着眼于表示、编码和解码音频信息。此处所描述的用于表示、编码和解码音频信息的许多技术和工具也可应用于视频信息、静止图像信息或在单个或多个通道中发送的其它媒体信息。I.计算环境图I示出了其中可实现所描述的实施例的合适计算环境100的一个通用示例。计算环境100并非对使用范围或功能提出任何限制,因为所描述的实施例可以在完全不同的通用或专用计算环境中实现。参考图I,计算环境100包括至少一个处理单元110和存储器120。在图I中,这一最基本配置130包括在虚线内。处理单元110执行计算机可执行指令,且可以是真实或虚拟处理器。在多处理系统中,多个处理单元执行计算机可执行指令以提高处理能力。存储器120可以是易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPR0M、闪存)或两者的某一组合。存储器120储存实现根据一个或多个所描述的实施例的一个或多个音频处理技术和/或系统的软件180。计算环境可具有额外的特征。例如,计算环境100包括存储140、一个或多个输入设备150、一个或多个输出设备160以及一个或多个通信连接170。诸如总线、控制器或网络等互连机制(未示出)将计算环境100的组件互连。通常,操作系统软件(未示出)为在计算环境100中执行的软件提供了操作环境,并协调计算环境100的组件的活动。存储140可以是可移动或不可移动的,且包括磁盘、磁带或磁带盒、⑶、DVD或可用于储存信息并可在计算环境100内访问的任何其它介质。存储140储存用于软件180的指令。输入设备150可以是诸如键盘、鼠标、笔、触摸屏或跟踪球等触摸输入设备、语音输入设备、扫描设备或向计算环境100提供输入的另一设备。对于音频或视频,输入设备150可以是话筒、声卡、显卡、TV调谐卡、或接受模拟或数字形式的音频或视频输入的类似的设备、或将音频或视频样本读入计算环境的CD或DVD。输出设备160可以是显示器、打印机、扬声器、CD/DVD刻录机、网络适配器、或从计算环境100提供输出的另一设备。通信连接170允许通过通信介质到一个或多个其它计算实体的通信。通信介质传达诸如计算机可执行指令、音频或视频信息、或数据信号形式的其它数据等的信息。已调制数据信号是其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非局限,通信介质包括以电、光、RF、红外、声学或其它载体实现的有线或无线技术。 各实施例可以在计算机可读介质的一般上下文中描述。计算机可读介质是可在计算环境内访问的任何可用介质。作为示例而非局限,对于计算环境100,计算机可读介质包括存储器120、存储140、通信介质以及上述任一个的组合。各实施例可在诸如程序模块中所包括的在真实或虚拟目标处理器上的计算环境中执行的计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。程序模块的功能可以如各实施例中所需地组合或在程序模块之间拆分。用于程序模块的计算机可执行指令可以在本地或分布式计算环境中执行。出于表示的目的,详细描述使用了如“确定”、“接收”和“执行”等术语来描述计算环境中的计算机操作。这些术语是由计算机执行的操作的高级抽象,且不应与人类所执行的动作混淆。对应于这些术语的实际的计算机操作取决于实现而不同。II不例编码器和解码器图2示出了其中可实现一个或多个所描述的实施例的第一音频编码器200。编码器200是基于变换的知觉音频编码器200。图3示出了对应的音频解码器300。图4示出了其中可实现一个或多个所描述的实施例的第二音频编码器400。编码器400也是基于变换的知觉音频编码器,但是编码器400包括用于处理多声道音频的附加模块。图5示出了对应的音频解码器500。尽管图2到5所示的系统是通用的,但其各自都具有可在真实系统中找到的特性。在任何情况下,在编码器和解码器内的模块之间示出的关系指示了编码器和解码器中的信息流;为简明起见未示出其它关系。取决于所需的实现和压缩类型,编码器或解码器的模块可被添加、省略、拆分成多个模块、与其它模块组合、和/或用类似模块来替换。在替换实施例中,根据一个或多个所描述的实施例,具有不同模块和/或其它配置的编码器/解码器处理音频数据或某一其它类型的数据。A.第一音频编码器编码器200以某一采样深度和速率接收输入音频样本205的时间序列。输入音频样本205是针对多声道音频(例如,立体声)或单声道音频的。编码器200压缩音频样本205,并多路复用由编码器200的各模块产生的信息以输出诸如WMA格式、如高级流格式(“ASF”)等容器格式、或其它压缩或容器格式等格式的比特流295。频率变换器210接收音频样本205,并将其转换成频率(或频谱)域中的数据。例如,频率变换器210将帧的音频样本(205)拆分成子帧块,块可以是可变的大小以允许可变时间分辨率。块可重叠以减小块之间否则会由稍后的量化引入的可察觉的不连续性。频率变换器210将时变调制重叠变换(“MLT” )、调制DCT ( “MDCT” )、MLT或DCT的某一其它变体、或某种其它类型的调制或非调制、重叠或非重叠频率变换应用于块,或使用子带或小波编码。频率变换器210向多路复用器(“MUX”)280输出频谱系数数据块,并输出诸如块大小等辅助信息。对于多声道音频数据,多声道变换器220可将多个原始的、独立编码的声道转换成联合编码的声道。或者,多声道变换器220可使左和右声道作为独立编码的声道通过。多声道变换器220向MUX 280产生指示所使用的声道模式的辅助信息。编码器200可在多声道变换之后向音频数据块应用多声道重新矩阵化。知觉建模器230对人类听觉系统的特性建模以改善对给定比特率的重构音频信号的察觉质量。知觉建模器230使用各种听觉模型中的任一种,并将激励模式信息或其它信息传递给加权器240。例如,一听觉模型通常考虑人类听见的范围和临界频带(例如,Bark频带)。除了范围和临界频带之外,音频信号之间的相互作用可显著影响知觉。另外,听觉模型可以考虑与人类对声音的感知的物理或神经方面有关的各种其它因素。 知觉建模器230输出加权器240用于对音频数据中的噪声整形以降低噪声的可听见性的信息。例如,使用各种技术中的任一种,加权器240基于所接收到的信息生成用于量化矩阵(有时称为掩码)的加权因子。用于量化矩阵的加权因子包括用于该矩阵中的多个量化带中的每一个的权重,其中量化带是频率系数的频率范围。由此,加权因子指示噪声/量化误差在量化带上分布的比例,由此控制了噪声/量化误差的频谱/时间分布,且其目标是通过在听见程度较小的频带中放入较多噪声(反之亦然)来最小化噪声的可听见性。加权器240然后向从多声道变换器220接收到的数据应用加权因子。量化器250量化加权器240的输出,从而向熵编码器260产生量化的系数数据,并向MUX 280产生包括量化步长的辅助信息。在图2中,量化器250是自适应的、均匀的标量量化器。量化器250向每一频谱数据应用相同的量化步长,但是量化步长本身可在量化循环的各个迭代之间变化以影响熵编码器260输出的比特率。其它种类的量化有非均匀、向量量化和/或非自适应量化。熵编码器260无损地压缩从量化器250接收到的量化的系数数据,例如执行行程级别编码和向量可变长度编码。熵编码器260可计算编码音频信息所花费的比特数并将该信息传递到速率/质量控制器270。控制器270与量化器250 —起工作以调节编码器200的输出的比特率和/或质量。控制器270以满足比特率和质量约束为目标向量化器250输出量化步长。另外,编码器200可向音频数据块应用噪声替代和/或频带截断。MUX 280多路复用从音频编码器200的其它模块接收到的辅助信息以及从熵编码器260接收到的经熵编码的数据。MUX 280可包括储存要由编码器200输出的比特流295的虚拟缓冲器。B.第一音频解码器解码器300接收包括经熵编码的数据以及辅助信息的压缩音频信息的比特流305,从该比特流中,解码器300重构音频样本395。多路分解器(“DEMUX”)310解析比特流305中的信息,并将该信息发送到解码器300的各模块。DEMUX 310包括一个或多个缓冲器以补偿由于音频复杂性波动、网络抖动和/或其它因素而产生的比特率短期变化。熵解码器320无损地解压从DEMUX 310接收到的熵代码,从而产生经量化的频谱系数数据。熵解码器320通常应用编码器中使用的熵编码技术的反过程。反量化器330从DEMUX 310接收量化步长,并从熵解码器320接收经量化的频谱系数数据。反量化器330向经量化的频率系数数据应用量化步长,以部分地重构频率系数数据,或以其它方式执行反量化。噪声生成器340从DEMUX 310接收指示数据块中的哪些频带进行了噪声替代以及用于该形式的噪声的任何参数的信息。噪声生成器340生成用于所指示的频带的模式,并将该信息传递给反加权器350。 反加权器(350)从DEMUX (310)接收加权因子,从噪声生成器(340)接收任何经噪声替代的模式,并从反量化器(330)接收部分重构的频率系数数据。在必要时,反加权器350解压加权因子。反加权器350将加权因子应用于对未经噪声替代的频带的部分重构的频率系数数据。反加权器350然后对经噪声替代的频带将从噪声生成器340接收到的噪声模式相加。反加权器350将加权因子应用于对未经噪声替代的频带的部分重构的频率系数数据。反加权器350然后对经噪声替代的频带将从噪声生成器340接收到的噪声模式相加。多声道反变换器360从反加权器350接收重构的频谱系数数据,并从DEMUX 310接收声道模式信息。如果多声道音频是独立编码的声道,则多声道反变换器360使该声道通过。如果多声道数据是联合编码的声道,则多声道反变换器360将数据转换成独立编码的声道。频率反变换器370接收由多声道变换器360输出的频谱系数数据以及来自DEMUX310的诸如块大小等辅助信息。频率反变换器370应用编码器中所使用的频率变换的反过程,并输出重构的音频样本395的块。、C.第二音频编码器参考图4,编码器400以某一采样深度和速率接收输入音频样本405的时间序列。输入音频样本405是针对多声道音频(例如,立体声、环绕)或单声道音频的。编码器400压缩音频样本405,并多路复用由编码器400的各模块产生的信息以输出诸如WMA Pro格式、如ASF等容器格式、或其它压缩或容器格式等格式的比特流295。编码器400在用于音频样本405的多个编码模式之间选择。在图4中,编码器400在混合/纯无损编码模式和有损编码模式之间切换。无损编码模式包括混合/纯无损编码器472,且通常用于高质量(以及高比特率)压缩。有损编码模式包括诸如加权器442和量化器460等组件,且通常用于可调整质量(以及受控比特率)压缩。选择决策取决于用户输入或其它准则。对于多声道音频数据的有损编码,多声道预处理器410可任选地对时域音频样本405重新矩阵化。例如,多声道预处理器410选择性地对音频样本405重新矩阵化以丢弃一个或多个已编码声道或增加编码器400中的声道间相关,但仍允许解码器500中的(某种形式的)重构。多声道预处理器410可将诸如用于多声道后处理的指令等辅助信息发送到MUX 490。加窗模块420将音频输入样本405的巾贞划分成子巾贞块(窗)。窗可具有时变大小和窗整形函数。当编码器400使用有损编码时,可变大小窗允许可变时间分辨率。加窗模块420向MUX 490输出划分的数据块,并输出诸如块大小等辅助信息。在图4中,小块配置器422在每一声道的基础上划分多声道音频的巾贞。小块配置器422在质量/比特率允许的情况下独立地划分帧中的每一声道。这允许例如小块配置器422隔离出现在特定声道中的具有较小的窗的瞬变,而为了其它声道中的频率分辨率或压缩效率使用较大的窗。这可通过在每一声道的基础上隔离瞬变来提高压缩效率,但是在许多情况下需要指定个别声道中的划分的附加信息。在时间上处于同一点处的相同大小的窗能够通过多声道变换来进行进一步的冗余度降低。由此,小块配置器422将时间上相同位置的相同大小的窗归组为小块。图6不出了用于5. I声道音频的巾贞的不例小块配置600。小块配置600包括七个小块,标号为O到6。小块O包括来自声道0、2、3和4的样本,并且覆盖了该帧的前四分之一。小块I包括来自声道I的样本,并覆盖了该帧的前一半。小块2包括来自声道5的样本,并覆盖了整个帧。小块3与小块O—样,但是覆盖了该帧的后一半。小块4和6包括声道0、2和3中的样本,并分别覆盖了该帧的第三和第四个四分之一。最后,小块5包括来自 声道I和4的样本,并覆盖了该帧的后一半。如图所示,一特定小块可包括非邻接声道中的窗。频率变换器430接收音频样本,并将其转换成频域中的数据,从而应用了如上对图2的频率变换器210所述的变换。频率变换器430向加权器442输出频谱系数数据块,并向MUX 490输出诸如块大小等辅助信息。频率变换器430向知觉建模器440输出频率系数和辅助信息两者。知觉建模器440对人类听觉系统的特性建模,从而根据一般如上参考图2的知觉建模器230所描述的听觉模型来处理音频数据。加权器442基于从知觉建模器440接收到的信息来生成用于量化矩阵的加权因子,一般如上参考图2的加权器240所描述的。加权器442向从频率变换器430接收到的数据应用加权因子。加权器442向MUX 490输出诸如量化矩阵和声道加权因子等辅助信息。量化矩阵可以被压缩。对于多声道音频数据,多声道变换器450可应用多声道变换,以利用声道间相关。例如,多声道变换器450向小块中的部分但不是全部声道和/或量化频带选择性地且灵活地应用多声道变换。多声道变换器450选择性地使用预定义的矩阵或自定义矩阵,并向自定义矩阵应用有效压缩。多声道变换器450向MUX 490产生指示例如所使用的多声道变换和经多声道变换的小块部分的辅助信息。量化器460量化多声道变换器450的输出,从而向熵编码器470产生经量化的系数数据,并向MUX 490产生包括量化步长的辅助信息。在图4中,量化器460是对每一小块计算一量化因子的自适应、均匀、标量量化器,但是量化器460也可执行某种其它量化。熵编码器470 —般如上参考图2的熵编码器260所述地无损地压缩从量化器460接收到的经量化的系数数据。控制器480与量化器460 —起工作以调节编码器400的输出的比特率和/或质量。控制器480以满足质量和/或比特率约束为目标向量化器460输出量化因子。混合/纯无损编码器472和相关联的熵编码器474压缩用于混合/纯无损编码模式的音频数据。编码器400对整个序列使用混合/纯无损编码模式,或在逐帧、逐块、逐小块或其它基础上在编码模式之间切换。MUX 490多路复用从音频编码器400的其它模块接收到的辅助信息以及从熵编码器470、474接收到的经熵编码的数据。MUX 490包括用于速率控制或其它目的的一个或多个缓冲器。D.第二音频解码器参考图5,第二音频解码器500接收压缩音频信息的比特流505。比特流505包括经熵编码的数据以及辅助信息,解码器500从这些数据和信息中重构音频样本595。DEMUX 510解析比特流505中的信息并将该信息发送到解码器500的其它模块。DEMUX 510包括一个或多个缓冲器以补偿由于音频复杂性波动、网络抖动和/或其它因素而产生的比特率短期变化。
熵解码器520无损地解压从DEMUX 510接收到的熵代码,通常应用编码器400中使用的熵编码技术的反过程。当解码以有损编码模式压缩的数据时,熵解码器520产生经量化的频谱系数数据。混合/纯无损解码器522和相关联的熵解码器520无损地解压用于混合/纯无损编码模式的无损编码音频数据。小块配置解码器530从DEMUX 590接收指示帧的小块的模式的信息,并在必要时对其解码。小块模式信息可被熵编码或以其它方式参数化。小块配置解码器530然后将小块模式信息传递到解码器500的各其它模块。多声道反变换器540从熵解码器520接收经量化的频谱系数数据,并从小块配置解码器530接收小块模式信息,并从DEMUX 510接收指示例如所使用的多声道变换和已变换的小块部分的辅助信息。使用该信息,多声道反变换器540在必要时解压变换矩阵,并向音频数据选择性地且灵活地应用一个或多个多声道反变换。反量化器/加权器550从DEMUX 510接收诸如小块和声道量化因子等信息以及量化矩阵,并从多声道反变换器540接收经量化的频谱系数数据。反量化器/加权器550在必要时解压所接收的加权因子信息。量化器/加权器550然后执行反量化和加权。频率反变换器560接收由反量化器/加权器550输出的频谱系数数据,以及来自DEMUX 510的辅助信息和来自小块配置解码器530的小块模式信息。频率反变换器570应用编码器中使用的频率变换的反过程,并向重叠器/累加器570输出各块。除了从小块配置解码器530接收小块模式信息之外,重叠器/累加器570还从频率反变换器560和/或混合/纯无损解码器522接收已解码信息。重叠器/累加器570在必要时重叠并累加音频数据,并交织用其它模式编码的帧或其它音频数据序列。多声道后处理器580可任选地重新矩阵化由重叠器/累加器570输出的时域音频样本。对于受比特流控制的后处理,后处理变换矩阵随时间变化,且在比特流505中用信号表示或包括在其中。III.多声道处理综沭本节是在某些编码器和解码器中使用的某些多声道处理技术的综述,包括多声道预处理技术、灵活多声道变换技术以及多声道后处理技术。A.多声道预处理某些编码器在时域中对输入音频样本执行多声道预处理。
在传统的编码器中,当有N个源音频声道作为输入时,编码器产生的输出声道的数目也是N。已编码声道的数目可与源声道一一对应,或者已编码声道可以是多声道变换编码的声道。然而,当源的编码复杂度使得压缩变得困难或者当编码缓冲区满时,编码器可更改或丢弃(即,不编码)原始输入音频声道或多声道变换编码的声道中的一个或多个。这样做可降低编码复杂度并改善所察觉到的音频的总质量。对于质量驱动的预处理,编码器可执行多声道预处理来作为对所测得的音频质量的反应,以便平滑地控制总体音频质量和/或声道分尚。例如,编码器可更改多声道音频图像以使得一个或多个声道较不重要,使得这些声道在编码器处被丢弃而在解码器处作为“幻影”或未编码声道来重构。这有助于避免对完全声道删除或严重量化的需求,而这可对质量有显著的影响。编码器可向解码器指示当已编码信道的数目小于用于输出的信道的数目时要采取什么动作。然后,可在解码器中使用多声道后处理变换以创建幻影声道。例如,编码器(通过比特流)可指示解码器通过对已解码的左和右声道求平均来创建幻影中声道。稍后,多声道变换可利用平均的反向左和右声道(没有后处理)之间的冗余度,或者编码器可指 示解码器对反向左和右声道执行某一多声道后处理。或者,编码器可以用信号通知解码器为另一目的而执行多声道后处理。图7示出了用于多声道预处理的通用技术700。编码器对时域多声道音频数据执行(710)多声道预处理,从而产生时域中的经变换的音频数据。例如,预处理涉及具有连续值的实元素的通用变换矩阵。该通用变换矩阵可被选择来人工增加声道间相关。这减少了对编码器的其余部分的复杂度,但是以损失声道分离为代价。输出然后被馈给编码器的其余部分,这些部分除了编码器可执行的任何其它处理之外,还使用参考图4所描述的技术或其它压缩技术来编码(720)数据,从而产生已编码的
多声道音频数据。编码器和解码器使用的句法可允许描述通用的或预定义的后处理多声道变换矩阵,该矩阵可以在帧到帧的基础上变化或打开/关闭。编码器可使用这一灵活性来限制立体声/环绕图像减损,从而通过人工增加声道间相关而在某些环境中在声道分离和更好的总质量之间折衷。或者,解码器和编码器可使用另一句法用于多声道预处理和后处理,例如,允许在除了帧到帧之外的基础上的变换矩阵改变的句法。B.灵活多声道变换某些编码器可执行有效地利用了声道间相关的灵活多声道变换。对应的解码器可执行对应的多声道反变换。例如,编码器可将多声道变换定位在知觉加权之后(并且解码器可将多声道反变换定位在反加权之前),使得跨声道泄漏的信号可被控制、测量并且具有与原始信号一样的频谱。编码器可在多声道变换前在频域中向多声道音频应用加权因子(例如,加权因子和每声道的量化步长修改量)。编码器可对加权的音频数据执行一个或多个多声道变换,并量化经多声道变换的音频数据。解码器可按特定的频率索引将来自多个声道的样本收集到一向量中,并执行多声道反变换来生成输出。随后,解码器可对多声道音频进行反量化和反加权,从而用掩码对多声道反变换的输出着色。由此,(由于量化)跨声道发生的泄漏可以在频谱上成形,使得泄漏信号的可听见性可被测量和控制,并且给定的重构声道中的其它声道的泄漏在频谱上与给定声道的原始的未破坏的信号一样成形。编码器可对多声道变换将声道分组,以限制哪些声道将被一起变换。例如,编码器可确定一小块内的哪些声道相关并将相关的声道分组。编码器可以在将声道分组以便进行多声道变换时考虑声道的信号之间的成对相关以及频带之间的相关,或者其它和/或附加的因素。例如,编码器可以计算声道中的信号之间的成对相关,然后相应地对声道分组。不是与一组中的任何声道成对地相关的声道仍可以与该组兼容。对于不与一组兼容的声道,编码器可以检查频带级兼容性,并相应地调整一组或多组声道。编码器可以标识在某些频带中与一组兼容,而在其它频带中不兼容的声道。在不兼容的频带处关闭变换可改善实际进行多声道变换编码的频带之间的相关并提高编码效率。声道组中的声道不需要是连续的。信号小块可以包括多个声道组,且每一声道组可以具有不同的相关联的多声道变换。在判定了哪些声道兼容之后,编码器可以将声道组信息放入比特流中。解码器然后可以从该比特流中检索和处理信息。编码器可以选择性地在频带级处打开或关闭多声道变换,以控制哪些频带将被一 起变换。以此方式,编码器可以选择性地排除在多声道变换中不兼容的频带。当对一特定频带关闭多声道变换时,编码器可对该频带使用恒等变换,从而使该频带处的数据不被更改地通过。频带的数量与音频数据的采样频率和小块大小有关。一般而言,采样频率越高或者小块大小越大,则频带数量越多。编码器可以对于一小块的声道组的各声道选择性地在频带级处打开或关闭多声道变换。解码器可以根据特定的比特流句法从比特流中检索用于一小块的声道组的多声道变换的频带开/关信息。编码器可以使用分层多声道变换来限制特别是解码器中的计算复杂度。采用分层变换,编码器可以将总的变换拆分成多个级,从而减少了各个级的计算复杂度,并且在某些情况下减少了指定多声道变换所需的信息量。使用此级联结构,编码器可以用较小的变换来仿真较大的总变换直到达到某一准确度。解码器然后可以执行相应的分层反变换。编码器可以组合多个多声道变换的频带/开关信息。解码器可以根据特定的比特流句法从比特流中检索用于声道组的多声道变换的分层结构的信息。编码器可使用预定义的多声道变换矩阵来减少用于指定变换矩阵的比特率。编码器可从多种可用的预定义矩阵类型中选择并在比特流中用信号表示所选的矩阵。某些类型的矩阵可能不需要在比特流中另外用信号表示。其它则需要另外的指定。解码器可检索指示矩阵类型的信息以及(如有必要)指定矩阵的附加信息。编码器可以计算并应用用于小块的声道的量化矩阵、每声道的量化步长修改量、以及总量化小块因子。这允许编码器根据听觉模型来对噪声整形、平衡声道间的噪声、并控制总失真。对应的解码器可以解码并应用总量化小块因子、每声道的量化步长修改量以及用于小块的声道的量化矩阵,并且可以将反量化和反加权步骤相组合。C.多声道后处理某些解码器在时域中对重构的音频样本执行多声道后处理。例如,已解码声道的数目可能小于用于输出的声道的数目(例如,由于解码器没有解码一个或多个输入声道)。如果是这样,则多声道后处理变换可用于基于已解码声道中的实际数据来创建一个或多个“幻影”声道。如果已解码声道的数目等于输出声道的数目,则后处理变换可用于呈现的任意空间旋转、扬声器位置之间的输出声道重新映射、或其它空间或特殊效果。如果已编码声道的数目大于输出声道的数目(例如,在立体声设备上播放环绕声音音频),则后处理变换可用于将声道“下折(fold down)”。用于这些情形和应用的变换矩阵可由编码器来提供或用信号通知。图8示出了用于多声道后处理的通用技术800。解码器解码(810)已编码多声道音频数据,从而产生重构的时域多声道音频数据。解码器然后对时域多声道音频数据执行(820)多声道后处理。当编码器产生多个已编码声道且解码器输出大量声道时,后处理涉及一通用变换以从较少数量已编码声道中产生较大数量的输出声道。例如,解码器取(时间上)位于同一点的样本,从每一重构的已编码声道中取出一个样本,然后用零来填充遗漏的任何声道(即,被编码器丢弃的声道)。解码器将这些样本与通用后处理变换矩阵相乘。通用后处理变换矩阵可以是具有预定元素的矩阵,或者它可以是具有由编码器指定的元素的通用矩阵。编码器用信号通知解码器使用预定矩阵(例如,用一个或多个标志 位),或者将通用矩阵的元素发送给解码器,或者解码器可以被配置成总是使用相同的通用后处理变换矩阵。为了得到附加的灵活性,可在逐帧或其它基础上打开/关闭多声道或处理(在这一情况下,解码器可使用单位矩阵来保持声道不变)。关于多声道预处理、后处理和灵活多声道变换的更多信息,参见题为“Multi-Channel Audio Encoding and Decoding”(多声道音频编码和解码)的美国专利申请公开号2004-0049379。IV.用于多声道咅频的声道扩展处理在用于编码多声道源的典型编码方案中,在编码器处执行使用诸如调制重叠变换(“MLT”)或离散余弦变换(“DCT”)等变换的时-频变换,而在解码器处执行相应的反变换。用于某些声道的MLT或DCT系数被一起分组到一声道组中,并且在这些声道上应用线性变换来获得要编码的声道。如果一立体声源的左和右声道是相关的,则它们可以使用和-差变换(也称为Μ/S或中/侧编码)来编码。这去除了两个声道之间的相关,使得需要较少的比特来编码它们。然而,在低比特率下,差声道可能不被编码(导致立体声图像的丢失),或者质量可能会对两个声道加重量化而受到损害。所描述的技术和工具对现有的联合编码方案(例如,中/侧编码、强度立体声编码等)提供了理想的替换。代替编码用于声道组(例如,左/右对、左前/右前对、左后/右后对或其它组)的和和差声道,所描述的技术和工具对一个或多个组合的声道(可以是声道的和、在应用了去相关变换之后的首要主分量、或某一其它组合声道)以及描述声道互相关和相应物理声道的功率的附加参数进行编码,并且允许重构维持声道互相关和相应物理声道的功率的物理声道。换言之,维持了物理声道的二阶统计量。这一处理可以被称为声道扩展处理。例如,使用复变换允许维持声道互相关和相应声道的功率的声道重构。对于窄带信号逼近,维持二阶统计量足以提供维持各个声道的功率和相位的重构,而无需发送明确相关系数信息或相位信息。所描述的技术和工具将未编码声道表示为已编码声道的修改形式。要编码的声道可以是实际的物理声道或物理声道的变换形式(例如,使用应用于每一样本的线性变换)。例如,所描述的技术和工具允许使用一个已编码声道和多个参数来重构多个物理声道。在一个实现中,这些参数包括两个物理声道之间的功率(也称为强度或能量)比以及每一频带的基础上的已编码声道。例如,为编码具有左(L)和右(R)立体声声道的信号,功率比为L/M和R/M,其中M是已编码声道(“和”或“单”声道)的功率,L是左声道的功率,而R是右声道的功率。尽管声道扩展编码可用于所有频率范围,但这不是必需的。例如,对于较低的频率,编码器可以同时编码一声道变换的各声道(例如,使用和和差),而对于较高的频率,编码器可以编码和声道和多个参数。所描述的实施例可以显著降低编码多声道源所需的比特率。用于修改声道的参数占据了总比特率的一小部分,从而为编码组合声道留出了更多比特率。例如,对于两声道的源,如果编码参数要占据可用比特率的10%,则90%的比特可用于编码组合声道。在许多情况下,即使在考虑了跨声道依赖性之后也存在相对编码两个声道的显著节省。声道可以在除上述2 I比率之外的重构声道/已编码声道比下重构。例如,解码器可以从单个已编码声道中重构左和右声道和中声道。其它安排也是可能的。此外,参数可以用不同的方式来定义。例如,参数可以在除每一频带的基础之外的基础上定义。 A.复变换和比例/形状参数在所描述的实施例中,编码器形成组合声道,并将参数提供给解码器以便对用于形成组合声道的声道的重构进行解码。解码器使用前向复变换来导出用于该组合声道的复系数(其各自具有实分量和虚分量)。然后,为了从组合声道中重构物理声道,解码器使用编码器所提供的参数来缩放复系数。例如,解码器从编码器提供的参数中导出比例因子,并将其用于缩放复系数。组合声道通常是和声道(有时称为单声道),但是也可以是物理声道的另一组合。在其中物理声道不同相且将声道相加将导致声道彼此抵消的情况下,组合声道可以是差声道(例如,左和右声道之差)。例如,编码器将用于左和右物理声道的和声道以及多个参数发送给解码器,这些参数可包括一个或多个复参数。(复参数是以某种方式从一个或多个复数中导出的,然而编码器发送的复参数(例如,包含虚数和实数的比率)本身可能不是复数)。编码器还可以仅发送解码器从中可导出用于缩放频谱系数的复比例因子的实参数。(编码器通常不使用复变换来编码组合声道本身。相反,编码器可使用若干编码技术中的任一种来编码组合声道。)图9示出了编码器执行的简化声道扩展编码技术900。在910除,编码器形成一个或多个组合声道(例如,和声道)。然后,在920处,编码器导出要连同组合声道一起发送给解码器的一个或多个参数。图10示出了解码器执行的简化的反声道扩展解码技术1000。在1010处,解码器接收用于一个或多个组合声道的一个或多个参数。然后,在1020处,解码器使用该参数来缩放组合声道系数。例如,解码器从参数中导出复比例因子并使用该比例因子来缩放系数。在编码器处的时-频变换之后,通常将每一声道的频谱划分成子带。在所描述的实施例中,编码器可为不同的频率子带确定不同的参数,并且解码器可使用编码器提供的一个或多个参数来对重构声道中的相应频带缩放组合声道的频带中的系数。在其中要从一个已编码声道中重构左和右声道的编码安排中,用于左和右声道的每一个的子带中的每一系数由已编码声道中的子带的缩放形式来表示。
例如,图11示出了在声道重构期间组合声道1120的频带1110中的系数的缩放。解码器使用编码器提供的一个或多个参数来导出解码器重构的左声道1230和右声道1240的对应子带中的经缩放 的系数。在一个实现中,左和右声道的每一个中的每一子带具有一比例参数和一形状参数。该形状参数可由编码器确定并发送给解码器,或者该形状参数可以通过取与所编码的位置相同的位置中的频谱系数来假设。编码器使用来自一个或多个已编码声道的频谱的经缩放的形式来表示一个声道中的所有频率。使用复变换(具有实数分量和虚数分量),使得对每一子带可以维持声道的跨声道二阶统计量。由于已编码声道是实际声道的线性变换,因此无需对所有声道发送参数。例如,如果使用N个声道编码P个声道(其中N < P),则无需对所有P个声道发送参数。关于比例和形状参数的更多信息在以下第V节中提供。参数可以在物理声道和组合声道之间的功率比改变时随着时间改变。因此,用于一帧中的频带的参数可以在逐帧的基础上或在某一其它基础上确定。在所描述的实施例中,用于当前帧中的当前频带的参数基于来自其它频带和/或其它帧的参数进行差异编码。解码器执行前向复变换来导出组合声道的复频谱系数。它然后使用在比特流中发送的参数(诸如功率比和用于互相关的虚-实比或归一化相关矩阵)来缩放频谱系数。复缩放的输出被发送到后处理滤波器。该滤波器的输出被缩放并相加以重构物理声道。无需对所有频带或对所有时间块执行声道扩展编码。例如,声道扩展编码可以在每一频带、每一块或某一其它基础上自适应地打开或关闭。以此方式,编码器可选择在高效或有益时执行此处理。其余的频带或块可以通过传统的声道去相关、不使用去相关或使用其它方法来处理。所描述的实施例中可实现的复比例因子限于特定边界内的值。例如,所描述的实施例在对数域中编码参数,并且值由声道之间的可能互相关的量来界定。可以使用复变换从组合声道中重构的声道不限于左和右声道对,组合声道也不限于左和右声道的组合。例如,组合声道可以表示两个、三个或更多物理声道。从组合声道重构的声道可以是诸如左后/右后、左后/左、右后/右、左/中、右/中和左/中/右等组。其它组也是可能的。重构的声道都可以使用复变换来重构,或者某些声道可以使用复变换来重构,而其它声道则不能。B.参数内插编码器可使用确定显式参数的定位点并在定位点之间内插参数。定位点之间的时间量以及定位点的数量取决于内容和/或编码器侧决定可以是固定的或变化的。当选择时刻t处的一定位点时,编码器可对频谱中的所有频带使用该定位点。或者,编码器可对不同频带选择不同时刻的定位点。图12是实际功率比与在定位点处从功率比内插的功率比的图形比较。在图12所示的示例中,内插平滑了功率比中的变化(例如,在定位点1200和1202、1202和1204、1204和1206以及1206和1208之间),这有助于避免因频繁变化的功率比而引起的伪像。编码器可以打开或关闭内插,或者完全不内插参数。例如,编码器可选择在功率比变化随时间较平缓的时候内插参数,或在参数在各帧之间(例如,在图12中的定位点1208和1210之间)并没有改变太多时关闭内插,或在参数改变太迅速以致于内插将提供参数的不准确表示时关闭内插。C.详细解释通用线性声道变换可被写为Y = AX,其中X是来自P个声道的一组L个系数向量(PXL维矩阵),A是P X P声道变换矩阵,而Y是来自要编码的P个声道的一组L个已变换向量(PXL维矩阵)。L(向量维数)是线性声道变换算法在其上操作的给定子帧的频带大小。如果编码器编码了 Y中的P个声道中的子集N,则这可被表达为Z = BX,其中向量Z是NXL矩阵,而B是通过取矩阵Y中对应于要编码的N个声道的N行来形成的NXP矩阵。从N个声道重构涉及在编码了向量Z之后与矩阵C的另一矩阵乘法以获得W = CQ(Z),其中Q表示向量Z的量化。代入Z给出等式W = CQ(BX)。假设量化噪声是可忽略的,则W = CBX0C可被适当选择以维持向量X和W之间的跨声道二阶统计量。以等式的形式,则可被表示为ffff* = CBXX*B*C* = XX*,其中 XX* 是对称 PxP 矩阵。由于XX*是对称的PXP矩阵,因此在该矩阵中有P(P+1)/2的自由度。如果N > =(P+D/2,则有可能得到PXN的矩阵C,使得该等式得到满足。如果N< (P+l)/2,则需要更多信息来求解此式。如果情况如此,则可使用复变换来得到满足该约束的某一部分的其它解。例如,如果X是复向量并且C是复矩阵,则可试图找出C,使得Re(CBXXi^Cf)=Re (XX*)。根据这一等式,对于适当的复矩阵C,对称矩阵XX*的实部等于对称矩阵乘积CBXX*B*C* 的实部。示例I :对于其中M = 2目.N = I的情况,则ΒΧΧ*Β*简单地是实标量(LXl)矩阵,称为a。求解图13中所示的等式。如果Btl = B1= β (是某一常量),则图14中的约束成立。在求解时,对|cQ|、C1和IccJ ο1|οο8(φ0-φ1)得到图15所示的值。编码器发送|cQ|和
C1I。然后,可以使用图16所示的约束来求解。从图15中应当清楚,这些量本质上是功率比L/M和R/Μ。图16所示的约束中的符号可以用于控制相位的符号,使得它匹配XX*的虚部。这允许求解Φο-Φ:,但不允许求解实际值。为了求解确切的值,作出另一假设,即维持了用于每一系数的单声道的角度,如图17所表达的。为了维护这一角度,I C01 sin Φ 0+1 C11 sin Φ i=O是足够的,这给出了图18所示的对于Φ(!和(J)1的结果。使用图16所示的约束,可以求解两个标量因子的实部和虚部。例如,两个标量因子的实部可以通过如图19所示分别求解I C。I COSitc^P IC1Icosiji1来找到。两个标量因子的虚部可以通过如图20所示分别求解I Ctl I sin<ji C1和IC1Isincji1来找到。由此,当编码器发送复比例因子的绝对值时,解码器能够重构维持原始物理声道的跨声道二阶特性的两个单独的声道,并且两个重构的声道维持了已编码声道的正确相位。示例2 :在示例I中,尽管求解了跨声道二阶统计量的虚部(如图20所示),但是在解码器处仅维持了实部,这仅从单个单声道源进行了重构。然而,如果(除了复缩放之外)如示例I中所描述的来自前一级的输出被后处理以实现附加频谱化效果,则也可维持跨声道二阶统计量的虚部。该输出通过一线性滤波器来滤波、缩放、并被加回到来自前一级的输出。假设除了来自前一分析的当前信号(分别是用于两个声道的Wc^PW1)之外,解码器还有效果信号-可用的两个声道的经处理的形式(分别是Wcif和Wif),如图21所示。总变换可如图23地表示,这假设Wcif = C0Z0f Wif = C1Zofo已经表明通过遵循图22所示的重构过程,解码器可维持原始信号的二阶统计量。解码器取W的原始和经滤波的形式的线性组合来创建维持X的二阶统计量的信号S。在示例I中,确定通过发送两个参数(例如,左/单(L/M)和右/单(R/Μ)功率比),复常量Ctl和C1可被选择来匹配跨声道二阶统计量的实部。如果编码器发送另一参数,则可维持多声道源的整个跨声道二阶统计量。例如,编码器可以发送表示两个声道之间的互相关的虚-实比的复参数以维持两声道源的整个跨声道二阶统计量。假设相关矩阵如图24中所定义的由Rxx给出,其中U是复特征向量的正交矩阵,而Λ是特征值的对角矩阵。注意,这一因式分解必须对任何对称矩阵存在。对于任何可实现的功率相关矩阵,特征值必须也是实数。这一因式分解允许找出复Karhunen-Loeve变换(“KLT”)。KLT用于创建去相关的源以便压缩。此处,希望进行取未相关的源的逆运算并创建所需相关。向量X的KLT由给出,因为U*UAU*U= Λ,即对角矩阵。Z中的功率是a。因此,如果选择诸如以下的变换^aY72 IaC0 bC0lU - = ° 0,
UJ _cC, JC1 _并假设Wcif和Wif具有分别与Wtl和W1相同的功率并且与两者不相关,则图23或22中的重构过程产生用于最终输出的所需相关矩阵。在实践中,编码器发送功率比IctJ和
C」,以及虚-实比。解码器可重构互相关矩阵的归一化形式(如图25所示)。解码器然后计算Θ,并找出特征值和特征向量,从而到达所需变换。由于IccJ和Ic1I之间的关系,它们不能拥有独立的值。因此,编码器联合或条件地量化它们。这适用于示例I和2。其它参数化也是可能的,诸如通过从编码器向解码器直接发送能量矩阵的归一化形式,从而可以通过功率的几何均值来归一化,如图26所示。现在,编码器可以仅发送矩阵的第一行,这是足够的,因为对角的乘积为I。然而,现在解码器如图27所示地缩放特征值。另一参数化能够直接表不U和Λ。可以表明,U可被因式分解成一系列Givens旋转。每一 Givens旋转可由一角度来表示。编码器发送Givens旋转角度和特征值。并且,两种参数化都可结合任何附加的任意预旋转V,并且仍产生相同的相关矩阵,因为VV*= I,而I代表单位矩阵。即,图28所示的关系对任何任意旋转V起作用。例如,解码器选择一预旋转,使得进入每一声道的经滤波的信号的量相同,如图29所示。解码器可选择ω,使得图30中的关系成立。—旦已知了图31所示的矩阵,解码器可以如之前那样进行重构以获得声道W。和W10然后,解码器通过向Wtl和W1应用线性滤波器来获得Wcif和Wif(效果信号)。例如,解码器使用全通滤波器,并且可取该滤波器的任一抽头处的输出以获得效果信号。(关于全通滤波器的使用的更多信息,参见 Μ. R. Schroeder 和 B. F. Logan 的“ 'Colorless' ArtificialReverberation( “无色”人工混响”),12th Ann. Meeting of the Audio Eng' g Soc.(第12届年度音频工程师协会会议),第18页(1960)。)作为后处理来添加的信号的强度在图31所示的矩阵中给出。全通滤波器可以被表示为其它全通滤波器的级联。取决于对源准确地建模所需的混响的量,可取任何全通滤波器的输出。该参数也可在任一频带、子帧或源的基础上发送。例如,可取全通滤波器级联中的第一、第二或第三级的输出。通过取滤波器的输出、对其进行缩放并将其加回到原始的重构,解码器能够维持跨声道二阶统计量。尽管该分析对效果信号的功率和相关结构作了某些假设,但是这些假设在实践中并不总能得到满足。可使用进一步的处理和更好的逼近来细化这些假设。例如,如果经滤波的信号具有大于所需的能量,则经滤波的信号可如图32所示地缩放,以使其具有正确的功率。这确保在功率太大的情况下正确地维持功率。用于确定功率是否超过阈值的计算在图33中示出。有时候可能在组合的两个物理声道中的信号会有不同相的情况,因此如果使用了和编码,则矩阵将是奇异的。在这些情况下,可限制矩阵的最大行列式。限制矩阵的最大缩放的这一参数(阈值)也可在频带、子帧或源的基础上在比特流中发送。如在示例I中一样,此示例中的分析假设Btl = B1 = β。然而,可对任何变换使用相同的代数原理来获得相似的结果。
V.使用其它编码变换的声道扩展编码在以上第IV节中所描述的声道扩展编码技术和工具可以结合其它技术和工具来使用。例如,编码器可以使用基本编码变换、频率扩展编码变换(例如,扩展带知觉相似性编码变换)和声道扩展编码变换。(频率扩展编码在以下第V. Α.节中描述。)在编码器中,这些变换可以在基本编码模块、与基本编码模块分离的频率扩展编码模块、以及与基本编码模块和频率扩展编码模块分离的声道扩展编码模块中执行。或者,可在同一模块内以各种组合来执行不同的变换。Α.频率扩展编码综述本节是在某些编码器和解码器中用于根据频谱中的基带数据来编码较高频谱数据的频率扩展编码技术和工具的综述(有时称为扩展带知觉相似性频率编码,或广义知觉相似性编码)。编码频谱系数以在输出比特流中发送给解码器可消耗相对较大一部分可用比特率。因此,在低比特率下,编码器可以选择通过对频谱系数的带宽内的基带进行编码,并将该基带外的系数表示为基带系数的经缩放和整形的形式来对减少数量的系数进行编码。图34示出了可在编码器中使用的通用模块3400。所示的模块3400接收一组频谱系数3415。因此,在低比特率下,编码器可选择对减少数量的系数进行编码频谱系数3415的带宽内的基带,通常在频谱的低端。在该基带外的频谱系数被称为“扩展带”频谱系数。对基带和扩展带的划分是在基带/扩展带划分部分3420中执行的。在此部分中也可执行子带划分(例如,用于扩展带的子带)。为避免重构的音频中的失真(例如,消音或低通的声音),扩展带频谱系数被表示为经整形的噪声、其它频率分量的经整形的形式、或两者的组合。扩展带频谱系数可以被划分成多个子带(例如,具有64或128个系数),其可以是不相交的或重叠的。即使实际频谱可能略有不同,该扩展带编码也提供了类似于原始的知觉效果。基带/扩展带划分部分3420输出基带频谱系数3425、扩展带频谱系数和描述例如基带宽度和扩展带子带的个别大小和数量的辅助信息(可以被压缩)。在图34所示的示例中,编码器在编码模块3430中编码系数和辅助信息(3435)。编码器可以包括用于基带和扩展带频谱系数的单独的熵编码器,和/或使用不同的熵编码技术来编码不同类别的系数。对应的解码器通常使用互补解码技术。(为表明另一可能的实现,图36示出了用于基带和扩展带系数的单独的解码模块。)扩展带编码器可以使用两个参数来编码子带。一个参数(称为比例参数)用于表示频带内的总能量。另一参数(称为形状参数)用于表示频带内的频谱的形状。图35示出了用于在扩展带编码器中编码扩展带的每一子带的示例技术3500。扩展带编码器在3510处计算比例参数,并在3520处计算形状参数。扩展带编码器编码的每一子带可以被表示为比例参数和形状参数的乘积。例如,比例参数可以是当前子带内的系数的均方根值。这通过取所有系数的均方值的平方根来找到。均方值通过取子带内的所有系数的平方值的和,再除以系数的个数来找到。形状参数可以是指定已经被编码的频谱的一部分(例如,用基带编码器编码的基 带频谱系数的一部分)的归一化形式的位移向量、归一化的随机噪声向量、或用于来自固定码本的频谱形状的向量。指定频谱的另一部分的位移向量在音频中是有用的,因为在音调信号中通常有在整个频谱中重复的谐波分量。对噪声或某一其它固定码本的使用可以便于对不能在频谱的基带编码部分中良好地表示的分量的低比特率编码。某些编码器允许修改向量以更好地表示频谱数据。一些可能的修改包括向量的线性或非线性变换、或将向量表示为两个或更多其它原始或经修改的向量的组合。在向量组合的情况下,修改可以涉及取一个向量的一个或多个部分,并将其与其它向量的一个或多个部分组合。当使用向量修改时,发送比特以通知解码器如何形成新向量。尽管有另外的比特,但是修改消耗比实际波形编码少的比特来表示频谱数据。扩展带编码器无需为扩展带的每一子带编码单独的比例因子。相反,扩展带编码器可以诸如通过将产生扩展子带的比例参数的多项式函数的一组系数编码为其频率的函数来将用于子带的比例参数表示为频率的函数。此外,扩展带编码器可以编码表征扩展子带的形状的另外的值。例如,扩展带编码器可以编码指定由运动矢量指示的基带的部分的位移或拉伸的值。在这一情况下,形状参数被编码为一组值(例如,指定位置、位移和/或拉伸)以更好地相对于来自已编码基带的向量、固定码本或随机噪声向量来表示扩展子带的形状。对扩展带的每一子带进行编码的比例和形状因子都可以是向量。例如,扩展子带可以被表示为时域中带有频率响应scale (f)的滤波器与带有频率响应shape (f)的激励的向量乘积scale (f) · shape (f)。该编码可以是线性预测编码(LPC)滤波器和激励的形式。LPC滤波器是扩展子带的比例和形状的低阶表示,而激励表示扩展基带的基音和/或噪声特性。激励可以得自对频谱的基带编码部分的分析,以及对匹配所编码的激励的基带编码频谱、固定码本频谱或随机噪声的一部分的标识。这将扩展子带表示为基带编码频谱的一部分,但是匹配是在时域中完成的。再次参考图35,在3530处,扩展带编码器在基带频谱系数中搜索基带频谱系数中具有与扩展带的当前子带相似的形状的相似频带(例如,使用与基带的每一部分的归一化形式最小均方比较)。在3532处,扩展带编码器检查基带频谱系数中的该相似频带是否在形状上足够接近当前扩展带(例如,最小均方值低于预选的阈值)。如果是,则扩展带编码器在3534处确定指向基带频谱系数的这一相似频带的向量。该向量可以是基带中的起始系数位置。也可使用其它方法(诸如检查基音性对比非基音性)来了解基带频谱系数的相似频带是否在形状上足够接近当前扩展带。如果没有找到基带的足够相似的部分,则扩展带编码器然后查找频谱形状的固定码本(3540)以表示当前子带。如果找到(3542),则扩展带编码器在3544处使用其在码本中的索引作为形状参数。否则,在3550处,扩展带编码器将当前子带的形状表示为归一化随机噪声向量。或者,扩展带编码器可以决定频谱系数可以如何用某一其它判定过程来表示。扩展带编码器可以压缩比例和形状参数(例如,使用预测编码、量化和/或熵编码)。例如,比例参数可以基于前导的扩展子带来预测编码。对于多声道音频,用于子带的比例参数可以从信道中的前一子带预测。比例参数也可跨声道、从多于一个其它子带、从基带频谱、或从先前的音频输入块以及其它变化等等来预测。预测选择可以通过查看哪一先前的频带(例如,在同一扩展频带、声道或小块(输入块)内)提供较高相关来作出。扩展 带编码器可以使用均匀或非均匀量化来量化比例参数,并且所得的量化值可被熵编码。扩展带编码器还可对形状参数使用预测编码(例如,从前导的子带预测)、量化和熵编码。如果对给定实现子带大小是可变的,则这提供了调整子带大小以提高编码效率的机会。通常,具有相似特性的子带可被合并而对质量几乎没有影响。具有高度可变数据的子带在拆分子带时可被更好地表示。然而,较小的子带比较大子带需要更多的子带(且通常需要更多比特)来表示相同的频谱数据。为平衡这些利益,编码器可基于质量度量和比特率信息来作出子带决策。解码器用基带/扩展带划分来多路分解比特流,并使用对应的解码技术来解码频带(例如,在基带解码器和扩展带解码器中)。解码器还可执行附加功能。图36示出了用于解码由使用频率扩展编码并对基带数据和扩展带数据使用单独的编码模块的编码器产生的比特流的音频解码器3600的各方面。在图36中,已编码比特流3605中的基带数据和扩展带数据分别在基带解码器3640和扩展带解码器3650中解码。基带解码器3640使用基带编解码器的常规解码来解码基带频谱系数。扩展带解码器FF 50解码扩展带数据,包括通过复制形状参数的运动矢量所指向的基带频谱系数的各部分,以及按照比例参数的比例因子缩放。基带和扩展带频谱系数被组合成单个频谱,该频谱由反变换3680转换以重构音频信号。第IV节描述了用于使用来自一个或多个已编码声道的频谱的缩放形式来表示未编码声道中的所有频率的技术。频率扩展编码的不同之处在于扩展带系数是使用基带系数的缩放形式来表示的。然而,这些技术可以一起使用,诸如通过对组合声道执行频率扩展编码以及以下描述的其它方式。B.使用其它编码变换的声道扩展编码的示例图37是示出使用时-频(T/F)基本变换3710、T/F频率扩展变换3720以及T/F声道扩展变换3730来处理多声道源音频3705的示例编码器3700的一个示例的各方面的图。(其它编码器可使用除了所示出的之外的不同的组合或其它变换。)T/F变换对于三种变换中的每一种可以是不同的。对于基本变换,在多声道变换3712之后,编码3715包括对频谱系数的编码。如果还使用了声道扩展编码,则不需要编码用于至少某一些多声道变换编码的声道的至少某一些频率范围。如果还使用了频率扩展编码,则不需要编码至少某一些频率范围。对于频率扩展变换,编码3715包括对用于子帧中的频带的比例和形状参数的编码。如果还使用了声道扩展编码,则可能不需要对用于某些声道的某些频率范围发送这些参数。对于声道扩展变换,编码3715包括参数(例如,功率比和复参数)的编码来准确地维持子帧中的频带的声道互相关。为简明起见,编码被示为 在单个编码模块3715中形成。然而,不同的编码任务可以在不同的编码模块中执行。图38、39和40是示出解码由示例编码器3700产生的诸如比特流3795等比特流的解码器3800、3900和4000的各方面的图。在解码器3800、3900和4000中,为简明起见,未示出某些解码器中存在的某些模块(例如,熵解码、反量化/加权、附加后处理。并且,在某些情况下,所示的模块可用不同的方式重新排列、组合或划分。例如,尽管示出了单个路径,但是处理路径可以在概念上被划分成两个或更多处理路径。在解码器3800中,用基本多声道反变换3810、基本T/F反变换3820、前向T/F频率扩展变换3830、频率扩展处理3840、频率扩展T/F反变换3850、前向T/F声道扩展变换3860、声道扩展处理3870、以及声道扩展T/F反变换3880来处理基本频谱系数以产生重构的音频3895。然而,出于实践的目的,该解码器可能会被不合需要地复杂化。并且,声道扩展变换是复变换,而其它两种则不是。因此,其它解码器可以用以下方式来调整用于频率扩展编码的T/F变换可被限于(I)基本T/F变换,或(2)声道扩展T/F变换的实部。这允许诸如图39和40所示的配置。在图39中,解码器3900用频率扩展处理3910、多声道反变换3920、基本T/F反变换3930、前向声道扩展变换3940、声道扩展处理3950、以及声道扩展T/F反变换3960来处理基本频谱系数以产生重构的音频3995。在图40中,解码器4000用多声道反变换4010、基本T/F反变换4020、前向声道扩展变换4030的实部、频率扩展处理4040、前向声道扩展变换4050的虚部的微分、声道扩展处理4060、以及声道扩展T/F变换4070来处理基本频谱系数以产生重构的音频4095。可使用这些配置中的任一种,并且解码器可以动态地改变使用哪一配置。在一个实现中,用于基本和频率扩展编码的变换是MLT (是MCLT (调制复重叠变换)的实部),而用于声道扩展变换的变换是MCLT。然而,这两种变换具有不同的子帧大小。一子帧中的每一 MCLT系数具有横跨该子帧的基函数。由于每一子帧仅与相邻的两个子帧重叠,因此仅需来自当前子帧、前一子帧和下一子帧的MLT系数来找出用于给定子帧的确切MCLT系数。变换可使用相同大小的变换块,或者变换块可以对不同种类的变换有不同的大小。基本编码变换和频率扩展编码变换中不同大小的变换块可能是合乎需要的,诸如在频率扩展编码变换能通过对较小时间窗的块起作用来改善质量的时候。然而,在基本编码、频率扩展编码和声道编码处改变变换大小会在编码器和解码器中引入显著的复杂度。由此,在至少某些变换类型之间共享变换大小可能是合乎需要的。作为一个示例,如果基本编码变换和频率扩展编码变换共享相同的变换块大小,则声道扩展编码变换可具有独立于基本编码/频率扩展编码变换块大小的变换块大小。在此示例中,解码器可包括频率重构及其后的基本编码反变换。然后,解码器执行前向复变换以导出用于缩放已编码的组合声道的频谱系数。复声道编码变换使用其自己的、独立于其它两种变换的变换块大小。解码器使用导出的频谱系数从已编码的组合声道(例如,和声道)在频域中重构物理声道,并执行复反变换以从重构的物理声道中获得时域样本。作为另一示例,如果基本编码变换和频率扩展编码变换具有不同的变换块大小,则声道编码变换可具有与频率扩展编码变换块大小相同的变换块大小。在此示例中,解码器可包括基本编码反变换及其后的频率重构。解码器使用与用于频率重构的相同的变换块大小来执行声道反变换。然后,解码器执行对复分量的前向变换来导出频谱系数。在前向变换中,解码器可从实部计算声道扩展变换系数的MCLT系数的虚部。例如,解码器可以通过查看来自前一块的某些频带(例如,三个频带或更多)、来自当前块的某些频带(例如,两个频带)、以及来自下一块的某些频带(例如,三个频带或更多)的实部来计算当前块中的虚部。实部到虚部的映射涉及取调制反DCT基与前向调制离散正弦变换(DST)基向量的 点积。对给定子帧计算虚部涉及找出子帧内的所有DST系数。这仅对于来自前一子帧、当前子帧和下一子帧的DCT基向量为非零。此外,仅与试图找到的DST系数大致相似的频率的DCT基向量具有重要的能量。如果前一、当前和下一子帧的子帧大小都是相同的,则对于不同于试图为其寻找DST系数的频率的频率,能量显著降低。因此,可找出低复杂度解,以便在给定DCT系数的情况下找到用于给定子帧的DST系数。具体地,可计算父8=六*父。(-1)+8*父((0)+0 。(1),其中父(3(-1)、父(3(0)和Xe (I)代表来自前一、当前和下一块的DCT系数,而Xs表示当前块的DST系数I)预计算用于不同窗形状/大小的A、B和C矩阵2)计算阈值A、B和C矩阵,使得远小于峰值的值减小到0,从而将其缩减为稀疏矩阵3)仅使用非零矩阵元素来计算矩阵乘法。在其中需要复滤波器组的应用中,这是从实部导出虚部或从虚部导出实部的快速方法,而无需直接计算虚部。解码器使用导出的比例因子从已编码的组合声道(例如,和声道)在频域中重构物理声道,并执行复反变换以从重构的物理声道中获得时域样本。该方法导致与涉及反DCT和前向DST的蛮力方法相比的复杂度的显著降低。C.频率/声道编码中的计算复杂度的降低频率/声道编码可以用基本编码变换、频率编码变换和声道编码变换来完成。在块或帧的基础上将变换从一种切换到另一种可改善感知质量,但是其在计算上是昂贵的。在某些情形中(例如,低处理功率设备),这一高复杂度可能不是可接受的。降低复杂度的一种解决方案是迫使编码器对频率和声道编码两者始终选择基本编码变换。然而,该方法对质量施加了限制,即使是对于没有功率约束的回放设备也是如此。另一种解决方案是如果需要低复杂度,则让编码器在没有变换约束的情况下执行,并且让解码器将频率/声道编码参数映射到基本编码变换域。如果映射是以正确的方式完成的,则第二种解决方案能对高功率设备实现良好的质量并对低功率设备以合理的复杂度实现良好的质量。参数从其它域到基本变换域的映射可以不用来自比特流的额外信息来执行,或用由编码器放入比特流中的附加信息来执行以改善映射性能。
D.在不同窗大小的转换时改善频率编码的能量跟踪如在第V. B节中所指出的,频率编码器可以使用基本编码变换、频率编码变换(例如,扩展带知觉相似性编码变换)和声道扩展编码变换。然而,当频率编码在两种不同变换之间切换时,频率编码的起始点可能需要额外的注意。这是因为各种变换中诸如基本变换等一种变换中的信号通常是带通的,且清楚的通带由最后一个编码的系数来定义。然而,这一清楚的边界在被映射到不同的变换时可能会变得模糊。在一个实现中,频率编码器通过仔细地定义起始点来确保没有信号能量丢失。具体地,I)对于每一频带,频率编码器计算先前(通过基本编码等)压缩的信号的能量 _E102)对于每一频带,频率编码器计算原始信号的能量-E2。3)如果(E2-E1) > T,其中T是预定义阈值,则频率编码器将此频带标记为起始点。 4)频率编码器在此处开始操作,并且5)频率编码器将起始点发送给解码器。以此方式,当在不同变换之间切换时,频率编码器检测能量差并相应地发送起始点。VI.用于频率扩展编码的形状和比例参数A.用于使用调制DCT编码的编码器的位移向量如在以上第V节中所提到的,扩展带知觉相似性频率编码涉及确定用于时间窗内的频带的形状参数和比例参数。形状参数指定了基带(通常是较低的频带)中将用作用于编码扩展带(通常是比基带高的频带)中的系数的基础的一部分。例如,基带的指定部分中的系数可以被缩放然后被应用于扩展带。可使用位移向量d来调制时刻t处的声道的信号,如图41所示。图41示出了分别用于时刻和处的两个首频块4100和4110的位移向量的表不。尽管图41所不的不例涉及频率扩展编码概念,但是该原理可以被应用于不涉及频率扩展编码的其它调制方案。在图41所示的示例中,音频块4100和4110包括范围O到N_1中的N个子带,其中每一块中的子带被划分成较低频率的基带和较高频率的扩展带。对于音频框4100,位移向量(Ici被示为子带Iiici和Iici之间的位移。类似地,对于音频框4110,位移向量(I1被示为子带IH1和Ii1之间的位移。由于位移向量旨在准确地描述扩展带系数的形状,因此可假设允许位移向量中的最大灵活性将是合乎需要的。然而,在某些情况下限制位移向量的值会导致改进的感知质量。例如,编码器可选择子带m和n,使得它们各自总是为偶数或奇数子带,从而使位移向量d所覆盖的子带的数量总是为偶数。在使用调制离散余弦变换(DCT)的编码器中,当位移向量d覆盖的子带的数量是偶数时,可得到更好的重构。当使用调制DCT执行扩展带知觉相似性频率编码时,调制来自基带的余弦波,以产生用于扩展带的调制余弦波。如果位移向量d所覆盖的子带的数量是偶数,则调制导致准确的重构。然而,如果位移向量d所覆盖的子带的数量是奇数,则调制导致重构音频中的失真。由此,通过将位移向量限于仅覆盖偶数个子带(并且牺牲d中的某些灵活性),则可通过避免调制信号中的失真来实现更好的总声音质量。由此,在图41所示的示例中,音频块4100和4110中的位移向量各自覆盖偶数个子带。B.用于比例参数的定位点当频率编码具有比基本编码器小的窗时,比特率往往会增加。这是因为尽管窗较小,但保持频率分辨率在相当高的水平以避免不合意的伪像仍是重要的。图42示出了不同大小的音频块的简化排列。时间窗4210具有比时间窗4212-4222长的持续时间,但是每一时间窗都具有相同数量的频带。图42中的勾记号指示用于每一频带的定位点。如图42所示,定位点的数量可以在频带之间变化,定位点之间的时间距离也可以变化。(为简明起见,图42中未示出所有的窗、频带或定位点。)在这些定位点处,确定比例参数。用于其它时间窗中的相同频带的比例参数然后可从定位点处的参数内插。
或者,可以用其它方式来确定定位点。在参考所描述的实施例描述和示出了本发明的原理之后,可以认识到,可以在排列和细节上修改所描述的实施例,而不脱离这些原理。应当理解,除非另外指明,否则此处所描述的程序、过程或方法不相关于或不限于任何特定类型的计算环境。可依照此处所描述的教导来使用各种类型的通用或专用计算环境或执行操作。所描述的实施例中以软件示出的元素可以用硬件来实现,反之亦然。鉴于可应用本发明的原理的许多可能的实施例,要求保护落入所附权利要求书及其等效技术方案的范围和精神之内的所有这样的实施例作为本发明。
权利要求
1.一种在音频编码器中的计算机实现的方法,包括 接收多声道音频数据,所述多声道音频数据包括一组多个源声道; 对所述多声道音频数据执行声道扩展编码,所述声道扩展编码包括 编码用于所述组的ー组合声道;以及 确定用于将所述组的各个源声道表示为所述编码的组合声道的经修改的形式的多个參数;以及 执行频率扩展编码。
2.如权利要求I所述的方法,其特征在于,所述频率扩展编码还包括 将所述多声道音频数据中的频带划分成基带组和扩展带组。
3.如权利要求2所述的方法,其特征在于,所述频率扩展编码还包括 基于所述基带组中的音频系数来编码所述扩展带组中的音频系数。
4.如权利要求I所述的方法,其特征在于,还包括 将所述编码的组合声道和所述多个參数发送到音频解码器;以及 将频率扩展编码数据发送到所述音频解码器; 其中,所述编码的组合声道、所述多个參数和所述频率扩展编码数据有助于在所述音频解码器处重构所述多个源声道中的至少两个。
5.如权利要求4所述的方法,其特征在干,所述多个參数包括对于所述至少两个源声道的功率比。
6.如权利要求4所述的方法,其特征在干,所述多个參数包括用于维持跨所述至少两个源声道的ニ阶统计量的复參数。
7.如权利要求4所述的方法,其特征在干,所述音频解码器维持跨所述至少两个源声道的ニ阶统计量。
8.如权利要求I所述的方法,其特征在于,所述音频编码器包括基本变换模块、频率扩展变换模块以及声道扩展变换模块。
9.如权利要求I所述的方法,其特征在于,还包括对所述多声道音频数据执行基本编码。
10.如权利要求9所述的方法,其特征在于,还包括对经基本编码的多声道音频数据执行多声道变换。
11.一种储存了计算机可执行指令的计算机可读介质,所述指令用于使得通过其编程的计算机执行如权利要求I所述的方法。
12.一种在音频解码器中的计算机实现的方法,包括 接收已编码的多声道音频数据,所述已编码的多声道音频数据包括声道扩展编码数据和频率扩展编码数据;以及 使用所述声道扩展编码数据和所述频率扩展编码数据来重构多个音频声道; 其中所述声道扩展编码数据包括 用于所述多个音频声道的组合声道;以及 用于将所述多个音频声道的各个声道表示为所述组合声道的经修改的形式的多个參数。
13.一种储存了计算机可执行指令的计算机可读介质,所述指令用于使得通过其编程的计算机执行如权利要求12所述的方法。
14.一种在音频解码器中的计算机实现的方法,包括 接收多声道音频数据; 对所接收的多声道音频数据执行多声道反变换; 对所接收的多声道音频数据执行基本时-频反变换; 对所接收的多声道音频数据执行频率扩展处理;以及 对所接收的多声道音频数据执行声道扩展处理。
15.如权利要求14所述的方法,其特征在于,所述频率扩展处理是在所述多声道反变换和所述基本时-频反变换之前对所接收的多声道音频数据和执行的。
16.如权利要求14所述的方法,其特征在于,还包括对所接收的多声道音频数据执行前向声道扩展变换和声道扩展反变换。
17.如权利要求16所述的方法,其特征在于,所述频率扩展处理是在所述前向声道扩展变换的至少一部分之后对所接收的多声道音频数据执行的。
18.如权利要求17所述的方法,其特征在干,所述前向声道扩展变换的至少一部分是所述前向声道扩展变换的实部。
19.如权利要求16所述的方法,其特征在于,所述前向声道扩展变换的虚部是从所述前向声道扩展变换的实部导出的。
20.一种储存了计算机可执行指令的计算机可读介质,所述指令用于使得通过其编程的计算机执行如权利要求14所述的方法。
全文摘要
公开了使用扩展带频率编码的复变换信道编码。一种音频编码器接收包括一组多个源声道的多声道音频数据,并执行声道扩展编码,包括编码用于该组的组合声道并确定用于将该组的各个源声道表示为所编码的组合声道的经修改的形式的多个参数。该编码器还执行频率扩展编码。频率扩展编码可包括,例如将多声道音频数据中的频带划分成基带组和扩展带组,并且基于基带组中的音频系数对扩展带组中的音频系数编码。该编码器还可执行其它种类的变换。一音频解码器执行对应的解码和/或附加处理任务,诸如前向复变换。
文档编号G10L21/02GK102708868SQ201210102938
公开日2012年10月3日 申请日期2007年1月3日 优先权日2006年1月20日
发明者S·梅若特拉, W-G·陈 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1