增强的从音频编解码器的色度提取的制作方法

文档序号:6497460阅读:320来源:国知局
增强的从音频编解码器的色度提取的制作方法
【专利摘要】本文档涉及用于音乐信息检索(MIR)的方法和系统。特别地,本文档涉及用于从音频信号提取色度矢量的方法和系统。描述了一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900)。方法(900)包括:从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块,所述基于谱带复制的音频编码器(410)适于从该频率系数块产生音频信号(301)的编码的比特流(305);并且基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。
【专利说明】增强的从音频编解码器的色度提取
[0001]相关申请的交叉引用
[0002]本申请要求于2011年11月30日提交的美国临时专利申请N0.61/565,037的优先权,该申请的全部内容通过引用并入此。
【技术领域】
[0003]本文档涉及用于音乐信息检索(MIR)的方法和系统。特别地,本文档涉及用于与音频信号的编码处理相结合地(例如,在音频信号的编码处理期间)从音频信号提取色度(chroma)矢量的方法和系统。
【背景技术】
[0004]由于易于访问的数据的数量在过去几年里显著增加的事实,遍历可用音乐库变得越来越困难。被称为音乐信息检索(MIR)的跨学科研究领域调查了对音乐数据进行结构化和分类的解决方案,以帮助用户探查他们的媒体。例如,希望的是基于MIR的方法能够对音乐进行分类,以便提议相似类型的音乐。MIR技术可以基于指定半音随时间的能量分布的中间水平的时间-频谱表示,其被称为色度图谱(chromagram)。音频信号的色度图谱可以用于识别音频信号的和声信息(例如,关于旋律(melody)的信息和/或关于和弦(chord)的信息)。然而,色度图谱的确定典型地与显著的计算复杂度相联系。
[0005]本文档设法解决了色度图谱计算方法的复杂度问题,并且描述了用于以降低的计算复杂度计算色度图谱的方法和系统。特别地,描述用于高效率地计算被感知激励的色度图谱的方法和系统。

【发明内容】

[0006]根据一方面,描述一种用于确定音频信号的米样块的色度矢量的方法。米样块可以是所谓的采样长块,其也被称为采样帧。音频信号可以是例如音轨。所述方法包括以下步骤:从音频编码器(例如,AAC(高级音频译码)或mp3编码器)接收从音频信号的采样块导出的相应的频率系数块。音频编码器可以是基于谱带复制(SBR)的音频编码器的核心编码器。举例来说,基于SBR的音频编码器的核心编码器可以是AAC或mp3编码器,更特别地,基于SBR的音频编码器可以是HE (高效率)AAC编码器或mp3PR0。可以应用本文档中所描述的方法的基于SBR的音频编码器的另一例子是MPEG-D USAC (通用语音和音频编解码器)编码器。
[0007](基于SBR的)音频编码器典型地适于从频率系数块产生音频信号的编码的比特流。为了这个目的,音频编码器可以对频率系数块进行量化,并且可以对量化后的频率系数块进行熵编码。
[0008]所述方法还包括基于所接收的频率系数块来确定音频信号的采样块的色度矢量。特别地,可以从第二频率系数块确定色度矢量,第二频率系数块从所接收的频率系数块导出。在实施例中,第二频率系数块是所接收的频率系数块。在所接收的频率系数块是频率系数长块的情况下,情况可能如此。在另一实施例中,第二频率系数块对应于所估计的频率系数长块。该所估计的频率系数长块可以从所接收的频率系数块内所包括的多个短块确定。
[0009]频率系数块可以是修正离散余弦变换(MDCT)系数块。时域到频域变换(以及所得的频率系数块)的其他例子是诸如MDST (修正离散正弦变换)、DFT (离散傅立叶变换)和MCLT(修正复数交叠变换)的变换。一般地说,可以使用时域到频域变换来从相应的采样块确定频率系数块。反过来,可以使用相应的逆变换从频率系数块确定采样块。
[0010]MDCT是重叠变换,其意味着,在这样的情况下,从采样块以及音频信号的来自该采样块的直接邻域的另外的更多的采样确定频率系数块。特别地,可以从采样块和紧接在前的采样块确定频率系数块。
[0011]采样块可以包括N个接连的短块,每个接连的短块有M个采样。换句话讲,采样块可以是(或者可以包括)N个短块的序列。以类似的方式,频率系数块可以包括N个相应的短块,每个相应的短块有M个频率系数。在实施例中,M = 128,N = 8,这意味着采样块包括MXN= 1024个采样。音频编码器可以使用短块来对瞬态音频信号进行编码,从而提高时间分辨率,同时降低频率分辨率。
[0012]当从音频编码器接收到短块序列时,所述方法可以包括附加步骤以提高所接收的频率系数短块的序列的频率分辨率,从而使得能够确定全部采样块(其包括短块采样序列)的色度矢量。特别地,所述方法可以包括从N个M个频率系数的短块估计与采样块相应的频率系数长块。执行估计,以使得与N个频率系数短块相比,所估计的频率系数长块的频率分辨率提高。在这样的情况下,可以基于所估计的频率系数长块来确定音频信号的采样块的色度矢量。
[0013]应指出,对于不同的聚合水平,可以以分层的方式执行估计频率系数长块的步骤。这意味着,可以将多个短块聚合为长块,并且可以将多个长块聚合为超长块,等等。结果,可以提供不同水平的频率分辨率(以及相应地,时间分辨率)。举例来说,可以从N个短块的序列确定频率系数长块(如以上所概括的那样)。在下一分层层级,可以将N2个频率系数长块的序列(其中的一些或全部可能已被从相应的N个短块的序列估计出来)转换为N2倍频率系数的超长块(以及相应地,更高频率分辨率)。就这点而论,用于从频率系数短块的序列估计频率系数长块的方法可以用于分层地提高色度矢量的频率分辨率(同时,分层地降低色度矢量的时间分辨率)。
[0014]估计频率系数长块的步骤可以包括:对N个频率系数短块的相应频率系数进行交织,从而得到交织的频率系数长块。应指出,在对频率系数块进行量化和熵编码的上下文中,这样的交织可以由音频编码器(例如,核心编码器)执行。就这点而论,所述方法可替代地可以包括从音频编码器接收交织的频率系数长块的步骤。因此,交织步骤将不消耗额外的计算资源。色度矢量可以从交织的频率系数长块确定。此外,估计频率系数长块的步骤可以包括通过将(与高频区间(bin)相比,在变换的低频区间中)具有能量聚集性质(energycompaction property)的变换(例如,DCT-1I变换)应用于交织的频率系数长块来对N个频率系数短块的N个相应频率系数进行去相关。该使用能量聚集变换(例如,DCT-1I变换)的去相关方案可以被称为自适应混合变换(AHT)方案。色度矢量可以从去相关的、交织的频率系数长块确定。
[0015]可替代地,估计频率系数长块的步骤可以包括将多相转换(PPC)应用于N个M个频率系数的短块。多相转换可以基于转换矩阵,该转换矩阵用于在数学上将N个M个频率系数的短块变换为准确的NXM个频率系数的长块。就这点而论,可以在数学上从由音频编码器执行的时域到频域变换(例如,MDCT)确定转换矩阵。转换矩阵可以表示N个频率系数短块到时域的逆变换与时域采样到频域的随后变换的组合,从而得到准确的NXM个频率系数的长块。多相转换可以使用转换矩阵的其中一小部分转换矩阵系数被设置为零的逼近(approximation)。举例来说,可以将转换矩阵系数的90%或更多的部分被设置为零。结果,多相转换可以以低的计算复杂度提供所估计的频率系数长块。此外,该小部分(fraction)可以用作作为复杂度的函数改变转换质量的参数。换句话讲,该小部分可以用于提供复杂度可缩放的转换。
[0016]应指出,可以将AHT(以及PPC)应用于短块序列的一个或多个子集。就这点而论,估计频率系数长块可以包括形成N个频率系数短块的多个子集。这些子集可以具有L个短块的长度,从而得到N/L个子集。可以基于音频信号来选择每一子集的短块数量L,从而使AHT/PPC适应音频信号的特定特性(即,音频信号的特定帧)。
[0017]在AHT的情况下,对于每个子集,可以对频率系数短块的相应频率系数进行交织,从而得到该子集的交织的频率系数中间块(具有LXM个系数)。此外,对于每个子集,可以将能量聚集变换(例如,DCT-1I变换)应用于该子集的交织的频率系数中间块,从而提高交织的频率系数中间块的频率分辨率。在PPC的情况下,可以确定中间转换矩阵,该中间转换矩阵用于在数学上将L个M个频率系数的短块变换为准确的LXM个频率系数的中间块。对于每个子集,多相转换(其可以被称为中间多相转换)可以使用中间转换矩阵的其中一小部分中间转换矩阵系数被设置为零的逼近。
[0018]更一般地,可以陈述,频率系数长块的估计可以包括从短块序列估计多个频率系数中间块(对于多个子集)。可以从多个频率系数中间块确定多个色度矢量(使用本文档中所描述的方法)。就这点而论,用于确定色度矢量的频率分辨率(以及时间分辨率)可适于音频信号的特性。
[0019]确定色度矢量的步骤可以包括将频率相关心理声学处理应用于从所接收的频率系数块导出的第二频率系数块。频率相关心理声学处理可以使用由音频编码器提供的心理声学模型。
[0020]在实施例中,应用频率相关心理声学处理包括将从第二频率系数块的至少一个频率系数导出的值与频率相关能量阈值(例如,频率相关的心理声学掩蔽阈值)进行比较。从所述至少一个频率系数导出的值可以对应于从相应的多个频率(例如,尺度因子带(scalefactor band))的多个频率系数导出的平均能量值(例如,尺度因子带能量)。特别地,平均能量值可以是多个频率系数的平均值。作为比较的结果,如果频率系数低于能量阈值,则可以将频率系数设置为零。能量阈值可以从音频编码器(例如,基于SBR的音频编码器的核心编码器)所应用的心理声学模型导出。特别地,能量阈值可以从由音频编码器用于对频率系数块进行量化的频率相关掩蔽阈值导出。
[0021]确定色度矢量的步骤可以包括将第二块的频率系数中的一些或全部分类为色度矢量的音调类(tone class)。随后,可以基于分类的频率系数来确定色度矢量的音调类的累积能量。举例来说,可以使用与色度矢量的音调类相关联的带通滤波器来对频率系数进行分类。[0022]可以通过从音频信号的采样块序列确定色度矢量序列并且相对于与该采样块序列相关联的时间线绘制该色度矢量序列,来确定音频信号(包括采样块序列)的色度图谱。换句话讲,通过对于采样块序列(例如,对于帧序列)重复迭代本文档中所概述的方法,可以逐帧地、不忽略任何帧(例如,不忽略包括短块序列的瞬态音频信号的帧)地确定可靠的色度矢量。因此,可以确定连续的色度图谱(每一帧包括(至少)一个色度矢量)。
[0023]根据另一方面,描述一种适于对音频信号进行编码的音频编码器。音频编码器可以包括适于对音频信号的(可能下采样的)低频分量进行编码的核心编码器。核心编码器典型地适于通过将采样块变换到频域中来对低频分量的采样块进行编码,从而得到相应的频率系数块。此外,音频编码器可以包括色度确定单元,其适于基于频率系数块来确定音频信号的低频分量的采样块的色度矢量。为了这个目的,色度确定单元可以适于执行本文档中所概述的方法步骤中的任何一个。编码器还可以包括谱带复制编码器,其适于对音频信号的相应的高频分量进行编码。另外,编码器可以包括复用器,其适于从由核心编码器和谱带复制编码器提供的数据产生编码的比特流。另外,复用器可以适于将从色度矢量导出的信息(例如,从色度矢量导出的高级信息,诸如和弦和/或调)作为元数据添加到编码的比特流。举例来说,编码的比特流可被以下列格式中的任何一种格式进行编码:MP4格式、3GP格式、3G2格式、LATM格式。
[0024]应指出,本文档中所描述的方法可以应用于音频解码器(例如,基于SBR的音频编码器)。这样的音频解码器典型地包括解复用和解码单元,其适于接收编码的比特流,并且适于从该编码的比特流提取(量化后的)频率系数块。这些频率系数块可以用于如本文档中所概述的那样确定色度矢量。
[0025]因此,描述一种适于对音频信号进行解码的音频解码器。音频解码器包括解复用和解码单元,其适于接收比特流,并且适于从所接收的比特流提取频率系数块。频率系数块与音频信号的(经下采样的)低频分量的相应采样块相关联。特别地,频率系数块可以对应于在相应的音频编码器处导出的相应的频率系数块的量化版本。可以将解码器处的频率系数块转换到时域中(使用逆变换),以得到音频信号的(经下采样的)低频分量的重构采样块。
[0026]此外,音频解码器包括色度确定单元,其适于基于从比特流提取的频率系数块来确定音频信号(的低频分量)的采样块的色度矢量。色度确定单元可适于执行本文档中所概述的方法步骤中的任何一个。
[0027]此外,应指出,一些音频解码器可以包括心理声学模型。这样的音频解码器的例子是例如Dolby Digital和Dolby Digital Plus。该心理声学模型可以用于确定色度矢量(如本文档中所概述的那样)。
[0028]根据另一方面,描述一种软件程序。该软件程序可以适于在处理器上执行,并且适于当在计算装置上执行时执行本文档中所概述的方法步骤。
[0029]根据另一方面,描述一种存储介质。该存储介质可以包括软件程序,该软件程序适于在处理器上执行,并且适于当在计算装置上执行时执行本文档中所概述的方法步骤。
[0030]根据另一方面,描述一种计算机程序。该计算机程序可以包括用于当在计算装置上执行时执行本文档中所概述的方法步骤的可执行指令。
[0031 ] 应指出,如本文档中所概述的包括其优选实施例的方法和系统可以独立使用,或者与本文档所公开的其他方法和系统结合使用。此外,本文档中所概述的方法和系统的所有方面可以任意组合。特别地,可以以任意的方式将权利要求的特征彼此组合。
【专利附图】

【附图说明】
[0032]下面以示例性的方式参照【专利附图】
附图
【附图说明】本发明,其中:
[0033]图1例示色度矢量的示例确定方案;
[0034]图2示出用于将谱图的系数分类为色度矢量的示例音调类的示例带通滤波器;
[0035]图3例示包括色度确定单元的示例音频编码器的框图;
[0036]图4示出示例高效率-高级音频译码编码器和解码器的框图;
[0037]图5例示修正离散余弦变换的确定方案;
[0038]图6a和b例示示例心理声学频率曲线;
[0039]图7a至e示出(所估计的)频率系数长块的示例序列;
[0040]图8示出对于从各种长块估计方案导出的色度矢量的相似性的示例实验结果;以及
[0041]图9示出用于确定音频信号的色度矢量序列的方法的示例流程图。
【具体实施方式】
[0042]如今的存储解决方案具有向用户提供庞大的音乐内容数据库的能力。比如Simfy的在线流传输服务提供多于I千3百万首歌曲(音频文件或音频信号),这些流传输服务面对遍历大型数据库进行导航以及选择适当的音轨并且将这些音轨流传输给它们的客户的挑战。类似地,具有存储在数据库中的大型个人音乐集的用户具有选择适当音乐的相同问题。为了能够处理这样的大量数据,发现音乐的新方式是希望的。特别地,可以有益的是,当知道用户对音乐的偏好品味时,音乐检索系统向用户建议相似类型的音乐。
[0043]为了识别音乐相似性,可能需要许多高级语义特征,诸如拍子、节奏、节拍、和声、旋律、风格和基调(mood),并且可能需要从音乐内容提取这些高级语义特征。音乐信息检索(MIR)提供了计算这些音乐特征中的许多音乐特征的方法。大多数MIR策略依赖于从其获得必要的高级音乐特征的中间层次的描述符。中间层次的描述符的一个例子是图1中所例示的所谓的色度矢量100。色度矢量100通常是K维矢量,其中,该矢量的每个维度对应于半音类的谱能量。在西方音乐的情况下,典型地K= 12。对于其他类型的音乐,K可以具有不同的值。可以通过将音频信号在特定时刻的谱101 (例如,使用短时傅立叶变换STFT的幅度谱而确定)映射和折叠到单个八度(octave)来获得来色度矢量100。就这点而论,色度矢量捕获音频信号在特定时刻的旋律及和声内容,同时与谱图101相比对音色的变化不那么敏感。
[0044]如图1中所示,可以通过将谱101投射在Shepard的音高(musical pitch)感知的螺旋表示102上来使音频信号的色度特征可视化。在表示102中,色度是指从正上方看到的螺旋102的圆周上的位置。另一方面,高度是指从侧面看到的螺旋的垂直位置。高度对应于八度的位置,即,高度指示八度。可以通过下述方式来提取色度矢量,即,使幅度谱101围绕螺旋102卷绕并且将螺旋102的圆周上的相应位置处的、但是在不同八度(不同高度)处的谱能量投射到色度(或音调类)上,从而对半音类的谱能量进行求和。[0045]半音类的这个分布捕获音频信号的和声内容。色度矢量随时间的进展被称为色度图谱。色度矢量和色度图谱表示可以用于识别和弦名称(例如,包括C、E和G的大色度矢量值的C大三和弦)、估计音频信号的总体音调(音调标识了表示音乐作品的其余部分的终点或音乐作品的一节的焦点的大调/小调、弦以及主音三和弦)、估计音频信号的调式(mode)(其中,调式是音阶的类型,例如,大调或小调中的音乐作品)、检测歌曲内或歌曲间的相似性(歌曲内的和声/旋律相似性、或歌曲集上的和声/旋律相似性,以创建相似歌曲的播放列表)、识别歌曲、和/或提取歌曲的合声。
[0046]就这点而论,可以通过将音频信号的短时谱谱折叠到单个八度中、接着将折叠的谱分割为十二维矢量来获得色度矢量。该操作依赖于音频信号的适当的时间-频率表示(优选地,在频域中具有高分辨率)。音频信号的这样的时间-频率变换的计算是计算密集型的,并且在已知的色度图谱计算方案中消耗大部分计算能力。
[0047]下面,描述用于确定色度矢量的基本方案。从表1 (西方音乐的第四个八度中的半音的、以Hz为单位的频率)可以看出,当知道参考音高(对于音调A4,通常为440Hz)时,音
调到频率的直接映射是可能的。
[0048]
【权利要求】
1.一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900),所述方法(900)包括: -从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块,所述核心编码器(412)适于从所述频率系数块产生音频信号(301)的编码的比特流(305);和 -基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。
2.根据权利要求1所述的方法(900),其中,所述基于谱带复制的音频编码器(410)应用下列中的任何一个:高效率高级音频译码、mp3PRO和MPEG-D USAC。
3.根据前面任何一个权利要求所述的方法(900),其中,所述频率系数块是下列中的任何一个: -修正离散余弦变换系数块,修正离散余弦变换被称为MDCT ; -修正离散正弦变换系 数块,修正离散正弦变换被称为MDST ; -离散傅立叶变换系数块,离散傅立叶变换被称为DFT ;和 -修正复数重叠变换系数块,修正复数交叠变换被称为MCLT。
4.根据前面任何一个权利要求所述的方法(900),其中, -采样块包括N个接连的短块,N个接连的短块中的每一个分别有M个采样; -频率系数块包括N个相应的短块,每个相应的短块分别有M个频率系数。
5.根据权利要求4所述的方法(900),其中,所述方法还包括: -从N个M个频率系数的短块估计(902)与所述采样块相应的频率系数长块;其中,所估计的频率系数长块与N个频率系数短块相比具有增大的频率分辨率;和 -基于所估计的频率系数长块来确定(904)音频信号(301)的采样块的色度矢量。
6.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括对N个频率系数短块的相应频率系数进行交织,从而得到交织的频率系数长块。
7.根据权利要求6所述的方法(900),其中,估计(902)频率系数长块包括通过将具有能量聚集性质的变换应用于交织的频率系数长块来对N个频率系数短块的N个相应频率系数进行去相关,所述具有能量聚集性质的变换是例如DCT-1I变换。
8.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括: -形成N个频率系数短块的多个子集,其中,每一个子集的短块的数量基于所述音频信号而被选择; -对于每个子集,对频率系数短块的相应频率系数进行交织,从而得到该子集的交织的频率系数中间块;和 -对于每个子集,将具有能量聚集性质的变换应用于该子集的交织的频率系数中间块,从而得到所述多个子集的多个估计的频率系数中间块,所述具有能量聚集性质的变换是例如DCT-1I变换。
9.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括:将多相转换应用于N个M个频率系数的短块。
10.根据权利要求9所述的方法(900),其中, -所述多相转换基于转换矩阵,所述转换矩阵用于在数学上将N个M个频率系数的短块变换为准确的NXM个频率系数的长块;和-所述多相转换使用所述转换矩阵的其中一部分转换矩阵系数被设置为零的逼近。
11.根据权利要求10所述的方法(900),其中,将90%或更多的一部分的所述转换矩阵系数设置为零。
12.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括: -形成N个频率系数短块的多个子集,其中,每一个子集的短块的数量L基于所述音频信号而被选择,L<N ; -将中间多相转换应用于所述多个子集,从而得到多个估计的频率系数中间块;其中,所述中间多相转换基于中间转换矩阵,所述中间转换矩阵用于在数学上将L个M个频率系数的短块变换为准确的LXM个频率系数的中间块;并且 其中,所述中间多相转换使用所述中间转换矩阵的其中一部分中间转换矩阵系数被设置为零的逼近。
13.根据权利要求10至12中的任何一个所述的方法(900),其中,所述部分是可变的,从而改变所估计的频率系数块的质量。
14.根据权利要求4至13中的任何一个所述的方法(900),其中,M= 128,N = 8。
15.根据权利要求5至14中的任何一个所述的方法(900),还包括: -从相应的多个频率系数长块估计与多个采样块相应的频率系数超长块;其中,所估计的频率系数超长块与所述多个频率系数长块相比具有增大的频率分辨率。
16.根据前面任何一个权利要求所述的方法(900),其中,确定色度矢量(100)包括将频率相关心理声学处理应用(903)于从所接收的频率系数块导出的第二频率系数块。
17.根据引用权利要求5至7和9至11中的任何一个的权利要求16所述的方法(900),其中,所述第二频率系数块是所估计的频率系数长块。
18.根据引用权利要求1至4中的任何一个的权利要求16所述的方法(900),其中,所述第二频率系数块是所接收的频率系数块。
19.根据引用权利要求8和12中的任何一个的权利要求16所述的方法(900),其中,所述第二频率系数块是所述多个估计的频率系数中间块之一。
20.根据参照权利要求15的权利要求16所述的方法(900),其中,所述第二频率系数块是所估计的频率系数超长块。
21.根据权利要求16至20中的任何一个所述的方法(900),其中,应用(903)频率相关心理声学处理包括: -将从所述第二频率系数块的至少一个频率系数导出的值与频率相关能量阈值进行比较;和 -如果该频率系数低于该能量阈值,则将该频率系数设置为零。
22.根据权利要求21所述的方法(900),其中,从所述至少一个频率系数导出的值对应于从相应的多个频率的多个频率系数导出的平均能量。
23.根据权利要求21至22中的任何一个所述的方法(900),其中,所述能量阈值从核心编码器(412)所应用的心理声学模型被导出。
24.根据权利要求23所述的方法(900),其中,所述能量阈值从核心编码器用于对所述频率系数块进行量化的频率相关掩蔽阈值被导出。
25.根据权利要求16至24中的任何一个所述的方法(900),其中,确定色度矢量(100)包括: -将第二块的频率系数中的一些或全部分类为色度矢量(100)的音调类;和 -基于所分类的频率系数来确定色度矢量(100)的音调类的累积能量。
26.根据权利要求25所述的方法(900),其中,使用与色度矢量(100)的音调类相关联的带通滤波器(200)对频率系数进行分类。
27.根据前面任何一个权利要求所述的方法(900),还包括: -从音频信号(301)的采样块序列确定色度矢量(100)序列,从而得到音频信号(301)的色度图谱。
28.一种适于对音频信号(301)进行编码的音频编码器(350,410),所述音频编码器(350,410)包括: -核心编码器(302,412),所述核心编码器(302,412)适于对音频信号(301)的经下采样的低频分量进行编码,其中,所述核心编码器(412)适于通过将采样块变换到频域中来对低频分量的采样块进行编码,从而得到相应的频率系数块;和 -色度确定单元(352,356),所述色度确定单元(352,356)适于基于所述频率系数块来确定音频信号(301)的低频分量的采样块的色度矢量(100)。
29.根据权利要求28所述的编码器(350,410),还包括谱带复制编码器(414),所述谱带复制编码器(414)适于对音频信号(301)的相应的高频分量进行编码。
30.根据权利要求29所述的编码器(350,410),还包括: -复用器(354,415),所述复用器(354,415)适于从由核心编码器(302,412)和谱带复制编码器(414)提供的数据产生编码的比特流(355),其中,所述复用器(354,415)适于将从色度矢量(100)导出的信息作为元数据添加到编码的比特流(355)。
31.根据权利要求30所述的编码器(350,410),其中,以下列格式中的任何一种格式对编码的比特流(355)进行编码:MP4格式、3GP格式、3G2格式、LATM格式。
32.—种适于对音频信号(301)进行解码的音频解码器(430),所述音频解码器(430)包括: -解复用和解码单元(431),所述解复用和解码单元(431)适于接收编码的比特流,并且适于从所述编码的比特流提取频率系数块;其中,所述频率系数块与音频信号(301)的经下采样的低频分量的相应采样块相关联;和 -色度确定单元(352,356),所述色度确定单元(352,356)适于基于所述频率系数块来确定音频信号(301)的采样块的色度矢量(100)。
33.一种软件程序,所述软件程序适于在处理器上执行,并且适于当在所述处理器上执行时执行权利要求1至27中的任何一个所述的方法步骤。
34.一种存储介质,所述存储介质包括软件程序,所述软件程序适于在处理器上执行,并且适于当在计算装置上执行时执行权利要求1至27中的任何一个所述的方法步骤。
35.一种计算机程序,所述计算机程序包括用于当在计算机上执行时执行权利要求1至27中的任何一个所述的方法步骤的可执行指令。
【文档编号】G06F17/30GK103959375SQ201280058961
【公开日】2014年7月30日 申请日期:2012年11月28日 优先权日:2011年11月30日
【发明者】A·比斯沃斯, M·芬克, M·舒格 申请人:杜比国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1