编码音频的节约式响度测量的制作方法

文档序号:7636825阅读:197来源:国知局
专利名称:编码音频的节约式响度测量的制作方法
技术领域
本发明涉及音频信号处理。更具体而言,本发明涉及低比特率编 码的音频的客观响度测量的节约式计算,低比特率编码的音频是比如
<吏用Dolby Digital (AC-3)、 Dolby Digital Plus、或Dolby E编码的音频。 "Dolby" 、 "Dolby Digital" 、 "Dolby Digital Plus,,和"Dolby E,,是Dolby 实验室特许公司的商标。本发明的各方面也可适用于其它类型的音频 编码。
背景技术
Dolby Digital编码的细节在以下参考文献中有记栽
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001 。 该A/52A文档可通过万维网在http:〃www.atsc.org/ standards.html获得;
Craig C. Todd等人的"Flexible Perceptual Coding for Audio Transmission and Storage", 96 Convention of the Audio Engineering Society, 1994年2月26日,预印本3796;
Steve Vernon的"Design and Implementation of AC-3 Coders", IEEE Trans. Consumer Electronics, Vol. 41, No.3, 1995年8月;
Mark Davis的"The AC-3 Multichannel Coder', , Audio Engineering Society预印本3774, 95th AES Convention, 1993年10月;
Bosi等人的"High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications", Audio Engineering Society预印本3365, 93rd AES Convention, 1992年10月;
美国专利5583962、 5632005、 5633981 、 5727119、 5909664和
6021386。
Dolby Digital Plus编码的细节在以下文献中记载"Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System", AES Convention Paper 6196, 117th AES Convention, 2004 年10月28日。
Dolby E编码的细节在以下文献中记载"Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System", AES预印 本5068, 107th AES Conference, 1999年8月;和"Professional Audio Coder Optimized for Use with Video", AES预印本5033, 107th AES Conference, 1999年8月。
包括Dolby编码器、MPEG编码器等的各种感知编码器的综述在 以下文献中记载Karlheinz Brandenburg和Marina Bosi的"Overview
of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding", J. Audio Eng. Soc., Vol.45, No.l/2, 1997年1月/2月。 通过参考的形式将所有以上引用的参考文献整体包括在此。 已有多种方法用来客观地测量音频信号的感知响度。方法的实例 包括加权功率测量(比如LeqA、 LeqB、 LeqC )和基于心理声学的响 度测量,比如"声学一计算响度级的方法",ISO 532 ( 1975 )。加权功 率响度测量通过应用预定的滤波器并且然后在预定的时间长度上对经 过滤波的信号的功率进行平均来处理输入音频信号,该预定的滤波器 加强感觉上较敏感的频率而削弱感觉上较不敏感的频率。心理声学方 法通常更复杂并且致力于更好模拟人耳的工作。这是通过将音频信号 划分为模仿耳朵的频率响应和敏感度的频带,并且然后在考虑比如频 率和时间掩蔽的心理声学现象以及具有变化信号强度的响度的非线性 感知的同时操纵并整合这些频带来实现的。所有这些客观响度测量方 法的目的是得到严密匹配音频信号响度的主观感知的响度数值量度。
感知编码或低比特率音频编码通常用于数据压缩音频信号以在 比如广播数字电视和在线因特网贩卖音乐的应用中高效存储、发送和 传输。感知编码通过将音频信号变换到可以轻易丢弃冗余和在心理声
学上被掩蔽的信号分量的信息空间来实现其效率。剩余信息被打包到 数字信息的流或文件中。典型地,测量由低比特率编码的音频表示的
音频的响度需要将该音频解码回时域(例如PCM),这会计算量很大。 然而, 一些低比特率感知编码的信号包含可能对于响度测量方法有用 的信息,从而节省完全解码该音频的计算成本。Dolby Digital( AC-3)、 Dolby Digital Plus和Dolby E属于这种音频编码系统。
Dolby Digital、 Dolby Digital Plus和Dolby E低比特率感知音频编 码器将音频信号划分为变换成频域表示的重叠的加窗时间段(或音频
编码块)。谱系数的频域表示由包括指数和相关尾数的集合的指数记 数法表达。以标度因子方式起作用的指数被打包进编码的音频流。尾 数代表被指数规格化之后的谱系数。指数然后穿过听觉的感知模型并 且用于量化尾数并将尾数打包进编码的音频流。解码时,指数被从编 码的音频流中拆包并且然后穿过相同的感知模型以确定如何拆包尾 数。然后尾数被拆包,与指数组合在一起以建立该音频的频域表示, 然后将该频域表示解码并转换回时域表示。

发明内容
因为很多响度测量包括功率和功率谱计算,所以可以通过仅部分 解码低比特率编码的音频和将部分解码的信息(比如功率镨)传递给 响度测量来实现节省计算量。只要存在测量响度但不解码音频的需要, 本发明就是有用的。利用了这样的事实,即响度测量可以利用音频的 近似版本,这种近似通常不适合收听。本发明的一方面是认识到,在
很多音频编码系统中不完全解码比特流就可获得的音频的粗略表示可 以提供可用于测量音频响度的音频i普的近似。在Dolby Digital、 Dolby Digital Plus和DolbyE音频编码中,指数提供音频的功率^普的近似。类 似地,在某些其它编码系统中,标度因子、镨包络和线性预测系数可 以提供音频的功率语的近似。本发明的这些和其它方面以及优点将随 着阅读和理解以下对本发明的概述和描述而得到更好理解。
本发明提供一种低比特率编码音频的感知响度的节省计算量的 测量。这是通过仅部分解码音频素材并且将部分解码的信息传递给响 度测量来实现的。该方法利用了部分解码的音频信息的特定属性,比如Dolby Digital、 Dolby Digital Plus和Dolby E音频编码中的指数。本发明的第一方面通过不完全解码音频而从比特流得出该音频 的功率镨的近似,并且响应于该音频的功率谱的近似而确定该音频的 近似响度,来测量以比特流编码的音频的响度,该比特流包括这样的 数据,可以不完全解码音频就从该数据得出该音频的功率镨的近似。在本发明的另一方面中,该数据可以包括音频的粗略表示和音频 的相关更精细表示,在这种情况中音频的功率语的近似可以从该音频 的粗略表示中得出。在本发明的另一方面中,以比特流编码的音频可以是具有多个频 率子带的子带编码音频,每个子带具有标度因子和与其相关的采样数 据,并且其中音频的粗略表示包括标度因子,并且音频的相关更精细 表示包括与每个标度因子相关的釆样数据。在本发明的另一方面中,通过指数记数法,每个子带的标度因子 和采样数据可以表示该子带中的语系数,其中,标度因子包括指数并 且相关釆样数据包括尾数。在本发明的另一方面中,以比特流编码的音频可以是线性预测编 码音频,其中该音频的粗略表示包括线性预测系数并且该音频的更精 细表示包括与线性预测系数相关的激励信息。在本发明的另一方面中,音频的粗略表示可以包括至少一个谱包 络,并且音频的更精细表示可以包括与该至少一个谱包络相关的镨分在本发明的另一方面中,响应于音频的功率谱的近似而确定音频 的近似响度的步骤可包括应用加权功率响度测量。加权功率响度测量 可使用削弱较不易感知的频率的滤波器并且对经过滤波的音频的功率 在时间上进行平均。在本发明的另一方面中,响应于音频的功率谱的近似而确定音频 的近似响度的步骤可包括应用心理声学响度测量。心理声学响度测量
可以使用人耳模型来确定类似于人耳的临界频带的多个频带中每一个 中的单位响度。在子带编码器环境中,子带可以类似于人耳的临界频 带并且心理声学响度测量可以使用人耳模型来确定每个子带中的单位 响度。本发明的多个方面包括实现上述功能的方法、实现上述功能的手 段、实现上述方法的装置、和存储在计算机可读介质上用于使计算机 执行实现上述功能的方法的计算机程序。


图l示出用于测量低比特率编码的音频的响度的一般配置的示意 性功能框图。图2示出Dolby Digital、 Dolby Digital Plus和Dolby E解码器的一 般示意性功能框图。图3a和3b示出用于分别使用加权功率测量和基于心理声学的测 量来计算客观响度测量的两个一般配置的示意性功能框图。图4示出当根据图3a的实例的配置测量响度时使用的普通频率加权。图5是示出根据本发明多个方面的用于测量编码音频的响度的更 节约的一般配置的示意性功能框图。图6a和6b是根据本发明多个方面的包括了图3a和3b的实例中示 出的响度配置的用于测量响度的更节约配置的示意性功能框图。
具体实施方式
本发明多个方面的好处是低比特率编码的音频的响度的测量不 需要将该音频完全解码到PCM,该解码包括昂贵的解码处理步骤,比 如比特分配、去量化、逆变换等。本发明的多个方面大大降低了处理 要求(计算开销)。当需要进行响度测量但不需要解码的音频时此途 径是有益的。本发明的多个方面可用在,例如,比如下列公开的环境中(1)2004年7月1日提交的Smithers等人的题为"Method for CorrectingMetadata Affecting the Playback Loudness and Dynamic Range of Audio Information,,的未决美国非临时专利申请S.N,10/884177; ( 2 ) 与本申请同日提交、律师巻号为DOL150的Brett Graham Crockett的 题为"Audio Metadata Verification"的美国临时专利申请 S.N.60/xxx,xxx;和(3)在不需要也不希望访问解码的音频的广播存 储或传输链中响度测量和校正的执行。所述S.N. 10/884177和所述律师 巻号为DOL150的申请通过参考的形式而整体被包括在此。本发明的多个方面提供的处理的节约也有助于使得可以对大量 低比特率数据压缩的音频信号进行实时响度测量和元数据校正(例如, 将DIALNORM参数改为正确值)。通常,许多低比特率编码的音频信 号被复用并且在MPEG传输流中被传输。根据本发明的多个方面的响 度测量使得对大量压缩音频信号进行的实时响度测量比起完全解码压 缩音频信号到PCM以执行响度测量的要求可行得多。图l示出用于测量编码音频响度的现有技术配置。编码的数字音 频数据或信息101,比如经过低比特率编码的音频,由解码器或解码功 能("解码,,)102解码为例如PCM音频信号103。此信号然后施加到产 生测量出的响度值105的响度测量器或测量方法或算法("测量响度") 104。图2示出解码102的实例的现有技术的结构或功能框图。所示结构 或功能代表Dolby Digital、 Dolby Digital Plus和Dolby E解码器。编码 音频数据101的帧应用于数据拆包器或拆包功能("帧同步,检错和帧 去格式化")202,其将所应用的数据拆包为指数数据203、尾数数据204 和其它杂项比特分配信息207。指数数据203被设备或功能("对数功率 镨")205转换为对数功率i脊206,并且比特分配器或比特分配功能("比 特分配,,)208使用此对数功率镨计算信号209,信号209是每个量化尾 数的以比特计的长度。然后,尾数被设备或功能("去量化尾数")210 去量化并且与指数组合,并且由逆滤波器组设备或功能("逆滤波器 组,,)212转换回时域。逆滤波器组212也重叠并且累加当前逆滤波器组
结果的一部分和前一逆滤波器组结果(按时间)以建立解码的音频信号103。在实际的解码器实现中,比特分配、去量化尾数和逆滤波器组 设备或功能需要大量计算资源。解码过程的更多细节可以在上面所引 用的文献中找到。图3a和3b示出用于客观地测量音频信号的响度的现有技术的配 置。这些代表测量响度104 (图l)的变型。尽管图3a和3b分别示出两 种一般种类的客观响度测量技术的实例,对本发明来说特定的客观测 量技术的选择不是关键性的,并且也可以使用其它客观响度测量技术。图3a示出普遍用于响度测量的加权功率测量配置的实例。音频信 号103通过被设计成加强感觉上较敏感的频率而削弱感觉上较不敏感 的频率的加权滤波器或加权滤波功能("加权滤波器")302。经滤波的 信号303的功率305由设备或功能("功率,,)304计算并且由设备或功能 ("平均")306在规定的时间段上进行平均以建立响度值105。存在多 个不同的标准加权滤波特性并且图4中示出 一些普遍实例。在实际中, 经常使用图3a配置的修改版,这些修改例如防止静音时间段包括在平 均中。经常使用基于心理声学的技术来测量响度。图3b示出这种基于心 理声学的配置的典型现有技术配置。音频信号103由代表外耳和中耳的 频率变化幅度响应的传输滤波器或传输滤波功能("传输滤波器")312 滤波。经过滤波的信号313然后由听觉滤波器组或听觉滤波器组功能("听觉滤波器组")314分成等于或窄于听觉临界频带的多个频带。这 可以通过执行快速傅立叶变换(FFT)(例如由离散频率变换(DFT) 实现)并且然后将线性间隔的频带组合成近似于人耳的临界频带(如 同以ERB或Bark标度)的频带来完成。或者,这可以通过用于每个ERB 或Bark频带的单个带通滤波器来完成。每个频带然后由设备或功能("激励,,)316转换为代表在该频带内人耳经历的刺激或激励的量的激 励信号317。然后由设备或功能("单位响度")318从该激励计算每个 频带的所感知的响度或单位响度,并且跨所有频带的单位响度被累加 器或累加功能("累加")320累加以建立响度的单个测量105。累加过
程可以考虑各种感知效果,例如频率掩蔽。在这些感知方法的实际实 现中,传输滤波器和听觉滤波器组需要大量计算资源。图5示出本发明一个方面的框图。编码的数字音频信号101由设备 或功能("部分解码")502部分解码,并且由设备或功能("测量响度") 504从部分解码的信息503测量响度。依据如何执行部分解码,响度测 量结果505可以非常相似于从完全解码的音频信号103 (图l)计算出的 响度测量105,但不完全相同。在本发明多个方面的Dolby Digital、 Dolby Digital Plus和Dolby E实现的意义上,部分解码可以包括从比如 图2的实例的解码器省略比特分配、去量化尾数和逆滤波器组设备或功 能。图6a和6b示出图5的一般配置的两个实现实例。尽管二者都可以 采用相同的部分解码502功能或设备,但每个可以具有不同的测量响度 504功能或设备一图6a中实例类似于图3a的实例,而图6b中的实例类似 于图3b实例。在两个实例中,部分解码502从编码音频流中仅提取指数 203并且将指数转换为功率镨206。这种提取可以由如图2实例中的设备 或功能("帧同步,检错和帧去格式化")202来执行,这种转换可以由 如图2实例中的设备或功能("对数功率i普")205来执行。不要求如图2 的解码实例中所示的那样用于完全解码所要求的去量化尾数、执行比 特分配和执行逆滤波器组。图6a的实例包括测量响度504,其可以是图3a的响度测量器或响 度测量功能的修改版。在此实例中,修改的加权滤波由加权滤波器或 加权滤波功能("修改的加权滤波器,,)601通过增加或降低每个频带中 的功率值而作用于频域。与此对比,图3a实例在时域中进行加权滤波。 尽管在频域中工作,修改的加权滤波却以与图3a的时域加权滤波相同 的方式作用于音频。滤波601对于图3a的滤波302的修改在于,它工作 于对数幅度值而不是线性值,而且它工作于非线性而不是线性频率刻 度。然后,频率加权功率谱602由应用例如后面的式5的设备或功能("转 换、累加并平均,,)603转换为线性功率并且在频率上被累加并在时间 上被平均。输出是客观响度值505。
图6b的实例包括测量响度504,其可以是图3b的响度测量器或响 度测量功能的修改版。在此实例中,修改的传输滤波器或传输滤波功 能("修改的传输滤波器,,)611通过增加或降低每个频带中的对数功率 值而直接在频域中应用。与此对比,图3b实例在时域中应用加权滤波。 尽管在频域中工作,修改的传输滤波却以与图3b的时域传输滤波相同 的方式作用于音频。修改的听觉滤波器组或听觉滤波器组功能("修改 的听觉滤波器组")613作为输入接收线性频带间隔的对数功率谱并且 将这些线性间隔的频带分成或组合成临界频带间隔的(例如,ERB或 Bark频带)滤波器组输出315。修改的听觉滤波器组613也将对数域功 率信号转换为线性信号用于后续的激励设备或功能("激励")316。修 改的听觉滤波器组613对于图3b的听觉滤波器组314的"修改"在于,它 工作于对数幅度值而不是线性值,并且将这种对数幅度值转换为线性 值。或者,可以在修改的听觉滤波器组613而不是修改的传输滤波器组 611中执行将频带组成ERB或Bark频带。图6b的实例也包括每个频带 的单位响度318和累加320,如图3b中的实例。对于图6a和6b中所示的配置,因为解码不需要比特分配、尾数去 量化和逆滤波器组,所以实现了显著的计算量节省。但是,对于图6a 和图6b的配置二者来说,客观响度测量结果可能不会与从完全解码的 音频计算的测量值完全相同。这是因为一些音频信息被丢弃并且因此 用于测量的音频信息不完整。当本发明的多个方面用于Dolby Digital 、 Dolby Digital Plus和Dolby E时,尾数信息被丟弃并且仅保留粗略量化 的指数值。对于DolbyDigital和Dolby Digital Plus,这些值被量化到6 dB的增量,而对于DolbyE,这些值被量化到3 dB的增量。Dolby E中 较小的量化步长导致更精细量化的指数值,并且因而,导致更精确估 计功率镨。感知编码器经常被设计成结合音频信号的某些特性更改也称为 块尺寸的重叠时间段的长度。例如Dolby Digital使用两种块尺寸一主 要用于平稳音频信号的512个样本的较长块和用于较瞬变音频信号的 256个样本的较短块。结果是,频带数目和对数功率镨值206的相应数目逐块变化。当块尺寸是512个样本时,有256个频带,而当块尺寸是 256个样本时,有128个频带。图6a和6b中提出的方法有多种方式可以处理变化的块尺寸,并且 每种方式都导致相似的响度测量结果。例如,对数功率镨205可以修改 成通过组合或平均多个较小块到较大块中以及将较小数目的频带的功 率扩展到较大数目频带而永远以恒定块速率输出恒定数量的频带。或 者,测量响度可以接受变化的块尺寸并且根据它们的滤波、激励、单 位响度、平均和累加过程调整,例如,通过调整时间常数进行。加权功率测量实例作为本发明多方面的一个实例,加权功率响度测量方法的一个高 度节约的版本可以使用Dolby Digital比特流和加权功率响度测量 LeqA。在此高度节约的实例中,仅Dolby Digital比特流中包含的量化 的指数被用作音频信号谱的估计以进行响度测量。这避免了进行比特 分配以重建尾数信息的额外计算要求,否则重建尾数信息仅提供稍微 更精确一点的信号谱估计。如图5和6a中的实例所示,Dolby Digital比特流被部分解码以重建 和提取从比特流中包含的量化的指数数据计算的对数功率i普。Dolby Digital通过开窗512个连续的、50 %重叠的PCM音频样本和进行 MDCT变换,得到用于建立低比特率编码的音频流的256个MDCT系数 来进行低比特率音频编码。图5和6a中进行的部分解码拆包指数数据 E(k)并且将拆包的数据转换为256个量化的对数功率语值P(k),其形成 音频信号的粗略的谱表示。对数功率镨值P(k)以dB为单位。该转换如 下<formula>formula see original document page 15</formula>其中N-256,是Dolby Digital比特流中每个块的变换系数的个数。为 了在响度的加权功率测量的计算中使用对数功率谗,使用适当的响度 曲线,比如图4中所示的A、 B或C加权曲线,加权对数功率谱。在这种 情况下,计算LeqA功率测量并且因此A加权曲线是适合的。通过与离 散的A加权频率值Aw(k)相加来加权对数功率镨值P(k), Aw(k)也以dBPw(k)=P(k)+ Aw(k) 0^k<N (2)离散的A加权频率值Aw(k)通过计算离散频率fdiscrete的A加权增益 值来建立,其中/一f +尸" 0£k<N (3)其中,尸=丄 0^k<N (4)并且其中釆样频率Fs对于Dolby Digital典型地等于48kHz。然后每组加 权对数功率谱值Pw(k)被从dB转换到线性功率并且被累加以建立512 个PCM音频样本的A加权功率估计Ppow,如下尸層=^10(響。) (5)如前所述,每个Dolby Digital比特流包含通过开窗具有50。/。重叠 的512个PCM样本并且进行MDCT变换来建立的连续的变换。因此, Dolby Digital比特流中低比特率编码的音频的总的A加权功率PTOT的 近似可以通过在Dolby Digital比特流中的所有变换上平均功率值来计 算,如下MS其中M等于Dolby Digital比特流中包含的变换总数。然后,平均功率 被转换为以dB为单位,如下=io.iogl。(/v)-c (7)其中C是在Dolby Digital比特流的编码期间在变换过程中执行的电平改变而造成的恒定偏置。 心理声学测量实例如本发明多个方面的另一实例,加权功率响度测量方法的高度节 约版本可以使用Dolby Digital比特流和心理声学响度测量。在此高度 节约的实例中,如前所述,仅Dolby Digital比特流中包含的量化的指 数被用作音频信号谱的估计以进行响度测量。如另一实例中,这避免 了进行比特分配以重建尾数信息的额外计算要求,否则重建尾数信息 仅提供稍微更精确 一点的信号谱估计。2004年5月27日提交、2004年12月23日作为WO 2004/111994 A2 公开、Seefeldt等人的国际专利申请No. PCT/US2004/016964 (该申请 指定美国)特别公开了根据心理声学模型客观测量所感知的响度。所 述申请因此通过参考而整体包括在此。从Dolby Digital比特流的部分 解码得出的对数功率谱值P(k)可用于比如所述国际申请中的技术,以 及其它类似的心理声学测量的输入,而不是原始PCM音频。这种配置 在图6b的实例中示出。借鉴所迷PCT申请中的术语和符号,在临界频 带b处近似于沿耳底膜的能量分布的激励信号E(b)可以由如下的对数 功率^普值近似'恭'双wv观干"/义7TJ^nb、 位置处耳底膜的频率响应,两个响应都在相应于变换库k的频率处采 样。接下来,相应于Dolby Digital比特流中所有变换的激励被平均以产生总激励:(9)使用等响度曲线,每个频带处的总激励变换为在lkHz处产生相同 响度的激励水平。单位响度,即跨频率分布的感知响度的测量,然后 由变换的激励UW计算,通过压缩非线性一l其中TQ仏Hz是在lkHz处静音的阈值,并且常数G和a选择成匹配从描述 响度增长的心理声学实验生成的数据。最终,以宋(sone)为单位表 示的总响度L通过累加跨频带的单位响度来计算£ = Z, (11)出于调整音频信号的目的,可能希望计算匹配增益GMatch,当它 乘以音频信号时使得所调整的音频的响度等于某参考响度LREF,如所 述心理声学技术所测量的。因为心理声学测量在单位响度的计算中涉 及非线性,所以GMateh的闭合形式解不存在。而是,可以采用所述PCT 申请中描述的交互技术,其中调整匹配增益的平方并且将其乘以总激 励^(6),直到相应的总响度L在相对于参考响度L肌F的一个阈值差内。音频的响度然后可以相对于参考值以dB表示为4ffl =201ogl0(12)其它感知音频编解码器本发明的多个方面不限于Dolby Digital, Dolby Digital Plus和 Dolby E编码系统。使用某些其它编码系统编码的音频信号也可受益于 本发明的多个方面,在这些其它编码系统中,通过例如不完全解码比 特流以产生音频而可从编码的比特流中恢复的标度因子、语包络和线 性预测系数提供音频的功率镨的近似。根据Dolby Digital指数计算功率中的误差Dolby Digital指数E(k)代表MDCT镨系数的对数的粗略量化。当 使用这些值作为粗略功率镨时存在多个误差源。首先,在Dolby Digital中,当将从指数产生的功率谱的值(参见 上述式l )和直接从MDCT系数计算的功率值相比较时,量化过程本身 导致大约2.7dB的平均误差。根据实验确定的此平均误差可以合并到上 式7中的恒定偏置C中。其次,在某些信号条件下,比如瞬变,跨频率而分组指数值(参 见上面所引用的A/52A文档中的"D25"和"D45"模式)。这种跨频率分 组使得平均指数误差较不可预测,并且因此更难以通过合并到式7的常 数C中而解决。实际上,由于这种分组而产生的误差由于以下两个原 因而可以被忽略(1)很少使用分组,和(2)使用分组的信号的本 质导致测量的平均误差类似于非平均的情况。实现本发明可以以硬件或软件,或二者的组合(例如,可编程逻辑阵 列)来实现。除非指定,作为本发明一部分而包括的算法和过程不是 固有地针对任何特定计算机或其它设备。特别地,可以使用具有根据
此处教导而编写的程序的各种通用机器,或者构造更专用的设备(例 如集成电路)以执行所需方法步骤会更方便。因此,本发明可以在一 个或多个可编程计算机系统上运行的一个或多个计算机程序中实现, 其中每个这样的计算机系统包括至少一个处理器、至少一个数据存储 系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入 设备或端口,以及至少一个输出设备或端口。应用程序代码输入数据 来执行在此所描述的功能并且产生输出信息。输出信息以已知方式应 用到一个或多个输出设备。每个这种程序可以以任何所需的计算机语言实现(包括机器、汇 编、或高级过程、逻辑或面向对象的编程语言)以与计算机系统通信。 在任何情况中,该语言可以是编译过或解释过的语言。应意识到,示例图中所示的一些步骤或功能执行多个子步骤并且 也可以作为多个步骤或功能而不是一个步骤或功能而示出。也应意识 到,在此处的各个实例中示出和描述的各种设备、功能、步骤和过程 可以组合或分别示出而不是如同在各幅图中所示的那样。例如,当由 计算机软件指令序列实现时,示例图的各种功能和步骤可以由运行在 适当的数字信号处理硬件中的多线程软件指令序列实现,在这种情况 中,图中所示实例中的各种设备和功能可以相应于软件指令的多个部 分。每个这种计算机程序最好存储在或者下载到通用或专用可编程 计算机可读的存储介质或设备(例如,固态存储器或介质、或磁或光 介质)上,以便在计算机系统读取存储介质或设备以执行在此所描述 的过程时配置和运行计算机。也可以认为本发明系统作为以计算机程 序配置的计算机可读存储介质而实现,其中这样配置的存储介质使得 计算机系统以特定的和预定的方式工作,以执行在此所描述的功能。已经描述了本发明的多个实施例。尽管如此,应理解,可以不脱 离本发明的精神和范围而做出各种修改。例如,在此所描述的一些步 骤可以与顺序无关,并且因此可以以不同于所述的顺序执行。
权利要求
1.一种用于测量以比特流编码的音频的响度的方法,该比特流包括数据,从该数据能够得出该音频的功率谱的近似而不完全解码该音频,所述方法包括从所述比特流得出音频的功率谱的所述近似而不完全解码该音频,以及响应于该音频的功率谱的近似而确定该音频的近似响度。
2. 如权利要求l所述的方法,其中,所述数据包括音频的粗略 表示和音频的相关更精细表示,并且其中,从音频的粗略表示得出音 频的功率镨的所述近似。
3. 如权利要求2所述的方法,其中,以比特流编码的音频是具 有多个频率子带的子带编码音频,每个子带具有标度因子和与其相关 的釆样数据,并且其中,所述音频的粗略表示包括标度因子,并且所 述音频的相关更精细表示包括与每个标度因子相关的采样数据。
4. 如权利要求3所述的方法,其中,通过指数记数法,每个子 带的标度因子和采样数据表示该子带中的谱系数,在该指数记数法中, 标度因子包括指数并且相关的采样数据包括尾数。
5. 如权利要求l-4中任何一项所述的方法,其中,所述比特流 是AC-3编码的比特流。
6. 如权利要求2所述的方法,其中,以比特流编码的音频是线 性预测编码音频,其中该音频的粗略表示包括线性预测系数并且该音 频的更精细表示包括与线性预测系数相关的激励信息。
7. 如权利要求2所述的方法,其中,音频的粗略表示包括至少 一个语包络,并且音频的更精细表示包括与该至少一个镨包络相关的 谱分量。
8. 如权利要求1-7中任何一项所述的方法,其中,响应于音频 的功率语的近似而确定音频的近似响度包括应用加权功率响度测量。
9. 如权利要求8所述的方法,其中,加权功率响度测量使用削 弱较不易感知的频率的滤波器并且对经过滤波的音频的功率在时间上 进行平均。
10. 如权利要求1-7中任何一项所述的方法,其中,响应于音 频的功率谱的近似而确定音频的近似响度包括应用心理声学响度测 量。
11. 如权利要求10所述的方法,其中,心理声学响度测量使用 人耳模型来确定类似于人耳的临界频带的多个频带中每一个中的单位响度。
12. 如权利要求3-5中任何一项所述的方法,其中,响应于音 频的功率镨的近似而确定音频的近似响度包括应用心理声学响度测 量。
13. 如权利要求12所述的方法,其中,所述子带类似于人耳的 临界频带并且心理声学响度测量使用人耳模型来确定每个所述子带中 的单位响度。
14. 一种用于测量以比特流编码的音频的响度的装置,所述比 特流包括数据,从该数据能够得出该音频的功率谱的近似而不完全解 码该音频,所述装置包括用于从所述比特流得出音频的功率镨的所述近似而不完全解码 该音频的部件,以及用于响应于该音频的功率镨的近似而确定该音频的近似响度的部件。
15. 如权利要求14所述的装置,其中,所述数据包括音频的粗 略表示和音频的相关更精细表示,并且其中,从音频的粗略表示得出 音频的功率镨的所述近似。
16. 如权利要求15所述的装置,其中,以比特流编码的音频是 具有多个频率子带的子带编码音频,每个子带具有标度因子和与其相 关的采样数据,并且其中,所述音频的粗略表示包括标度因子,并且 所述音频的相关更精细表示包括与每个标度因子相关的采样数据。
17. 如权利要求16所述的装置,其中,通过指数记数法,每个 子带的标度因子和采样数据表示该子带中的谱系数,在该指数记数法 中,标度因子包括指数并且相关的采样数据包括尾数。
18. 如权利要求14-17中任何一项所述的装置,其中,所述比 特流是AC-3编码的比特流。
19. 如权利要求15所述的装置,其中,以比特流编码的音频是 线性预测编码音频,其中该音频的粗略表示包括线性预测系数并且该 音频的更精细表示包括与线性预测系数相关的激励信息。
20. 如权利要求15所述的装置,其中,音频的粗略表示包括至 少一个谱包络,并且音频的更精细表示包括与该至少一个谱包络相关 的镨分量。
21. 如权利要求14-20中任何一项所述的装置,其中,用于响应用加权功率响度测量的部件。
22. 如权利要求21所述的装置,其中,加权功率响度测量使用 削弱较不易感知的频率的滤波器并且对经过滤波的音频的功率在时间 上进行平均。
23. 如权利要求14-20中任何一项所述的装置,其中,用于响 应于音频的功率i普的近似而确定音频的近似响度的所述部件包括用于 应用心理声学响度测量的部件。
24. 如权利要求23所述的装置,其中,心理声学响度测量使用 人耳模型来确定类似于人耳的临界频带的多个频带中每一个中的单位 响度。
25. 如权利要求16-18中任何一项所述的装置,其中,用于响 应于音频的功率镨的近似而确定音频的近似响度的所述部件包括用于 应用心理声学响度测量的部件。
26. 如权利要求25所述的装置,其中,所述子带类似于人耳的 临界频带并且心理声学响度测量使用人耳模型来确定每个所述子带中 的单位响度。
27. 适于执行如权利要求l - 13中任何一项所述的方法的装置。
28. —种计算机程序,其存储在计算机可读介质上用于使计算 机执行如权利要求l - 13中任何一项所述的方法。
全文摘要
通过不完全解码音频而从比特流得出该音频的功率谱的近似,并且响应于该音频的功率谱的近似而确定该音频的近似响度,来执行以比特流编码的音频的响度测量,该比特流包括可以不完全解码音频就从其得出该音频的功率谱的近似的数据。该数据可包括音频的粗略表示和音频的相关更精细表示,从音频的粗略表示得出音频的功率谱的所述近似。在子带编码的音频的情况中,音频的粗略表示可包括标度因子,并且所述音频的相关更精细表示可包括与每个标度因子相关的采样数据。
文档编号H04S7/00GK101161033SQ200680012139
公开日2008年4月9日 申请日期2006年3月23日 优先权日2005年4月13日
发明者布雷特·格拉汉姆·克罗克特, 艾兰·杰弗瑞·西弗尔特, 迈克尔·J·斯密斯尔思 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1