多声道音频的混合编码的制作方法

文档序号:8947537阅读:794来源:国知局
多声道音频的混合编码的制作方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求2013年4月30日提交的美国临时专利申请No. 61/817729的优先权, 该申请的全部内容通过引用并入于此。
技术领域
[0003] 本发明涉及音频信号处理,更具体地,涉及多声道音频编码(例如,对指示多声道 音频信号的数据的编码)和解码。在典型实施例中,多声道输入音频的个体声道的低频分 量的下混(downmix)经受波形编码(waveform coding),而输入音频的其它(更高频)频率 分量经受参数化编码(parametric coding)。一些实施例根据被称为AC-3和E-AC_3(增强 型AC-3)的格式之一或者根据另一种编码格式对多声道音频数据进行编码。
【背景技术】
[0004] 杜比实验室提供分别被称为杜比数字(Dolby Digital)和杜比数字加(Dolby Digital Plus)的AC-3和E-AC-3的专有实现。杜比、杜比数字和杜比数字加是杜比实验室 授权公司的商标。
[0005] 尽管本发明不限于在根据E-AC-3 (或AC-3)格式对音频数据进行编码时使用,但 是为了方便起见,将在实施例中描述根据E-AC-3格式来对音频比特流进行编码。
[0006] AC-3或E-AC-3编码的比特流包括元数据,并且可以包括音频内容的1至6个声 道。音频内容是已经使用感知音频编码来压缩的音频数据。AC-3编码的细节是众所周知 的,并且在许多发表的参考文献中得到阐述,包括:
[0007] ATSC 标准 A52/A:Digital Audio Compression Standard(AC-3),修订版 A,先进 电视系统委员会,2001年8月20日;以及
[0008] 美国专利 5583962、5632005、5633981、5727119 和 6021386。
[0009] 杜比数字加(E-AC-3)编码的细节例如在下文中得到阐述'Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System", AES 会议 论文6196,第117届AES会议,2004年10月28日。
[0010] AC-3编码音频比特流的每帧包含针对数字音频的1536个样本的音频内容和元数 据。对于48kHz的采样速率,这表示32毫秒的数字音频或音频的31. 25帧/秒的速率。
[0011] E-AC-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本 的音频内容和元数据,这分别取决于该帧是包含音频数据的一个、两个、三个还是六个块。
[0012] 由E-AC-3编码的典型实现方式执行的音频内容编码包括波形编码和参数化编 码。
[0013] 音频输入信号的波形编码(典型地被执行为对信号进行压缩以使得编码信号包 括比输入信号更少的比特)以服从适用约束、尽可能多地保留输入信号的波形的方式(例 如,使得编码信号的波形最大程度地匹配输入信号的波形)对输入信号进行编码。例如,在 常规的E-AC-3编码中,对多声道输入信号的每个声道的低频分量(典型地,上至3. 5kHz或 4. 6kHz)执行波形编码,以通过(在频域中)产生输入信号的每个声道的每个低频带的每个 样本(其为频率分量)的量化表示(量化的尾数和指数)来对输入信号的这种低频内容进 行压缩。
[0014] 更具体地,E-AC-3编码器(以及一些其它常规的音频编码器)的典型实现方式实 现了心理声学模型,以在带(即,典型地,50个不均匀的带,近似于公知的被称为Bark标度 (Bark scale)心理声学标度的频带)的基础上对指示输入信号的频域数据进行分析来确 定对于每个尾数的最佳比特分配。为了对输入信号的低频分量执行波形编码,将尾数数据 (指示低频分量)量化为与确定的比特分配对应的比特数量。然后将量化的尾数数据(以 及对应的指数数据,典型地还有对应的元数据)格式化为编码的输出比特流。
[0015] 参数化编码(另一种公知的音频信号编码)提取并编码输入音频信号的特征参 数,以使得(在编码和随后的解码之后的)重构信号具有尽可能少的可懂度(服从适用约 束),但使得编码信号的波形与输入信号的波形迥然不同。
[0016] 例如,2003年10月9日公开的PCT国际申请公开号W003/083834A1以及2004年 11月25日公开的PCT国际申请公开号W02004/102532A1描述了一种被称为频谱扩展编码 (spectral extension coding)的参数化编码。在频谱扩展编码中,将全频率范围音频输入 信号的频率分量编码为有限频率范围信号(基带信号)的频率分量序列和对应的编码参数 序列(指示残余信号),该编码参数序列(与基带信号一起)确定全频率范围输入信号的近 似版本。
[0017] 另一种公知的参数化编码是声道耦合编码。在声道耦合编码中,音频输入信号的 声道的单音下混被构造。输入信号被编码为该下混(频率分量序列)和对应的耦合参数序 列。耦合参数是(与下混一起)确定输入信号的每个声道的近似版本的水平参数。耦合参 数是使单音下混的能量与输入信号的每个声道的能量匹配的频带化元数据。
[0018] 例如,常规的对5. 1声道输入信号的E-AC-3编码(为了传输编码信号,可用比特 率为192kbps)典型地实现声道耦合编码和频谱扩展编码,其中声道耦合编码对输入信号 的每个声道的中频分量(在范围Fl〈f彡F2内,其中,Fl典型地等于3. 5kHz或4. 6kHz,F2 典型地等于IOkHz或10. 2kHz)进行编码,频谱扩展编码对输入信号的每个声道的高频分量 (在范围F2〈f彡F3内,其中,F2典型地等于IOkHz或10. 2kHz,F3典型地等于14. 8kHz或 16kHz)进行编码。在执行声道耦合编码期间确定的单音下混被波形编码,并且经波形编码 的下混连同耦合参数一起传输(在编码的输出信号中)。在执行声道耦合编码期间确定的 下混被用作频谱扩展编码的基带信号。频谱扩展编码(从输入信号的每个声道的基带信号 和高频分量)确定另一组编码参数(SPX参数)。SPX参数被包括在编码的输出信号中,并 且与其一起传输。
[0019] 在有时被称为空间音频编码的另一种参数化编码中,多声道音频输入信号的声道 的下混(例如,单声道或立体声下混)被生成。输入信号被编码为包括该下混(频率分量 序列)和对应的空间参数序列的输出信号(或者被编码为该下混的每个声道的波形编码版 本与对应的空间参数序列)。空间参数允许从输入信号的下混中恢复音频输入信号的每个 声道的振幅包络以及音频输入信号的声道之间的声道间相关性这两者。这种类型的参数化 编码可以对输入信号的所有频率分量(即,在输入信号的全频率范围上)执行,而不是仅对 输入信号的全频率范围的子范围内的频率分量执行(即,使得输入信号的编码版本包括所 述下混以及针对输入信号的全频率范围的所有频率的空间参数,而非其子集)。
[0020] 在音频比特流的E-AC-E或AC-3编码中,要编码的输入音频样本块经受时域至频 域的变换,产生频域数据块,这些频域数据块通常被称为位于均匀间隔的频率区间中的变 换系数(或频率系数或频率分量)。每个区间中的频率系数然后(例如,在图1系统的BFPE 级7中)被转换为包括指数和尾数的浮点格式。
[0021] 典型地,尾数比特分配基于细粒度信号谱(由每个频率区间的功率谱密度 ("PSD")表示)和粗粒度掩蔽曲线(由每个频带的掩蔽值表示)。
[0022] 图1是被配置为对时域输入音频数据1执行常规的E-AC-3编码的编码器。该 编码器的分析滤波器组2将时域输入音频数据1转换为频域音频数据3,并且块浮点编码 (BFPE)级7产生数据3的每个频率分量的浮点表示,该浮点表示包括针对每个频率区间的 指数和尾数。从级7输出的频域数据在本文中有时将被称为频域音频数据3。从级7输出 的频域音频数据然后被编码,包括通过(在图1系统的元件4、6、10和11中)对从级7输 出的频域数据的低频分量(具有小于或等于"F1"的频率,其中,Fl典型地等于3. 5kHz或 4. 6kHz)执行波形编码,以及(在参数化编码级12中)对从级7输出的频域数据的其它频 率分量(具有大于Fl的频率)执行参数化编码。
[0023] 波形编码包括:在量化器6中对(从级7输出的低频分量的)尾数进行量化,在掩 盖级(tenting stage) 10中对(从级7输出的低频分量的)指数进行掩盖(tenting),并且 (在指数编码级11中)对在级10中产生的经掩盖的指数进行编码。格式化器8响应于从 量化器6输出的经量化的数据、从级11输出的经编码的差分指数数据、以及从级12输出的 经参数化编码的数据,来产生E-AC-3编码比特流9。
[0024] 量化器6基于由控制器4产生的控制数据(包括掩蔽数据)来执行比特分配和量 化。掩蔽数据(其确定掩蔽曲线)是基于人类听力和听觉感知的心理声学模型(其由控制 器4实现)从频域数据3产生的。心理声学建模考虑了人类听力的频率相关阈值以及被称 为掩蔽的心理声学现象,由此,在一个或多个较弱频率分量附近的强频率分量趋向于掩蔽 这些较弱的分量,致使它们不能被人类收听者听到。这使得当对音频数据进行编码时可以 省略较弱的频率分量,由此实现更高的压缩度,而不会不利地影响被编码的音频数据(比 特流9)的感知质量。掩蔽数据包括针对频域音频数据3的每个频带的掩蔽曲线值。这些 掩蔽曲线值表示在每个频带中被人耳掩蔽的信号水平。量化器6使用该信息来决定如何最 好地使用可用数量的数据比特来表示输入音频信号的每个频带的频域数据。
[0025] 已知在常规的E-AC-3编码中,对差分指数(即,连续指数之间的差值)而非对绝 对指数进行编码。差分指数仅可以取以下五个值中的一个:2、1、0、_1和-2。如果发现了在 该范围之外的差分指数,则修改被减的指数中的一个,以使得差分指数(在修改之后)在所 指出的范围内(该常规方法被称为"指数掩盖(exponent tenting)"或"掩盖")。图1编 码器的掩盖级10通过执行这种掩盖操作,响应于向其断言的原始指数,来产生经掩盖的指 数。
[0026] 在E-AC-3编码的典型实施例中,以从大约96kbps至大约192kbps的范围内的比 特率对5或5. 1声道音频信号进行编码。目前,以192kbps,典型的E-AC-3编码器通过使用 如下组合来对5声道(或5. 1声道)输入信号进行编码:对于信号的每个声道的低频分量 (例如,上至3. 5kHz或4. 6kHz)进行离散波形编码,对于信号的每个声道的中频分量(例 如,从3. 5kHz至大约IOkHz或者从4. 6kHz至大约IOkHz)进行声道耦合,对于信号的每个 声道的高频分量(例如,从大约IOkHz至16kHz或者从大约IOkHz至14. 8kHz)进行频谱 扩展。虽然这得到了可接受的质量,但是当可供用于传输经编码的输出信号的最大比特率 降至低于192kbps时,(经编码的输出信号的解码版本的)质量快速劣化。例如,当使用 E-AC-3对5. 1声道音频进行编码以用于流传输时,临时的数据带宽限制可能要求数据速率 低于192kbps (例如,降至64kbps)。然而,使用E-AC-3对5. 1声道信号进行编码以便以低 于192kbps的比特率传输无法生成"广播质量"的编码音频。为了(使用E-AC-3编码)对 信号进行编码以便以远低于192kbps的比特率(例如,96kb
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1