利用节目响度和边界元数据的音频编码器和解码器的制造方法_6

文档序号:8417610阅读:来源:国知局
发明的实施例生 成的音频比特流,则解码器被配置成从根据比特流确定的数据块来解析和取回加密散列, 上述块包括响度处理状态元数据(LPSM)。验证器203可以使用加密散列来验证所接收的比 特流和/或相关联的元数据。例如,如果验证器203基于参考加密散列与从数据块中取回 的加密散列之间的匹配发现LPSM是有效的,则其可以向下游音频处理单元(如,后处理器 300,其可以是或者包括音量调节单元)发信号,以传递(未改变)比特流的音频数据。附 加地,可选地,或者可替选地,可以使用其他类型的加密技术来替代基于加密散列的方法。
[0168] 在解码器200的一些实现中,所接收(并且被缓冲在存储器201中)的编码比特 流是AC-3比特流或E-AC-3比特流,并且包括音频数据分段(如,图4所示的帧的ABO至 AB5分段)和元数据分段,其中,音频数据分段表示音频数据,至少部分元数据分段中的每 个包括响度处理状态元数据(LPSM)以及可选地还包括节目边界元数据。解码器级202 (和 /或解析器205)被配置成从比特流中提取具有以下格式的LPSM(以及可选地还有节目边界 元数据)。包括LPSM(以及可选地还包括节目边界元数据)的元数据分段中的每个被包括 在比特流的帧的浪费比特分段中,或者被包括在比特流的帧的比特流信息("BSI")分段 的"addbsi"域中,或者被包括在比特流的帧的端部处的auxdata域(如,图4所示的AUX 分段)中。比特流的帧可以包括一个或两个元数据分段,其中每个可以包括LPSM,并且,如 果帧包括两个元数据分段,则其中一个可以存在于帧的addbsi域中,而另一个存在于帧的 AUX域中。在一些实施例中,包括LPSM的每个元数据分段包括具有以下格式的LPSM有效载 荷(或容器)分段:
[0169] 首部(通常包括标识LPSM有效载荷的开始的同步字,其后跟随标识值,如下面的 表2所示的LPSM格式版本、长度、周期、计数和子流关联值);以及
[0170] 在首部之后,
[0171] 至少一个会话指示值(如,表2的参数"会话通道"),其指示相应的音频数据是指 示会话还是不指示会话(如,相应的音频数据的哪个通道指示会话);
[0172] 至少一个响度调节相符值(如,表2的参数"响度调节类型"),其指示相应的音频 数据是否与指示的响度调节的集合相符;
[0173] 至少一个响度处理值(如,表2的参数"会话选通的响度校正标志"、"响度校正类 型"中的一个或更多个),其指示已经对相应的音频数据执行的至少一种类型的响度处理; 以及
[0174] 至少一个响度值(如,表2的参数" ITU相对选通的响度"、" ITU语音选通的响度"、 " ITU (EBU 3341)短期3s响度"和"真实峰值"中的一个或更多个),其指示相应的音频数据 的至少一个响度(如,峰值或者平均响度)特性。
[0175] 在一些实施例中,包含LPSM和节目边界元数据的每个元数据分段包含核心首部 (并且可选地还包括附加核心元素)、以及在核心首部(或者核心首部和其他核心元素)之 后的具有以下格式的LPSM有效载荷(或者容器)分段:
[0176] 首部,通常包括至少一个标识值(例如LPSM格式版本、长度、周期、计数和子流关 联值,如本文中所提出的表2中所示),以及
[0177] 在首部之后的LPSM和节目边界元数据。节目边界元数据可以包括节目边界帧计 数、编码值和(在一些情况下的)偏移值,编码值(例如"〇fTset_ eXiSt"值)指示帧仅包 括节目边界帧计数还是包括节目边界帧计数和偏移值二者。
[0178] 在一些实现中,解析器205(和/或解码器级202)被配置成从比特流的帧的浪费 比特分段或"addbsi"域或auxdata域中提取具有以下格式的每个元数据分段:
[0179] 核心首部(通常包括标识元数据分段的开始的同步字,其后跟随至少一个标识 值,如下面的表1中所示的核心元素版本、长度和周期、扩展元素计数以及子流关联值);以 及
[0180] 在核心首部之后的至少一个保护值(如,表1的HMAC摘要和音频指纹值),其对于 响度处理状态元数据或相应的音频数据中的至少一个的解密、认证或验证中的至少一个而 言是很有用的;以及
[0181] 如果元数据分段包括LPSM,则也在核心首部之后的LPSM有效载荷标识(ID)和 LPSM有效载荷尺寸值,其将以下元数据标识为LPSM有效载荷并且指示LPSM有效载荷的尺 寸。
[0182] (优选地具有上述格式的)LPSM有效载荷(或容器)分段跟随LPSM有效载荷ID 和LPSM有效载荷尺寸值。
[0183] 更一般地,由本发明的优选实施例生成的编码音频比特流具有如下结构:其向标 签元数据元素和子元素提供机制作为核心(强制)或扩展(可选元素)。这使得比特流(包 括其元数据)的数据速率能够跨大量的应用来缩放。优选的比特流句法的核心(强制)元 素应当能够发信号告知与音频内容相关联的扩展(可选)元素存在(在带内)和/或在远 处(在带外)。
[0184] 需要核心元素存在于比特流的每个帧中。核心元素的一些子元素是可选的并且可 以以任意组合存在。扩展元素不需要存在于每个帧中(以防止比特速率过高)。因此,扩展 元素可以存在于某些帧中而不存在于其他帧中。扩展元素的某些子元素是可选的并且可以 以任意组合存在,而扩展元素的某些子元素可以是强制的(即,如果扩展元素存在于比特 流的帧中)。
[0185] 在一类实施例中,(如,由实施本发明的音频处理单元)生成包括音频数据分段和 元数据分段的序列的编码音频比特流。音频数据分段表示音频数据,元数据分段中的至少 某些中的每个包括响度处理状态元数据(LPSM)以及可选地还包括节目边界元数据,音频 数据分段与元数据分段时分复用。在这种类型的优选实施例中,每个元数据分段具有要在 本文中描述的优选格式。
[0186] 在一种优选格式中,编码比特流是AC-3比特流或E-AC-3比特流,并且,包括LPSM 的每个元数据分段作为附加比特流信息被(如,编码器100的优选实现的级107)包括在比 特流的帧的比特流信息("BSI")分段的"addbsi"域(如图6所示)中,或者被包括在比 特流的帧的auxdata域中,或者被包括在比特流的帧的浪费比特分段中。
[0187] 在该优选格式中,每个帧在帧的addbsi域(或者浪费比特分段)中包括具有如以 下表1所示的格式的核心元素:
[0188] 表 1
[0189]
【主权项】
1. 一种音频处理单元,包括: 缓冲存储器,所述缓冲存储器用于存储编码音频比特流的至少一个帧,其中,所述编码 音频比特流包括音频数据和元数据容器,其中,所述元数据容器包括首部、一个或更多个元 数据有效载荷、以及保护数据; 音频解码器,所述音频解码器耦接至所述缓冲存储器,用于对所述音频数据解码;以及 解析器,所述解析器耦接至所述音频解码器或者与所述音频解码器集成,用于解析所 述编码音频比特流, 其中,所述首部包括标识所述元数据容器的开始的同步字,所述一个或更多个元数据 有效载荷描述与所述音频数据关联的音频节目,所述保护数据位于所述一个或更多个元数 据有效载荷之后,并且所述保护数据能够用于验证所述元数据容器和所述元数据容器内的 所述一个或更多个有效载荷的完整性。
2. 根据权利要求1所述的音频处理单元,其中,所述元数据容器被存储在选自以下各 项的AC-3或者E-AC-3保留数据空间中:跳过域、auxdata域、addbsi域、及其组合。
3. 根据权利要求1或2所述的音频处理单元,其中,所述一个或更多个元数据有效载荷 包括指示连续的音频节目之间的至少一个边界的元数据。
4. 根据权利要求1或2所述的音频处理单元,其中,所述一个或更多个元数据有效载荷 包括节目响度有效载荷,该节目响度有效载荷包含指示音频节目的所测量的响度的数据。
5. 根据权利要求4所述的音频处理单元,其中,所述节目响度有效载荷包括指示音频 通道是否包含口语会话的域。
6. 根据权利要求4所述的音频处理单元,其中,所述节目响度有效载荷包括指示已经 用于生成所述节目响度有效载荷中所包含的响度数据的响度测量方法的域。
7. 根据权利要求4所述的音频处理单元,其中,所述节目响度有效载荷包括指示音频 节目的响度是否已经使用会话选通被校正的域。
8. 根据权利要求4所述的音频处理单元,其中,所述节目响度有效载荷包括指示音频 节目的响度是否已经使用无限的预测未来或基于文件的响度校正过程被校正的域。
9. 根据权利要求4所述的音频处理单元,其中,所述节目响度有效载荷包括指示在没 有任何能够归因于动态范围压缩的增益调节的情况下音频节目的整体响度的域。
10. 根据权利要求4所述的音频处理单元,其中,所述节目响度有效载荷包括指示在没 有任何能够归因于会话归一化的增益调节的情况下音频节目的整体响度的域。
11. 根据权利要求4所述的音频处理单元,其中,所述音频处理单元被配置成使用所述 节目响度有效载荷来执行自适应响度处理。
12. 根据权利要求1至11中任一项所述的音频处理单元,其中,所述编码音频比特流为 AC-3比特流或者E-AC-3比特流。
13. 根据权利要求4至11中任一项所述的音频处理单元,其中,所述音频处理单元被配 置成从所述编码音频比特流中提取所述节目响度有效载荷并且认证或者验证所述节目响 度有效载荷。
14. 根据权利要求1至13中任一项所述的音频处理单元,其中,所述一个或更多个元数 据有效载荷每个包括唯一的有效载荷标识符,并且所述唯一的有效载荷标识符位于每个元 数据有效载荷的开始处。
15. 根据权利要求1至13中任一项所述的音频处理单元,其中,所述同步字是值为 0x5838的16比特同步字。
16. -种用于对编码音频比特流解码的方法,所述方法包括: 接收编码音频比特流,所述编码音频比特流被分段成一个或更多个帧; 从所述编码音频比特流中提取音频数据和元数据容器,所述元数据容器包括首部,所 述首部之后跟随一个或更多个元数据有效载荷,所述一个或更多个元数据有效载荷之后跟 随保护数据;以及 通过使用所述保护数据来验证所述容器以及所述一个或更多个元数据有效载荷的完 整性, 其中,所述一个或更多个元数据有效载荷包括节目响度有效载荷,所述节目响度有效 载荷包含指示与所述音频数据关联的音频节目的所测量的响度的数据。
17. 根据权利要求16所述的方法,其中,所述编码比特流为AC-3比特流或者E-AC-3比 特流。
18. 根据权利要求16所述的方法,还包括: 使用所述节目响度有效载荷对从所述编码音频比特流中提取的所述音频数据执行自 适应响度处理。
19. 根据权利要求16所述的方法,其中,所述容器位于AC-3或者E-AC-3保留数据空间 中或者从AC-3或者E-AC-3保留数据空间中提取,所述AC-3或者E-AC-3保留数据空间选 自:跳过域、auxdata域、addbs i域、及其组合。
20. 根据权利要求16所述的方法,其中,所述节目响度有效载荷包括指示音频通道是 否包含口语会话的域。
21. 根据权利要求16所述的方法,其中,所述节目响度有效载荷包括指示已经用于生 成所述节目响度有效载荷中所包含的响度数据的响度测量方法的域。
22. 根据权利要求16所述的方法,其中,所述节目响度有效载荷包括指示音频节目的 响度是否已经使用会话选通被校正的域。
23. 根据权利要求16所述的方法,其中,所述节目响度有效载荷包括指示音频节目的 响度是否已经使用无限的预测未来或基于文件的响度校正过程被校正的域。
24. 根据权利要求16所述的方法,其中,所述节目响度有效载荷包括指示在没有任何 能够归因于动态范围压缩的增益调节的情况下音频节目的整体响度的域。
25. 根据权利要求16所述的方法,其中,所述节目响度有效载荷包括指示在没有任何 能够归因于会话归一化的增益调节的情况下音频节目的整体响度的域。
26. 根据权利要求16所述的方法,其中,所述元数据容器包括指示连续的音频节目之 间的至少一个边界的元数据。
27. 根据权利要求16所述的方法,其中,所述元数据容器被存储在帧的一个或更多个 跳过域或者浪费比特分段中。
【专利摘要】一种设备和方法,用于通过在比特流中包括节目响度元数据和音频数据并且可选地还在比特流的至少一个分段(例如帧)中包括节目边界元数据来生成包括节目响度元数据和音频数据并且可选地包括节目边界元数据的编码音频比特流。其他方面为用于例如通过执行对比特流所指示的音频节目的音频数据的自适应响度处理或者对这样的音频节目的元数据和/或音频数据的认证和/或验证来解码这样的比特流的设备和方法。另一方面是一种音频处理单元(如编码器、解码器或后处理器),其被配置(如编程)来执行上述方法的任意实施例或者其包括存储缓冲器,存储缓冲器存储根据上述方法的任意实施例生成的音频比特流的至少一个帧。
【IPC分类】G10L19-16
【公开号】CN104737228
【申请号】CN201480002687
【发明人】迈克尔·格兰特, 斯科特·格雷戈里·诺克罗斯, 杰弗里·里德米勒, 迈克尔·沃德
【申请人】杜比实验室特许公司
【公开日】2015年6月24日
【申请日】2014年1月15日
【公告号】CA2888350A1, EP2901449A1, WO2014113465A1
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1