使用节目信息或子流结构元数据的音频编码器和解码器的制造方法_6

文档序号:9278245阅读:来源:国知局
C-3比特 流或E-AC-3比特流,并且元数据段中的包括PM和/或SSM(可选地还包括LPSM和/或其 他元数据)的每个元数据段(例如,由编码器100的优选的实现的级107)被包括在比特流 的帧的无用位段或AUX段中或作为比特流信息("BSI")段的"addbsi"字段(图6所示) 中的额外的比特流信息。在该格式(为关于上面参照表1和表2所描述的格式的变型)中, 包含LPSM的addbsi(或AUX或无用位)字段中的每个字段包含下面的LPSM值:
[0229] 表1中所指定的核心元素,之后是有效载荷ID(标识元数据作为LPSM)和有效载 荷值,之后是具有下面的格式(与上面表2中所示的强制元素类似)的有效载荷(LPSM数 据):
[0230]LPSM有效载荷的版本:指示LPSM有效载荷的版本的2位字段;
[0231]dialchan:指示包含口语对白的相应音频数据的左、右和/或中央通道的3位字 段。dialchan字段的位分配可以如下:指示左通道中存在对白的位0被存储在dialchan字 段的最高有效位中;而指示中央通道中存在对白的位2被存储在dialchan字段的最低有效 位中。如果在节目的前0. 5秒期间相应通道包含口语对白,则dialchan字段的每个位被设 置为" 1 " ;
[0232]loudregtyp:指示节目响度符合哪个响度调整标准的4位字段。将"loudregtyp" 字段设置为"〇〇〇〇"指示LPSM不指示响度调整符合。例如,该字段的一个值(例如,0000) 可以指示未指示符合响度调整标准,该字段的另一值(例如,〇〇〇1)可以指示节目的音频数 据符合ATSCA/85标准,并且该字段的另一值(例如,0010)可以指示节目的音频数据符合 EBUR128标准。在该示例中,如果该字段被设置为除了 "0000"之外的任何值,则有效载荷 中随后应该是loudcorrdialgat和loudcorrtyp字段;
[0233]loudcorrdialgat:指示是否已经应用对白选通校正的1位字段。如果已经使用 对白选通校正了节目的响度,则loudcorrdialgat字段的值被设置为"1"。否则,被设置为 "0";
[0234] loudcorrtyp:指示对节目应用的响度校正的类型的1位字段。如果已经使用无限 超前(基于文件的)响度校正处理校正了节目的响度,则loudcorrtyp字段的值被设置为 "0"。如果已经使用实时响度测量和动态范围控制的组合校正了节目的响度,则该字段的值 被设置为"1";
[0235]loudrelgate:指示相对选通节目响度(ITU)是否存在的1位字段。如果 loudrelgate字段被设置为" 1",则有效载荷中随后应该是7位ituloudrelgat字段;
[0236]loudrelgat:指示相对选通节目响度(ITU)的7位字段。该字段指示由于正在应用 的对白归一化和动态范围压缩〇)RC),在没有任何增益调整的情况下根据ITU-RBS. 1770-3 而测量的音频节目的综合的响度。〇至127的值被解释为以0. 5LKFS步长的-58LKFS至 +5. 5LKFS;
[0237]loudspchgate:指示语音选通响度数据(ITU)是否存在的1位字段。如果 loudspchgate字段被设置为"1",则效载荷中随后应是7位loudspchgat字段;
[0238]loudspchgate:指示语音选通节目响度的7位字段。该字段指示由于正在应用 的对白归一化和动态范围压缩,在没有任何增益调整的情况下根据ITU-RBS. 1770-3的公 式(2)而测量的整个相应音频节目的综合响度。0至127的值被解释为以0. 5LKFS步长 的-58LKFS至 +5. 5LKFS;
[0239]l〇udStrm3e:指示短期(3秒)响度数据是否存在的1位字段。如果该字段被设置 为" 1",则有效载荷中随后应是7位loudstrm3S字段;
[0240]l〇udstrm3s:指示由于正在应用的对白归一化和动态范围压缩,在没有任何增益 调整的情况下根据ITU-RBS. 1771-1而测量的相应音频节目的前3秒的未选通响度的7位 字段。0至256的值被解释为以0. 5LKFS步长的-116LKFS至+11. 5LKFS;
[0241]truepke:指示真实峰值响度数据是否存在的1位字段。如果truepke字段被设置 为" 1",则有效载荷中随后应是8位tru印k字段;以及
[0242]truepk:指示由于正在应用的对白归一化和动态范围压缩,在没有任何增益调整 的情况下根据ITU-RBS. 1770-3的附件2而测量的节目真实峰值样本值的8位字段。0至 256的值被解释为以0. 5LKFS步长的-116LKFS至+11. 5LKFS。
[0243] 在一些实施方式中,AC-3比特流或E-AC-3比特流的帧的无用位段或辅助数据(或 "addbsi")字段中的元数据段的核心元素包括元数据段报头(通常包括标识值,例如,版 本),以及在元数据段报头之后的:指示元数据段的元数据是否包括指纹数据(或其他保护 值)的值、指示(与对应于元数据段的元数据的音频数据有关的)外部数据是否存在的值、 关于由核心元素标识的每种类型的元数据(例如,PIM和/或SSM和/或LPSM和/或一种 类型的元数据)的有效载荷ID值和有效载荷配置值、以及由元数据段报头(或元数据段的 其他核心元素)标识的至少一种类型的元数据的保护值。元数据段的元数据有效载荷在元 数据段报头之后,并且(在有些情况下)嵌套在元数据段的核心元素内。
[0244] 本发明的实施方式可以以硬件、固件、或软件、或硬件和软件的组合(例如,作为 可编程逻辑阵列)被实现。除非另外指明,作为本发明的部分而被包括在内的算法或处理 不内在涉及任何特定的计算机或其他设备。具体地,各种通用机器可以利用根据本文中的 教示而编写的程序而被使用,或可以更加便于构造更具体的装置(例如,集成电路)以执行 所需要的方法步骤。从而,本发明可以以在一个或更多个可编程计算机系统(例如,图1的 元件、或图2的编码器100 (或编码器的元件)、或图3的解码器(或解码器的元件)、或图 3的后处理器(或后处理器的元件)中任意一种的实施)上执行的一个或更多个计算机程 序而被实现,每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括 易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口以及至少一个输出 装置或端口。程序代码被应用于输入数据以执行本文中所描述的功能并生成输出信息。输 出信息以已知的方式应用于一个或更多个输出装置。
[0245] 每个这样的程序可以以任何期望的计算机语言(包括机器、汇编或高级过程的、 逻辑的或面向对象的编程语言)实现以与计算机系统通信。在任何情况下,语言可以是编 译语言或解释语言。
[0246] 例如,当由计算机软件指令序列实现时,本发明的实施方式的各种功能和步骤可 以由在适当的数字信号处理硬件中运行的多线程软件指令序列实现,在这种情况下,实施 方式的各种装置、步骤和功能可以对应于软件指令的部分。
[0247] 每个这样的计算机程序优选地存储在或下载至由通用或专用可编程计算机可读 的存储介质或装置(例如,固态存储器或介质、磁介质或光介质),当存储介质或装置由计 算机系统读取以执行本文所描述的过程时,用于配置和操作计算机。本发明的系统还可以 被实现为配置有(例如,存储)计算机程序的计算机可读存储介质,其中,这样配置的存储 介质使得计算机系统以特定和预先定义的方式操作以执行本文中所描述的功能。
[0248] 已经描述了本发明的大量的实施方式。然而,应当理解的是,在不偏离本发明的精 神和范围的情况下可以作出各种修改。鉴于上面的教示,本发明的大量的修改和变型是可 能的。应当理解的是,在所附权利要求的范围内,可以与本文中具体描述的方式不同地实践 本发明。
【主权项】
1. 一种音频处理单元,包括: 缓冲存储器;以及 至少一个处理子系统,其耦接至所述缓冲存储器,其中所述缓冲存储器存储编码音频 比特流的至少一个帧,所述帧包括在所述帧的至少一个跳过字段的至少一个元数据段中的 节目信息元数据或子流结构元数据以及在所述帧的至少一个其他段中的音频数据,其中所 述处理子系统被耦接并且被配置成使用所述比特流的元数据执行所述比特流的生成、所述 比特流的解码或所述比特流的音频数据的自适应处理中的至少一种,或使用所述比特流的 元数据执行所述比特流的音频数据或元数据中至少之一的认证或验证中的至少一种, 其中,所述元数据段包括至少一个元数据有效载荷,所述元数据有效载荷包括: 报头;以及 在所述报头之后的,所述节目信息元数据的至少一部分或所述子流结构元数据的至少 一部分。2. 根据权利要求1所述的音频处理单元,其中,所述编码音频比特流指示至少一个音 频节目,并且所述元数据段包括节目信息元数据有效载荷,所述节目信息元数据有效载荷 包括: 节目信息元数据报头;以及 在所述节目信息元数据报头之后的,指示所述节目的音频内容的至少一个属性或特性 的节目信息元数据,所述节目信息元数据包括指示所述节目的每个非静音通道和每个静音 通道的活动通道元数据。3. 根据权利要求2所述的音频处理单元,其中,所述节目信息元数据还包括下列元数 据中的至少之一: 下混合处理状态元数据,其指示:所述节目是否是下混合过的,以及在所述节目是下混 合过的情况下应用于所述节目的下混合的类型; 上混合处理状态元数据,其指示:所述节目是否是上混合过的,以及在所述节目是上混 合过的情况下应用于所述节目的上混合的类型; 预处理状态元数据,其指示:是否对所述帧的音频内容执行了预处理,以及在对所述帧 的音频内容执行了预处理的情况下对所述音频内容执行的预处理的类型;或 谱扩展处理或通道耦合元数据,其指示:是否对所述节目应用了谱扩展处理或通道耦 合,以及在对所述节目应用了谱扩展处理或通道耦合的情况下应用所述谱扩展或通道耦合 的频率范围。4. 根据权利要求1所述的音频处理单元,其中,所述编码音频比特流指示具有音频内 容的至少一个独立子流的至少一个音频节目,而所述元数据段包括子流结构元数据有效载 荷,所述子流结构元数据有效载荷包括: 子流结构元数据有效载荷报头;以及 在所述子流结构元数据有效载荷报头之后的,指示所述节目的独立子流的数量的独立 子流元数据,以及指示所述节目的每个独立子流是否具有至少一个相关联的从属子流的从 属子流元数据。5. 根据权利要求1所述的音频处理单元,其中,所述元数据段包括: 元数据段报头; 在所述元数据段报头之后的至少一个保护值,其用于所述节目信息元数据、或所述子 流结构元数据、或与所述节目信息元数据或所述子流结构元数据相对应的所述音频数据中 至少之一的解密、认证或验证中的至少一种;以及 在所述元数据段报头之后的元数据有效载荷标识值和有效载荷配置值,其中所述元数 据有效载荷在所述元数据有效载荷标识值和所述有效载荷配置值之后。6. 根据权利要求5所述的音频处理单元,其中,所述元数据段报头包括标识所述元数 据段的开始的同步字、以及在所述同步字之后的至少一个标识值,并且所述元数据有效载 荷的所述报头包括至少一个标识值。7. 根据权利要求1所述的音频处理单元,其中,所述编码音频比特流为AC-3比特流或 E-AC-3比特流。8. 根据权利要求1所述的音频处理单元,其中,所述缓冲存储器以非暂态方式存储所 述帧。9. 根据权利要求1所述的音频处理单元,其中,所述音频处理单元为编码器。10. 根据权利要求9所述的音频处理单元,其中,所述处理子系统包括: 解码子系统,其被配置成接收输入音频比特流并且从所述输入音频比特流中提取输入 元数据和输入音频数据; 自适应处理子系统,其被耦接并且被配置成使用所述输入元数据对所述输入音频数据 执行自适应处理,由此生成经处理音频数据;以及 编码子系统,其被耦接并且被配置成响应于所述经处理音频数据,包括通过将所述节 目信息元数据或所述子流结构元数据包括在所述编码音频比特流中,来生成所述编码音频 比特流,并且将所述编码音频比特流设定到所述缓冲存储器。11. 根据权利要求1所述的音频处理单元,其中,所述音频处理单元为解码器。12. 根据权利要求11所述的音频处理单元,其中,所述处理子系统为耦接至所述缓冲 存储器并且被配置成从所述编码音频比特流中提取所述节目信息元数据或所述子流结构 元数据的解码子系统。13. 根据权利要求1所述的音频处理单元,包括: 子系统,其被耦接至所述缓冲存储器并且被配置成:从所述编码音频比特流中提取所 述节目信息元数据或所述子流结构元数据,以及从所述编码音频比特流中提取所述音频数 据;以及 后处理器,其被耦接至所述子系统并且被配置成使用从所述编码音频比特流中提取的 所述节目信息元数据或所述子流结构元数据中至少之一对所述音频数据执行自适应处理。14. 根据权利要求1所述的音频处理单元,其中,所述音频处理单元为数字信号处理 器。15. 根据权利要求1所述的音频处理单元,其中,所述音频处理单元为预处理器,所述 预处理器被配置成从所述编码音频比特流中提取所述节目信息元数据或所述子流结构元 数据以及所述音频数据,并且使用从所述编码音频比特流中提取的所述节目信息元数据或 所述子流结构元数据中至少之一对所述音频数据执行自适应处理。16. -种用于对编码音频比特流进行解码的方法,所述方法包括以下步骤: 接收编码音频比特流;以及 从所述编码音频比特流中提取元数据和音频数据,其中所述元数据是或包括节目信息 元数据和子流结构元数据, 其中,所述编码音频比特流包括一系列帧并且指示至少一个音频节目,所述节目信息 元数据和所述子流结构元数据指示所述节目,所述帧中的每个包括至少一个音频数据段, 每个所述音频数据段包括所述音频数据的至少一部分,所述帧的至少一个子集中的每个帧 包括元数据段,并且每个所述元数据段包括所述节目信息元数据的至少一部分以及所述子 流结构元数据的至少一部分。17. 根据权利要求16所述的方法,其中,所述元数据段包括节目信息元数据有效载荷, 所述节目信息元数据有效载荷包括: 节目信息元数据报头;以及 在所述节目信息元数据报头之后的指示所述节目的音频内容的至少一个属性或特性 的节目信息元数据,所述节目信息元数据包括指示所述节目的每个非静音通道和每个静音 通道的活动通道元数据。18. 根据权利要求17所述的方法,其中,所述节目信息元数据还包括下列元数据中的 至少之一: 下混合处理状态元数据,其指示:所述节目是否是下混合过的,以及在所述节目是下混 合过的情况下应用于所述节目的下混合的类型; 上混合处理状态元数据,其指示:所述节目是否是上混合过的,以及在所述节目是上混 合过的情况下应用于所述节目的上混合的类型;或 预处理状态元数据,其指示:是否对所述帧的音频内容执行了预处理,以及在对所述帧 的音频内容执行了预处理的情况下对所述音频内容执行的预处理的类型。19. 根据权利要求16的方法,其中,所述编码音频比特流指示具有音频内容的至少一 个独立子流的至少一个音频节目,并且所述元数据段包括子流结构元数据有效载荷,所述 子流结构元数据有效载荷包括: 子流结构元数据有效载荷报头;以及 在所述子流结构元数据有效载荷报头之后的,指示所述节目的独立子流的数量的独立 子流元数据以及指示所述节目的每个独立子流是否具有至少一个相关联的从属子流的从 属子流元数据。20. 根据权利要求16所述的方法,其中,所述元数据段包括: 元数据段报头; 在所述元数据段报头之后的至少一个保护值,用于所述节目信息元数据或所述子流结 构元数据或与所述节目信息元数据和所述子流结构元数据相对应的所述音频数据中至少 之一的解密、认证或验证中的至少一种;以及 在所述元数据段报头之后的,包括所述节目信息元数据的所述至少一部分和所述子流 结构元数据的所述至少一部分的元数据有效载荷。21. 根据权利要求16所述的方法,其中,所述编码音频比特流为AC-3比特流或E-AC-3 比特流。22. 根据权利要求16所述的方法,还包括步骤: 使用从所述编码音频比特流中提取的所述节目信息元数据或所述子流结构元数据中 至少之一,对所述音频数据执行自适应处理。
【专利摘要】一种用于包括通过将子流结构元数据(SSM)和/或节目信息元数据(PIM)以及音频数据包括在比特流中来生成编码音频比特流的设备和方法。其他方面是用于对这样的比特流进行解码的设备和方法,以及被配置成(例如,被编程成)执行该方法的任意实施方式或包括存储根据该方法的任意实施方式而生成的音频比特流的至少一个帧的缓冲存储器的音频处理单元(例如,编码器、解码器或后处理器)。
【IPC分类】G10L19/16
【公开号】CN104995677
【申请号】CN201480008799
【发明人】杰弗里·里德米勒, 迈克尔·沃德
【申请人】杜比实验室特许公司
【公开日】2015年10月21日
【申请日】2014年6月12日
【公告号】CA2898891A1, CN104240709A, CN203415228U, DE202013006242U1, EP2954515A1, WO2014204783A1
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1