使用节目信息或子流结构元数据的音频编码器和解码器的制造方法_4

文档序号:9278245阅读:来源:国知局
佳值和/或将其耦合和谱扩展参数修改成最佳值,以及
[0121] 对白增强调整范围数据是否包括在编码比特流中,以及如果对白增强调整范围数 据包括在编码比特流中,则在相对于音频节目中的非对白内容的电平调整对白内容的电平 的对白增强处理(例如,在解码器的后处理器下游)的执行期间可得到的调整的范围。
[0122] 在一些实现中,额外的预处理状态元数据(例如,指示头戴式耳机相关的参数的 元数据)被包括在(由级107)待从编码器100输出的编码比特流的PIM有效载荷中。
[0123] 在一些实现中,(由级107)包括在编码比特流(例如,指示至少一个音频节目的 E-AC-3比特流)的帧中的LPSM有效载荷包括下面的格式的LPSM:
[0124] 报头(通常包括标识LPSM有效载荷的开始的同步字,在同步字之后的至少一个标 识值,例如,在下面的表2中表示的LPSM格式版本、长度、周期、计数和子流关联值);以及
[0125] 在报头之后的:
[0126] 指示相应音频数据指示对白或不指示对白(例如,相应音频数据的哪些通道指示 对白)的至少一个对白指示值(例如,表2的参数"对白通道");
[0127] 指示相应的音频内容是否符合响度调整的所指示的集合的至少一个响度调整符 合值(例如,表2的参数"响度调整类型");
[0128] 指示已经对相应音频数据执行的响度处理的至少一种类型的至少一个响度处理 值(例如,表2的参数"对白选通响度校正标志"、"响度校正类型"中的一个或更多个);以 及
[0129] 指示相应音频数据的至少一个响度(例如,峰值或平均响度)特性的至少一个响 度值(例如,表2的参数"ITU相对选通响度"、"ITU语音选通响度"、"ITU(EBU3341)短期 3s响度"和"真实峰值"中的一个或更多个)。
[0130] 在一些实现中,包含PM和/或SSM(以及可选地其他元数据)的每个元数据段包 含元数据段报头(以及可选地额外的核心元素)、以及在元数据段报头(或元数据段报头和 其他核心元素)之后的具有下面的格式的至少一个元数据有效载荷段:
[0131] 有效载荷报头,通常包括至少一个标识值(例如,SSM或PIM格式版本、长度、周期、 计数和子流关联值),以及
[0132] 在有效载荷报头之后的SSM或PIM(或另一类型的元数据)。
[0133] 在一些实现中,由级107插入至比特流的帧的无用位段/跳过字段段(或 "addbsi"字段或辅助数据字段)中的元数据段(在本文中有时称为"元数据容器"或"容 器")中的每个具有下面的格式:
[0134] 元数据段报头(通常包括标识元数据段的开始的同步字,在同步字之后的标识 值,例如,在下面的表1中表示的版本、长度、周期、扩展的元素计数和子流关联值);以及
[0135] 在元数据段报头之后的有助于元数据段或相应音频数据的元数据的至少一个的 解密、认证或验证中的至少一种的至少一个保护值(例如表1的HMAC摘要和音频指纹值); 以及
[0136] 也在元数据段报头之后的标识每个下面的元数据有效载荷中的元数据的类型并 且指示每个这样的有效载荷的配置(例如,尺寸)的至少一个方面的元数据有效载荷标识 ("ID")值和有效载荷配置值。
[0137] 每个元数据有效载荷在相应有效载荷ID值和有效载荷配置值之后。
[0138] 在一些实施方式中,在帧的无用位段(或辅助数据字段或"addbsi"字段)中的元 数据段中的每个具有三种等级的结构:
[0139] 高等级结构(例如,元数据段报头),包括指示无用位(或辅助数据或addbsi)字 段是否包括元数据的标志、指示存在什么类型的元数据的至少一个ID值、以及通常还有指 示(例如,每个类型的)元数据的多少位存在(如果元数据存在的话)的值。可以存在的 元数据的一种类型为PM,可以存在的元数据的另一类型为SSM,而可以存在的元数据的其 他类型为LPSM、和/或节目边界元数据、和/或媒体搜索元数据;
[0140] 中间等级结构,包括与每个所标识的类型的元数据相关联的数据(例如,元数据 有效载荷报头、保护值、以及关于每个所标识的类型的元数据的有效载荷ID值和有效载荷 配置值);以及
[0141] 低等级结构,包括关于每个所标识的类型的元数据的元数据有效载荷(例如,如 果P頂被识别为正存在,一系列PM值,和/或如果该其他类型的元数据被识别为正存在, 另一类型(例如,SSM或LPSM)的元数据值)。
[0142] 这样三个等级结构中的数据值可以被嵌套。例如,由高等级结构和中间等级结构 标识的每个有效载荷(例如,每个PIM、或SSM或其他数据有效载荷)的保护值可以被包括 在有效载荷之后(从而在有效载荷的兀数据有效载荷报头之后),或由尚等级结构和中间 等级结构标识的所有元数据有效载荷的保护值可以被包括在元数据段中的最终元数据有 效载荷之后(从而在元数据段的所有有效载荷的元数据有效载荷报头之后)。
[0143] 在(参照图8的元数据段或"容器"将要描述的)一个示例中,元数据段报头标识 4个元数据有效载荷。如图8所示,元数据段报头包括容器同步字(被标识为"容器同步") 以及版本和键ID值。元数据段报头之后是4个元数据有效载荷和保护位。第一有效载荷 (例如,PIM有效载荷)的有效载荷ID值和有效载荷配置(例如,有效载荷尺寸)值在元 数据段报头之后,第一有效载荷本身在ID和配置值之后,第二有效载荷(例如,SSM有效载 荷)的有效载荷ID值和有效载荷配置(例如,有效载荷尺寸)值在第一有效载荷之后,第 二有效载荷本身在这些ID和配置值之后,第三有效载荷(例如,LPSM有效载荷)的有效载 荷ID值和有效载荷配置(例如,有效载荷尺寸)值在第二有效载荷之后,第三有效载荷本 身在这些ID和配置值之后,第四有效载荷的有效载荷ID值和有效载荷配置(例如,有效载 荷尺寸)值在第三有效载荷之后,第四有效载荷本身在这些ID和配置值之后,而关于有效 载荷中的全部或一些有效载荷(或关于高等级结构和中间等级结构以及有效载荷中的全 部或一些有效载荷)的保护值(在图8中被标识为"保护数据")在最后一个有效载荷之 后。
[0144]在一些实施方式中,如果解码器101接收根据本发明的实施方式生成的具有加密 散列的音频比特流,则解码器被配置成根据由比特流确定的数据块对加密散列进行分析和 检索,其中所述块包括元数据。验证器102可以使用加密散列对所接收的比特流和/或相 关联的元数据进行验证。例如,如果验证器102基于参考加密散列与从数据块检索到的加 密散列之间的匹配发现元数据是有效的,那么可以禁止处理器103对相应的音频数据的操 作,并且使得选择级104通过(未改变的)音频数据。另外,可选地或可替代地,可以使用 其他类型的加密技术替代基于加密散列的方法。
[0145] 图2的编码器100可以确定(响应于由解码器101提取的LPSM以及可选地还响应 于节目边界元数据)后处理/预处理单元已经(在元件105、106和107中)对待编码的音 频数据执行了一种类型的响度处理,因此可以(在生成器106中)创建包括用于先前执行 的响度处理的和/或根据先前执行的响度处理得到的具体参数的响度处理状态元数据。在 一些实现中,只要编码器知道已经对音频内容执行的处理的类型,编码器100就可以创建 指示对音频内容的处理历史的元数据(以及将其包括在从编码器输出的编码比特流中)。
[0146] 图3是为本发明的音频处理单元的实施方式的解码器(200)以及耦接至解码器 (200)的后处理器(300)的框图。后处理器(300)也是本发明的音频处理单元的实施方式。 编码器200和后处理器300的部件或元件中的任何一个可以以硬件、软件或硬件和软件的 组合被实现为一个或更多个处理和/或一个或更多个电路(例如,ASIC、FPGA或其他集成 电路)。解码器200包括如所示地连接的帧缓冲器201、分析器205、音频解码器202、音频 状态验证级(验证器)203以及控制位生成级204。通常,解码器200还包括其他处理元件 (未示出)。
[0147] 帧缓冲器201 (缓冲存储器)存储(例如,以非暂态方式)由解码器200接收的编 码音频比特流的至少一个帧。编码音频比特流的帧序列被从缓冲器201设定到分析器205。
[0148]耦接分析器205并且将其配置成从编码输入音频的每个帧中提取PM和/或SSM(可选地还提取其他元数据,例如,LPSM),将元数据中的至少一些(例如,LPSM和节目边 界元数据,如果任意一个被提取的话,和/或PIM和/或SSM)设定到音频状态验证器203 和级204,将所提取的元数据设定为(例如对后处理器300的)输出,从编码输入音频中提 取音频数据,以及将所提取的音频数据设定到解码器202。
[0149] 输入至解码器200的编码音频比特流可以是AC-3比特流、E-AC-3比特流或杜比E 比特流中的一个。
[0150] 图3的系统还包括后处理器300。后处理器300包括帧缓冲器301和包括耦接至 缓冲器301的至少一个处理元件的其他处理元件(未示出)。帧缓冲器301存储(例如,以 非暂态方式)由后处理器300从解码器200接收的解码音频比特流的至少一个帧。耦接后 处理器300的处理元件并且将其配置成接收从缓冲器301输出的解码音频比特流的一系列 帧并且使用从解码器200输出的元数据和/或从解码器200的级204输出的控制位对其进 行自适应处理。通常,后处理器300被配置成使用来自解码器200的元数据对解码音频数 据执行自适应处理(例如,使用LPSM值以及可选地还使用节目边界元数据对解码音频数据 执行自适应响度处理,其中自适应处理可以基于响度处理状态、和/或由指示单个音频节 目的音频数据的LPSM所指示的一个或更多个音频数据特性)。
[0151] 解码器200和后处理器300的各种实现被配置成执行本发明的方法的不同的实施 方式。
[0152] 解码器200的音频解码器202被配置成对由分析器205提取的音频数据进行解码 以生成解码音频数据,并且将解码音频数据设定为(例如对后处理器300的)输出。
[0153] 状态验证器203被配置成对设定到其的元数据进行认证和验证。在一些实施方 式中,元数据为(或被包括在)已经被包括在输入比特流(例如,根据本发明的实施方式) 中的数据块。块可以包括用于对元数据和/或基本音频数据(从分析器205和/或解码器 202提供至验证器203)进行处理的加密散列(基于散列的消息认证代码或"HMAC")。数据 块可以在这些实施方式中被数字地标记,使得下游的音频处理单元可以相对容易地认证和 验证处理状态元数据。
[0154] 包括但不限于一个或更多个非HMAC加密方法中的任意一个的其他加密方法可以 用于元数据的验证(例如,在验证器203中)以确保元数据和/或基本的音频数据的安全 的传输和接收。例如,验证(使用这样的加密方法)可以在接收本发明的音频比特流的实 施方式的每个音频处理单元中被执行以确定包括在该比特流中的元数据和相应音频数据 是否已经经历(和/或产生于)具体的处理(由元数据所指示的)并且在这样的具体的处 理执行之后没有被修改。
[0155] 状态验证器203将控制数据设定到控制位生成器204,和/或将控制数据设定为输 出(例如,设定到后处理器300)以指示验证操作的结果。响应于控制数据(以及可选地从 输入比特流中提取的其他元数据),级204可以生成(以及设定到后处理器300):
[0156] 指示从解码器202输出的解码音频数据已经经历特定类型的响度处理(当LPSM 指示从解码器202输出的音频数据已经经历该特定类型的响度处理,并且来自验证器203 的控制位指示LPSM有效时)的控制位;或
[0157] 指示从解码器202输出的解码音频数据应当经历特定类型的响度处理(例如,当 LPSM指示从解码器202输出的音频数据没有经历具体类型的响度处理,或当LPSM指示从解 码器202输出的音频数据已经经历该特定类型的响度处理但来自验证器203的控制位指示 LPSM无效时)的控制位。
[0158] 或者,解码器200将由解码器202从输入比特流中提取的元数据以及由分析器205 从输入比特流中提取的元数据设定到后处理器300,并且后处理器300使用元数据对解码 音频数据执行自适应处理,或执行元数据的验证,然后如果验证指示元数据有效,则使用元 数据对解码音频数据执行自适应处理。
[0159] 在一些实施方式中,如果解码器200接收根据本发明的使用加密散列的实施方式 生成的的音频比特流,则解码器被配置成对来自由比特流所确定的数据块的加密散列进行 分析和检索,所述块包括响度处理状态元数据(LPSM)。验证器203可以使用加密散列以对 接收的比特流和/或相关联的元数据进行验证。例如,如果验证器203基于参考加密散列 与从数据块检索的加密散列之间的匹配发现LPSM有效,那么可以用向下游的音频处理单 元(例如,可以是或包括音量校平单元的后处理器300)发信号以通过(未改变的)比特流 的音频数据。另外地,可选地或可替代地,可以使用其他类型的加密技术替代基于加密散列 的方法。
[0160] 在解码器200的一些实现中,所接收(以及缓存在存储器201中)的编码比特流 为AC-3比特流或E-AC-3比特流,并且包括音频数据段(例如,图4所示的帧的AB0至AB5 段)和元数据段,其中音频数据段指示音频数据,而元数据段中的至少一些中的每个包括 PIM或SSM(或其他元数据)。解码器级202 (和/或分析器205)被配置成从比特流中提取 元数据。元数据段中的包括PIM和/或SSM(可选地还包括其他元数据)的每个元数据段 被包括在比特流的帧的无用位段中,或比特流的帧的比特流信息("BSI")段的"addbsi" 字段中,或比特流的帧的结束处的辅助数据字段(例如,图4所示的AUX段)中。比特流的 帧可以包括一个或两个元数据段,其中每个元数据段包括元数据,并且如果帧包括两个元 数据段,一个可以存在于帧的addbsi字段中而另一个存在于帧的AUX字段中。
[0161] 在一些实施方式中,缓存在缓冲器201中的比特流的每个元数据段(在本文中有 时称为"容器")具有包括元数据段报头(可选地还包括其他强制的或"核心"元素)、以及 在元数据段报头之后的一个或更多个元数据有效载荷的格式。如果存在,SIM被包括在元 数据有效载荷中的一个有效载荷(由有效载荷报头标识,并且通常具有第一类型的格式) 中。如果存在,PIM被包括在元数据有效载荷中的另一个有效载荷(由有效载荷报头标识, 并且通常具有第二类型的格式)中。类似地,元数据的其他类型(如果存在)被包括在元 数据有效载荷中的另一有效载荷(由有效载荷报头标识,并且通常具有针对元数据的类型 的格式)中。示例性格式使得能够在除了解码期间之外的时间方便访问(例如,由解码之 后的后处理器300、或由被配置成在没有对编码比特流执行完全解码的情况下识别元数据 的处理器)SSM、PIM和其他元数据,并且允许在比特流的解码期间(例如,子流识别的)方 便和高效的误差检测和校正。例如,在不以示例性格式访问SSM的情况下,解码器200可能 错误地识别与节目相关联的子流的正确数量。元数据段中的一个元数据有效载荷可以包括 SSM,元数据段中的另一个元数据有效载荷可以包括PIM,以及可选地,元数据段中的至少一 个其他元数据有效载荷可以包括其他元数据(例如,响度处理状态元数据或"LPSM")。
[0162] 在一些实施方式中,包括在缓存在缓冲器201中的编码比特流(例如,指示至少一 个音频节目的E-AC-3比特流)的帧中的子流结构元数据(SSM)有效载荷包括下面的格式 的SSM:
[0163] 有效载荷报头,通常包括至少一个标识值(例如,指示SSM格式版本的2位值,以 及可选地长度、周期、计数和子流关联值);以及
[0164] 在报头之后:
[0165] 指示由比特流指示的节目的独立子流的数量的独立子流元数据;以及
[0166] 从属子流元数据,其指示:节目的每个独立子流是否具有至少一个与其相关联的 从属子流,以及如果节目的每个独立子流具有至少一个与其相关联的从属子流,与节目的 每个独立子流相关联的从属子流的数量。
[0167] 在一些实施方式中,缓存在缓冲器201中的编码比特流(例如,指示至少一个音频 节目的E-AC-3比特流)的帧中的包括的节目信息元数据(PIM)有效载荷具有下面的格式:
[0168] 有效载荷报头,通常包括至少一个标识值(例如,指示PM格式版本的值,以及可 选地长度、周期、计数和子流关联值);以及在报头之后,下面的格式的PIM:
[0169] 音频节目的每个静音通道和每个非静音通道(即,节目的哪些通道包含音频信 息,而哪些通道(如果有)仅包含静音(通常关于帧的持续时间))的活动通道元数据。在 编码比特流是AC-3或E-AC-3比特流的实施方式中,比特流的帧中的活动通道元数据可以 结合比特流的额外的元数据(例如,帧的音频编码模式("acmod")字段,以及如果存在,帧 或相关联的从属子流帧中的cha
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1