使用节目信息或子流结构元数据的音频编码器和解码器的制造方法_5

文档序号:9278245阅读:来源:国知局
nmap字段)以确定节目的哪些通道包含音频信息而哪些通 道包含静音;
[0170] 下混合处理状态元数据,其指示:节目是否被下混合(在编码之前或在编码期 间),以及如果节目被下混合,所应用的下混合的类型。下混合处理状态元数据可以有助于 实现解码器的上混合(在后处理器300中)下游,例如以使用最匹配所应用的下混合的类 型的参数对节目的音频内容进行上混合。在编码比特流是AC-3或E-AC-3比特流的实施方 式中,下混合处理状态元数据可以结合帧的音频编码模型("acmod")字段以确定应用于节 目的通道的下混合(如果有)的类型;
[0171] 上混合处理状态元数据,其指示:在编码之前或在编码期间节目是否被上混合 (例如,从较小数量的通道),以及如果节目被上混合,所应用的上混合的类型。上混合处 理状态元数据可以有助于实现解码器的下混合(在后处理器中)下游,例如以与应用于节 目的上混合(例如,杜比定向逻辑、或杜比定向逻辑II电影模式、或杜比定向逻辑II音乐模 式、或杜比专业上混合器)的类型一致的方式对节目的音频内容进行下混合。在编码比特 流是E-AC-3比特流的实施方式中,上混合处理状态元数据可以结合其他元数据(例如,帧 的"strmtyp"字段的值)以确定应用于节目的通道的上混合(如果有)的类型。(E-AC-3 比特流的帧的BSI字段中的)"strmtyp"字段的值指示帧的音频内容是否属于独立流(其 确定节目)或(包括多个子流或与多个子流相关联的节目的)独立子流,从而可以独立于 由E-AC-3比特流所指示的任何其他子流被编码,或帧的音频内容是否属于(包括多个子 流或与多个子流相关联的节目的)从属子流,从而必须结合与其相关联的独立子流而被解 码;以及
[0172] 预处理状态元数据,其指示:是否对帧的音频内容执行了预处理(在生成编码比 特流的音频内容的编码之前),以及如果对帧音频内容执行了预处理,被执行的预处理的类 型。
[0173] 在一些实现中,预处理状态元数据指示:
[0174] 是否应用了环绕衰减(例如,在编码之前,音频节目的环绕通道是否被衰减了 3dB),
[0175] 是否(例如,在编码之前对音频节目的环绕通道Ls和Rs通道)应用了 90°相移,
[0176] 在编码之前,是否对音频节目的LFE通道应用了低通滤波器,
[0177] 在生成期间,是否监视节目的LFE通道的电平,以及如果监视了节目的LFE通道的 电平,相对于节目的全音域音频通道的电平的LFE通道的监视电平,
[0178] 是否应当对节目的解码音频的每个块执行(例如,在解码器中)动态范围压缩,以 及如果应当对节目的解码音频的每个块执行动态范围压缩,要执行的动态范围压缩的类型 (和/或参数)(例如,该类型的预处理状态元数据可以指示下面的压缩配置文件类型中的 哪种类型由编码器假定以生成被包括在编码比特流中的动态范围压缩控制值:电影标准、 电影光线、音乐标准、音乐光线或语音。或者,预处理状态元数据的该类型可以指示应当以 由被包括在编码比特流中的动态范围压缩控制值确定的方式对节目的解码音频内容的每 个帧执行重动态范围压缩("compr"压缩)),
[0179] 是否使用谱扩展和/或通道耦合编码以对特定频率范围的节目的内容进行编码, 以及如果使用谱扩展和/或通道耦合编码以对特定频率范围的节目的内容进行编码,对其 执行谱扩展编码的内容的频率分量的最小频率和最大频率,以及对其执行通道耦合编码的 内容的频率分量的最小频率和最大频率。该类型的预处理状态元数据信息可以有助于执行 解码器的均衡(在后处理器中)下游。通道耦合信息和谱扩展信息两者也有助于在代码转 换操作和应用期间优化质量。例如,编码器可以基于参数(例如谱扩展和通道耦合信息) 的状态优化其行为(包括预处理步骤例如头戴式耳机虚拟、上混合等的自适应)。而且,编 码器可以基于进入的(并且认证的)元数据的状态动态地修改其耦合和谱扩展参数以匹配 最佳值和/或将其耦合和谱扩展参数修改成最佳值,以及
[0180] 对白增强调整范围数据是否包括在编码比特流中,以及如果对白增强调整范围数 据包括在编码比特流中,在相对于音频节目中的非对白内容的电平调整对白内容的电平的 对白增强处理(例如,在解码器的后处理器下游)的执行期间可得到的调整范围。
[0181] 在一些实施方式中,包括在缓存在缓冲器201中的编码比特流(例如,指示至少一 个音频节目的E-AC-3比特流)的帧中的LPSM有效载荷包括下面的格式的LPSM:
[0182] 报头(通常包括标识LPSM有效载荷的开始的同步字,在同步字之后的至少一个标 识值,例如,在下面的表2中指示的LPSM格式版本、长度、周期、计数和子流关联值);以及
[0183] 在报头之后的:
[0184] 指示相应音频数据指示对白或不指示对白(例如,相应音频数据的哪些通道指示 对白)的至少一个对白表示值(例如,表2的参数"对白通道");
[0185] 指示相应音频内容是否符合响度调整的所指示的集合的至少一个响度调整符合 值(例如,表2的参数"响度调整类型");
[0186] 指示已经对相应音频数据执行的至少一种类型的响度处理的至少一个响度处理 值(例如,表2的参数"对白选通响度校正标志"、"响度校正类型"中的一个或更多个);以 及
[0187] 指示相应音频数据的至少一个响度(例如,峰值或平均响度)特性的至少一个响 度值(例如,表2的参数"ITU相对选通响度"、"ITU语音选通响度"、"ITU(EBU3341)短期 3s响度"和"真实峰值"中的一个或更多个)。
[0188] 在一些实现中,分析器205 (和/或解码器级202)被配置成从比特流的帧的无用 位段或"addbsi"字段或辅助数据段中提取具有下面的格式的每个元数据段:
[0189] 元数据段报头(通常包括标识元数据段的开始的同步字,同步字之后的标识值, 例如版本、长度、周期、扩展的元素计数和子流关联值);以及
[0190] 在元数据段报头之后的有助于元数据段或相应音频数据的元数据的至少一个的 解密、认证或验证中的至少一种的至少一个保护值(例如,表1的HMAC摘要和音频指纹 值);以及
[0191] 也在元数据段报头之后的标识每个下面的元数据有效载荷中的元数据的类型并 且表示每个这样的有效载荷的配置(例如,尺寸)的至少一个方面的元数据有效载荷标识 ("ID")值和有效载荷配置值。
[0192] 每个元数据有效载荷段(优选地具有上面指定的格式)在相应的元数据有效载荷 ID值和元数据配置值之后。
[0193] 更一般地,由本发明的优选实施方式生成的编码音频比特流具有提供将元数据元 素和子元素标记为核心的(强制的)或扩展的(可选的)元素或子元素的机制的结构。这 使得比特流(包括其元数据)的数据速率能够扩展到大量的应用。优选的比特流语法的核 心的(强制的)元素还应当能够用信号通知与音频内容相关联的扩展的(可选的)元素存 在于(带中)和/或远程位置(带外)。
[0194] 要求核心元素存在于比特流的每个帧中。核心元素的一些子元素是可选的,并且 可以以任何组合存在。不要求扩展元素存在于每个帧中(以限制比特率总开销)。从而,扩 展元素可以存在于一些帧中而不存于其他帧中。扩展元素的一些子元素是可选的,并且可 以以任何组合存在,然而,扩展元素的一些子元素可以是强制的(即,如果扩展元素存在于 比特流的帧中)。
[0195] 在一类实施方式中,生成(例如,通过实现本发明的音频处理单元)包括一系列音 频数据段和元数据段的编码音频比特流。音频数据段指示音频数据,元数据段中的至少一 些中的每个包括P頂和/或SSM(以及可选地至少一种其他类型的元数据),并且音频数据 段被与元数据段时分复用。在该类中的优选实施方式中,元数据段中的每个具有在本文中 要描述的优选的格式。
[0196] 在一种优选的格式中,编码比特流为AC-3比特流或E-AC-3比特流,并且元数据段 中的包括SSM和/或PIM的每个元数据段被包括(例如,由编码器100的优选的实现的级 107)作为比特流的帧的比特流信息("BSI")段的"addbsi"字段(图6所示)、或比特流 的帧的辅助数据字段中、或比特流的帧的无用位段中的额外的比特流信息。
[0197] 在优选格式中,帧中的每个包括帧的无用位段(或addbsi字段)中的元数据段 (在本文中有时也称为元数据容器或容器)。元数据段具有下面表1中所示的强制的元素 (统一称为"核心元素(并且可以包括表1中所示的可选元素)。表1中所示的需要的元 素中的至少一些被包括在元数据段的元数据段报头中,但一些可以被包括在元数据段的其 他位置:
[0198]表1
[0199]
[0200]
[0201] 在优选格式中,包含SSM、PM或LPSM的每个元数据段(在编码比特流的帧的无用 位段或addbsi或辅助数据字段中)包含元数据段报头(以及可选地额外的核心元素)、以 及在元数据段报头(或元数据段报头和其他核心元素)之后的一个或更多个元数据有效载 荷。每个元数据有效载荷包括被包括在有效载荷中的元数据有效载荷报头(指示元数据的 具体类型(例如,SSM、PIM或LPSM)),之后是具体类型的元数据。通常,元数据有效载荷报 头包括下面的值(参数):
[0202] 在元数据段报头(可以包括在表1中指定的值)之后的有效载荷ID(标识元数据 的类型,例如,SSM、PIM或LPSM);
[0203] 在有效载荷ID之后的有效载荷配置值(通常指示有效载荷的大小);
[0204] 以及可选地还包括额外的有效载荷配置值(例如,指示从帧的开始处到有效载荷 涉及的第一音频样本的音频样本的数量的偏置值,以及有效载荷优先权值,例如,指示其中 有效载荷可以被丢弃的条件)。
[0205] 通常,有效载荷的元数据具有下面的格式中的一种:
[0206] 有效载荷的元数据为SSM,包括指示由比特流指示的节目的独立子流的数量的独 立子流元数据;以及从属子流元数据,其指示:节目的每个独立子流是否具有与其相关联 的至少一个从属子流,以及如果节目的每个独立子流具有与其相关联的至少一个从属子 流,与节目的每个独立子流相关联的从属子流的数量;
[0207] 有效载荷的元数据为PM,包括指示音频节目的哪些通道包含音频信息以及哪些 通道(如果有)仅包含静音(通常关于帧的持续时间)的活动通道元数据;下混合处理状态 元数据,其指示节目是否被下混合(在编码之前或在编码期间),以及如果节目被下混合, 被应用的下混合的类型;上混合处理状态元数据,其指示在编码之前或在编码期间节目是 否被上混合(例如,从较小数量的通道),以及如果节目被上混合,被应用的上混合的类型; 以及预处理状态元数据,其指示是否(在生成编码比特流的音频内容的编码之前)对帧的 音频数据执行了预处理,以及如果对帧的音频数据执行了预处理,执行的预处理的类型;或
[0208] 有效载荷的元数据为LPSM,该LPSM具有如下面的表(表2)所指示的格式:
[0209] 表 2
[0210]
[0211]
[0212]
[0213]
[0214] 在根据本发明而生成的编码比特流的另一优选格式中,比特流为AC-3比特流或 E-AC-3比特流,并且元数据段中的包括PM和/或SSM(可选地还包括至少一个其他类型 的元数据)的每个元数据段(例如,由编码器100的优选实现的级107)被包括在下列中的 任一个中:比特流的帧的无用位段;或比特流的帧的比特流信息("BSI")段的"addbsi" 字段(图6所示);或比特流的帧的结束处的辅助数据字段(例如,图4中所示的AUX段)。 帧可以包括一个或两个元数据段,元数据段中的每个包括P頂和/或SSM,并且(在一些实 施方式中)如果帧包括两个元数据段,一个可以存在于帧的addbsi字段中而另一个存在于 帧的AUX字段中。每个元数据段优选地具有参照上面的表1在上面所指定的格式(即,包 括在表1中所指定的核心元素,在核心元素之后是有效载荷ID值(标识元数据段的每个有 效载荷中的元数据的类型)和有效载荷配置值,以及每个元数据有效载荷)。包括LPSM的 每个元数据段优选地具有参照上面的表1和表2在上面所指定的格式(即,包括在表1中 所指定的核心元素,在核心元素之后是有效载荷ID(标识元数据作为LPSM)以及有效载荷 配置值,之后是有效载荷(具有如表2中所指示的格式的LPSM数据))。
[0215] 在另一优选格式中,编码比特流为杜比E比特流,并且元数据段中的包括PM和/ 或SSM(可选地还包括其他元数据)的每个元数据段为杜比E保护带间隔的第一N样本位 置。包括这样的包括LPSM的元数据段的杜比E比特流优选地包括指示在SMPTE337M前同 步信号的Pd字中用信号通知的LPSM有效载荷长度的值(SMPTE337MPa字重复频率优选 地保持与相关联的视频帧速率相同)。
[0216] 在优选的格式中,其中编码比特流为E-AC-3比特流,元数据段中的包括PM和/ 或SSM(可选地还包括LPSM和/或其他元数据)的每个元数据段(例如,由编码器100的优 选实现的级107)被包括作为比特流的帧的无用位段或比特流信息("BSI")段的"addbsi" 字段中的额外的比特流信息。接下来对以该优选的格式使用LPSM对E-AC-3比特流进行编 码的额外的方面进行描述:
[0217] 1.在E-AC-3比特流的生成期间,尽管E-AC-3编码器(将LPSM值插入待比特流 中)是"活动的",对于每个生成的帧(同步帧),比特流应当包括在帧的addbsi字段(或 无用位段)中携带的元数据块(包括LPSM)。要求携带元数据块的比特不应当增加编码器 比特率(帧长度);
[0218] 2.每个元数据块(包含LPSM)应当包含下面的信息:
[0219] 响度校正类型标志:其中,"1"指示相应的音频数据的响度在编码器的上游被校 正,而"0"指示响度由嵌入在编码器中的响度校正器(例如,图2的编码器100的响度处理 器103)校正;
[0220] 语音通道:指示哪些源通道包含语音(在先前的0. 5秒)。如果没有检测到语音, 应当如此指示;
[0221] 语音响度:指示包括语音(在先前的0. 5秒)的每个相应的音频通道的综合语音 响度;
[0222] ITU响度:指示每个相应音频通道的综合ITUBS. 1770-3响度;以及
[0223] 增益:解码器中的逆变的响度复合增益(以表明可逆性);
[0224] 3?当E-AC-3编码器(将LPSM值插入到比特流中)是"活动的",并且正在接收具 有"信任"标志的AC-3帧时,编码器中的响度控制器(例如,图2的编码器100的响度处理 器103)应当被旁路。"信任的"源对白归一化和DRC值应当被传递(例如,由编码器100的 生成器106)至E-AC-3编码器部件(例如,编码器100的级107)。LPSM块生成继续,并且 响度校正类型标志被设置成" 1"。响度控制器旁路序列必须被同步至"信任"标志出现的 解码AC-3帧的开始。响度控制器旁路序列应当被如下实现:校平器量控制跨10个音频块 周期(即,53. 3毫秒)从值9减少到值0,并且校平器返回结束计量器控制被置于旁路模式 (该操作应当导致无缝转换)。调节器的术语"信任的"旁路暗示源比特流的对白归一化值 还在编码的输出端处被重新利用。(例如,若果该"信任的"源比特流具有-30的对白归一 化值,则编码器的输出应当利用-30用于输出对白归一化值);
[0225] 4?当E-AC-3编码器(将LPSM值插入到比特流中)是"活动的",并且正在接收不 具有"信任"标志的AC-3帧时,编码器中嵌入的响度控制器(例如,图2的编码器100的响 度处理器103)应当是活动的。LPSM块生成继续,并且响度校正类型标志被设置成"0"。响 度控制器激活序列应当被同步至其中"信任"标志消失的解码AC-3帧的开始。响度控制器 激活序列应当被如下实现:校平器量控制跨1个音频块周期(例如,5. 3毫秒)从值0增加 至值9,并且校平器返回结束计量器控制被置于"活动的"模式(该操作应当导致无缝转换, 并且包括返回结束计量器综合复位);以及
[0226] 5.在编码期间,图形用户接口(GUI)应当给用户指示下面的参数:"输入音频节 目:[信任的/不信任的]"一该参数的状态基于输入信号内的"信任"标志的存在;以及 "实时响度校正:[启用/禁用]" 一该参数的状态基于编码器中嵌入的响度控制器是否是 活动的。
[0227] 当对使LSPM(以优选的格式)包括在比特流的每个帧的无用位段或跳过字段段或 比特流信息("BSI")段的"addbsi"字段中的AC-3或E-AC-3比特流进行解码时,解码器 应当对(无用位段或addbsi字段中的)LPSM块数据进行分析并且将全部所提取的LPSM值 传递至图形用户接口(GUI)。在每帧刷新所提取的LPSM值的集合。
[0228]在根据本发明而生成的编码比特流的另一优选格式中,编码比特流为A
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1