利用节目响度和边界元数据的音频编码器和解码器的制造方法_2

文档序号:8417610阅读:来源:国知局
情 况下在它们允许精确的节目边界确定的场景中以如下方式精确且鲁棒地确定节目边界:该 方式使得能够截断被接合的比特流中的一个或者两个比特流(并且因此丢弃已经被包括 在预先接合比特流中的至少一个预先接合比特流中的节目边界元数据)。
[0031] 在典型的实施例中,发明的比特流的帧中的节目边界元数据为指示帧计数的节目 边界标记。通常,标记指示当前帧(包括标记的帧)与节目边界(当前音频节目的开始或 结束)之间的帧数目。在一些优选实施例中,节目边界标记以对称且高效的方式被插入在 指示单个节目(即在分段的开始之后的一些预定数目的帧内出现的帧中,以及在分段的结 束之前的一些预定数目的帧内出现的帧中)的每个比特流分段的开始处和结束处,使得当 两个这样的比特流分段被连结(以便指示两个节目的序列)时,节目边界元数据可以出现 在两个节目之间的边界的两侧(即对称地)。
[0032] 为了限制由于在编码音频比特流(其可以指示一个音频节目或者音频节目序列) 中包括节目边界元数据而导致的数据速率增加,在典型的实施例中,节目边界标记仅被插 入在比特流的帧的子集中。通常,边界标记插入速率为比特流的帧(其中插入标志)中的每 个帧从距离这些帧中的所述每个帧最近的节目边界的增加的分离的非增加函数,其中"边 界标记插入速率"表示包括节目边界标记的帧(指示节目的帧)的数目与不包括节目边界 标记的帧(指示节目的帧)的数目的平均比率,其中平均值为编码音频比特流的若干(例 如相对较少数目的)连续的帧上的滑动平均值。在一类实施例中,边界标记插入速率为(每 个标记插入位置)距离最近的节目边界的增加的距离的对数减小函数,并且对于包括其中 一个标记的每个包含标记的帧,所述包含标记的帧中的标志的大小等于或者大于比所述包 含标记的帧更靠近的节目边界的帧中的每个标记的大小(即每个包含标记的帧中的节目 边界标记的大小为所述包含标记的帧从最近的节目边界的增加的分离的非减小的函数)。
[0033] 本发明的另外的方面是被配置成执行本发明的方法的任意实施例的音频处理单 元(APU)。在另一类实施例中,本发明是包括缓冲存储器(缓冲器)的APU,缓冲存储器 (如,以非暂时性方式)存储已经由本发明的方法的任意实施例生成的编码音频比特流的 至少一个帧。APU的示例包括但不限于编码器(如,转码器)、解码器、编解码器、预处理系 统(预处理器)、后处理系统(后处理器)、音频比特流处理系统、以及这样的元件的组合。
[0034] 在另一类实施例中,本发明是被配置成生成包括音频数据分段和元数据分段的编 码音频比特流的音频处理单元(APU),其中,音频数据分段表示音频数据,并且至少部分元 数据分段中的每个包括响度处理状态元数据(LPSM)以及可选地还包括节目边界元数据。 通常,比特流的帧中的至少一个这样的元数据分段包括:LPSM的表示是否已经对帧的音频 数据(即在所述帧的至少一个音频数据分段中的音频数据)执行了第一类型的响度处理的 至少一个分段;以及LPSM的表示帧的音频数据中的至少一些的响度(如,表示会话的帧的 音频数据中的至少一些的会话响度)的至少一个其他分段。在这种类型的一个实施例中, ATO是一种被配置成对输入音频进行编码以生成编码音频的编码器,音频数据分段包括编 码音频。在这种类型的典型实施例中,每个元数据分段具有本文中要描述的优选格式。
[0035] 在一些实施例中,包括LPSM (例如LPSM和节目边界元数据)的编码比特流(在一 些实施例中为AC-3比特流或者E-AC-3比特流)的元数据分段中的每个元数据分段被包 括在比特流的帧的跳过域分段的浪费比特(例如图4或者图7所示的类型的浪费比特分 段W)中。在其他实施例中,包括LPSM (例如LPSM和节目边界元数据)的编码比特流(在 一些实施例中为AC-3比特流或者E-AC-3比特流)的元数据分段中的每个元数据分段作为 附加比特流信息被包括在比特流的帧的比特流信息("BSI")分段的"addbsi"域中或者 被包括在比特流的帧的结束处的辅助数据域(例如图4或者图7所示的类型的AUX分段) 中。每个包括LPSM的元数据分段具有本文中在以下参考表1和表2指定的格式(即,其包 括表1所示的核心元素或者其变型,核心元素或者其变型之后跟随有效载荷ID(将元数据 标识为LPSM)和有效载荷尺寸值,有效载荷ID和有效载荷尺寸值之后跟随有效载荷(如本 文中所述的具有如表2所示的格式或者表2的变型所示的格式的LPSM数据))。在一些实 施例中,帧可以包括一个或两个元数据分段,一个或两个元数据分段中的每个元数据分段 包括LPSM,并且如果帧包括两个元数据分段,则一个元数据分段可以出现在帧的addbsi域 中,而另一个元数据分段可以出现在帧的AUX域中。
[0036] 在一类实施例中,本发明为包括如下步骤的方法:对音频数据编码以生成AC-3 或者E-AC-3编码音频比特流,所述包括通过以下方式来实现:在(比特流的至少一个帧 的)元数据分段中包括LPSM和节目边界元数据以及可选地还包括帧属于其的音频节目的 其他元数据。在一些实施例中,每个这样的元数据分段被包括在帧的addbsi域或者帧的 auxdata域中。在其他实施例中,每个这样的元数据分段被包括在帧的浪费比特分段中。在 一些实施例中,包含LPSM和节目边界元数据的每个元数据分段包含核心首部(以及可选地 还包括附加核心元素)、以及在核心首部(或者核心首部和其他核心元素)之后的具有以下 格式的LPSM有效载荷(或者容器)分段:
[0037] 首部,通常包括至少一个标识值(例如LPSM格式版本、长度、周期、计数、和子流关 联值,如本文中所提出的表2中所示),以及
[0038] 在首部之后的LPSM和节目边界元数据。节目边界元数据可以包括节目边界帧计 数、编码值和(在一些情况下的)偏移值,编码值(例如"〇fTset_ eXiSt"值)指示帧仅包 含节目边界帧计数还是包括节目边界帧计数和偏移值二者。LPSM可以包括:
[0039] 至少一个会话指示值,其指示对应的音频数据指示会话还是不指示会话(例如对 应的音频数据的哪些通道指示会话)。会话指示值可以指示对应的音频数据的通道的任意 组合或者全部通道中是否存在会话;
[0040] 至少一个响度调节符合值,其指示对应的音频数据是否符合所指示的响度规则集 合;
[0041] 至少一个响度处理值,其指示已经对对应的音频数据执行的至少一种类型的响度 处理;以及
[0042] 至少一个响度值,其指示表征对应的音频数据的至少一个响度(例如峰值响度或 者平均响度)。
[0043] 在其他实施例中,编码比特流是一种并非AC-3比特流或者E-AC-3比特流的比特 流,并且,包括LPSM (以及可选地还包括节目边界元数据)的元数据分段中的每个被包括在 被保留用于存储附加数据的比特流的分段(或域、或时隙)中。包括LPSM的每个元数据分 段可以具有与本文中在以下参考表1和表2指出的格式类似或相同的格式(即,其包括与 表1所示的核心元素类似或相同的核心元素,之后跟随有效载荷ID(将元数据标识为LPSM) 和有效载荷尺寸值,之后跟随有效载荷(具有与如本文中所述的如表2所示的格式或者表 2的变型所示的格式类似或相同的格式的LPSM数据))。
[0044] 在某些实施例中,编码比特流包括帧的序列,每个帧包括比特流信息("BSI")分 段和auxdata域或时隙(如,编码比特流是AC-3比特流或者E-AC-3比特流),其中,比特流 信息("BSI")分段包括"addbsi"域(有时称为分段或时隙),并且,每个帧包括音频数据 分段(如,图4所示的帧的AB0-AB5分段)和元数据分段,其中,元数据分段表示音频数据, 至少部分元数据分段的每个包括响度处理状态元数据(LPSM)以及可选地还包括节目边界 元数据。LPSM以以下格式存在于比特流中。包括LPSM的元数据分段中的每个被包括在比 特流的帧的BSI分段的"addbsi"域中,或者被包括在比特流的帧的auxdata域中,或者被 包括在比特流的帧的浪费比特分段中。包括LPSM的每个元数据分段包括具有以下格式的 LPSM有效载荷(或容器)分段:
[0045] 首部(通常包括至少一个标识值,如以下表2中所示的LPSM格式版本、长度、周 期、计数和子流关联值);以及
[0046] 在首部之后的LPSM以及可选的还有节目边界元数据。节目边界元数据可以包括 节目边界帧计数、编码值和(在一些情况下)偏移值,编码值(例如"〇fTset_ eXiSt"值) 指示帧仅包含节目边界帧计数还是包括节目边界帧计数和偏移值二者。LPSM可以包括:
[0047] 至少一个会话指示值(如,表2的参数"会话通道"),其指示相应的音频数据是指 示会话还是不指示会话(如,相应的音频数据的哪个通道指示会话)。会话指示值可以指示 会话是否存在于相应的音频数据的通道的任意组合或所有通道中;
[0048] 至少一个响度调节相符值(如,表2的参数"响度调节类型"),其指示相应的音频 数据是否与所指示的响度调节的集合相符;
[0049] 至少一个响度处理值(如,表2的参数"会话选通的响度校正标志"、"响度校正类 型"中的一个或更多个),其指示已经对相应的音频数据执行的至少一种类型的响度处理; 以及
[0050] 至少一个响度值(如,表2的参数" ITU相对选通的响度"、" ITU语音选通的响度"、 " ITU (EBU 3341)短期3s响度"和"真实峰值"中的一个或更多个),其指示相应的音频数据 的至少一个响度(如,峰值或者平均响度)特性。
[0051] 在本发明的专注、使用或者生成表示相应的音频数据的至少一个响度值的任意实 施例中,响度值可以指示用于处理音频数据的响度和/或动态范围的至少一个响度测量特 性。
[0052] 在一些实现中,比特流的帧的"addbsi"域或auxdata域或浪费比特分段中的每个 元数据分段具有以下格式:
[0053] 核心首部(通常包括标识元数据分段的开始的同步字,其后跟随标识值,如以下 表1中所示的核心元素版本、长度和周期、扩展元素计数以及子流关联值);以及
[0054] 在核心首部之后的至少一个保护值(如,HMAC摘要和音频指纹值,其中,HMAC摘 要可以是基于整个帧的音频数据、核心元素和所有的扩展元素计算的256比特的HMAC摘要 (使用SHA-2算法),如表1所示,其用于响度处理状态元数据或相应的音频数据中的至少 一个的解密、认证或验证中的至少一个);以及
[0055] 如果元数据分段包括LPSM,则也在核心首部之后的LPSM有效载荷标识(ID)和 LPSM有效载荷尺寸值,其将跟随的元数据标识为LPSM有效载荷并且指示LPSM有效载荷的 尺寸。LPSM有效载荷分段(优选地具有上述格式)跟随LPSM有效载荷ID和LPSM有效载 荷尺寸值。
[0056] 在以上段落中描述的类型的一些实施例中,帧的auxdata域(或者"addbsi"域或 者浪费比特分段)中的每个元数据分段具有三层结构:
[0057] 高层结构,包括:指示auxdata(或addbsi)域是否包括元数据的标志;指示存 在的是什么类型的元数据的至少一个ID值;以及通常还包括指示存在多少比特的元数据 (如,每种类型的元数据)的值(如果存在元数据)。可能存在的一种类型的元数据是LPSM, 可能存在的另一种类型的元数据为节目边界元数据,可能存在的另一种类型的元数据是媒 体研宄元数据;
[0058] 中层结构,包括用于每个标识的类型的元数据的核心元素(如,对于每种标识的 类型的元数据如上述类型的核心首部、保护值和有效载荷ID以及有效载荷尺寸值);以及
[0059] 低层结构,包括用于一个核心元素的每个有效载荷(如,如果核心元素将其标识 为存在,则是LPSM有效载荷,和/或,如果核心元素将其标识为存在,则是另一种类型的元 数据有效载荷)。
[0060] 可以对在这样的三层结构中的数据值进行嵌套。例如,可以在由核心元素标识的 有效载荷之后(从而在核心元素的核心首部之后),包括用于LPSM有效载荷和/或由核心 元素标识的另一元数据有效载荷的保护值。在一种示例中,核心首部可以标识LPSM有效载 荷与另一元数据有效载荷,用于第一有效载荷(如,LPSM有效载荷)的有效载荷ID和有效 载荷尺寸值可以跟随核心首部,第一有效载荷本身可以跟随该ID和尺寸值,用于第二有效 载荷的有效载荷ID和有效载荷尺寸值可以跟随第一有效载荷,第二有效载荷本身可以跟 随这些ID和尺寸值,并且,两种有效载荷之一或两者(或者核心元素值和两种有效载荷之 一或两者)的保护值可以跟随最后的有效载荷。
[0061] 在一些实施例中,帧的auxdata域(或"addbsi"域或浪费比特分段)中的元数 据分段的核心元素包括核心首部(通常包括标识值,如核心元素版本),并且在核心首部之 后包括:指示指纹数据是否被包括用于元数据分段的元数据的值、指示是否存在外部数据 (与对应于元数据分段的元数据的音频数据有关)的值、由核心元素标识的每种类型的元 数据(如,LPSM和/或除了 LPSM之外的类型的元数据)的有效载荷ID和有效载荷尺寸值、 以及由核心元素标识的至少一种类型的元数据的保护值。元数据分段的元数据有效载荷跟 随核心首部,并且(在一些情况下)被嵌套在核心元素的值内。
[0062] 在另一优选格式中,编码比特流是杜比E比特流,并且,包括LPSM(以及可选地还 包括节目边界元数据)的元数据分段中的每个被包括在杜比E保护带间隔的前N个样本位 置中。
[0063] 在另一类型的实施例中,本发明是APU (如,解码器),APU被耦接和配置来接收包 括音频数据分段和元
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1