利用节目响度和边界元数据的音频编码器和解码器的制造方法_3

文档序号:8417610阅读:来源:国知局
数据分段的编码音频比特流的,其中,音频数据分段表示音频数据,并 且至少部分元数据分段中的每个包括响度处理状态元数据(LPSM)以及可选地还包括节目 边界元数据,并且APU被耦接和配置来从比特流中提取LPSM,响应于音频数据来生成解码 音频数据、以及使用LPSM对音频数据执行至少一个自适应响度处理操作。这种类型中的某 些实施例还包括耦接至APU的后处理器,其中,后处理器被耦接和配置来使用LPSM对音频 数据执行至少一个自适应响度处理操作。
[0064] 在另一类型的实施例中,本发明是包括缓冲存储器(缓冲器)和耦接至缓冲器的 处理子系统的音频处理单元(APU)。其中,APU被耦接成接收包括音频数据分段和元数据分 段的编码音频比特流,其中,音频数据分段表示音频数据,并且至少部分元数据分段中的每 个包括响度处理状态元数据(LPSM)以及可选地还包括节目边界元数据,缓冲器(如,以非 暂时性方式)存储编码音频比特流的至少一个帧,并且处理子系统被配置成从比特流中提 取LPSM以及使用LPSM对音频数据执行至少一个自适应响度处理操作。在这种类型中的典 型的实施例中,APU是编码器、解码器和后处理器中的一种。
[0065] 在本发明的方法的一些实现中,所生成的音频比特流是AC-3编码比特流、E-AC-3 比特流或者杜比E比特流中的一种,包括响度处理状态元数据以及其他元数据(如, DIALNORM元数据参数、动态范围控制元数据参数和其他元数据参数)。在方法的一些其他 实现中,所生成的音频比特流是另一类型的编码比特流。
[0066] 本发明的各个方面包括被配置(或编程)成执行本发明的方法的任意实施例的系 统或装置、以及(如,以非暂时性方式)存储用于实现本发明的方法或其步骤的任意实施 例的代码的计算机可读介质(如,磁盘)。例如,本发明的系统可以是或者包括用软件或固 件编程的可编程通用处理器、数字信号处理器或微处理器,和/或被配置成执行对数据的 各种操作中的任意操作,包括发明的方法或其步骤的实施例。这样的通用处理器可以是或 者包括如下计算机系统:其包括输入装置、存储器和处理电路,其被编程为(和/或被配置 成)响应于向其传送的数据来执行本发明的方法(或步骤)的实施例。
【附图说明】
[0067] 图1是可以被配置成执行本发明的方法的实施例的系统的实施例的框图;
[0068] 图2是作为本发明的音频处理单元的实施例的编码器的框图;
[0069] 图3是作为本发明的音频处理单元的实施例的解码器以及作为本发明的音频处 理单元的另一实施例的与解码器耦接的后处理器的框图;
[0070] 图4是AC-3帧的图,包括其被划分成的分段;
[0071] 图5是AC-3帧的同步信息(SI)分段的图,包括其被划分成的分段;
[0072] 图6是AC-3帧的比特流信息(BSI)分段的图,包括其被划分成的分段;
[0073] 图7是E-AC-3帧的图,包括其被划分成的分段;
[0074] 图8是包括具有根据本发明的实施例的格式的节目边界元数据的编码音频比特 流的帧的图;
[0075] 图9是图9的编码音频比特流的其他帧的图,这些帧中的一些帧包括具有根据本 发明的实施例的格式的节目边界元数据;
[0076] 图10是两个编码音频比特流的图:比特流(IEB)和另一个比特流(TB),在比特流 (IEB)中,节目边界(被标记为"边界")与比特流的两个帧之间的过渡对准,而在另一个比 特流(TB)中,节目边界(被标记为"真实边界")偏离比特流的两个边界之间的过渡512个 样本;以及
[0077] 图11是示出了 4个编码音频比特流的图形集合。图11的顶部处的比特流(被标 记为"场景1")指示包括节目边界元数据的第一音频节目(Pl),Pl之后跟随还包括节目 边界元数据的第二音频节目(P2);第二比特流(被标记为"场景2")指示包括节目边界元 数据的第一音频节目(Pl),Pl之后跟随不包括节目边界元数据的第二音频节目(P2);第 三比特流(被标记为"场景3")指示包括节目边界元数据的被截短的第一音频节目(Pl), 其已经与包括节目边界元数据的整个第二音频节目(P2)接合;第四比特流(被标记为"场 景4")指示包括节目边界元数据的被截短的第一音频节目(Pl)和被截短的第二音频节目 (P2),其包括节目边界元数据并且已经与第一音频节目的一部分接合。
[0078] 符号和命名
[0079] 贯穿本公开,包括在权利要求中,在广义上使用"对"信号或数据执行操作(如,对 信号或数据进行滤波、缩放、变换或施加增益)的表述来表示直接对信号或数据、或者对信 号或数据的已处理版本(如,对在对其执行该操作之前已经经历了初步的滤波或预处理的 信号的版本)执行该操作。
[0080] 贯穿本公开,包括在权利要求中,在广义上使用表述"系统"来表示装置、系统或子 系统。例如,实现解码器的子系统可以被称为解码器系统,包括这样的子系统的系统(如, 响应于多个输入生成X个输出信号的系统,其中,子系统生成M个输入,其他X-M个输入从 外部源来接收)也可以被称为解码器系统。
[0081] 贯穿本公开,包括在权利要求中,在广义上使用术语"处理器"来表示可编程或者 否则可(利用软件或固件)配置以对数据(如,音频或视频或其他图像数据)执行操作的 系统或装置。处理器的示例包括现场可编程门阵列(或者其他可配置集成电路或芯片组)、 被编程和/或否则被配置成对音频或其他声音数据执行流水线处理的数字信号处理器、可 编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
[0082] 贯穿本公开,包括在权利要求中,表述"音频处理器"和"音频处理单元"被可交换 地使用,并且在广义上被用来表示被配置成处理音频数据的系统。音频处理单元的示例包 括但不限于编码器(如,转码器)、解码器、编解码器、预处理系统、后处理系统和比特流处 理系统(有时被称为比特流处理工具)。
[0083] 贯穿本公开,包括在权利要求中,表述"处理状态元数据"(如,在表述"响度处理状 态元数据"中)指与相应的音频数据(也包括处理状态元数据在内的音频数据流的音频内 容)分离的且不同的数据。处理状态元数据与音频数据相关联,指示相应的音频数据的响 度处理状态(如,已经对音频数据执行了什么类型的处理),并且通常还指示音频数据的至 少一个特征或特性。处理状态元数据与音频数据的关联是时间同步的。因此,当前(最近接 收的或更新的)处理状态元数据指示相应的音频数据同时包括指示类型的音频数据处理 的结果。在某些情况下,处理状态元数据可以包括处理历史和/或用在指示类型的处理中 和/或根据指示类型的处理得到的参数中的一些或全部。附加地,处理状态元数据可以包 括相应的音频数据的至少一个特征或特性,所述至少一个特征或特性已经根据音频数据计 算出或从音频数据中提取到。处理状态元数据还可以包括不是与相应的音频数据的任意处 理相关的或者不是从相应的音频数据的任意处理中得到的其他元数据。例如,可以通过具 体的音频处理单元来添加第三方数据、乐曲(tracking)信息、标识符、专有权或标准信息、 用户注解数据、用户偏好数据等,以传递给其他音频处理单元。
[0084] 贯穿本公开,包括在权利要求中,表述"响度处理状态元数据"(或"LPSM")表示 如下处理状态元数据:其表示相应的音频数据的响度处理状态(如,已经对音频数据执行 了什么类型的响度处理),并且通常还表示相应的音频数据的至少一个特征或特性(如,响 度)。响度处理状态元数据可以包括不是(即,当其被单独考虑时)响度处理状态元数据的 数据(如,其他元数据)。
[0085] 贯穿本公开,包括在权利要求中,表述"通道"(或者"音频通道")表示单声道音 频信号。
[0086] 贯穿本公开,包括在权利要求中,表述"音频节目"表示一组一个或更多个音频通 道并且可选地还表示关联的元数据(例如描述期望的空间音频存在的元数据、和/或LPSM、 和/或节目边界元数据)。
[0087] 贯穿本公开,包括在权利要求中,表述"节目边界元数据"表示编码音频比特流的 元数据,其中编码音频比特流指示至少一个音频节目(例如两个或更多个音频节目),并且 节目边界元数据指示至少一个所述音频节目的至少一个边界(开始和/或结束)的比特流 中的位置。例如,(指示音频节目的编码音频比特流的)节目边界元数据可以包括指示节目 的开始的位置(例如比特流的第N帧的开始,或者比特流的第N帧的第M个样本位置)的 元数据、以及指示节目的结束的位置(例如比特流的第J帧的开始,或者比特流的第J帧的 第K个样本位置)的附加元数据。
[0088] 贯穿本公开,包括在权利要求中,使用术语"耦接(couples) "或"被耦接 (coupled) "来表示直接连接或间接连接。因此,如果第一装置耦接至第二装置,则该连接可 以是直接连接或者是通过其他装置和连接实现的间接连接。
【具体实施方式】
[0089] 根据本发明的典型的实施例,被称为响度处理状态元数据(LPSM)的节目响度元 数据的有效载荷以及可选地还有节目边界元数据被嵌入在音频比特流的元数据分段的一 个或更多个保留的域(或时隙)中,该音频比特流在其他分段(音频数据分段)中也包括 音频数据。通常,比特流的每个帧的至少一个分段包括LPSM,该帧的至少一个其他分段包 括相应的音频数据(即,由LPSM指示其响度处理状态和响度的音频数据)。在一些实施例 中,LPSM的数据量可以充分小以在不影响被分配用于承载音频数据的比特速率的情况下被 承载。
[0090] 当两个或更多个音频处理单元需要遍及处理链(或内容生命周期)彼此串联工作 时,在音频数据处理链中传送响度处理状态元数据特别有用。在音频比特流中不包括响度 处理状态元数据的情况下,例如,当在链中使用两个或更多个音频编解码器并且在比特流 的至媒体消耗装置(或者比特流的音频内容的渲染点)的行程期间不止一次施加单端音量 调节时,可能出现严重的媒体处理问题,如质量、电平和空间的降级。
[0091] 图1是示例性音频处理链(音频数据处理系统)的框图,其中,可以根据本发明的 实施例配置系统的元件中的一个或更多个。该系统包括如所示出地那样耦接在一起的以下 元件:预处理单元、编码器、信号分析和元数据校正单元、转码器、解码器和预处理单元。在 所示出的系统的变型中,省略了其中一个或更多个元件,或者包括附加的音频数据处理单 J Ll 〇
[0092] 在一些实现中,图1的预处理单元被配置成:接受包括音频内容在内的PCM(时 域)样本作为输入;以及输出经处理的PCM样本。编码器可以被配置成:接受PCM样本作 为输入;以及输出表示音频内容的编码比特流(如,压缩)音频比特流。表示音频内容的比 特流的数据有时在本文中被称为"音频数据"。如果编码器根据本发明的典型的实施例来配 置,则从编码器输出的音频比特流包括响度处理状态元数据(通常还有其他元数据,可选 地包括节目边界元数据)以及音频数据。
[0093] 图1的信号分析和元数据校正单元可以接受一个或更多个编码音频比特流作为 输入,并且通过执行信号分析(例如使用编码音频比特流中的节目边界元数据)来判定 (如,验证)在每个编码音频比特流中的处理状态元数据是否正确。如果信号分析和元数 据校正单元发现所包括的元数据无效,则其通常用根据信号分析获得的正确的值来替代错 误的值。因此,从信号分析和元数据校正单元输出的每个编码音频比特流可以包括已校正 (或未校正)处理状态元数据以及编码比特流音频数据。
[0094] 图1的转码器可以接受编码音频比特流作为输入,并且相应地输出已修改(如,不 同地编码的)音频比特流(如,通过对输入流进行解码并且以不同的编码格式对解码流进 行重新编码)。如果转码器根据本发明的典型的实施例来配置,则从转码器输出的音频比特 流包括响度处理状态元数据(通常还有其他元数据)以及编码比特流音频数据。元数据已 经被包括在比特流中。
[0095] 图1的解码器可以接受编码(如,压缩)音频比特流作为输入,并且(相应地)输 出解码PCM音频样本的流。如果解码器根据本发明的典型的实施例来配置,则典型的操作 中的解码器的输出是或者包括以下中的任一个:
[0096] 音频样本的流、以及从输入编码比特流中提取的响度处理状态元数据(通常还有 其他元数据)的相应的流;或者
[0097] 音频样本的流、以及根据从输入编码比特流中提取的响度处理状态元数据(通常 还有其他元数据)确定的相应的控制比特的流;或者
[0098] 在没有处理状态元数据或根据处理状态元数据确定的控制比特的相应的流的情 况下的音频样本的流。在该最后的情况下,解码器可以从输入编码比特流中提取响度处理 状态元数据(和/或其他元数据),以及对所提取的元数据执行至少一次操作(如,验证), 虽然其没有输出所提取的元数据或者根据其确定的控制比特。
[0099] 通过根据本发明的典型的实施例来配置图1的后处理单元,后处理单元被配置成 接受解码PCM音频样本的流,并且使用与样本一起接收的响度处理状态元数据(通常还有 其他元数据)或者与样本一起接收的控制比特(其由解码器根据响度处理状态元数据并且 通常还根据其他元数据确定)来对其执行后处理(即,音频内容的音量调节)。后处理单元 通常还被配置成对经后处理的音频内容进行渲染以由一个或更多个扬声器回放。
[0100] 本发明的典型的实施例提供了增强型音频处理链,其中,根据由通过音频处理单 元分别接收的响度处理状态元数据指示的元数据的同时期的状态,音频处理单元(如,编 码器、解码器、转码器、预处理单元和后处理单元)适配待施加给音频数据的它们的各个处 理。
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1