使用节目信息或子流结构元数据的音频编码器和解码器的制造方法

文档序号：9278245阅读：285来源：国知局

使用节目信息或子流结构元数据的音频编码器和解码器的制造方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求在2013年6月19日提交的美国临时专利申请61/836, 865号的优先权，其全部内容通过引用合并于此。
技术领域
[0003] 本发明涉及音频信号处理，以及更具体地，涉及具有指示与由比特流所指示的音频内容有关的子流结构和/或节目信息的元数据的音频数据比特流的编码和解码。本发明的一些实施方式以被称为杜比数字（AC-3)、杜比数字+(增强的AC-3或E-AC-3)或杜比E 的格式中的一种格式生成或解码音频数据。
【背景技术】
[0004] 杜比、杜比数字、杜比数字+、和杜比E是杜比实验室特许公司的商标。杜比实验室提供分别被称为杜比数字和杜比数字+的AC-3和E-AC-3的专有实现。
[0005] 音频数据处理单元通常以盲方式（blindfashion)操作并且不关注在数据被接收之前发生的音频数据的处理历史。这可以在这样的处理框架中工作：其中单个实体进行各种目标媒体渲染装置的所有的音频数据处理和编码而目标媒体渲染装置进行编码音频数据的所有的解码和渲染。然而，该盲处理在多个音频处理单元跨多样化的网络被散布 (scatter)或串联（S卩，链）放置并且期望它们最佳地执行其相应类型的音频处理的情形下不能很好地（或完全不）工作。例如，一些音频数据可能针对高性能媒体系统被编码，并且可能需要被转换成适合于沿着媒体处理链的移动设备的简化形式。因此，音频处理单元可能不必要地对音频数据执行已经被执行过的类型的处理。例如，音量校平（leveling)单元可能对输入音频片断执行处理，不管以前是否已经对输入音频片断执行了相同的或相似的音量校平。因此，即使当不必要时，音量校平单元也可能执行校平。该不必要的处理还可能导致当渲染音频数据的内容时具体特征的退化和/或消除。

【发明内容】

[0006] 在一类实施方式中，本发明是能够对编码比特流进行解码的音频处理单元，该编码比特流包括比特流的至少一个帧的至少一个段中的子流结构元数据和/或节目信息元数据（可选地还包括其他元数据，例如，响度处理状态元数据）以及帧的至少一个其他段中的音频数据。在本文中，子流结构元数据（或"SSM"）表示编码比特流（或编码比特流的集合）的元数据，其指示编码比特流的音频内容的子流结构，并且"节目信息元数据"（或 "PM"）表示编码音频比特流的元数据，其指示至少一个音频节目（例如，两个或更多个音频节目），其中节目信息元数据指示至少一个所述节目的音频内容的至少一个属性或特性 (例如，指示对节目的音频数据执行的处理的类型或参数的元数据，或指示节目的哪些通道是活动通道（activechannel)的元数据）。
[0007] 在典型的情况（例如，其中编码比特流为AC-3或E-AC-3比特流）下，节目信息元数据（PM)指示实际上不能在比特流的其他部分中携带的节目信息。例如，PIM可以指示在编码（例如，AC-3或E-AC-3编码）之前对PCM音频所应用的处理，音频节目的哪些频带已经使用具体的音频编码技术被编码以及用于在比特流中创建动态范围压缩ORC)数据的压缩配置文件（profile)。
[0008] 在另一类实施方式中，方法包括在比特流的每个帧（或至少一些帧中的每个帧）中将编码音频数据与SSM和/或PIM复用的步骤。在典型的解码中，解码器从比特流中提取SSM和/或PM(包括通过对SSM和/或PM以及音频数据进行分析和去复用），并且对音频数据进行处理以生成解码音频数据的流（以及在某些情况下还执行音频数据的自适应处理）。在一些实施方式中，解码音频数据以及SSM和/或PM从解码器被转发至后处理器，该后处理器被配置成使用SSM和/或PIM对解码音频数据执行自适应处理。
[0009] 在一类实施方式中，本发明的编码方法生成包括音频数据段（例如，图4所示的帧的AB0至AB5段或图7所示的帧的段AB0至AB5中的全部或一些）的编码音频比特流（例如，AC-3或E-AC-3比特流），音频数据段包括编码音频数据以及与音频数据段时分复用的元数据段（包括SSM和/或PM，可选地还包括其他元数据）。在一些实施方式中，每个元数据段（在本文中有时称为"容器"）具有包括元数据段报头（可选地还包括其他强制性的或 "核心"元素）、以及在元数据段报头之后的一个或更多个元数据有效载荷。如果存在，SIM 被包括在元数据有效载荷之一中（由有效载荷报头标识，并且通常具有第一类型的格式）。如果存在，PIM被包括在元数据有效载荷中的另一个中（由有效载荷报头标识，并且通常具有第二类型的格式）。类似地，元数据的每个其他类型（如果存在）被包括在元数据有效载荷中的另一个中（由有效载荷报头标识，并且通常具有特定于元数据的类型的格式）。示例性格式允许在除了比特流的解码期间之外的时间（例如，由解码之后的后处理器，或由被配置成在不执行对编码比特流的完全解码的情况下识别元数据的处理器）对SSM、PIM或其他元数据的方便的访问，并且允许在比特流的解码期间（例如，子流识别的）方便的和高效的误差检测和校正。例如，在不以示例性格式访问SSM的情况下，解码器可能错误地识别与节目相关联的子流的正确数量。元数据段中的一个元数据有效载荷可以包括SSM，元数据段中的另一元数据有效载荷可以包括PM，并且可选地，元数据段中的至少一个其他元数据有效载荷可以包括其他元数据（例如，响度处理状态元数据或"LPSM"）。
【附图说明】
[0010] 图1是可以被配置成执行本发明的方法的实施方式的系统的实施方式的框图。
[0011] 图2是作为本发明的音频处理单元的实施方式的编码器的框图。
[0012] 图3是作为本发明的音频处理单元的实施方式的解码器以及作为本发明的音频处理单元的另一实施方式的耦接至解码器的后处理器的框图。
[0013] 图4是包括被划分成的段的AC-3帧的图。
[0014] 图5是包括被划分成的段的AC-3帧的同步信息（SI)段的图。
[0015] 图6是包括被划分成的段的AC-3帧的比特流信息（BSI)段的图。
[0016] 图7是包括被划分成的段的E-AC-3帧的图。
[0017] 图8是根据本发明的实施方式生成的包括元数据段报头的编码比特流的元数据段的图，元数据段报头包括容器同步字（在图8中标识为"容器同步"）以及版本和键ID值，之后是多个元数据有效载荷以及保护位。
[0018]符号和术语
[0019]贯穿包括权利要求在内的本公开内容，"对"信号或数据执行操作（例如，对信号或数据进行滤波、缩放、变换或施加增益）的表达用于广义上表示对信号或数据、或对信号或数据的已处理版本（例如，对在对信号执行操作之前已经经历了初步滤波或预处理的信号的版本）直接执行操作。
[0020] 贯穿包括权利要求在内的本公开内容，"系统"的表达用于广义上表示设备、系统或子系统。例如，实现解码器的子系统可以称为解码器系统，并且包括这样的子系统的系统 (例如，响应于多个输入生成X个输出信号的系统，在该系统中，子系统生成M个输入并且其他X-M个输入从外部源接收）也可以称为解码器系统。
[0021] 贯穿包括权利要求在内的本公开内容，术语"处理器"用于广义上表示可编程或以其他方式可配置成（例如，使用软件或固件）对数据（例如，音频数据或视频数据或其他图像数据）执行操作的系统或装置。处理器的示例包括现场可编程门阵列（或其他可配置的集成电路或芯片组）、被编程和/或被以其他方式配置成对音频数据或其他声音数据执行流水线处理的数字信号处理器、可编程的通用处理器或计算机以及可编程的微处理器芯片或芯片组。
[0022] 贯穿包括权利要求在内的本公开内容，"音频处理器"和"音频处理单元"的表达用于可交换地广义上表示被配置成对音频数据进行处理的系统。音频处理单元的示例包括但不限于编码器（例如，代码转换器）、解码器、编解码器、预处理系统、后处理系统以及比特流处理系统（有时称为比特流处理工具）。
[0023]贯穿包括权利要求在内的本公开内容，（编码音频比特流的）"元数据"的表达指代与比特流的相应的音频数据分离的且不同的数据。
[0024] 贯穿包括权利要求在内的本公开内容，"子流结构元数据"（或"SSM"）的表达表示编码音频比特流（或编码音频比特流集）的元数据，其指示编码比特流的音频内容的子流结构。
[0025] 贯穿包括权利要求在内的本公开内容，"节目信息元数据"（或"PM"）的表达表示编码音频比特流的元数据，该编码音频比特流指示至少一个音频节目（例如，两个或更多个音频节目），其中所述元数据指示至少一个所述节目的音频内容的至少一个属性或特性 (例如，指示对节目的音频数据执行的处理的类型或参数的元数据、或表示节目的哪些通道是活动通道的元数据）。
[0026] 贯穿包括权利要求在内的本公开内容，"处理状态元数据"的表达（例如，如在"响度处理状态元数据"的表达中）指代与比特流的音频数据相关联的（编码音频比特流的）元数据，指示相应的（相关联的）音频数据的处理状态（例如，已经对音频数据执行了什么类型的处理），并且通常还指示音频数据的至少一个特征或特性。处理状态元数据与音频数据的关联是时间同步的。从而，当前的（最新接收或更新的）处理状态元数据指示相应的音频数据同时包括所指示的类型的音频数据处理的结果。在一些情况下，处理状态元数据可以包括处理历史和/或用于所指示的类型的处理中的和/或从所指示的类型的处理中得到的参数中的一些或全部。另外，处理状态元数据可以包括相应的音频数据的已经从音频数据中计算或提取的至少一个特征或特性。处理状态元数据还可以包括与相应的音频数据的任何处理无关的或不是从相应的音频数据的任何处理中得到的其他元数据。例如，第三方数据、跟踪信息、标识符、所有权或标准信息、用户注释数据、用户偏好数据等可以通过具体的音频处理单元被添加以传递至其他音频处理单元。
[0027] 贯穿包括权利要求在内的本公开内容，"响度处理状态元数据"（或"LPSM"）的表达表示处理状态元数据，处理状态元数据指示相应的音频数据的响度处理状态（例如，已经对音频数据执行了什么类型的响度处理），并且通常还指示相应的音频数据的至少一个特征或特性（例如，响度）。响度处理状态元数据可以包括不是（即，当单独考虑时）响度处理状态元数据的数据（例如，其他元数据）。
[0028] 贯穿包括权利要求在内的本公开内容，"通道"（或"音频通道"）的表达表示单通道音频信号。
[0029] 贯穿包括权利要求在内的本公开内容，"音频节目"的表达表示一个或更多个音频通道的集合以及可选地还表示相关联的元数据（例如，描述期望的空间音频表示的元数据、和/或PIM、和/或SSM、和/或LPSM、和/或节目边界元数据）。
[0030] 贯穿包括权利要求在内的本公开内容，"节目边界元数据"的表达表示编码音频比特流的元数据，其中编码音频比特流指示至少一个音频节目（例如，两个或更多个节目），并且节目边界元数据指示至少一个所述音频节目的至少一个边界（开始和/或结束）在比特流中的位置。例如，（指示音频节目的编码音频比特流的）节目边界元数据可以包括指示节目的开始的位置（例如，比特流的第"N"帧的开始，或比特流的第"N"帧的第"M"个样本位置）的元数据，以及指示节目的结束的位置（例如，比特流的第"J"帧的开始，或比特流的第"J"帧的第"K"个样本位置）的额外元数据。
[0031] 贯穿包括权利要求在内的本公开内容，术语"耦接"或"被耦接"用于表示直接或间接连接。从而，如果第一设备耦接至第二设备，该连接可以是通过直接连接，或经由其他设备和连接的通过间接连接。
【具体实施方式】
[0032] 典型的音频数据流包括音频内容（例如，音频内容的一个或更多个通道）和指示音频内容的至少一个特性的元数据两者。例如，在AC-3比特流中，存在具体意在用于改变被传送至收听环境的节目的声音的若干音频元数据参数。元数据参数中的一个为DIALN0RM 参数，其意在指示音频节目中的对白的平均电平，并且用于确定音频回放信号电平。
[0033] 在包括一系列不同的音频节目段（每个具有不同的DIALN0RM参数）的比特流的回放期间，AC-3解码器使用每个段的DIALN0RM参数执行一种类型的响度处理，在该响度处理中AC-3解码器修改回放电平或响度，使得该系列段的对白的感知的响度处于一致的电平。一系列编码音频项目中的每个编码音频段（项目）将（通常）具有不同的DIALN0RM 参数，并且解码器将对项目中的每个项目的电平进行缩放，使得每个项目的对白的回放电平或响度相同或非常相似，尽管这会要求在回放期间对项目中的不同的项目应用不同量的增益。
[0034] DIALN0RM通常由用户设置而不是自动生成的，然而如果用户没有设置值则存在默认的DIALN0RM值。例如，内容创建者可以使用AC-3编码器外部的装置进行响度测量，然后将该结果（指示音频节目的口语对白的响度）传送至编码器以设置DIALN0RM值。从而，依赖于内容创建者正确地设置DIALNORM参数。
[0035] 对于为什么AC-3比特流中的DIALNORM参数会是错误的，存在几个不同的原因。第一，如果DIALNORM值不是由内容创建者设置的，那么每个AC-3编码器具有在比特流的生成期间使用的默认的DIALNORM值。该默认值可能与音频的实际对白响度显著不同。第二，即使内容创建者测量响度并且相应地设置DIALNORM值，可能已经使用不符合推荐的AC-3响度测量方法的响度测量算法或计量器，产生不正确的DIALNORM值。第三，即使已经使用由内容创建者正确测量和设置的DIALNORM值创建了AC-3比特流，该AC-3比特流可能在比特流的传输和/或存储期间已经被改变成错误值。例如，这在使用错误的DIALNORM元数据信息解码、修改然后重新编码AC-3比特流的电视广播应用中并非是不常见的。从而，包括在 AC-3比特流中的DIALNORM值可能是错误的或不准确的，因此可能对收听体验的质量有消极的影响。
[0036] 此外，DIALNORM参数不指示相应的音频数据的响度处理状态（例如，已经对音频数据执行了什么类型的响度处理）。响度处理状态元数据（以其在本发明的一些实施方式中被提供的格式）有助于以尤其高效的方式便利于音频比特流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。
[0037] 尽管本发明不限于使用AC-3比特流、E-AC-3比特流或杜比E比特流，为了方便，将在生成、解码或以其他方式处理这样的比特流的实施方式中对其进行描述。
[0038] AC-3编码比特流包括元数据和音频内容的1至6个通道。音频内容是已经使用感知音频编码压缩的音频数据。元数据包括意在用于改变被传送至收听环境的节目的声音的若干音频元数据参数。
[0039]AC-3编码音频比特流的每帧包含关于数字音频的1536个样本的音频内容和元数据。对于48kHz的采样率，这表示32毫秒的数字音频或音频的每秒31. 25帧的速率。
[0040] 取决于帧是否分别包含1块、2块、3块或6块音频数据，E-AC-3编码音频比特流的每帧包含关于数字音频的256、512、768或1536个样本的音频数据和元数据。对于48kHz的采样率，这分别表示5. 333、10. 667、16或32毫秒的数字音频或分别表示音频的每秒189. 9、 93. 75、62. 5 或 31. 25 帧的速率。
[0041] 如图4所示，每个AC-3帧被划分成部分（段），包括：包含（如图5所示）同步字 (SW)和两个误差校正字中的第一个误差校正字（CRC1)的同步信息（SI)部分；包含大部分元数据的比特流信息（BSI)部分；包含数据压缩音频内容（以及还可以包括元数据）的6 个音频块（AB0至AB5);包含在压缩音频内容之后剩余的任意未使用的位的无用位段（W) (也称为"跳过字段"）；可以包含更多元数据的辅助（AUX)信息部分；以及两个误差校正字中的第二个误差校正字（CRC2)。
[0042] 如图7所示，每个E-AC-3帧被划分成部分（段），包括：包含（如图5所示）同步字（SW)的同步信息（SI)部分；包含大部分元数据的比特流信息（BSI)部分；包含数据压缩音频内容（以及还可以包括元数据）的6个音频块（AB0至AB5);包含在压缩音频内容之后剩余的任意未使用的位的无用位段（W)(也称为"跳过字段（尽管仅示出了一个无用位段，不同的无用位段或跳过字段段通常可以在每个音频块之后）；可以包含更多元数据的辅助（AUX)信息部分；以及误差校正字（CRC)。
[0043] 在AC_3(或E-AC-3)比特流中，存在具体意在用于改变被传送至收听环境的节目的声音的若干音频元数据参数。元数据参数中的一个为DIALNORM参数，该DIALNORM参数被包括在BS

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰弗里·里德米勒;迈克尔·沃德;
技术所有人：杜比实验室特许公司;
我是此专利的发明人