使用节目信息或子流结构元数据的音频编码器和解码器的制造方法_2

文档序号：9278245阅读：来源：国知局

I段中。
[0044] 如图6所示，AC-3帧的BSI段包括指示节目的DIALNORM值的5位参数 ("DIALNORM"）。如果AC-3帧的音频编码模式（"acmod"）为0,则包括指示在同一AC-3 帧中携带的第二音频节目的5位参数DIALNORM值的5位参数（"DIALN0RM2"），指示使用双单通道或"1+1"通道配置。
[0045]BSI段还包括指示在"addbsie"位之后额外的比特流信息的存在（或不存在）的标志（"addbsie"）、指示在"addbsil"值之后任何额外的比特流信息的长度的参数 ("addbsil"）、以及在"addbsil"值之后高达64位的额外的比特流信息（"addbsi"）。
[0046]BSI段包括在图6中没有具体示出的其他元数据值。
[0047]根据一类实施方式，编码比特流指示音频内容的多个子流。在一些情况下，子流指示多通道节目的音频内容，并且子流中的每个指示节目的通道中的一个或更多个。在其他情况下，编码音频比特流的多个子流指示若干音频节目一一通常为"主"音频节目（可以是多通道节目）和至少一个其他音频节目（例如，为关于主音频节目的评论的节目）一一的音频内容。
[0048]指示至少一个音频节目的编码音频比特流需要包括音频内容的至少一个"独立" 子流。独立子流指示音频节目的至少一个通道（例如，独立子流可以指示常规的5.1通道音频节目的5个全音域通道）。在本文中，该音频节目称为"主"节目。
[0049]在一些类型的实施方式中，编码音频比特流指示两个或更多个音频节目（"主"节目和至少一个其他音频节目）。在这样的情况下，比特流包括两个或更多个独立子流：指示主节目的至少一个通道的第一独立子流；以及指示另一音频节目（与主节目不同的节目）的至少一个通道的至少一个其他独立子流。每个独立子流可以独立地被解码，并且解码器可以操作以仅对编码比特流的独立子流的子集（不是全部）进行解码。
[0050] 在指示两个独立子流的编码音频比特流的典型示例中，独立子流中的一个指示多通道主节目的标准格式扬声器通道（例如，5. 1通道主节目的左、右、中、左环绕、右环绕全音域扬声器通道），而另一独立子流指示关于主节目的单通道音频评论（例如，导演关于电影的评论，其中主节目是电影的声带（soundtrack))。在指示多个独立子流的编码音频比特流的另一示例中，独立子流中的一个指示包括第一语言的对白的多通道主节目（例如， 5. 1通道主节目）的标准格式扬声器通道（例如，主节目的扬声器通道中的一个可以指示对白），而每个其他独立子流指示对白的单通道翻译（翻译成不同的语言）。
[0051] 可选地，指示主节目（可选地还指示至少一个其他音频节目）的编码音频比特流包括音频内容的至少一个"从属"子流。每个从属子流与比特流的一个独立子流相关联，并且指示其内容由相关联的独立子流指示的节目（例如，主节目）的至少一个额外的通道 (即，从属子流指示节目的不是由相关联的独立子流指示的至少一个通道，而相关联的独立子流指示节目的至少一个通道）。
[0052] 在包括独立子流（指示主节目的至少一个通道）的编码比特流的示例中，比特流还包括指示主节目的一个或更多个额外的扬声器通道的（与独立子流相关联的）从属子流。这样的额外的扬声器通道对由独立子流指示的主节目通道来说是额外的。例如，如果独立子流指示7. 1通道主节目的左、右、中、左环绕、右环绕全音域扬声器通道，那么从属子流可以指示主节目的其他两个全音域扬声器通道。
[0053] 根据E-AC-3标准，E-AC-3比特流必须指示至少一个独立子流（例如，单个AC-3比特流），并且可以指示高达8个独立子流。E-AC-3比特流的每个独立子流可以与高达8个从属子流相关联。
[0054]E-AC-3比特流包括指示比特流的子流结构的元数据。例如，E-AC-3比特流的比特流信息（BSI)部分中的"chanmap"字段确定由比特流的从属子流指示的节目通道的通道映射。然而，指示子流结构的元数据常规地以如下格式包括在E-AC-3比特流中：该格式使得便于仅由E-AC-3解码器访问和使用（在编码E-AC-3比特流的解码期间）；不便于在解码之后（例如，由后处理器）或解码之前（例如，由被配置成识别元数据的处理器）访问和使用。而且，存在以下风险：解码器可能使用常规地包括的元数据错误地识别常规的E-AC-3 编码比特流的子流，并且在本发明之前还不知道如何以这样的格式在编码比特流（例如，编码E-AC-3比特流）中包括子流结构元数据，使得允许在比特流的解码期间方便和高效的检测和校正子流识别中的误差。
[0055]E-AC-3比特流还可以包括关于音频节目的音频内容的元数据。例如，指示音频节目的E-AC-3比特流包括指示已经使用谱扩展处理（以及通道耦合编码）以对节目的内容进行编码的最小频率和最大频率的元数据。然而，这样的元数据通常以如下格式包括在 E-AC-3比特流中，该格式使得便于仅由E-AC-3解码器访问和使用（在编码E-AC-3比特流的解码期间）；不便于在解码之后（例如，由后处理器）或解码之前（例如，由被配置成识别元数据的处理器）访问和使用。而且，这样的元数据不以如下的格式包括在E-AC-3比特流中，该格式允许在比特流的解码期间这样的元数据的识别的方便和高效的误差检测和误差校正。
[0056] 根据本发明的典型的实施方式，PM和/或SSM(以及可选地还有其他元数据，例如，响度处理状态元数据或"LPSM"）被嵌入在音频比特流的元数据段的一个或更多个保留字段（或槽（slot))中，该音频比特流还包括其他段（音频数据段）中的音频数据。通常，比特流的每个帧的至少一个段包括PM或SSM，并且帧的至少一个其他段包括相应的音频数据（即，其数据结构由SSM指示的和/或其至少一个特性或属性由PIM指示的音频数据）。
[0057] 在一类实施方式中，每个元数据段为可以包含一个或更多个元数据有效载荷的数据结构（在本文中有时称为容器）。每个有效载荷包括报头以提供存在于有效载荷中的元数据的类型的明确的指示，其中报头包括具体的有效载荷标识符（或有效载荷配置数据）。有效载荷在容器内的顺序未被定义，使得有效载荷可以以任何顺序存储并且分析器必须能够对整个容器进行分析以提取相关的有效载荷而忽略不相关的或不支持的有效载荷。图 8 (下面将要描述的）说明这样的容器和容器内的有效载荷的结构。
[0058] 当两个或更多个音频处理单元需要贯穿该处理链（或内容生命周期）彼此合作工作时，音频数据处理链中的通信元数据（例如，SSM和/或PIM和/或LPSM)尤其有用。在音频比特流中不包括元数据的情况下，例如，当在链中利用两个或更多个音频编解码器并且在媒体消耗装置的比特流路径（或比特流的音频内容的渲染点）期间多于一次地应用单端音量时，可以出现若干媒体处理问题，例如质量、电平和空间退化。
[0059] 根据本发明的一些实施方式，嵌入在音频比特流中的响度处理状态元数据（LPSM) 可以被认证和验证，例如以使得响度调整实体能够证明特定节目的响度是否已经在指定的范围内以及相应的音频数据本身是否未被修改（由此确保符合可适用的调节）。包括在包括响度处理状态元数据的数据块中的响度值可以被读出以对此进行验证，而不再次计算响度。响应于LPSM，管理结构可以确定相应的音频内容符合（如由LPSM指示的）响度法定的和/或管理的要求（例如，在商业广告响度缓解法下公布的规则，也称为"CALM"法）而不需要计算音频内容的响度。
[0060] 图1为示例性音频处理链（音频数据处理系统）的框图，在音频处理链中，系统的元件中的一个或更多个可以根据本发明的实施方式被配置。系统包括如所示耦接在一起的以下元件：预处理单元、编码器、信号分析和元数据校正单元、代码转换器、解码器和预处理单元。在所示的系统的变型中，省略元件中的一个或更多个，或包括额外的音频数据处理单 J1_1〇
[0061] 在一些实现中，图1的预处理单元被配置成接收包括音频内容的PCM(时域）样本作为输入，并且输出经处理PCM样本。编码器可以被配置成接收PCM样本作为输入，并且输出指示音频内容的编码的（例如，压缩的）音频比特流。指示音频内容的比特流的数据在本文中有时被称为"音频数据"。如果编码器根据本发明的典型实施方式被配置，那么从编码器输出的音频比特流包括PM和/或SSM(可选地还包括响度处理状态元数据和/或其他元数据）以及音频数据。
[0062]图1的信号分析和元数据校正单元可以接收一个或更多个编码音频比特流作为输入，并且通过执行信号分析（例如，使用编码音频比特流中的节目边界元数据）来确定 (例如，验证）每个编码音频比特流中的元数据（例如，处理状态元数据）是否正确。如果信号分析和元数据校正单元发现所包括的元数据是无效的，那么通常使用从信号分析中获得的正确值替代错误值。从而，从信号分析和元数据校正单元输出的每个编码音频比特流可以包括校正的（或未校正的）处理状态元数据以及编码音频数据。
[0063]图1的代码转换器可以接收编码音频比特流作为输入，并且作为响应（例如，通过对输入流进行解码并且以不同的编码格式对解码流进行重新编码）输出修改的（例如，不同编码的）音频比特流。如果代码转换器根据本发明的典型的实施方式被配置，那么从代码转换器输出的音频比特流包括SSM和/或PM(通常还包括其他元数据）以及编码音频数据。元数据可以已经被包括在输入比特流中。
[0064]图1的解码器可以接收编码的（例如，压缩的）音频比特流作为输入，并且输出 (作为响应）解码PCM音频样本流。如果解码器根据本发明的典型的实施方式被配置，那么在典型的操作中，解码器的输出是或包括下列中的任一个：
[0065] 音频样本流，以及从输入的编码比特流中提取的SSM和/或PM(通常还有其他元数据）的至少一个相应的流；或
[0066] 音频样本流，以及根据从输入编码比特流中提取的SSM和/或PM(通常还有其他元数据，例如LPSM)所确定的控制位的相应的流；或
[0067] 音频样本流，但没有元数据或根据元数据确定的控制位的相应的流。在最后一种情下，解码器可以从输入编码比特流中提取元数据，并且对所提取的元数据执行至少一种操作（例如，验证），即使没有输出所提取的元数据或根据元数据确定的控制位。
[0068] 通过根据本发明的典型的实施方式配置图1的后处理单元，后处理单元被配置成接收解码的PCM音频样本流，并且使用与样本一起接收的SSM和/或PM(通常还有其他元数据，例如LPSM)，或根据与样本一起接收的元数据确定的控制位对其执行后处理（例如，音频内容的音量校平）。后处理单元还通常被配置成对经后处理音频内容进行渲染用于由一个或更多个扬声器回放。
[0069]本发明的典型的实施方式提供增强的音频处理链，其中音频处理单元（例如，编码器、解码器、代码转换器以及预处理单元和后处理单元）根据由通过音频处理单元分别接收的元数据所指示的媒体数据的同时期的状态来修改待应用于音频数据的其相应的处理。
[0070] 输入到图1系统的任何音频处理单元（例如，图1的编码器或代码转换器）的音频数据可以包括SSM和/或PIM(可选地还包括其他元数据）以及音频数据（例如，编码音频数据）。该元数据可以根据本发明的实施方式已经通过图1系统的另一元件（或另一源，在图1中未示出）而被包括在输入音频中。接收输入音频（具有元数据）的处理单元可以被配置成对元数据执行至少一种操作（例如，验证），或响应于元数据（例如，输入音频的自适应处理），并且还通常将元数据、元数据的经处理的版本、或根据元数据确定的控制位包括在其输出音频中。
[0071] 本发明的音频处理单元（或音频处理器）的典型的实施方式被配置成基于由对应于音频数据的元数据所指示的音频数据的状态来执行音频数据的自适应处理。在一些实施方式中，自适应处理是（或包括）响度处理（如果元数据指示还未对音频数据执行响度处理或与响度处理类似的处理），而不是（且不包括）响度处理（如果元数据指示已经对音频数据执行了这样的响度处理或与响度处理类似的处理）。在一些实施方式中，自适应处理是或包括（例如，在元数据验证子单元中执行的）元数据验证以确保音频处理单元基于由元数据所指示的音频数据的状态来执行音频数据的其他自适应处理。在一些实施方式中，该验证确定与音频数据相关联（例如，包括在具有音频数据的比特流中）的元数据的可靠性。例如，如果验证元数据是可靠的，那么来自一种先前执行的音频处理的结果可以被重新使用并且可以避免新执行相同类型的音频处理。另一方面，如果发现元数据已经被篡改 (或以其他方式不可靠），那么据称先前执行的一种类型的媒体处理（如由不可靠的元数据指示的）可以由音频处理单元重复，和/或可以由音频处理单元对元数据和/或音频数据执行其他处理。如果该单元确定元数据是有效的（例如，基于所提取的加密值与参考加密值的匹配），音频处理单元还可以被配置成用信号向增强的媒体处理链下游的其他音频处理单元通知元数据（例如，存在于媒体比特流中）是有效的。
[0072] 图2是作为本发明的音频处理单元的实施方式的编码器（100)的框图。编码器 100的任何部件或元件可以以硬件或软件或硬件与软件的组合被实现为一个或更多个处理和/或一个或更多个电路（例如，ASIC、FPGA或其他集成电路）。编码器100包括如所示地连接的帧缓冲器110、分析器111、解码器101、音频状态验证器102、响度处理级103、音频流选择级104、编码器105、填充器/格式器级107、元数据生成级106、对白响度测量子系统 108以及帧缓冲器109。编码器100通常还包括其他处理元件（未示出）。
[0073] 编码器100(为代码转换器）被配置成包括通过使用包括在输入比特流中的响度处理状态元数据执行自适应和自动的响度处理来将输入音频比特流（例如，可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的一个）转换成编码输出音频比特流（例如，可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的另一个）。例如，编码器100可以被配置成将（通常用在生产和广播设备中，但不用在接收已经被广播的音频节目的消费者设备中的格式的）输入杜比E比特流转换成AC-3或E-AC-3格式的（适合于广播至消费者设备的）编码输出音频比特流。
[0074] 图2的系统还包括编码音频传送子系统150 (其存储和/或传送从编码器100输出的编码比特流）和解码器152。从编码器100输出的编码音频比特流可以由子系统150(例如，以DVD或蓝光光盘格式）存储，或由子系统150 (可以实现传输线路或网络）传输，或可以由子系统150存储和传输。解码器152被配置成包括通过从比特流的每个帧中提取元数据（PIM和/或SSM、以及可选地还有响度处理状态元数据和/或其他元数据）（以及可选地还从比特流中提取节目边界元数据）以及生成解码音频数据，对经由子系统150接收的 (由编码器100生成的）编码音频比特流进行解码。通常，解码器152被配置成使用PIM和 /或SSM和/或LPSM(可选地还使用节目边界元数据）对解码音频数据执行自适应处理，和 /或将解码音频数据和元数据转发至被配置成使用元数据对解码音频数据执行自适应处理的后处理器。通常，解码器152包括存储（例如，以非暂态方式）从子系统150中接收的编码音频比特流的缓冲器。
[0075] 编码器100和解码器152的各种实现被配置成执行本发明的方法的不同的实施方式。
[0076] 帧缓冲器110是耦接以接收编码输入音频比特流的缓冲存储器。在操作中，缓冲器110存储（例如，以非暂态方式）编码音频比特流的至少一个帧，并且编码音频比特流的帧的序列被从缓冲器110设定到分析器111。
[0077] 将分析器111耦接并配置成从包括这样的元数据的编码输入音频的每个帧中提取PM和/或SSM、以及响度处理状态元数据（LPSM)、以及可选地还有节目边界元数据（和 /或其他元数据），至少将LPSM(以及可选地还有节目边界元数据和/或其他元数据）设定到音频状态验证器102、响度处理级103、级106和子系统108,以从编码输入音频中提取音频数据并且将音频数据设定到解码器101。编码器100的解码器101被配置成对音频数据进行解码以生成解码音频数据，并且将解码音频数据设定到响度处理级103、音频流选择级 104、子系统108以及通常还设定到状态验证器102。
[0078] 状态验证器102被配置成对设定到其的LPSM(可选地其他元数据）进行认证和验证。在一些实施方式中，LPSM是（或包括在）数据块（中），数据块已经包括在输入比特流中（例如，根据本发明的实施方式）。块可以包括加密散列（基于散列的消息认证代码或 "HMAC"）用于对LPSM(可选地还有其他元数据）和/或（从解码器101提供至验证器102 的）基本的音频数据进行处理。在这些实施方式中，数据块可以被数字地标记，使得下游的音频处理单元可以相对容易地认证和验证处理状态元数据。
[

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6