利用节目响度和边界元数据的音频编码器和解码器的制造方法_4

文档序号：8417610阅读：来源：国知局

[0101] 输入到图1的系统的任意音频处理单元（如，图1的编码器或转码器）的音频数据可以包括响度处理状态元数据（还可选地包括其他元数据）以及音频数据（如，编码音频数据）。根据本发明的实施例，该元数据可以已经通过图1的系统的另一元件（或者图 1中未示出的另一源）被包括在输入音频中。接收（具有元数据的）输入音频的处理单元可以被配置成对元数据执行至少一个操作（如，验证）或者响应于元数据执行至少一个操作（如，对输入音频的自适应处理），并且通常还被配置成在其输出音频中包括元数据、元数据的已处理版本或者根据元数据确定的控制比特。
[0102] 本发明的音频处理单元（或音频处理器）的典型实施例被配置成基于由与音频数据对应的响度处理状态元数据指示的音频数据的状态来执行对音频数据的自适应处理。在一些实施例中，自适应处理是（或者包括）响度处理（如果元数据指示还没有对音频数据执行响度处理或者与其类似的处理），并且不是（或者不包括）响度处理（如果元数据指示已经对音频数据执行了这样的响度处理或者与其类似的处理）。在一些实施例中，自适应处理是或者包括元数据验证（如，在元数据验证子单元中执行的元数据验证），以确保音频处理单元基于由响度处理状态元数据指示的音频数据的状态来执行对音频数据的其他自适应处理。在一些实施例中，验证判定与该音频数据相关联（如，包括在具有该音频数据的比特流中）的响度处理状态元数据的可靠性。例如，如果元数据被验证为可靠，则可以重复使用来自某种类型的事先执行的音频处理的结果，并且可以避免同一类型的音频处理的新的执行。另一方面，如果发现元数据已经被篡改（或者不可靠），则可以由音频处理单元来重复据称事先被执行的这种类型的媒体处理（如不可靠的元数据指示的那样），和/或可以由音频处理单元对元数据和/或音频数据执行其他处理。音频处理单元还可以被配置成如果音频处理单元判定处理状态元数据有效（如，基于所提取的密码值与参考密码值的匹配），则向增强型媒体处理链中的下游的其他音频处理单元示意响度处理状态元数据（如，存在于媒体比特流中的响度处理状态元数据）是有效的。
[0103] 图2是作为本发明的音频处理单元的实施例的编码器（100)的框图。编码器100 的任意部件或元件都可以用硬件、软件或硬件与软件的组合实现为一个或更多个处理和/ 或一个或更多个电路（如，ASIC、FPGA或其他集成电路）。编码器100包括如所示地连接的帧缓冲器110、解析器111、解码器101、音频状态验证器102、响度处理级103、音频流选择级 104、编码器105、填充器/格式器级107、元数据生成级106、会话响度测量子系统108和帧缓冲器109。通常，编码器100还包括其他处理元件（未示出）。
[0104] 编码器100 (作为转码器）被配置成通过使用输入比特流中所包括的响度处理状态元数据执行自适应和自动响度处理，来将输入音频比特流（例如，可以是AC-3比特流、 E-AC-3比特流或杜比E比特流中的一种）转换成包括响度处理状态元数据的编码输出音频比特流（例如，可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的另一种）。例如，编码器100可以被配置成将输入的杜比E比特流（通常用在制作和广播设施而非接收已经向其广播的音频节目的消费者装置中的格式）转换成AC-3或E-AC-3格式的编码输出音频比特流（适于广播给用户装置）。
[0105] 图2的系统还包括编码音频递送子系统150 (其存储和/或递送从编码器100输出的编码比特流）和解码器152。从编码器100输出的编码音频比特流可以由子系统150 来存储（如，以DVD或蓝光光盘的形式）、或者由子系统150来发送（其可以实现发送链路或网络）、或者可以由子系统150来存储和发送。解码器152被配置成通过从比特流的每个帧中提取响度处理状态元数据（LPSM)(并且可选地还从比特流中提取节目边界元数据）、以及生成解码音频数据，来对其通过子系统150接收的（由编码器100生成的）包括响度处理状态元数据的编码音频比特流进行解码。通常，解码器152被配置成使用LPSM(并且可选地还使用节目边界元数据）对解码音频数据执行自适应响度处理，和/或将解码音频数据和LPSM转发给后处理器，后处理器被配置成使用LPSM (并且可选地还使用节目边界元数据）对解码音频数据执行自适应响度处理。通常，解码器152包括用于（如，以非暂时性方式）存储从子系统150接收的编码音频比特流的缓冲器。
[0106] 编码器100和解码器152的各种实现可以被配置成执行本发明的方法的不同的实施例。
[0107] 帧缓冲器110是被耦接成接收编码输入音频比特流的缓冲存储器。在操作中，缓冲器110 (如，以非暂时性方式）存储编码音频比特流的至少一个帧，并且，编码音频比特流的帧的序列被从缓冲器Iio向解析器111传送（assert)。
[0108] 解析器111被耦接和配置来从这样的元数据被包括在其中的编码输入音频的每个帧中提取响度处理状态元数据（LPSM)，并且可选地还从这样的元数据被包括在其中的编码输入音频的每个帧中提取节目边界元数据（和/或其他元数据），以向音频状态验证器 102、响度处理级103、级106和子系统108传送至少LPSM (以及可选地还传送节目边界元数据和/或其他元数据），以从编码输入音频中提取音频数据，以及以向解码器101传送音频数据。编码器100的解码器101被配置成对音频数据进行解码以生成解码音频数据，以及向响度处理级103、音频流选择级104、子系统108以及通常也向状态验证器102传送解码音频数据。
[0109] 状态验证器102被配置成对向其传送的LPSM(通常还有其他元数据）进行认证和验证。在一些实施例中，LPSM是已经被包括在（如，根据本发明的实施例的）输入比特流中的数据块（或者被包括在已经被包括在输入比特流中的数据块中）。该块可以包括用于处理LPSM(以及可选地还有其他元数据）和/或潜在的（从解码器101提供给验证器102 的）音频数据的加密散列（基于散列的消息认证代码或"HMAC"）。该数据块在这些实施例中可以以数字形式标记，使得下游音频处理单元可以相对容易地认证和验证处理状态元数据。
[0110] 例如，使用HMAC来生成摘要（digest)，并且，包括在本发明的比特流中的保护值可以包括摘要。可以如下针对AC-3帧生成摘要：
[0111] 1.在AC-3数据和LPSM被编码之后，使用帧数据字节（级联的frame_data#l和 frame_data#2)和LPSM数据字节作为用于散列函数HMAC的输入。在计算摘要时不考虑可能存在于auxdata域中的其他数据。这样的其他数据可以是既不属于AC-3数据也不属于 LSPSM数据的字节。可以在计算HMAC摘要时不考虑LPSM中所包括的保护比特。
[0112] 2.在计算摘要之后，将其写入被保留用于保护比特的域中的比特流中。
[0113] 3.完整的AC-3帧的生成的最后的步骤是计算CRC校验。其被写在帧的最末端，并且，将属于该帧的所有的数据都考虑在内，包括LPSM比特。
[0114] 可以将包括但不限于一种或更多种非HMAC加密方法中的任一种的其他加密算法用于LPSM的验证（如，在验证器102中），以确保对于LPSM和/或潜在的音频数据的安全的发送和接收。例如，可以在接收本发明的音频比特流的实施例的每个音频处理单元中执行验证（使用这样的加密方法的验证），以判定包括在比特流中的响度处理状态元数据和相应的音频数据是否已经经历了（由元数据指示的）特定的响度处理（和/或是否已经从特定的响度处理得到）以及是否在这样的特定的响度处理执行之后尚未被修改。
[0115] 状态验证器102向音频流选择级104、元数据生成器106和会话响度测量子系统 108传送控制数据，以指示验证操作的结果。响应于控制数据，级104可以选择以下中的任一项（并且将其传送给编码器105):
[0116] 响度处理级103的经自适应处理的输出（如，当LPSM指示从解码器101输出的音频数据尚未经历特定类型的响度处理，并且来自验证器102的控制比特指示LPSM有效时）；或者
[0117] 从解码器101输出的音频数据（如，当LPSM指示从解码器101输出的音频数据已经经历了可以由级103来执行的特定类型的响度处理，并且来自验证器102的控制比特指示LPSM有效时）。
[0118] 编码器100的级103被配置成基于由解码器101提取的LPSM所指示的一个或更多个音频数据特性，对从解码器101输出的解码音频数据执行自适应响度处理。级103可以是自适应变换域实时响度和动态范围控制处理器。级103可以接收用户输入（如，用户目标响度/动态范围值或dialnorm值）、或者其他元数据输入（如，一种或多种类型的第三方数据、乐曲信息、标识符、专有权或标准信息、用户注解数据、用户偏好数据等）和/或其他输入（如，来自指纹处理的其他输入），并且使用这样的输入来对从解码器101输出的解码音频数据进行处理。级103可以对指示单个音频节目（如解析器111所提取的节目边界元数据所指示的单个音频节目）的解码音频数据（从解码器101输出）执行自适应响度处理，并且可以响应于接收到指示解析器111所提取的节目边界元数据所指示的不同的音频节目的解码音频数据（从解码器101输出）来重置响度处理。
[0119] 当来自验证器102的控制比特指示LPSM无效时，会话响度测量子系统108可以操作以使用如由解码器101提取的LPSM(和/或其他元数据）来确定指示会话（或其他语音）的解码音频（来自解码器101)的分段的响度。当来自验证器102的控制比特指示LPSM有效时当LPSM指示之前确定的解码音频（来自解码器101)的会话（或其他语音）分段的响度时，可以禁止会话响度测量子系统108的操作。子系统108可以对指示单个音频节目（如解析器111所提取的节目边界元数据所指示的单个音频节目）的解码音频数据执行响度测量，并且可以响应于接收到指示这样的节目边界元数据所指示的不同的音频节目的解码音频数据来重置测量。
[0120] 存在有用的工具（如，杜比LM100响度仪表），用于方便且容易地测量音频内容中的会话的电平。本发明的APU (如，编码器100的级108)的一些实施例被实现为包括这样的工具（或执行这样的工具的功能）以测量音频比特流的音频内容的平均会话响度（如，从编码器100的解码器101向级108传送的解码AC-3比特流）。
[0121] 如果级108被实现为测量音频数据的真实的平均会话响度，则测量可以包括步骤：隔离音频内容的主要包含语音的分段。接着，根据响度测量算法对主要为语音的音频分段进行处理。对于从AC-3比特流解码的音频数据，该算法可以是标准的K加权的响度测量 (根据国际标准ITU-R BS. 1770)。可替选地，可以使用其他响度测量（如，基于响度的心理声学模型的响度测量）。
[0122] 语音分段的隔离对于测量音频数据的平均会话响度而言并不是至关重要的。然而，从倾听者的角度来说，其提高了测量的精度并且通常提供更令人满意的结果。由于并非所有的音频内容都包含会话（语音），所以整个音频内容的响度测量可以提供对音频的会话电平的充分的近似，如果语音出现的话。
[0123] 元数据生成器106生成（和/或向级107传递）要被级107包括在编码比特流中以从编码器100输出的元数据。元数据生成器106可以将由解码器101和/或解析器111 提取的LPSM(以及可选地还有节目边界元数据和/或其他元数据）传递给级107 (如，当来自验证器102的控制比特指示LPSM和/或其他元数据有效时），或者生成新的LPSM (以及可选地还生成节目边界元数据和/或其他元数据）并且向级107传送新的元数据（如，当来自验证器102的控制比特指示由解码器101提取的LPSM和/或其他元数据无效时），或者其可以向级107传送由解码器101和/或解析器111提取的元数据与新生成的元数据的组合。元数据生成器106可以在其向级107传送的LPSM中包括由子系统108生成的响度数据以及表示由子系统108执行的响度处理的类型的至少一个值，以包括在要从编码器 100输出的编码比特流中。
[0124] 元数据生成器106可以生成保护比特（其可以包括基于散列的消息认证代码或 "HMAC"或者由基于散列的消息认证代码或"HMAC"构成），保护比特对于要被包括在编码比特流中的LPSM(可选地还有其他元数据）和/或要被包括在编码比特流中的潜在的音频数据的解密、认证或验证中的至少一个而言是很有用的。元数据生成器106可以向级107提供这样的保护比特，以包括在编码比特流中。
[0125] 在典型的操作中，会话响度测量子系统108对从解码器101输出的音频数据进行处理以响应于其生成响度值（如，选通和未选通会话响度值）以及动态范围值。响应于这些值，元数据生成器106可以生成响度处理状态元数据（LPSM)，以（由填充器/格式器107) 包括在要从编码器100输出的编码比特流中。
[0126] 附加地，可选地，或者可替选地，编码器100的子系统106和/或108可以执行对音频数据的附加分析以生成表示音频数据的至少一个特性的元数据，以包括在要从级107 输出的编码比特流中。
[0127] 编码器105对从选择级104输出的音频数据进行编码（如，通过对其执行压缩），并且向级107传送编码音频，以包括在要从级107输出的编码比特流中。
[0128] 级107对来自编码器105的编码

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6