用于在子带域中能自由选择频移的设备、方法和计算机程序的制作方法

文档序号:8287965阅读:229来源:国知局
用于在子带域中能自由选择频移的设备、方法和计算机程序的制作方法
【技术领域】
[0001] 本发明关于音频信号处理,特别是关于用于在子带域中任意的频移的设备、方法 和计算机程序。
【背景技术】
[0002] 在由新媒体构成的社会中,计算机辅助的数据处理系统是日常生活的固定的组成 部分。一段时间以来已经几乎在每个家庭中都能找到用于消费新媒体的系统。对于这样的 以数字形式传输和播放数据的系统的示例是用于视频和音频数据的播放器,例如用于DVD 和蓝光、用于CD和mp3文件格式的播放器。这些播放系统的特征在于媒体内容的近似无损 耗的再现。除了传统的电信以外,互联网是用于例如借助于VoIP进行通信的重要门户。所 提到的技术全都通过底层的数字信号处理来联系。所述底层的信号处理对于数字技术的效 率和播放质量而目是重要的。
[0003] 在此,音频信号处理变得越来越重要。现在,在市场上存在大量音频编码器,例如 通过用于数字地准备音频资料以存储或传输的算法来实现。每个编码方法的目的是,压缩 信号的信息内容,使得需要最小的存储空间并且同时保持最大可能的再现质量。现代的音 频编码器的效率主要取决于所需要的存储空间和此外取决于算法的所需要的计算耗费。
[0004] 数字的音频编码器原则上是用于将音频信号转换为适合用于存储或传输的格式 的工具。这在音频编码器(Encoder)的发射器端发生。然后,这样产生的数据再在接收 器(Decoder解码器)中转换回其初始的形式并且在理想情况下除了恒定的延时(英语 : Delay)以外对应于原始数据。音频编码器的普遍的目的是在最大化所接收到的播放质量的 同时最小化用于表示音频信号所需的数据量。因此,在研发音频编码器时,必须注意一系列 因素如播放保真度、数据速率和复杂性。除此以外,通过对信号进行处理而添加的延时(所 添加的延时)也具有重要意义(Bosi和Goldberg,2003)。
[0005] 尤其在音频编码开始时,方法的效率具有重要意义,因为仅非常受限制地提供存 储器和计算性能。现今这种需求似乎不再那么重要。甚至家用PC或笔记本也能够不费力 地实时计算耗费的算法,并且宽带互联网连接提供用于传输经编码的音频材料的足够的带 宽。尽管如此,继续研发音频编码方法是具有特殊意义的。在移动通信和卫星传输的领域 中,带宽是严重受限制的。重要的是减少要传输的数据量。此外,在这些领域中所应用的编 码技术的效率是非常重要的。必须简单地结构化基本的算法,以便最小化计算性能和耗电。
[0006] 另一方面是再现的编码的音频信号的质量。许多音频编码器减少关于再现不相干 的数据量。在此,根据数据速率丢失信号部分。因此,在数据速率低时,播放的音频信号的 质量降低。
[0007] 普遍地能够在两种类型的音频编码之间进行区分:无损的和有损的音频编码。无 损的音频编码能够在接收器端实现初始信号的精确的重构。而有损的方法经由主观感知的 模型造成相对于原始信号的不可逆的变化(Zoelzer,2005)。
[0008] 无损的音频编码基于减少包含在要编码的信号中的冗余。对此常见的方法例如是 与随后的熵编码相关联的线性预测(Linear Predictive Coding, LPC线性预测编码)。这 样的音频编码方法能够实现从已编码的比特流中将输入信号精确到比特地重构。
[0009] 线性预测利用信号的连续的取样值(英语Samples样本)之间的统计学上的相关 性,以便能够预测未来的值。这基于的事实是,连续的样本比远离的样本更相似。预测通过 线性预测滤波器实现,其通过一系列之前的样本来预估当前的取样值。然而,不再处理所述 预估自身,而是继续处理在这个值和在该处的实际的取样值之间的差。线性预测的目的是, 将所述误差信号的能量通过优化的滤波器最小化并且传输仅需要小的带宽的所述误差信 号(Weizierl,2008)。
[0010] 紧接着,对误差信号进行熵编码。熵是用于信号的平均的信息内容的量度并且说 明用于编码所需的比特的理论最小值。对此的典型的方法是哈夫曼编码。在此,各个取样 值根据其统计学的出现概率被分配特定的码字。频繁出现的取样值被分派短的符号并且偶 尔出现的信号值通过长的码字表示。平均来说,经编码的信号因此通过最小可能的比特数 来表不(Bosi 和 Goldberg,2003)。
[0011] 线性预测和熵编码都是可逆的进而不从信号中删除任何信息。通过两种方法的组 合仅将冗余从要编码的信息中删除。因为,这样的无损耗的解决途径很大程度与信号特性 相关,所以编码增益是相对小的。所得到的压缩率,即输入比特率和已编码的信号的比特率 的比在 1. 5:1 至 3:1 的范围中(Weinzierl,2008)。
[0012] 有损的音频编码基于减少无关性的原理。所述方法需要人类感知的模型,所述模 型描述听觉关于时间和频率分辨率的心理声学的现象。因此,有损的音频编码也称作感知 匹配的或心理声学的编码。在音频编码的领域中,所有的不能由人感知到的进而不能听见 的信号部分被称作为不相干的(Zoelzer,2005)。为了更准确地理解感知匹配的音频编码器 的工作模式,关于心理声学的基础知识是有重要意义的。
[0013] 人的听觉通过分解为频率组来分析声音事件。所述频率组以巴克标度 (Bark-Skala)表示并且在英语文献中称作Critical Bands (临界频带)。在此,所述频率 组中的每个频率组概括为通过听觉共同评估的频域。在此,频域对应于基底膜上的局部的 范围。总的来说,24个临界频带与基底膜相关联,其带宽随着频率的提高而增加(Fasti和 Zwicker,2007)。有损的音频编码器采用这种频率组的模型,以便将宽带的信号分解为子带 并且单独地对每个带进行编码(Zoelzer,2005)。多次对该模型进行匹配并且代替巴克标度 使用具有多于24个带的线性频分。
[0014] 听觉感知的另一重要特征是相同的声压级的声音的频率相关的音量感受。由此 得出两个听觉特性。一方面,不同频率的然而具有相同声压级的声音感受为不同音量的, 另一方面存在频率相关的阈值,自所述阈值起声音还仍能够被感知到(Fasti和Zwicker, 2007)。所述阈值也称作为绝对听觉阈值或安静听觉阈值并且在图22中示出。对于音频编 码能够由此得出两个结论。不需要再处理信号水平低于绝对听觉阈值的信号,因为其本来 就不会被感知到。除此以外,每个频带的所需要的量化级的数量能够由安静听觉阈值和信 号水平之间的间距来一起确定(Zoelzer,2005)。
[0015] 遮盖和掩蔽效应对音频编码具有最大影响。在此,在时域掩蔽和频率相关的掩蔽 之间能够进行区分。在这两种情况下,声音事件被称作掩蔽器(Maskierer),通过该声音事 件另一声音事件被遮盖。因此,被掩蔽的事件是不可听见的。在时域掩蔽的情况下,事件在 掩蔽件之前或之后被遮盖。预遮盖(英语Premasking)与掩蔽件的持续时间无关并且声音 事件在感受到掩蔽件自身50ms之内,遮盖声音事件(Yost,1994)。相反地,后遮盖(英语 Postmasking)与掩蔽件的持续时间相关。在此声音事件在掩蔽件沉寂之后被遮盖。根据掩 蔽件的持续时间,能够经过200ms,直至听觉对在安静听觉阈值的范围中的信号能够再次接 收到(Fasti 和 Zwicker,2007)。
[0016] 图21示出时域掩蔽的示意图。特别地,图21示意地示出预掩蔽和后掩蔽的区域并 且分别示出在哪个区域下信号被遮盖的水平。时间上的遮盖能够在音频编码中使用,以便 掩盖由编码过程产生的干扰噪声例如在具有高水平的信号序列之前的量化噪声(瞬态)。
[0017] 在频域中的掩蔽效应比时间上的遮盖效应重要很多。频率相关的掩蔽描 述安静听觉阈值对于单音和窄带噪声的变化。所述信号通过其特定的监听阈值 (Mithdrschwelle )使安静听觉阈值明显地失真。水平小于掩蔽件的监听阈值且位于 所述阈值的有效范围中的信号不能够被感知到(Fasti和z wicker,2007)。该相关性在图 22中清楚示出。
[0018] 图22示出人类听觉的频率相关的掩蔽的示意图。如能看到的,经掩蔽的声音低于 掩蔽件的监听阈值进而是不可听到的。该效应在有损的音频编码方法中充分利用。低于频 率相关的监听阈值的信号部分被从信号中删除并且不进行进一步
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1