在用于谐波和基调分析的音频频谱中选择音调分量的制作方法

文档序号:2830459阅读:801来源:国知局
专利名称:在用于谐波和基调分析的音频频谱中选择音调分量的制作方法
在用于谐波和基调分析的音频频谱中选择音调分量
本发明涉及的是在音频频谱中选择相关的音调(tonal)分量,以便 对信号的谐波(harmonic)属性、例如对正在l番;故的输入音频或和弦的基 调(key)符号进行分析。
目前,人们越来越多地关注于开发那些可以通过评估音频内容以便依 照一组预定标签来对内容进行分类的算法。该标签可以是音乐的流派或风 格,音乐的调子(mood),音乐发行时期等等。这些算法是以从音频内容 中检索特征为基础的,其中音频内容由经过训练的模型进行处理,该模型 可以根据这些特征来对内容分类。为此目的提取的特征需要揭示使该模型 能够执行其任务的有意义信息。这些特征可以是平均功率之类的低等级特
々t ,而古f AA Ai么T Jt旦"^T ,、/ 4旦"EPc7 AA J*rtm^i洽 J^t浩;^"来,工"、、
理声学洞察力(insight)的特征。
其中,本发明涉及的是与音频的音调内容相关的特征。 一种几乎普遍 存在的音乐分量是携带旋律、谐波和基调信息的音调分量的存在。由于乐 器产生的每个单独音符都会在音频信号中产生复杂的音调分量,因此,针 对这种旋律、谐波和基调信息所进行的分析是非常复杂的。通常,这些分 量是"谐波"序列,并且该序列的频率基本上是音符基频的整数倍。如果 尝试从某个时间播放的音符整体中检索旋律、谐波或基调信息,那么将会 发现与已播放音符的基频加上某个范围的音调分量相一致的音调分量,其 中所述某个范围的音调分量即为所谓的泛音,其是基频的整数倍。在这种 音调分量群组中,基频分量和基频整数倍的分量是很难区分的。实际上, 一个特定音符的基本分量有可能符合另一个音符的泛音。由于存在泛音, 因此在即将到来的频谱中几乎可以发现每一个音符名称(A, A#, B, C等
等)。这样则导致很难检索到关于即将到来的音频信号的旋律、谐波和基 调属性的信息。
音高(musical pitch)的典型表示(基频的感觉)依照的是其色度, 即其在西方的音乐八度音内部的音高名称(A、升A (A-sharp)等等)。 在八度音中有12个不同色度值,并且任何音高都可以被指定给这其中的 一个色度值,这些色度值通常对应的是音符基频。其中,由于音乐的谐波和音调意义是通过正在播放的特定音符确定的(也就是说色度),因此, 本发明标识的是特定音符或音符集合所附属的色度。由于存在与每一个音
符相关联的泛音(overtone),因此,有必要具有一种用于清理谐波以及 只识别那些对色度识别而言非常重要的谐波的方法。
目前业已进行了一些直接作用于PCM数据的研究。依照CA. Harte和 M. B. Sandler于2005年5月发表于118-th Audio Engineering Society Convention, Barcelona的Paper 6412 "Automatic Chord Identification Using a Quantised Chromagram,,(以下将其称为"Harte和Sandler"), 一种所谓的色度图(chromagram )提取处理^皮用于自动识别音乐中的和弦。 依照Harte和Sandler,恒定的Q过滤器组被用于获取一个可供选择峰值 的频谱表示。对于每一个峰值,音符名称将被确定,并且具有相应音符名 称的所有峰值的幅度将被添加,从而产生一个指示所评估频谱内部的每一 个音符(note)普及度(prevalence)的色度图。
该方法的限制性在于对正在播放的单个音符而言,大范围的谐波将 会产生累积在色度图中的峰值。对C音符而言,高次谐波将会指向下列音 符(C, G, C, E, G, A#, C, D, E, F#, G, G# )。尤其是所述高次谐波非 常密集地填充,并且它覆盖了那些与基本音符没有明显谐波关系的音符。 当在色度图中累积时,这些高次谐波有可能隐藏我们希望从色度图中读取 的信息,例如用于识别和弦或提取歌曲基调。
根据S. Pauws于2004年发表于Proc. Of the 5th International Conference on Music Information Retrieval, Barcelona的 "Musical Key Extraction for Audio"(以下将其称为"Paw"),色度图是根据4艮短 的输入数据分段的FFT表示来提取的。在频谱仓(spectral bin)之间执 行的零填充和内插将频谱分辨率增强到了 一个足以从频谱中提取谐波分 量频率的等级。通过为这些分量进行一些加权,可以进一步增强低频分量。 然而,色度图是这样一种方式累积的,在该方式中,高次谐波有可能会隐 藏那些我们希望从色度图中读取的信息。
为了克服音调分量测量结果始终是基频与基频倍数的混合物的问题, 依照本发明,在这里使用了听觉掩蔽,由此可以通过掩蔽其他分量的影响 来减少某些听觉分量的知觉相关性。
知觉研究已经表明,某些分量(例如分音或泛音)会因为附近分音 (partial)的掩蔽影响而无法听到。如果谐音非常复杂,那么由于低频的听觉频率分辨率很高,因此,基频和少量一次谐波(first few harmonics)中的每一个都可以被单独"听取(hear out)"。但是,对作 为上述色度提取问题来源的高次谐波而言,由于高频上的听觉频率分辨率 非常恶劣,并且存在充当掩蔽器的其他音调分量,因此,高次谐波是不能 被"听取"。由此,掩蔽处理的听觉处理模型很好地消除了非预期的高频 分量,并且改善了色度提取能力。
如上所述,在常规的相关音调分量选择处理中,其中一个显著问题是 在音频中存在的每个音符都会创建一个范围高次谐波,这些高次谐波可以 被解释成是正在播放的单独音符。其中,本发明根据掩蔽判据删除了高次 谐波,由此只保留了少量第一谐波。通过将这些剩余分量转换成色度图, 获取关于音频分段实质谐波结构的强大的表示,其中该表示允许例如精确 确定音乐片断的基调符号。


图1显示了依照本发明一个实施例的系统的框图;以及 图2显示了依照本发明另一个实施例的系统的框图。
如图l所示,在方框102中,选择单元执行音调分量选择功能。更具 体地说,通过使用M. Desainte-Catherine和S. Marchand于2000年7 月/8月发表于J. Audio Eng. Soc,第48巻第7/8号第654-667页的 "High-precision Fourier analysis of sounds using signal derivatives"(以下^1寻其称为"M. Desainte—Catherine和Marchand,,)的 修改版本,从被示为输入信号x的音频信号分段中选择音调分量并省略那 些非音调分量。应该理解,所述M. Desainte-Catherine和Marchand选冲奪 处理也可以由其他那些用于选择音调分量的方法、设备或系统取代。
在方框104中,掩蔽单元基于掩蔽丢弃音调分量。更具体地说,移除 那些不能个别地听到的音调分量。个别分量的可听度是以听觉掩蔽为基础 的。
在方框106,标签单元使用音符值来标记剩余的音调分量。换句话说, 每个分量的频率都转换成一个音符值。应该理解,音符值并不局限于一个 八度音。
在方框108中,映射单元根据音符值将音调分量映射到单个八度音。 该操作将会导致产生"色度"值。
在方框110,累积单元在直方图或色度图中累积色度值。跨所有分量并且跨多个分段的色度值是通过创建计数某个色度值发生次数的直方图 或是通过将每个色度值的幅度值整合在色度图中来累积的。所述直方图和 色度图都与累积信息所跨越的输入信号的某个时间间隔相关联。
在方框112,评估单元使用原型或参考色度图来执行色度图的任务相 关评估。根据任务,可以创建一个原型色度图,并且将其与从评估下的音 频中提取的色度图相比较。在执行基调提取处理时,举例来说,通过使用
如Krumhansl, C丄发表于Oxford Psychological Series, no. 17, Oxford
University Press, New 'York, 1990 的 "Cognitive Foundations of
Musical Pitch"(以下将其称为"Krumhansl")中的基调分布,可以像在
Pauws中那样使用基调分布(profile)。通过将这些基调分布与为评估下
的某个音乐片段提取的平均色度图相比较,可以确定该音乐片段的基调。
所述比较可以通过使用一个相关函数来完成。根据即将到来的任务,色度 图的各种其他处理方法也是可行的。
应该指出的是,在基于掩蔽丟弃分量之后,所保留的只是与知觉相关 的音调分量。在考虑单个音符时,所保留的只是基频分量以及少量第一泛 音。由于若干分量落入一个听觉过滤器中,并且掩蔽模型通常会指示这些 分量正在被掩蔽,因此所述高泛音通常是无法作为单独分量被听到的。如 果其中一个高泛音与相邻分量相比具有很高幅度,那么该情况将不会发
生。在这种情况下,所述分量将不会被掩蔽。这种效果是期望的,因为该 分量将会作为具有音乐重要性的独立分量而突出。在播放多个音符时,相 似效果同样也会发生。其中一个音符的基频有可能与其他音符之一的泛音 相一致。在基于掩蔽丢弃分量之后,只有当该基频分量与相邻分量相比具 有足够幅度时,所述基频分量才会出现。这同样是期望的效果,因为只有 在这种情况下,该分量才可以被听到并具有音乐重要性。此外,噪声分量 往往会导致产生非常密集的频谱,并且在该频谱中,单个分量往往会被相 邻分量掩蔽,由此,这些分量同样会被掩蔽所丢弃。这同样是所期望的, 因为噪声分量对音乐中的谐波信息而言是没有贡献的。
在基于掩蔽丢弃分量之后,除了基本音调分量之外尚留有泛音。结果, 更进一步的评估步骤将无法直接确定音乐片段中播放的音符,并且无法从
这些音符中得到更进一步的信息。但是,存在的泛音只是少量第一泛音, 这些泛音仍旧与基本音调具有有意义的谐波关系。
以下的代表性实例针对的是用于提取评估下的音频信号的基调的任务。音调分量选择
在这里使用了两个信号作为算法输入,即输入信号;c(n)和输入信号前 向差分>^) = 1(" + 1)-x(")。相应的分段是从这两个信号中选出的,并且是 用一个汉明窗口来加窗的。然后,通过使用快速傅里叶变换,将这些信号 变换到频域,由此分别产生复数信号和r(/)。
信号Z(/)被用于选择峰值,例如具有局部最大绝对值的频谱值。这些
峰值仅仅是为正频率部分选择的。由于峰值只能位于FFT频谱的仓值上,
因此,所获取的将会是一个相对粗略的频谱分辨率,对我们的目的而言,
这个频谱分辨率并不是足够良好的。因此,举例来说,依照Harte和 Sandler采用后续步骤对在频谱中发现的每一个峰值来说,以下比值将
被计算£(/) = !皿,其中N是分段长度,并且其中E(f)表示的是在
位置f发现的峰值的更精确频率估计。此外,由于Harte和Sandler的方 法只适用于具有微分的连续信号而不适用于具有前向或反向差值的离散 信号的事实,在这里还应用了一个附加步骤。这个缺陷可以使用一个补偿
量来克服= ^~—。
(l_exp(2
通过使用这个关于频率F的更精确估计,产生一组具有频率参数(F ) 和幅度参数(A)的音调分量。
应该指出的是,这个频率估计仅仅代表的是一个可能的实施例。对本 领域技术人员来说,用于估计频率的其他方法也是已知的。
基于掩蔽丢弃分量
根据如上估计的频率和幅度参数,使用 一个掩蔽模型来丢弃基本上无 法听到的分量。通过使用一组带宽与ERB范围等价的重叠频率波段,以及 通过合并落入每一个波段的音调分量的所有能量,构建一个激励图案。然 后,在每一个波段中累积的能量会被跨相邻波段被平滑,以便获取某种形 式的掩蔽频镨扩展。对每一个分量来说,判断该分量的能量是否至少为在 该波段中测得的总能量的某个百分比,例如50%。如果分量的能量小于这 个判据,则假设该分量基本上已被掩蔽,并且不再对其进行考虑。
应该指出的是,提供这种掩蔽模型是为了获取在音频中观察到的掩蔽 效果的高计算效率的一阶估计。此外,更先进和精确的方法也是可以使用 的。
使用音符值来标记分量如上获取的精确频率估计将被变换成音符值,其中举例来说,所述音 符值表示该分量是第四个八度音中的A。为此目的,这些频率将会变换成 一个对数标度,并且将会以恰当的方式进行量化。也可以应用一个附加的 全局频率乘法,以便克服完整音乐片段的可能失调。
将分量映射成一个八度音
所有音符值都被归结成一个八度音。由此,最终得到的色度值仅仅指 示的是所述音符是A还是A^而不会顾及八度音位置。 在直方图或色度图中累积色度值
色度值是通过添加与A、 A#、 B等等相对应的所有幅度来累积的。由 此,在这里将会获取与每一个色度值的相关支配地位(dominance)相类 似的12个累积色度值。这12个值被称为色度图。该色度图可以在帧内的 所有分量上累积,但是优选是在一个范围的连续帧上累积的。
使用基调分布来实施的色度图的任务相关评估
现在将焦点集中在提取基调信息的任务上。如上所述,通过采用与 Pauws实施的方式相类似的方式,可以为Krurahansl的数据获取基调分布。 对于被评估的剪辑来说,为其执行的基调提取旨在发现需要如何移动观察 到的色度图来获取原型(参考)色度图与所观察的色度图之间的最佳相关。
这些任务相关评估仅仅是如何使用在色度图内部获取的信息的实例。 其他的方法或算法同样是可行的。
根据本发明的另 一个实施例,为了克服能量非常充沛的分量对色度图 产生过度影响的问题,在将频谱分量映射成一个八音度之前对它应用一个 压缩变换。通过这种方式,具有较低幅度的分量对色度图将会产生相对较 强的影响。根据本发明的这个实施例,可以发现差错率大约减少了 4倍(例 如对于古典数据库,从92%的正确基调分类到98%)。
在图2中提供了一个用于本发明该实施例的框图。在方框202,在选 择单元中将会从音频(x)的输入分段中选出音调分量。每一个分量都具 有一个频率值和一个线性幅度值。然后,在方框204,在压缩变换单元中 为线性幅度值应用了一个压缩变换。之后,在方框206中,在标签单元中 将会确定每一个频率的音符值。该音符值指示的是音符名称(例如C、 C#、 D、 Df等等)以及音符所在的八度音。在方框208,在映射单元中将所有 音符幅度值变换成一个八度音,并且在方框210中,在累积单元中将会添 加所有变换的幅度值。结果,在这里将会得到一个12值色度图。然后, 在方框212,在评估单元中,该色度图将被用于评估输入分段的某些性质,例如基调。
一种压缩变换(用dB标度来近似响度的人类感觉)是如下给出的
_y = 201ogI0 x
其中x是被变换的输入幅度,y是变换输出。通常,这个变换是在将频谱 映射到一个八度音间隔之前在为整个频谱中的频谱峰值所推导的幅度上 执行的。
可以预见的是,在以上描述中,每一个处理单元可以用硬件、软件或 软硬件组合来实施。每一个处理单元都可以基于至少一个处理器或可编程 控制器来实施。作为替换,组合在一起的所有处理单元可以基于至少一个 处理器或可编程控制器来实施。
虽然在这里结合不同附图中的优选实施例对本发明进行了描述,但是 应该了解,其他那些类似的实施例也是可以使用的,并且可以对所描述的 实施例执行修改和补充,以便执行本发明相同的功能,而不会脱离其范围。 由此,本发明不应该局限于任何单个实施例,而是应该在依照附加权利要 求的宽度和范围中解释。
权利要求
1. 一种处理音频信号的方法,包括从音频信号中选择(102)音调分量;将掩蔽(104)应用于选定的音调分量,以便丢弃至少一个音调分量;确定(106)在丢弃之后保留的音调分量的音符值;将音符值映射(108)到单个八度音,以便获取色度值;将色度值累积(110)到色度图中;以及评估(112)该色度图。
2. 根据权利要求l的方法,其中,音调分量是通过将音频信号变换 到频域来选择的,每一个音调分量都是用频率值和幅度值来表示的。
3. 根据权利要求2的方法,其中,该幅度值是根据响度的人类感觉 来进行压缩变换(204 )的。
4. 根据权利要求1的方法,其中,根据阈值来应用该掩蔽,以便丟 弃基本上无法听到的音调分量。
5. 根据权利要求l的方法,其中,色度图是通过将色度图与参考色 度图相比较来评估的,由此从音频信号中提取基调信息。
6. —种用于处理音频信号的设备,包括 选择单元(102),用于从音频信号中选择音调分量; 掩蔽单元(104),用于对选定音调分量应用掩蔽,以便丢弃至少一个音调分量;标签单元(106),用于确定在丢弃之后保留的音调分量的音符值; 映射单元(108),用于将音符值映射到单个八度音,以便获取色度值; 累积单元(IIO),用于将色度值累积成色度图;以及 评估单元(112),用于评估色度图。
7. 根据权利要求6的设备,其中,音调分量通过将音频信号变换到 频域来选择的,每一个音调分量都是用频率值和幅度值来表示的。
8. 根据权利要求7的设备,还包括压缩变换单元(204 ),用于根据 响度的人类感觉来压缩变换幅度值。
9. 根据权利要求6的设备,其中,根据阈值来应用该掩蔽,以便丢 弃基本上无法听到的音调分量。
10. 根据权利要求6的设备,其中,色度图是通过将色度图与参考色 度图相比较来评估的,由此从音频信号中提取基调信息。
11. 一种内置于计算机可读介质的软件程序,用于在由处理器运行时执行操作,包括从音频信号中选择(102 )音调分量;将掩蔽(104 )应用于选定的音调分量,以便丢弃至少一个音调分量; 确定(106)在丢弃之后保留的音调分量的音符值; 将音符值映射(108)到单个八度音,以便获取色度值; 将色度值累积(110)到色度图中;以及 评估(112)该色度图。
12. 根据权利要求ll的程序,其中,音调分量是通过将音频信号变 换到频域来选择的,每一个音调分量都是用频率值和幅度值来表示的。
13. 根据权利要求12的程序,其中,该幅度值是根据响度的人类感 觉来进行压缩变换(204 )的。
14. 根据权利要求ll的程序,其中,根据阈值来应用该掩蔽,以便 丟弃基本上无法听到的音调分量。
15. 根据权利要求ll的程序,其中,色度图是通过将色度图与参考 色度图相比较来评估的,由此从音频信号中提取基调信息。
全文摘要
通过从音频信号中选择(102)音调分量,可以对音频信号进行处理,以便提取基调信息。然后,选定的音调分量将被应用(104)一个掩蔽处理,以便丢弃至少一个音调分量。剩余音调分量的音符值将被确定(106),并且映射(108)成单个八度音,以便获取色度值。这些色度值则被累积(110)成色度图,并且将被评估(112)。
文档编号G10H1/38GK101421778SQ200780013464
公开日2009年4月29日 申请日期2007年3月27日 优先权日2006年4月14日
发明者M·F·麦克金尼, S·L·J·D·E·范德帕尔 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1