基于Teager能量熵的音符切分方法

文档序号:2825033阅读:417来源:国知局
专利名称:基于Teager能量熵的音符切分方法
技术领域
本发明涉及音频信号处理,具体讲涉及基于Teager能量熵(Teager Energy Entropy, TEE)的音符切分方法。
背景技术
随着现代信息技术,特别是多媒体技术和网络技术的迅猛发展,多媒体信息的数 据量急剧增多,如何在浩如烟海的数据库中快速准确地挑选出有用的信息变得尤为重要。 同时在现有的信息检索技术下,音频信号、音乐领域也面临着同样的难题。而基于内容音乐 检索的研究在极大程度上缓解了这一尴尬。作为音乐基本单位的音符,包含了极具细节性 和有效性的信息,如何高效准确地切分出完整音符已经成为基于内容的音乐检索中必不可 少的关键性步骤。如哼唱检索(QBH,Query By Humming)系统,一套完整的音符切分程序, 不仅极大地方便用户进行自然哼唱,免除须爆破音哼唱的限制,而且有效地提升了检索精 度,加快了检索效率。此外,在基于内容的音频流切分与聚类,歌曲有歌唱部分检测,音乐标 签及当下热门的音乐“指纹”识别等多种音乐处理中,音符切分都是不可或缺的重要环节, 其准确性关乎整个系统的性能。传统上主要提取时域特征来实现音符切分,如提取短时能量和过零率,这些方法 简单易行,但只对能量变化鲜明的打击类音乐(如鼓声)效果较佳。近年来,随着音乐检索 领域相关理论的迅猛发展,出现了多种音符切分法,这些方法主要针对不同类型的音乐信 号提取各种新的特征参数,如频域中基于相位和谱能的方法,复域中谱差分法,小波域方法 及统计学方法,但这些方法往往只对有调性明显的音乐性能较好,且计算量和复杂度都较 大。相对而言,自适应子带谱熵法(AdaptiveSub-band Spectral Entropy, ASSE)同 时包含子带谱熵和能量信息,通用性和鲁棒性更强。但是当音频文件包含多种演奏乐器或 加有背景音乐时,音符切分效果便会下降。此外,由于只注重能量信息,ASSE容易漏检能量 较低的音符,而且无法准确切分相临近音符的边界,同时提取频域特征计算量较大。

发明内容
为克服现有技术的不足,将音频信号中的各个音符准确、快速检测出来,本发明采 用的技术方案是,基于Teager能量熵的音符切分方法,包括下列步骤1.预处理采用一阶FIR数字滤波器,系数取0. 9375,实现预加重,选用汉明窗进行加窗,采 用可移动的有限窗口进行加权的方法实现分帧,使帧间有交叠,以保证连续音乐信号流的 自相关性和过渡信息的提取;2.特征提取提取Teager能量熵,即统计Teager能量的信息熵H ;3.后处理
H1 = OHAiax(H) (1)H2 = -H1^log10 (Hi+eps) (2)式(1)中H为初步特征提取得到的Teager能量熵,H1和吐为分两步进行后处理 后所得到的Teager能量熵,eps是为了避免对O取对数而加入的一个极小值,C为经验值, 当波峰极大值与极小值相差大时,C取较大,具体依据两极值间比例而定;当极大值与极小 值相差小或者有噪声污染时,C取较小(C <1),以防噪声被放大,最后再用移动窗进行曲线 平滑;4.峰值提取采用双门限阈值法进行峰值提取首先计算音乐流前数帧数据的Teager能量熵, 并取平均值(记为N)作为背景噪声估计,双门限阈值分别为=M1 = α Ν,Μ2 = β N,其中α, β为经验值且α < β,即M1 < Μ2。对于式(2)所得第i帧Teager能量熵H2 (i),如果满 SH2(i-l) < Mi;H2(i)彡M1,即由背景噪声上升为过渡阶段,且接下来的连续3 5帧都大 于M2,则第i帧标记为音符起始帧。所述提取Teager能量熵,即统计Teager能量的信息熵具体细化为核心步骤为运用aiarmon信息熵公式H(m) =n)* log(P(m, η) + eps)(3)
n=l式(3)中N为帧长,m为帧数,η为帧内样本点序列号,eps是为了避免对O取对数 而加入的一个极小值。P(m,η)为第m帧中第η个样本点Teager能量的概率分布
^-(te(m,n)- E(m))2
P=--(4)
hte、m,n)
m=\ n=\式G)中te(m,η)为统计得到的每帧数据的Teager能量值,E(m)为第m帧能量 的期望值,M和N分别为总帧数和帧长,m和η为每帧及帧内样本点的序列号;式中Teager能量的计算方法如下,对于离散信号、xn = Acos ( Ω η+Φ) (5)式(5)中,A为幅值,角频率Ω =2Jif/fs,其中f为信号χ的频率,fs为采样率, Φ为任意初相角,η为离散信号的序列号。对式(5)信号Xn运用Teager能量算子(TEO) Ψ ( ·)
=^l2 Sin2(Q)-^i2Q2(6)式(6)中当Ω足够小时约等号成立。本发明具有如下技术效果由本发明可以看出,Teager能量不仅反映样本信号的 幅度,同时还反映振荡频率。Kaiser也指出该能量算法除了可以同时测量A和Ω的快速变 化外,对不同类型的信号还具有一定的区分度。这些特性使得Teager能量特征恰好适合用 于音乐信号处理。本发明将Teager能量与信息熵相结合,即提取Teager能量熵进行音符切分,得到了更佳的切分效果。与单统计信号幅度的频谱和短时能量相比,Teager提出的非线性能量 算子ΤΕ0,同时考虑了幅度和频率信息,因此不会漏检低能高频的音符。而音频文件中所包 含的各个音符的能量分布在不同频段上,且主音符所占频带较宽,因此Teager能量算子恰 好将音频文件频能分布差异更好地突显出来,大大降低了漏检率。


图1.声谱图及其对应的短时能量,频谱能量及Teager能量,图中,(a)声谱图,(b) 短时能量,(c)频谱图,(cOTeager能量。图2. ROC曲线对比图,图中,(a)流行乐曲ROC曲线对比,(b)钢琴曲ROC曲线 对比,(c)鼓声ROC曲线对比图;图3.本发明音符切分流程图;图4.后处理前后对比结果,图中,(a)TEE特征提取结果,(b)后处理结果;图5.峰值提取结果,图中,(a)标记有音符起始点的声谱图,(b)音符检测结果。
具体实施例方式音符切分,是指将音频信号中的各个音符检测出来,并准确确定音符起始点的位 置。特别是对于和声及复调音乐的分析处理,以单个音符作为基点,可以挖掘出更多有用的 节奏信息,在极大程度上减少了数据存储量和处理时间,减弱了无关噪声的干扰。本发明将Teager能量与信息熵相结合,即提取Teager能量熵进行音符切分。与 单统计信号幅度的频谱和短时能量相比,Teager提出的非线性能量算子ΤΕ0,同时考虑了 幅度和频率信息,因此不会漏检低能高频的音符。而音频文件中所包含的各个音符的能量 分布在不同频段上,且主音符所占频带较宽,因此Teager能量算子恰好将音频文件频能分 布差异更好地突显出来。如图1所示,由图(a)声谱图容易看出第二,第三和第六个音符能 量主要分布在较高频段上,而低频段上能量较低,且被其前的高能量的重音符所覆盖,即为 典型的能量低频率高的音符。对应的能量图(d)中,由于Teager能量除幅度外,还融入了 频率的信息,因此准确地检测出了每一个音符。而短时能量及频谱能量图(b),(C)中,上述 三个能量较低的音符被覆盖从而发生漏检。此外,Teager能量曲线更加清晰平滑,波峰突 出且峰值分布均衡,因此更能有效区分音符边界,有利于峰值提取。加之信息熵能很好地反 映参数的分布特征,而且对参数样本值敏感度较低。由此本发明将二者相结合形成一种新 的音符切分算法——Imager能量熵法(Teager Energy Entropy,TEE)。TEE对于打击类乐 曲切分效果较佳,尤其当音频文件中包含多种演奏乐器或加有背景音乐时,TEE优势将更加 突出。本发明提取参数-Teager能量熵进行音符切分。首先运用Siarmon信息熵公式
权利要求
1、一种基于Teager能量熵的音符切分方法,其特征是,具体包括下列步骤
1.预处理采用一阶FIR数字滤波器,系数取0. 9375,实现预加重,选用汉明窗进行加窗,采用可 移动的有限窗口进行加权的方法实现分帧,使帧间有交叠,以保证连续音乐信号流的自相 关性和过渡信息的提取;
2.特征提取提取Teager能量熵,即统计Teager能量的信息熵H ;3.后处理H1 = OHAiax(H) (1)H2 = -H1^log10 (H^eps) (2)式(1)中H为初步特征提取得到的Teager能量熵,!^和吐为分两步进行后处理后所得 到的Teager能量熵,eps是为了避免对O取对数而加入的一个极小值,C为经验值,当波峰 极大值与极小值相差大时,C取较大,具体依据两极值间比例而定;当极大值与极小值相差 小或者有噪声污染时,C取较小(C < 1),以防噪声被放大,最后再用移动窗进行曲线平滑;4.峰值提取采用双门限阈值法进行峰值提取首先计算音乐流前数帧数据的Teager能量熵,并取 平均值(记为N)作为背景噪声估计,双门限阈值分别为=M1 = α N, M2 = β N,其中α,β 为经验值且α < β,即M1 < Μ2。对于式(2)所得第i帧Teager能量熵H2 (i),如果满足 H2(I-I) < M1, H2(i)彡M1,即由背景噪声上升为过渡阶段,且接下来的连续3 5帧都大于 M2,则第i帧标记为音符起始帧。2、根据权利要求1所述的一种基于Teager能量熵的音符切分方法,其特征是,所述提 取Teager能量熵,即统计Teager能量的信息熵具体细化为核心步骤为运用Siannon信息熵公式NH(m) = P(m,η) * log(P(m, η) + eps)(3)n=\式(3)中N为帧长,m为帧数,η为帧内样本点序列号,eps是为了避免对O取对数而加 入的一个极小值。P(m,η)为第m帧中第η个样本点Teager能量的概率分布^-(te(m,n)- E(m))2P=--(4)Σ Σ+,")式中te(m,η)为统计得到的每帧数据的Teager能量值,E(m)为第m帧能量的期 望值,M和N分别为总帧数和帧长,m和η为每帧及帧内样本点的序列号; 式中Teager能量的计算方法如下,对于离散信号ι xn = Acos ( Ω η+Φ) (5)式(5)中,A为幅值,角频率Ω =2Jif/fs,其中f为信号χ的频率,fs为采样率,φ为 任意初相角,η为离散信号的序列号。对式(5)信号Xn运用Teager能量算子(TEO) Ψ ( ·)=^l2 Sin2(Q)-^i2Q2(6)式(6)中当Ω足够小时约等号成立。
全文摘要
本发明涉及音频信号处理。为克服现有技术的不足,将音频信号中的各个音符准确、快速检测出来,本发明采用的技术方案是,基于Teager能量熵的音符切分方法,包括下列步骤1.预处理采用一阶FIR数字滤波器,系数取0.9375,实现预加重,选用汉明窗进行加窗,采用可移动的有限窗口进行加权的方法实现分帧,使帧间有交叠,以保证连续音乐信号流的自相关性和过渡信息的提取;2.特征提取提取Teager能量熵,即统计Teager能量的信息熵H;3.后处理4.峰值提取采用双门限阈值法进行峰值提取。本发明主要应用于音频信号处理。
文档编号G10L11/00GK102129858SQ20111006324
公开日2011年7月20日 申请日期2011年3月16日 优先权日2011年3月16日
发明者关欣, 冯亚楠, 李锵 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1