基于短时离散谐波变换的音色特征提取方法与流程

文档序号:19422459发布日期:2019-12-14 01:42阅读:477来源:国知局
基于短时离散谐波变换的音色特征提取方法与流程

本发明涉及信号处理技术领域,特别涉及一种音频信号音色特征提取方法。



背景技术:

音色相关特征提取是音源识别的关键部分,对音源识别结果有重大影响。近年来,随着信号处理技术发展,音色相关特征提取方法不断增加,涉及时域、频域和倒谱域等。目前,在提取音色相关特征时,主要是将大量的时域、频域和倒谱域的声学特征进行组合,特征数目庞大,不仅加重了计算负担,也会造成信息的冗余。物体振动产生一组按音高顺序排列而成的谐波序列,人耳通过耳蜗基底膜对接收到的不同谐波序列进行分析与合成,再经过大脑的感受判断得到不同的音色和音高。谐波序列的变化对音色的影响最大。目前,很多方法并没有从音频信号的谐波对音色的物理意义角度挖掘音色的本质特征。因此,为了进一步提升音源识别的准确率和效率,需要找到一种表达简单且描述准确的音色特征提取方法。



技术实现要素:

本发明针对现有技术的缺陷,提供了一种基于短时离散谐波变换的音色特征提取方法,解决了现有技术中存在的缺陷。

为了实现以上发明目的,本发明采取的技术方案如下:

a.短时离散谐波变换方法

基于谐波结构理论,根据音源的物理特性:物体振动发出的音频是复音,即具有谐波结构,且每个复音均有一个基频f0,它是谐波谱的最小频率,不同音频的基音不同其f0也不同。用频率序列来表示复音的谐波结构,将谐音按频率由低到高的顺序编号,使用向量hs=(f0,f1,...,fm,...,fm)保存谐波谱的各次谐波频率值,m是最高谐波次数。谐波谱中第m条谱线所对应的模拟频率(中心频率)为:

fm=f0·m(1)

其中相邻谐波谱对应的带宽为:

bm=fm+1-fm=f0(2)

由此可以看出任意相邻谱线的间隔(带宽)为一个常值,此时中心频率和带宽的比值pm为中心频率对应的谱线次序:

pm=fm/bm=m(3)

设信号的采样频率为fs。t0为谐波谱的基音频率f0对应的基音周期,则满足:

t0=fs/f0(4)

若信号最高频率分量为fmax,则至少满足以下关系,才不会产生混叠失真。

fs≥2fmax(5)

折叠频率(fs/2)是能够分析模拟信号的最高频率。又因为在谐波谱中:

fmax≥m·f0(6)

由于最高谐波次数m为一个整数,所以向下取整得到:

对于窗长为n的信号序列,根据对离散信号的频域采样定理得到离散谱的数字频率的间隔必须满足下述公式:

bm·n≤fs(8)

对上式中取等号则得到n的表达式,由于n为一个整数,所以向下取整得到:

由上式可得,对于音频信号当已知基频或基音周期时,可求得基于谐波结构的时频变换的窗长和最高谐波次数。对(8)式去等号,并结合式(3)知,谐波谱中谱线m处的数字频率为:

基于离散短时傅立叶变换(thediscreteshorttimefouriertransform,dstft)的相应分量,并进行标准化,得到基于谐波频率的稀疏变换,离散谐波变换(discreteharmonictransform,dht)。设音频信号为有限长序列x(n),dht的m次谱分量表达式如下:

其中,n为谐波谱时频变换时对应的窗长度;wn(n)是长度为n的窗函数;m=1,…,m,m是序列谐波谱的频率下标,表示第m次谐波,m为最高谐波次数。设对原始信号x(n)分帧后的第i帧为xi(n),对xi(n)进行离散谐波变换,得到称为信号的短时离散谐波变换(theshortdiscreteharmonictransform,sdht):

b.音色谐波谱特征提取方法

谐波结构的频谱能量分布是影响音色的重要特征。因此,基于公式12的短时离散谐波变换,令em.表示第m次谐波能量,则第i帧的第m次谐波能量为:

对m个进行归一化,并记为则短时离散谐波能量可表示为:

对edhti中的每个进行离散余弦变换(discretecosinetransform,dct):

其中,p=1,2,...,m;则短时离散谐波变换系数可表示为:

对sdhtci求一阶差分,得到谐波能量变换幅值,用一阶短时离散谐波变换系数δsdhtci表示。对sdhtci求二阶差分,得到谐波能量变换率,用二阶短时离散谐波变换系数δ2sdhtci表示。则音色谐波谱特征由短时离散谐波变换系数、一阶差分短时离散谐波变换系数和二阶差分短时离散谐波变换系数构成局部音色谐波谱特征。

进一步的,对信号所有帧求得的第m次音色谐波谱特征求统计特征如均值、标准差、20%分位数、50%分为数、80%分为数以及峰度(四阶中心距)可以作为全局音色谐波谱特征。

与现有技术相比,本发明的优点在于:

通过短时离散谐波变换,可以获得音频的谐波结构信息,通过音色谐波谱,实现对音频的音色特征的提取,具有特征维数少,计算量小,效率高的特点,且提取的音色特征满足谐波对音色的物理意义。该特征提取方法可以广泛应用到音乐推荐、音乐情感计算、说话人识别等应用当中。

附图说明

图1是本发明实施例的方法流程图;

图2是本发明实施例钢琴c4单音1.5秒的时域波形图;

图3是本发明实施例钢琴c4单音的短时离散谐波变换谱图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。

如图1所示,一种基于短时离散谐波变换的音色特征提取方法,包括以下步骤:

步骤1.预处理;

所述步骤1包括以下子步骤:

步骤101音频静音段检测:音频的静音段对基音周期的估计和谐波特征的提取存在影响。因此,需要进行静音段检测,并将静音段去除。首先对信号进行分帧,对分帧后的信号求短时平均能量,给定较高的阈值β1,则音频的起止点应位于该阈值与能量包络的两个交点x1和x2(x1<x2)的时间点之外。给定较低的阈值β2,从交点x1和x2分别向左右搜索,找到短时能量与阈值β2相交的两个点x3和x4(x3<x1<x2<x4),这两个点为该段音频的起止点位置。

步骤102数据分帧加窗:基于音频的短时平稳特性,在提取步骤101去除静音段后的音频信号的特征之前,需要先进行帧分割处理,即将信号分割成具有稳定统计特征的一小段信号,每一小段信号都需要一个帧。为了增加帧间的连续性,减少频谱泄漏,还需要对分割的帧进行加窗操作,这里选取能够减小频谱泄漏的汉宁窗。

步骤2.短时离散谐波变换提取谐波信息

所述步骤2进一步包括:

步骤201音频信号的基音周期估计:针对步骤102得到的分帧加窗后的非静音段音频,按顺序取一帧数据si,根据三电平中心削波输入输出函数:

得到削波器的输出y′i,其中,cl为三电平中心削波系数。再利用中心削波输入输出函数:

得到中心削波输出yi。然后求y′i和yi的互相关函数:

其中i为第i帧,k为时间的延迟量。对ri(k)取延迟量为正值的部分r′i(k)。设信号的采样频率fs,设音频的频率范围为f′min~f′max,则基音周期的范围在fs/f′max和fs/f′min之间。在fs/f′max~fs/f′min之间求r′i(k)的最大值,则最大值对应的延迟量为基音周期t0。

步骤202谐波谱信息求解:设i为对信号x(n)进行分帧后的第i帧,n为谐波谱时频变换时对应的窗长度,wn(n)是长度为n的窗函数;m=1,…,m,m是序列谐波谱的频率下标,表示第m次谐波,m为最高谐波次数,根据

可以求解信号每帧的前m次谱分量。

步骤3.音色谐波谱特征提取;

所述步骤3包括以下子步骤:

步骤301短时离散谐波变换系数:令em.表示第m次谐波能量,则第i帧的第m次谐波能量为:

对m个进行归一化,并记为则短时离散谐波能量可表示为:

对edhti中的每个进行离散余弦变换(discretecosinetransform,dct):

其中,p=1,2,...,m;则短时离散谐波变换系数可表示为:

步骤302一阶差分短时离散谐波变换系数:对sdhtci求一阶差分,得到谐波能量变换幅值,用一阶短时离散谐波变换系数δsdhtci表示。

步骤303二阶差分短时离散谐波变换系数:对sdhtci求二阶差分,得到谐波能量变换率,用二阶短时离散谐波变换系数δ2sdhtci表示。

步骤304音色谐波谱特征:由信号每帧求得的短时离散谐波变换系数、一阶差分短时离散谐波变换系数和二阶差分短时离散谐波变换系数构成局部音色谐波谱特征。进一步,对信号所有帧求得的第m次音色谐波谱特征求统计特征如均值、标准差、20%分位数、50%分为数、80%分为数以及峰度(四阶中心距)可以作为全局音色谐波谱特征。

如图2所示,是钢琴c4单音1.5秒的时域波形图。

如图3所示,是对图2的钢琴c4单音音频进行短时离散谐波变换得到的频谱图,从图中可以看出本方法得到的频谱图提取的基频非常精确,且能准确得到各次谐波的频率成分,且不存在虚假频率成分。能够在稀疏的情况下,准确得到音频的谐波成分。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1