一种弦乐器演奏音质自动判别方法

文档序号:9930285阅读:657来源:国知局
一种弦乐器演奏音质自动判别方法
【技术领域】
[0001] 本发明属于音乐学和信息科学的交叉技术领域,特别设及一种弦乐器演奏音质自 动判别方法。
【背景技术】
[0002] 随着物质生活水平的迅速提高,人们对精神生活的需求日益增大。其中,音乐艺术 在人们精神生活所占比重也越来越大,而器乐演奏则是音乐艺术表现形式中最重要的部 分。演奏者,无论是初学几个月的初学者,还是具备多年演奏经验的演奏家,都会面临的问 题是演奏音质的评判。因为演奏音质的好坏,是用于评判演奏者水平高低的最重要依据之 O
[0003] 影响演奏音质的因素主要由弦乐器本身及其配件的质量(材料和结构差异)和演 奏者对声音的把控能力所决定。目前,弦乐器演奏音质完全依赖于人工评判,即由专家联听 现场演奏或录音,给出评判意见。运种方法会因评审人的审美疲劳、参考标准的波动、主观 审美倾向W及现场音响环境的不同等,造成评判的不准确。此外,高昂的人力成本也是人工 评判的一个缺点。
[0004] "音质评判"运一行为目前主要被应用于音响技术领域。它是用来衡量音响器材质 量的重要手段。其评判方法主要侧重于考察音响设备输出对录音现场的复现能力。其评判 参数主要有频率响应曲线是否平直、频率的崎变和相移、输出波形与器乐或人声的音频特 征的接近程度等信息学科中的特征。在器乐演奏方面,由于弦乐器演奏的音质设及的因素 多而复杂,为了使计算机自动评判结果达到较高的可靠性,需要全面提取能反映器乐音质 的多种时频特征,更多地考虑演奏中产生的变量特征,并采用有效的机器学习方法进行音 质的识别。

【发明内容】

[0005] 为了克服上述现有技术的缺点,本发明的目的在于提供一种弦乐器演奏音质自动 判别方法,基于弦乐器演奏特征、音频信号特征提取W及时间序列特征等要素来实现弦乐 演奏过程中音质好坏的自动判定
[0006] 为了实现上述目的,本发明采用的技术方案是:
[0007] -种弦乐器演奏音质自动判别方法,包括如下步骤:
[000引首先,对乐器类型及其演奏模式进行自动识别;
[0009] 其次,针对乐器的类型和演奏模式,提取器乐演奏的动态和静态特征;
[0010] 最后,将提取的特征作为输入,W随机森林模型为分类器,进行训练和分类,并对 结果进行连续化处理。
[0011] 所述乐器类型自动识别的方法如下:
[0012] 1)提取用W描述乐器类型的巧巾音频特征 [OOU] a)每一帖的频谱重屯、G
[0014]
[0015] 其中,m为窗宽,fn为声音的n次谐波频率,即音频信号经离散傅立叶变换(DFT)后 第n个点处代表的频率,An为fn所对应的振幅,通过滑动窗的滑动得到一系列频谱重屯、,计算 其最大值Gm、最小值Gmin、均值Ge和标准差Gs;
[0016] b)上升时间Tr
[0017] Tr = Tstb-To
[001引Tstb为一段音频中时域幅值稳定的时刻,To为演奏发声的起始时间,即音频的开始 时刻;
[0019] C)倒谱系数
[0020] 分别对上升时间和稳定时间对应的音频,W窗宽m的滑动窗和Am的重叠率进行分 帖,并使用Levinson-Durbin算法,计算每帖音频的11维LPC系数,并将该系数转换为倒谱系 数,其中Am选择为0.25或0.5;
[002。 2)乐器类型分类
[0022] 将W上巧中音频特征串联起来形成16维的特征向量,对特征向量进行识别,输出结 果为乐器类型,即分为击弦类乐器和拉弦类乐器。
[0023] 所述倒谱系数提取过程中,使用Levinson-Durbin算法,计算每帖音频的11维LPC 系数,并将该系数转换为倒谱系数(LPCC)的过程是:
[0024]
[0025] 式中Clpcc为线性预测倒谱系数,Clpc为线性预测系数,Z为预测系数的序号,k为求 和运算中每次迭代所取的点数序号。
[0026] 所述乐器类型分类过程中,采用贝叶斯分类器对特征向量进行识别。
[0027] 所述演奏模式自动识别的方法如下:在频谱重屯、、上升时间和倒谱系数的基础上, 加入信噪比SNR;将该组合而得的18维特征作为高斯分类器的输入,进行训练,输出结果为 柔和模式、高噪声模式和普通模式。
[002引所述信噪比SNR的获取方法为:使用快速独立成分分析(FastICA)算法提取噪声, 对音频信号进行归一化和白化,W下两公式作为核屯、迭代公式进行迭代:
[0029]
[0030]
[0031] 其中,X为原始音频信号,W的初始值为n维随机矩阵,n表示需要分离的独立随机变 量个数,E{ ? }为均值运算,g(.)为非线性函数,取,
,将分离所 得的信号功率与输入信号功率作商,得到信噪比SNR。
[0032] 所述器乐演奏的动态和静态特征包括音准调节时间Ta、噪音指数Q、MFCC系数、明 亮度Bk、线性度W及不和谐度化,通过如下方式提取:
[0033] 1)音准调节时间Ta
[0034] 音准调节时间Ta只用于拉弦类乐器,TA=Tst-To,式中To表示音频的开始时刻,Tst表 示基频稳定的开始时刻,计算过程如下:获取音频时间序列后,将其分为长度为Hlf的帖,采 用离散傅立叶变换计算每一帖的基频,并得到整段序列的基频-时间坐标对;从第一个采样 点到基频稳定的时间差值即音准调节时间;
[0035] 2)噪音指数Q
[0036]
[0037] 式中a为常数阔值;
[003 引 3)MFCC 系数
[0039] 对音频信号进行预加重、分帖、加汉明窗的预处理后,进行快速傅里叶变换;使用 Mel滤波器组进行处理;计算每个滤波器组输出的对数能量;经离散余弦变换(DCT)得到 MFCC系数;
[0040] 4)明亮度化
[0041]
[0042] 令fn为音频信号经离散傅立叶变换(DFT)后第n个点处代表的频率,k为信号基频 所对应的DFT点数序号,则式中Bk即基频为fk的音的明亮度,其中,An表示信号经DFT后第n点 处的幅值,N表示DFT的总点数;
[0043] 5)线性度
[0044] a)将音频信息划分为多个小段,对每段音频信号x(m)进行线性预测化PC)估计
[0045]
[0046] 其中P为LPC的阶数,ai为每一阶对应的系数,1为当前的阶数,nt为时间的采样序 号;
[0047] b)对估计所得的信号进行短时傅立叶变换(STFT),得频谱包络为 [004引
[0049] 其中O为STFT的窗函数,q为预测信号的时间点数序号,ni为预测点数序号;
[0050] C)计算功率谱的互累计分布函数的(《 )
[0化1 ]
[0052] d)将FcO )映射到log-log域,所得曲线上的点为(巧叫),叫),护知2),咕),(巧山3),......
[0053]并求该曲线的线性相关度即求向量巧日{?i}的相关性L [0化4]
[0化日]6)不和谐度化
[0056]将分帖的音频信息作傅里叶变换,提取每个谐波的频率fn和其所对应的幅值An,求 每两个谐波之间的不和谐度并求和
[0化7]
[0化引
[0059] bi和b2为常数系数,
I Sl和S2为常数系数。
[0060] 所述W随机森林模型是由多个决策树分类模型h(X)组成的分类模型,最终由所有 决策树综合决定输入向量X的最终类标签。具体地,给定乐器演奏的训练样本集,构建随机 森林模型H(X) =化I(X),h2(X),h3(X),…,hN(X)},其中包含N个决策树,hi(X)表示第i个决策 树;之后进行样本分类,类标签Cp由所有决策树的分类结果使用投票方式决定,对于某个样 本X的类标签Cp计算公式如下:
[0061]
[0062] 其中,1(.)是指示函数,是树hi对类C的分类结果,是树hi的叶子节点数。
[0063] 所述对结果进行连续化处理的方法如下:
[0064] 首先,计算出每个样本X属于第i个类别Cl的概率:
[00 化]
[0066] 假设共有C个类别,每个类别Cl按照等级从高到低编号为1,2,3,…,C,在随机森林 分
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1