一种基于深度学习的钢琴考级评定方法及装置与流程

文档序号:18904293发布日期:2019-10-18 22:27阅读:298来源:国知局
一种基于深度学习的钢琴考级评定方法及装置与流程

本发明涉及一种基于深度学习的钢琴考级评定方法及装置。



背景技术:

钢琴是一种源自西洋古典乐器中的键盘乐器,由88个琴键和金属弦音板组成,弹奏者通过按下键盘上的琴键,牵动钢琴里面的小木槌,继而敲击钢丝弦发出声音。钢琴因其宽广的音域,绝美的音色,被誉为乐器之王。随着人们生活水平的提高,学习钢琴演奏的人越来越多,而参加钢琴考级的业余钢琴学习者也越来越多。

随着钢琴考级的学员数量的不断上升,钢琴考级专业评分老师的数量也随之增多,同时对专业评分老师也提出了更高的要求,专业评分老师的工作压力也会随之增大。除此之外,学员进行钢琴考级的评分效率低下,考级评分结果容易受专业评分老师个人主观因素的影响,导致不能根据演奏的情况给出一个客观的评价。显然,如何提高钢琴考级的评分效率、降低钢琴考级人力资源的投入,成为钢琴音乐考级发展过程中一个亟待解决的问题。



技术实现要素:

本发明提供了一种基于深度学习的钢琴考级评定方法及装置,其克服了现有技术的钢琴考级所存在的不足之处。

本发明解决其技术问题所采用的技术方案是:一种基于深度学习的钢琴考级评定方法,用于判断待评定钢琴乐曲是否符合相应报考等级的评定标准,包括如下步骤:

获取待评定钢琴乐曲的音频数据;

对所述音频数据进行预处理;

从预处理后的音频数据中提取声学特征;

将所述声学特征输入预先训练好的rescnn神经网络模型,获得预测概率矩阵p;

根据所述预测概率矩阵p确定所述待评定钢琴乐曲的考级评定结果。

进一步的,所述从预处理后的音频数据中提取声学特征具体为:采用梅尔频率倒谱系数从预处理后的音频数据中提取声学特征;

所述声学特征为由mfcc特征、一阶mfcc特征、二阶mfcc特征、能量特征、一阶能量特征和二阶能量特征组合成的多维组合特征。

进一步的,所述对所述音频数据进行预处理包括归一化处理、去除静音段处理、去噪处理中的任意一项或多项。

进一步的,所述去除静音段处理具体为:采用vad算法计算所述音频数据每一帧的能量值,能量值低于能量门限th的帧为静音帧,否则为语音帧,舍弃所述静音帧,保留所述语音帧。

进一步的,所述去噪处理采用基于循环神经网络rnn的音频降噪算法对所述音频数据进行去噪。

进一步的,所述根据所述预测概率矩阵p确定所述待评定钢琴乐曲的考级评定结果具体为:所述考级评定结果包括不及格、及格、良好和优秀,所述预测概率矩阵p中的每个元素的值代表所述待评定钢琴乐曲属于该元素对应的考级评定结果的概率,将所述预测概率矩阵p中值最大的元素对应的考级评定结果作为所述待评定钢琴乐曲的最终的考级评定结果。

进一步的,所述预先训练好的rescnn神经网络模型的训练步骤包括:

获取训练样本集,所述训练样本集包括多个评定结果已知的样本音频数据;

对所述样本音频数据进行预处理;

从预处理后的样本音频数据中提取样本声学特征;

构建rescnn神经网络模型;

利用所述样本声学特征训练rescnn神经网络模型,得到训练好的rescnn神经网络模型。

进一步的,所述利用所述样本声学特征训练rescnn神经网络模型,得到训练好的rescnn神经网络模型,包括如下步骤:

将所述样本声学特征输入rescnn神经网络模型中,得到预测概率矩阵p′,并根据预测概率矩阵p′确定所述样本音频数据的预测评定结果;

将所述样本音频数据的预测评定结果与其真实评定结果进行比较,利用损失函数计算出损失值;

根据所述损失值利用损失函数优化算法更新模型参数;

重复上述步骤进行迭代训练,直至所述损失函数值收敛或迭代次数达到预定次数,完成rescnn神经网络模型的训练。

进一步的,所述损失函数采用交叉熵损失函数,所述损失函数优化算法采用随机梯度下降算法。

一种钢琴考级评定装置,包括:

录音装置,用于获取待评定钢琴乐曲的音频数据并发送至计算机设备;

计算机设备,所述计算机设备包括至少一个处理器和与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述的一种基于深度学习的钢琴考级评定方法。

相较于现有技术,本发明具有以下有益效果:

1、本发明提供了一种基于深度学习的钢琴考级评定方法及装置,能够模拟钢琴考级专业评分老师以待评定钢琴乐曲所对应的报考等级的评定标准对待评定钢琴乐曲进行评定,进而确定待评定钢琴乐曲的考级评定结果,大大提高了考级评分效率,节省人力资源,降低人力成本,同时能够有效避免人为主观因素对考级评定结果的影响。

2、本发明采用多维组合特征作为rescnn神经网络模型的输入,能够将不同特征有效结合,更能准确判断待评定钢琴乐曲是否符合相应报考等级的评定标准。

以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种基于深度学习的钢琴考级评定方法及装置不局限于实施例。

附图说明

图1是本发明方法的处理步骤流程图。

附图标记说明如下:

具体实施方式

以下将结合本发明附图,对本发明实施例中的技术方案进行详细描述和讨论。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

针对传统的钢琴考级评定方法评分效率低下、人力资源投入大的问题,本发明提供了一种基于深度学习的钢琴考级评定方法,通过模拟钢琴考级专业评分老师以待评定钢琴乐曲所对应的报考等级的评定标准对待评定钢琴乐曲进行评定,进而确定待评定钢琴乐曲的考级评定结果。

如下以钢琴十级的考级评定作为具体实施例对本发明所述方法及装置进行详细描述,当然,其他钢琴等级(如钢琴一到九级中的任意一级)的考级评定也可按本实施例的技术方案实施。

请参见图1所示,本发明的一种基于深度学习的钢琴考级评定方法,包括如下步骤:

步骤s1:获取待评定钢琴乐曲的音频数据。

本实施例中,所述待评定钢琴乐曲对应的报考等级为钢琴十级,具体地,所述待评定钢琴乐曲为通过在考级学员演奏钢琴十级的考级曲目时进行录音得到,钢琴十级的的考级曲目包括但不限于斯卡拉蒂d大调奏鸣曲、肖邦的辉煌的大圆舞曲(op.34no.3)、门德尔松谐谑曲(op.16no.4)。当然,在其他实施例中,所述待评定钢琴乐曲对应的报考等级可为其他钢琴等级(如钢琴一到九级中的任意一级),所述待评定钢琴乐曲为通过在考级学员演奏相应报考等级的考级曲目时进行录音得到。

步骤s2:对所述音频数据进行预处理,具体包括归一化处理、去除静音段处理、去噪处理中的任意一项或多项。

所述归一化处理包括如下步骤:

读取所述音频数据,从所述音频数据中获取音频帧数据;

将获取的音频帧数据转化成音频矩阵;

归一化音频矩阵:将音频矩阵乘以归一化系数得到归一化后的音频数据。

所述去除静音段处理具体为:采用基于能量的vad(voiceactivitydetector)算法计算所述音频数据每一帧的能量值,能量值低于能量门限th的帧为静音帧,否则为语音帧,舍弃所述静音帧,保留所述语音帧。所述能量门限th的取值范围为0.003db-0.008db。

所述去噪处理采用基于循环神经网络rnn的音频降噪算法对所述音频数据进行去噪,所述循环神经网络rnn(recurrentneuralnetwork,rnn)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursiveneuralnetwork)。

本发明通过对所述音频数据进行去除静音段处理或去噪处理,能够有效去除静音或噪音的干扰,提高钢琴考级评定结果的准确率。

步骤s3:从预处理后的音频数据中提取声学特征,具体为:

采用梅尔频率倒谱系数(mfcc)从预处理后的音频数据中提取声学特征,即采用梅尔频率倒谱系数将预处理后的音频数据从时域信号转换成时域-频域信息;所述声学特征为由mfcc特征、一阶mfcc特征、二阶mfcc特征、能量特征、一阶能量特征和二阶能量特征组合成的多维组合特征。本发明采用多维组合特征作为rescnn神经网络模型的输入,能够将不同特征有效结合,有效地提高钢琴乐曲考级评定结果的准确率。

具体地,从预处理后的音频数据中提取mfcc特征和能量特征后,通过计算得到一阶mfcc特征、二阶mfcc特征、一阶能量特征和二阶能量特征。本实施例中,所述声学特征为由12维mfcc特征、12维一阶mfcc特征、12维二阶mfcc特征、1维能量特征、1维一阶能量特征和1维二阶能量特征组合成的39维组合特征。

步骤s4:将所述声学特征输入预先训练好的rescnn神经网络模型,获得预测概率矩阵p。

步骤s5:根据所述预测概率矩阵p确定所述待评定钢琴乐曲的考级评定结果,具体为:所述考级评定结果包括不及格、及格、良好和优秀,所述预测概率矩阵p中的每个元素的值代表所述待评定钢琴乐曲属于该元素对应的考级评定结果的概率,将所述预测概率矩阵p中值最大的元素对应的考级评定结果作为所述待评定钢琴乐曲的最终的考级评定结果。

具体的,所述预测概率矩阵p表示为p=[p1,p2,p3,p4],其中,概率值p1、p2、p3和p4分别为所述待评定钢琴乐曲属于不及格、及格、良好和优秀的概率。

本实施例中,所述预先训练好的rescnn神经网络模型为针对钢琴十级考试进行训练的预测模型,其训练步骤具体如下:

获取训练样本集,所述训练样本集包括多个评定结果已知的样本音频数据,即训练样本集中的每个样本音频数据在钢琴十级考试中的评定结果(该评定结果包括不及格、及格、良好和优秀四种)均已知。

对所述样本音频数据进行预处理;

从预处理后的样本音频数据中提取样本声学特征,具体为采用梅尔频率倒谱系数(mfcc)从预处理后的样本音频数据中提取样本声学特征;

构建rescnn神经网络模型;

利用所述样本声学特征训练rescnn神经网络模型,得到训练好的rescnn神经网络模型;

其中,对所述样本音频数据进行的预处理与前述对待评定钢琴乐曲的音频数据进行的预处理相同,也包括归一化处理、去除静音段处理、去噪处理中的任意一项或多项;所述样本声学特征同样也是由12维mfcc特征、12维一阶mfcc特征、12维二阶mfcc特征、1维能量特征、1维一阶能量特征和1维二阶能量特征组合成的39维组合特征。

所述利用所述样本声学特征训练rescnn神经网络模型,得到训练好的rescnn神经网络模型,包括如下步骤:

将所述样本声学特征输入rescnn神经网络模型中,得到预测概率矩阵p′,并根据预测概率矩阵p′确定所述样本音频数据的预测评定结果,具体为:所述预测概率矩阵p′表示为p′=[p′1,p′2,p′3,p′4],其中,概率值p′1、p′2、p′3和p′4分别为所述样本音频数据属于不及格、及格、良好和优秀的概率,将所述预测概率矩阵p′中值最大的元素对应的评定结果(该评定结果包括不及格、及格、良好和优秀四种)作为所述样本音频数据的预测评定结果。

将所述样本音频数据的预测评定结果与真实评定结果进行比较,利用损失函数计算出损失值;

根据所述损失值利用损失函数优化算法更新模型参数;

重复上述步骤进行迭代训练,不断修正模型参数,直至所述损失函数值收敛或迭代次数达到预定次数,完成rescnn神经网络模型的训练。

本实施例中,所述损失函数采用交叉熵损失函数,所述损失函数优化算法为随机梯度下降算法,通过采用随机梯度下降算法最小化交叉熵损失函数,提高训练的精确度。当然,损失函数优化算法也可采用其他算法,具体实施方式并不以此为限。

本实施例中,所述训练样本集可从过往考试人员演奏的钢琴乐曲以及不同等级的钢琴乐曲中获取,其包括在钢琴十级考试中评定结果为不及格、及格、良好和优秀的钢琴乐曲。当然,在其他实施例中,若所述待评定钢琴乐曲对应的报考等级为其他钢琴等级(如钢琴一到九级中的任意一级),则所述训练样本集包括在该其他钢琴等级考试中评定结果为不及格、及格、良好和优秀的钢琴乐曲。

本发明还提供了一种钢琴考级评定装置,包括:

录音装置,用于获取待评定钢琴乐曲的音频数据并发送至计算机设备,所述录音装置为麦克风或麦克风阵列;

计算机设备,所述计算机设备包括至少一个处理器和与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述的一种基于深度学习的钢琴考级评定方法。

上述实施例仅用来进一步说明本发明的一种基于深度学习的钢琴考级评定方法及装置,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1