一种五音音乐调式识别方法及系统

文档序号：30829616发布日期：2022-07-22 20:30阅读：461来源：国知局

技术简介：
本发明针对传统五音音乐调式识别缺乏标准数据库和高精度方法的问题，提出基于色度特征提取与LSTM神经网络的识别方案。通过预处理、泛音去除、八度合并等步骤提取色度特征，结合数据增强技术构建训练集，利用双层LSTM+Dropout结构模型实现调式分类，测试准确率达59%。系统模块化设计实现音频获取、特征提取与模型识别全流程。
关键词：五音调式识别,色度特征提取,LSTM模型

1.本发明属于调式识别技术领域，具体涉及一种五音音乐调式识别方法及系统。

背景技术：

2.调式是乐音组织结构形式，是指若干高低不同的乐音围绕某个有稳定感的中心音，按一定的音程关系组织在一起，构成一个有机的体系。以调式的中心音为起始音和结束音，其他各音按音高的顺序依次排列成音阶的形式，称为调式音阶。
3.国外对于调式识别的研究主要集中在调号以及大小调式的识别，因为中国的五音音乐调式与国外调式概念存在一定差异，而且缺少完善标准的有调式标注的数据库，因此，目前针对中国五音音乐调式的识别研究很少，目前五音音乐调式识别方法有：基于决策树的中国民族音乐五声调式识别算法、基于模板匹配的中国民族音乐调式识别方法等。上述方法是针对乐谱与midi文件进行识别，但是由于样本数量过少，因此识别精度不高，可靠性有待提升。

技术实现要素：

4.本发明提供一种识别精度高、可靠性好的五音音乐调式识别方法及系统。
5.本发明提供的五音音乐调式识别方法，具体步骤为：
6.(1)获取待识别音乐音频；
7.(2)提取所述待识别音乐音频的色度特征；
8.(3)构建并训练调式识别模型；
9.(4)将所述待识别音乐音频的色度特征输入经过训练的调式识别模型中，即得到所述待识别音乐音频的调式。
10.本发明中，步骤(2)中所述提取所述待识别音乐音频的色度特征，具体包括：
11.(2.1)对所述待识别音乐音频进行预处理操作，得到所述待识别音乐音频的频谱图；
12.(2.2)将所述待识别音乐音频的频谱图转化为色谱图，所述待识别音乐音频的色谱图为所述待识别音乐音频的色度特征。
13.进一步地，步骤(2.1)中所述对待识别音乐音频进行预处理操作，具体包括：
14.(2.1.1)对所述待识别音乐音频进行预加重处理，得到加重后的音乐音频；
15.(2.1.2)对所述加重后的音乐音频进行分帧处理，得到分帧后的音乐音频；
16.(2.1.3)对所述分帧后的音乐音频进行加窗处理，得到加窗后的音乐音频；
17.(2.1.4)对所述加窗后的音乐音频进行短时间傅里叶变换，得到所述待识别音乐音频的频谱图。
18.可选地，步骤(2.1.2)中所述加重后的音乐音频进行分帧处理，具体包括：
19.对所述预加重后的音乐音频以512个采样点为一帧的方式进行分帧处理，得到分帧后的音乐音频；所述分帧后的音乐音频中每帧的时间长度为11.61ms，帧间重叠率为
50％。
20.进一步地，步骤(2.2)中所述将所述待识别音乐音频的频谱图转化为色谱图，具体包括：
21.(2.2.1)去除所述待识别音乐音频的频谱图中的泛音，得到去除后的频谱图；
22.(2.2.2)将所述去除后的频谱图进行调音，得到调音后的频谱图；
23.(2.2.3)采用基于响度的方法将所述调音后的频谱图转化为初始色谱图；
24.(2.2.4)对所述初始色谱图的八度音进行合并，并对合并后的色谱图进行归一化处理，得到所述待识别音乐音频的色谱图。
25.本发明中，步骤(3)中所述构建调式识别模型，该调式识别模型具体包括依次连接的第一长短期记忆模型层(lstm)、dropout层、第二长短期记忆模型层(lstm)、全连接层和softmax函数。
26.本发明中，步骤(3)中所述训练调式识别模型，具体包括：
27.(3.1)获取训练集；所述训练集包括训练音乐音频和对应的标注的调式；
28.(3.2)提取所述训练音乐音频的色度特征；
29.(3.3)将所述训练音乐音频的色度特征和对应的标注的调式，输入机器学习模型中进行训练，并将训练好的机器学习模型确定为调式识别模型。
30.进一步地，步骤(3.2)中所述提取训练音乐音频的色度特征，具体包括：
31.(3.2.1)对所述训练音乐音频进行数据增强处理，得到增强后的训练音乐音频；所述数据增强处理包括速度变换和音高变换；
32.(3.2.2)对增强后的训练音乐音频进行预处理操作，得到所述训练音乐音频的频谱图；
33.(3.2.3)将所述训练音乐音频的频谱图转化为色谱图，所述训练音乐音频的色谱图为所述训练音乐音频的色度特征。
34.可选的，步骤(3.2.1)中所述对训练音乐音频进行数据增强处理，得到增强后的训练音乐音频，具体包括：
35.(3.2.1.1)对所述训练音乐音频的速度分别按照1.1、1.2、0.9和0.8倍的速度进行变换，得到速度变换音乐音频；所述速度变换音乐音频包括速度变换前的音乐音频和速度变换后的音乐音频；
36.(3.2.1.2)对所述速度变换音乐音频的音高分别提升和降低1-3个半音，得到音高变换音乐音频；所述音高变换音乐音频包括音高变换前的音乐音频和音高变换后的音乐音频；
37.(3.2.1.3)将所述音高变换音乐音频确定为增强后的训练音乐音频。
38.本发明还提供一种五音音乐调式识别系统，包括：
39.音频获取模块，用于获取待识别音乐音频；
40.色度特征提取模块，用于提取所述待识别音乐音频的色度特征；
41.调式识别模型模块；
42.调式识别模型训练与识别模块，用于将所述待识别音乐音频的色度特征输入调式识别模型中，得到所述待识别音乐音频的调式；所述调式识别模型是采用训练集对机器学习模型进行训练得到的。
43.上述四个模块对应于本发明五音音乐调式识别方法4个步骤的操作。
44.与现有技术相比，本发明的有益效果是：
45.本发明直接针对音乐音频进行调式识别，解决了针对乐谱与midi文件进行识别时，由于样本数量过少造成的识别精度和可靠性不高的问题，本发明大大提高了识别的精度和识别的可靠性。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
47.图1为本发明实施例提供的五音音乐调式识别方法的流程图。
48.图2为本发明实施例提供的调式识别模型的确定方法流程图。
49.图3为本发明实施例提供的对训练音乐音频进行数据增强以及预处理操作的流程图。
50.图4为本发明实施例提供的频谱图向色谱图的转化流程图。
51.图5为本发明实施例提供的循环神经网络的结构图。
52.图6为本发明实施例提供的机器学习模型的结构图。
具体实施方式
53.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
54.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
55.目前，在中国传统五音疗法研究中，需要大量标注好调式的传统音乐音频，中国传统五行音乐传统音乐调式概念模糊，转调频繁，确定一首曲目的调式耗时费力，且难以规范。并且同一乐曲不同演奏版本繁杂，不同演奏版本导致调式不统一。对于商调式和角调式，因为结束在不稳定音上，更是难以找到足够的曲目。因此，亟需一种针对音频的调式识别方法出现。
56.图1为本发明实施例提供的五音音乐调式识别方法的流程图。参见图1，本实施例的五音音乐调式识别方法，直接针对音乐音频进行调式识别，该方法，包括：
57.步骤101：获取待识别音乐音频。
58.步骤102：提取所述待识别音乐音频的色度特征。
59.所述步骤102，具体包括：
60.(1)对待识别音乐音频进行预处理操作，得到待识别音乐音频的频谱图。具体为：
61.对所述待识别音乐音频进行预加重处理，得到加重后的音乐音频。对所述加重后的音乐音频进行分帧处理，得到分帧后的音乐音频。对所述分帧后的音乐音频进行加窗处
理，得到加窗后的音乐音频。对所述加窗后的音乐音频进行短时间傅里叶变换，得到所述待识别音乐音频的频谱图。
62.预加重处理：预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。信号在传输的过程中，总存在一定程度的损耗，因此在接收端需要对信号进行补偿，预加重技术的思想就是在传输线的始端增强信号的高频成分，以补偿高频分量在传输过程中的过大衰减。而预加重对噪声并没有影响，因此有效地提高了输出信噪比。
63.分帧处理：在处理音频信号时，一般需采用傅里叶变换，将语音信号由时域转换到频域空间。音频信号，其频率是不断变化的，也就是“非周期性”的，而在较短的时间内变化是平稳的，即具有“短时平稳性”(10-30ms内可以认为音频信号近似不变)，因此可以将长语音截断为短的片段，进行“短时分析”，此时，可以认为这段短时语音是具有周期性的。本实施例中使用的音乐音频均为44100hz，即加重后的音乐音频为44100hz，对所述加重后的音乐音频以512个采样点为一帧的方式进行分帧处理，得到分帧后的音乐音频；所述分帧后的音乐音频中每帧的时间长度为11.61ms，帧间重叠率为50％，即帧间重叠256个采样点。
64.加窗处理：在上面进行分帧后，需要对帧加窗函数。加窗的目的是截取一小段音频以便进行周期性延拓与傅里叶变换，不同的窗函数的频谱泄漏不同，可以根据数据与任务要求进行选择。因此，采用窗函数对所述分帧后的音乐音频进行加窗处理，得到加窗后的音乐音频；所述窗函数为矩形窗、汉宁窗或汉明窗。
65.①
矩形窗
66.这种窗的优点是主瓣比较集中，缺点是旁瓣较高，并有负旁瓣，导致变换中带进了高频干扰和泄漏，甚至出现负谱现象。
[0067][0068]
②
汉宁窗
[0069]
汉宁窗主瓣加宽并降低，旁瓣则显著减小，从减小泄漏观点出发，汉宁窗优于矩形窗.但汉宁窗主瓣加宽，相当于分析带宽加宽，频率分辨力下降。
[0070][0071]
③
汉明窗
[0072]
汉明窗与汉宁窗都是余弦窗，只是加权系数不同。汉明窗加权的系数能使旁瓣达到更小。
[0073][0074]
分析表明，汉明窗的第一旁瓣衰减为42db，汉明窗旁瓣衰减速度为20db/(10oct)，这比汉宁窗衰减速度慢。在本实施例中，选用汉明窗进行加窗。
[0075]
短时间傅里叶变换(short-time fourier transform，stft)：在信号做傅里叶变
换之前乘一个时间有限的窗函数h(t)，并假定非平稳信号在分析窗的短时间隔内是平稳的，通过窗函数h(t)在时间轴上的移动，对信号进行逐段分析得到信号的一组局部“频谱”。信号x(t)的短时傅里叶变换定义为：
[0076][0077]
经过stft后，将得到待识别音乐音频的频谱图。
[0078]
(2)得到待识别音乐音频的频谱图之后，需要进行去除背景杂音、调音、音高提取、八度归一等操作，从而将所述待识别音乐音频的频谱图转化为色谱图(chromagram)，所述待识别音乐音频的色谱图为所述待识别音乐音频的色度特征。具体的，去除所述待识别音乐音频的频谱图中的背景杂音，得到去除后的频谱图。将所述去除后的频谱图进行调音，得到调音后的频谱图。采用基于响度的方法将所述调音后的频谱图转化为初始色谱图。对所述初始色谱图的八度音进行合并，并对合并后的色谱图进行归一化处理，得到所述待识别音乐音频的色谱图。
[0079]
去除背景杂音：音乐中的打击元素会导致背景杂音，打击乐器的声音占据了很宽的频率范围但在时域上很窄，而和声(旋律、和弦、低音)则相反，本系统中需要着重分析和声和旋律信息，因此应去除打击乐器的杂音。此外，乐器不仅发出纯音，还会发出一系列较高频率的谐波和较低频率的次谐波，通常称为泛音，这种声音很容易混淆原本的和声，因此需要将其去除。
[0080]
调音：2003年，sheh和ellis发现一些流行音乐的音轨没有调到标准的a4＝440hz,为了弥补音乐录音中的这一问题，该步骤将音频调至标准音。
[0081]
音高提取：本过程将频谱图匹配到人类的听觉系统即获取频率所对应的固定音名，将频谱图转化为色谱图。此外，为了方便和弦和旋律的分析，加入了响度的因素，得到基于响度的色谱图。
[0082]
八度合并与归一化：音乐中音的八度变化对于和声基本性质没有影响，也不会对调式产生影响，因此在分析和弦或者调式的时候，需要将八度音进行合并，减少不必要的影响。
[0083]
步骤103：将所述待识别音乐音频的色度特征输入调式识别模型中，得到所述待识别音乐音频的调式；所述调式识别模型是采用训练集对机器学习模型进行训练得到的。
[0084]
其中，所述调式识别模型的确定方法主要包括：预处理、色度(chroma)特征提取和模型搭建与训练，如图2所示。该确定方法具体如下。
[0085]
(1)获取训练集；所述训练集包括训练音乐音频和对应的标注的调式。
[0086]
(2)提取所述训练音乐音频的色度特征。
[0087]
在提取训练音乐音频的色度(chroma)特征之前，需要对输入的训练音乐音频进行数据增强以及预处理操作，预处理操作包括预加重处理、分帧、加窗和短时间傅里叶变换等操作，如图3所示。数字音乐通常以每秒44100个采样(cd质量)的速度采样，在这种音乐音频的原始形式中，它不能直接提供音频的频率与和声信息。有证据表明，人类的听觉系统进行了从时域到频域的转换，使人们具备了感知旋律和和声信息的能力。与此类似，要将信号转换为更直接地反映频率内容的表示。傅里叶变换只反映出信号在频域的特性，无法在时域内对信号进行分析。为了将时域和频域相联系，通常使用音频的短时间傅里叶变换(stft)
来计算信号滑动窗口中的频率幅度。它综合了频谱图和时域波形的特点，明显的显示音乐频谱随时间的变化情况，或者可以说是一种动态的频谱。
[0088]
因此，步骤(2)中，首先对所述训练音乐音频进行数据增强处理，得到增强后的训练音乐音频；所述数据增强处理包括速度变换和音高变换。然后对所述增强后的训练音乐音频进行预处理操作，得到所述训练音乐音频的频谱图。
[0089]
数据增强处理：由于训练模型需要庞大的数据量，因此需要对现有的数据进行数据增强，以提高模型的泛用性，因为调式只和音乐旋律的相对音高有关，和音乐的速度，绝对音高都无关，因此对原音乐数据进行速度和音高的变化，以扩充数据量。对所述训练音乐音频进行数据增强处理，得到增强后的音乐音频；所述数据增强处理包括速度变换和音高变换，具体的数据增强处理过程为：
[0090]
对所述训练音乐音频的速度分别按照1.1、1.2、0.9和0.8倍的速度进行变换，得到速度变换音乐音频；所述速度变换音乐音频包括速度变换前的音乐音频和速度变换后的音乐音频。
[0091]
对所述速度变换音乐音频的音高分别提升和降低1-3个半音，得到音高变换音乐音频；所述音高变换音乐音频包括音高变换前的音乐音频和音高变换后的音乐音频。将所述音高变换音乐音频确定为增强后的训练音乐音频。
[0092]
对所述增强后的训练音乐音频进行预处理操作的过程，与步骤102中对所述待识别音乐音频进行预处理操作类似，在此不再赘述。
[0093]
在得到所述训练音乐音频的频谱图后，将所述训练音乐音频的频谱图转化为色谱图，并将所述训练音乐音频的色谱图为所述训练音乐音频的色度特征。频谱图向色谱图的转化流程如图4所示，该转化流程同步骤102中的转化流程类似，在此不再赘述。
[0094]
(3)将所述训练音乐音频的色度特征和对应的标注的调式输入机器学习模型中进行训练，并将训练好的机器学习模型确定为调式识别模型。
[0095]
具体的：中国传统音乐调式的概念与西方调式概念并非完全相同，很难设计一套完全标准的规则去识别调式，并且同一乐曲不同演奏版本繁杂，不同演奏版本导致调式不统一，因此本实施例采用机器学习模型来解决调式识别的问题，将音乐音频的色谱特征和标注的调式输入机器学习模型，让模型学习不同调式的特性，模型训练完之后，再输入未知音乐，提取色度特征后再输入给模型，最后得到预测的调式。
[0096]
传统音乐的调式特性与整首歌和弦和旋律的前后相对关联紧密，属于和时间相关很大的特性，因此选用循环神经网络(recurrent neural network，rnn)模型中的长短期记忆模型(long-short time memory，lstm)模型来处理此问题。
[0097]
rnn是时间递归性的网络。该类网络受启发于人脑中神经元的循环连接，通过类似循环的函数结构来存储信息。其循环结构的特点，常常用来处理时序相关的任务。该结构如图5所示，xt代表第t时刻的输入，ht代表第t时刻的输出。其中不同两个时刻之间通过状态信息ct进行连接，即每个时刻该网络都有两个输入一个输出。这种单纯循环的时间递归结构，随着层数增多的会带来网络梯度爆炸的问题，导致网络相当于只有最后几层有用。
[0098]
lstm也是一种rnn模型，rnn由于梯度消失，只能维持短期记忆，lstm通过引入记忆单元和门控制单元(将短期记忆与长期记忆结合)，在一定程度上解决了梯度消失的问题，可以学习到长期依赖的信息。lstm在上述rnn结构的基础上加入了遗忘门、输入门和输出
门。
[0099]
遗忘门可以控制前一个记忆单元中的信息有多少被遗忘：
[0100]ft
＝σ(wf·
[h
t-1
，x
t
]+bf)；
[0101]
其中，f
t
表示遗忘门，f
t
是一个向量，f
t
中的每个元素均位于[0，1]范围内；σ为激活函数，σ为一个介于[0，1]的值；wf为遗忘门对应的权重；bf为遗忘门对应的偏置；x
t
表示t时刻的输入事件信息；h
t-1
表示t-1时刻的输出值。
[0102]
输入门控制当前状态有多少去更新：
[0103]it
＝σ(wi·
[h
t-1
，x
t
]+bi)；
[0104]
其中，i
t
表示输入门；wi表示输入门对应的权重；bi为输入门对应的偏置。
[0105]
输出门控制当前的记忆单元有多少去输出：
[0106]ot
＝σ(wo[h
t-1
，x
t
]+bo)；
[0107]
其中，o
t
表示输出门；wo表示输出门对应的权重；bo为输出门对应的偏置。
[0108]
lstm通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息。适合很多需要长期记忆的任务。
[0109]
本发明中，两个lstm的结构一样。
[0110]
dropout层是一种可以用于减少神经网络过拟合的结构，大的神经网络容易发生过拟合的现象，dropout层可以随机地去除一部分神经元，本系统设定的概率为20％。
[0111]
本实施例所述机器学习模型包括依次连接的第一长短期记忆模型层(lstm)、dropout层、第二长短期记忆模型层(lstm)、全连接层(full connection，fc)和softmax函数，如图6所示。整个模型的输入为所有歌曲的色度特征以及标注好的调式。
[0112]
本实施例共选取100首传统五音音乐，包含宫调式48首，羽调式30首，徵调式22首，训练集与测试集比例设置为8∶2，即80首作为训练，20首作为测试，经过数据增强，总数据扩充为500首，400首作为训练集，100首作为测试集，模型训练完成后，将测试集输入，预测标签与已知标签对比，得出结果准确率为59.0％。
[0113]
在实际应用中，上述实施例中的五音音乐调式识别方法的一个实现过程如下：对已标注好的音乐进行数据增强和预处理操作，采用数据增强提高数据量；提取每首歌曲的chroma特征，作为后续模型的输入，取80％作为训练集，20％为测试集；对上一步得到的歌曲chroma特征与标注的调式信息作为模型输入训练模型，模型为：一层lstm，一层dropout层，再一层lstm，最后一层全连接层，训练出模型的参数；将测试集输入训练好的模型，得出测试结果，将未标注的音乐输入，得到系统识别的调式。该方法解决了现在五音疗法领域缺乏完善、标准的数据库的问题，能提高识别的精度和识别的可靠性。
[0114]
本发明还提供一种五音音乐调式识别系统，包括：
[0115]
音频获取模块，用于获取待识别音乐音频；
[0116]
色度特征提取模块，用于提取所述待识别音乐音频的色度特征；
[0117]
调式识别模型模块；
[0118]
调式识别模型训练与识别模块，用于将所述待识别音乐音频的色度特征输入调式识别模型中，得到所述待识别音乐音频的调式；所述调式识别模型是采用训练集对机器学习模型进行训练得到的。
[0119]
上述四个模块对应于本发明五音音乐调式识别方法4个步骤的操作。
[0120]
以上实施例只是用于帮助理解本发明的方法及其核心思想；同时，对于本技术领域技术人员，依据本发明的思想对实施方式所做改变，均在本发明范围内。综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李伟胡佳弋
技术所有人：复旦大学
我是此专利的发明人

上一篇：一种雾化仪的制作方法
下一篇：一种用于市政软土公路的小型长短桩复合地基整平装置的制作方法