音乐大数据检索的专业声乐旋律特征提取方法与流程

文档序号：32692746发布日期：2022-12-27 19:38阅读：40来源：国知局

1.本技术涉及一种音频大数据特征检索提取方法，特别涉及一种音乐大数据检索的专业声乐旋律特征提取方法，属于声音大数据处理技术领域。

背景技术：

2.随着网络技术的发展，音频信息呈现爆炸式的增长，在海量数据中进行有效检索的难度日益增加。音乐的存储、访问、分发和消费的方式在过去的几十年内发生了根本性的变化，如今，大型的音乐数据库中的记录可能存储在作为分销商、数字图书馆的服务器及个人计算机上，数以千万计的的音乐数据集合可以从世界各地访问。对于如此大量的容易获得的音乐信息，需要更加高效和专业的检索策略来引导用户轻松快速的获得感兴趣的内容。
3.然而，传统的音频检索策略依赖于人为标注的描述音乐信息的文本元数据信息，大多数搜索引擎依赖于元数据以及基于内容的文本注释，编辑元数据通常包括艺术家、标题以及其它相关信息。尽管与这种基于文本注释的检索策略相关的新技术的不断涌现，但一方面基本上还是受制于文本检索技术；另一方面当音乐数据量变得非常大时，要保持一致的描述信息非常困难。这种方式已经逐渐无法满足人们的检索需求，因为这种注释信息通常是模糊、不准确、不足以描述音乐数据的复杂性和专业性的，而且带有一定的主观性。
4.仅基于元数据的检索系统的一个缺点是用户需要明确的知道他要寻找的音频的相关信息，即基于元数据的检索方式仅仅允许搜索已知的内容。为了克服这些限制，有利用基于音乐内容的一般表达和注释，即标签来对检索系统进行优化。为了进一步的降低建立标签系统的难度，有的系统采用用户标注的方式来获得标签，但以这种途径获得的标签，通常不太准确，且带有有非常严重的的主观性，并且会存在噪声，即这种方式获得的标签在不同的用户之间表现出高度的可变性，当系统规模逐渐扩大时，这种方式建立的标签系统甚至会变得不可用。依赖于大量用户创建可靠注释的发发发，虽然对于较为流行的音乐而言不存在较大问题，但对于一些刚刚发布，或不太热门的音乐而言，基本上不存在可靠的标记。
5.为了克服上述系统的种种劣势，现有技术提出了基于内容的检索，因为这种系统基本上不依赖于任何手动创建的数据来引导检索过程,而是基于音乐数据内容，可再现的方式获得的覆盖整个音乐数据的特征，通常获得的特征具有很强的客观性。通过输入一段音乐数据或乐谱信息，然后获得与输入相同的或在某种程度上具有一定相似性(例如风格、艺术家)的数据。用户可以很方便的实现检索目的，并且这种技术有助于推荐方法、分类技术的发展，从而进一步提升检索系统的性能。
6.基于内容的音频检索的需求会越来越大，且将具有广泛的应用前景。但如何获得具有更高鲁棒性，能更好的表征音频数据，并具有更强的普适性和专业性的特征，已成为研发重点。另外，在大规模检索系统中，如何更加快速、更加精确的获得结果，也是亟需解决的问题。
7.综上，现有技术的音乐大数据检索特征提取仍然存在若干问题和缺陷，本技术需要解决的问题和关键技术难点包括：
8.(1)现有技术一大类的音频检索策略依赖于人为标注的描述音乐信息的文本元数据信息，大多数搜索引擎依赖于元数据以及基于内容的文本注释，尽管与这种基于文本注释的检索策略相关的新技术的不断涌现，但一方面基本上还是受制于文本检索技术；另一方面当音乐数据量变得非常大时，要保持一致的描述信息非常困难，这种方式已经逐渐无法满足人们的检索需求，因为这种注释信息通常是模糊、不准确、不足以描述音乐数据的复杂性和专业性的，而且带有一定的主观性，特别是对于专业声乐旋律特征严重依赖文本注释，鲁棒性差，并且结果的精确无法保证，面对海量音频数据标注的工作量太大。
9.(2)现有技术仅基于元数据的检索系统的缺点模型，用户需要明确的知道他要寻找的音频的相关信息，即基于元数据的检索方式仅仅允许搜索已知的内容。为了克服这些限制，有利用基于音乐内容的一般表达和注释，即标签来对检索系统进行优化。现有技术采用用户标注的方式来获得标签通常不太准确，且带有有非常严重的的主观性，并且会存在噪声，即这种方式获得的标签在不同的用户之间表现出高度的可变性，当系统规模逐渐扩大时，这种方式建立的标签系统甚至会变得不可用，依赖于大量用户创建可靠注释，对于一些刚刚发布，或不太热门的音乐而言，基本上不存在可靠的标记，对于海量音乐信息，现有技术缺少高效和专业的检索策略来引导用户轻松快速的获得感兴趣的内容。
10.(3)现有技术基于内容的音频检索鲁棒性低，无法很好的表征音频数据，普适性和专业性特征不强，亟需在频率分解、显著性计算、建立音高轮廓以及旋律生成等多个方法进行优化，缺少采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉，信号相位信息设计不合理导致傅里叶变换存在分辨率问题；无法将频率标度映射到音分标度用于后续提高精度，缺少利用类比谐波加权求和的方式计算谱峰显著性，无法对频谱峰值进行表征，显著性不符合听觉原理；无法缓解浊音帧被误过滤的问题；缺少采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段，缺少采用显著性加权的方式对旋律参考线进行调整，导致最终生成音乐的旋律曲线声乐专业特征不明显，旋律特征精度较低。
11.(4)现有技术缺少基于乐理的显著性表征方法，缺少将对应的频率映射到符合人类听觉特征的十二平均律中，不符合听觉特征，在计算某一个量化点的显著性时，未考虑一帧信号中所有谱峰的显著性贡献，噪声影响较大。现有技术缺少基于音高轮廓声乐计量特征的旋律提取方法，缺少整面域处理的方式对倍频声乐误差的消除的优化，缺少非音高轮廓的频谱峰值集合优化建立轮廓的过程，无法提取音高轮廓的声乐计量特征，未设置轮廓频率峰度以及显著性峰度，未将颤音引入以调整颤音特征的影响；缺少对轮廓分离净化的最终阶段进行优化,未将轮廓总显著性及轮廓持续时长这两个特征引入，缺少轮廓总显著性所占比重加权的方式调整参考旋律曲线，最终的旋律曲线总显著性小，提取的声乐旋律特征复杂、时间和节奏变化性能差，表示音乐信号内容小，不利于大数据下的音乐快速检索。

技术实现要素：

12.本技术创造性的提出一种采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法，基于音乐数据内容，可再现的方式获得的覆盖整个音乐数据的特征，大幅提高了
对专业声乐特征提取的准确性；采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉，改进信号相位信息缓解傅里叶变换存在的分辨率问题；将频率标度映射到音分标度用于后续精确处理，使得显著性更加符合听觉原理；采用整面域处理对音高轮廓的生成阶段进一步优化，缓解浊音帧被误过滤的问题；采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段，将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型，采用显著性加权的方式对旋律参考线进行不断调整，获得具有更高鲁棒性，能更好的表征音频数据，并具有更强的普适性和专业性的特征，在大规模音频检索系统中，能够更加快速精确的获得专业声乐旋律特征。
13.为实现以上技术效果，本技术所采用的技术方案如下：
14.音乐大数据检索的专业声乐旋律特征提取方法，采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法，分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤，采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉，改进信号相位信息缓解傅里叶变换存在的分辨率问题；将频率标度映射到音分标度用于后续处理，利用类比谐波加权求和的方式计算谱峰显著性，对频谱峰值进行表征，使得显著性更加符合听觉原理；采用整面域处理对音高轮廓的生成阶段进行进一步优化，缓解浊音帧被误过滤的问题；采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段，将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型，采用显著性加权的方式对旋律参考线进行不断调整，最终生成音乐的旋律曲线；
15.1)基于乐理的显著性表征方法：首先，通过将对应的频率映射到符合人类听觉特征的十二平均律中，以音分为标度；其次，在计算某一个量化点的显著性时，考虑一帧信号中所有谱峰的显著性贡献，将某一个谱峰视为该量化点的谐波分量，使器可被应用于多个量化点之间的一个谱峰，减弱噪声影响。
16.2)基于音高轮廓声乐计量特征的旋律提取方法：首先采用整面域处理的方式对倍频声乐误差的消除进行优化，采用构成非音高轮廓的频谱峰值集合优化建立轮廓的过程；其次提取音高轮廓的声乐计量特征，并设置轮廓频率峰度以及显著性峰度，依次建立各个特征的计算模型和方式，且绘制数据集合的各个特征的概率分布曲线，然后，新引入参数因子τ
vib
和τ
div
，将颤音引入以调整颤音特征的影响；对轮廓分离净化的最终阶段进行优化,采用整面域处理对倍频轮廓进行识别，将轮廓总显著性及轮廓持续时长这两个特征引入，采用轮廓总显著性所占比重加权的方式调整参考旋律曲线使得最终的旋律曲线倾向于总显著性更大的轮廓。
17.优选地，将谱峰映射到音分标度：首先，根据听觉原理，基于55hz至1760hz范围内的5个八度音频率范围，根据十二平均律将这一频率范围分为600个量化点，每两点间距为10音分，对于频率fi，将其映射到量化后的刻度上如式1所示：
[0018][0019]
将谱峰映射到音分标度。
[0020]
优选地，计算旋律显著性：对于某一个频谱峰值f，将其视为某一音分的n次谐波，采用一个临界值进行处理，也即只将与帧内最大谱峰的能量差异在某一临界值(γ)内的共振峰考虑在内，削弱非旋律频率的影响；
[0021]
接下来计算点b的显著性，如式2所示，其中fi为谱峰pi的频率，mi为谱峰的振幅，nh为考虑的共振峰的数量，β为将振幅转化为能量的缩放函数：
[0022][0023]
函数e(mi)为进行振幅量化的方式，如式3所示，其中m
max
为谱峰的振幅，γ为共振峰与谱峰的能量差异：
[0024][0025]
最后采用函数g(b,h,fi)定义共振峰的权重，如式4所示，其中h是考虑所有共振峰的编号，峰值处为1，α是谐波权重的参数，b是谱峰的映射后的标度，δ是谐波频率fi/h与量化点b的中心频率的距离，引进δ保证共振峰不是单独的应用于某一个量化点，而是应用于相邻的量化点之间，削弱量化带来的误差，如式5所示：
[0026][0027][0028]
得到基于乐理的显著性表示。
[0029]
优选地，音高轮廓计量生成方法的优化：利用音高轮廓的声乐计量特征引导生成最终的旋律序列，并且采用整体分离净化的方式对轮廓的建立阶段进行优化；
[0030]
基于音高轮廓的方式首先根据音高序列，提取出所有可能成为最终旋律的短时序列，然后计算其综合特征进一步优化，最终得到旋律结果，在选择轮廓之前首先对音高序列进行分离净化，去除非旋律音高的影响，丢弃过滤掉的非旋律音高，获得更高精度的轮廓特征，建立最终的旋律曲线，并对其进行进一步的优化；
[0031]
首先，在帧的基础上过滤掉与峰值差距一个临界值τ1之外的共振峰；其次，计算第一步处理之后的所有峰(所有帧中)的平均值μs以及标准差δs，然后引入参数τ
δ
，以便决定对峰值的分离净化程度，如式6所示：
[0032]smax
＝μ
s-τ
δ
·
δsꢀꢀꢀꢀ
式6
[0033]
在建立音高轮廓时，综合考虑分离净化后的音高集合c1与被滤出的音高集合c2，具体流程包括：
[0034]
第一步：从集合c1中选取最大值f0，如果存在f0，将其从c中去除，设定参考点f
t
＝f0，并且建立新的音高轮廓s0，转向第二步，如果不存在，方法结束；
[0035]
第二步：从集合c1中选取时间上在f
t
之后，并且与之音高偏差在一个半音之内的峰值f1，如果f1存在，将其从c1中去除，并且将其添加到s0中，更新f
t
＝f1，重复第二步，如果f1不存在，开始计算间隔时长t0＝0，转向第三步；
[0036]
第三步：从集合c2中选择与f
t
音高偏差在一个半音之内，且时间上在f
t
之后的峰值f2，如果f2不存在，转向第五步，如果f2存在，转向第四步；
[0037]
第四步：如果t0≤100ms，则将f2添加到s0，并将其从c2中去除，更新f
t
＝f2，转向第二步，否则，转向第五步；
[0038]
第五步：如果s0不为空，将s0添加到轮廓集合c3中，转向第一步。
[0039]
优选地，引入参数τ1，用于分离净化单帧内的非旋律峰；参数τ
δ
用于确定允许的旋律峰值的最大偏差，本技术τ1＝0.92，τ
δ
＝0.91，虽然增大τ1，同时增大τ
δ
，导致分离净化掉更多非旋律峰的同时也分离净化掉更多的旋律峰，对于最终旋律的构建起到更好作用。
[0040]
优选地，旋律轮廓的声乐计量特征：采用基于轮廓声乐计量特征的方式对轮廓进行分离净化，并且利用颤音以及音高标准差引导旋律的构建，以获得最终结果，得到的音高轮廓由两种方式表示:音高的频率表示和音高的显著性表示,p(n)是音高的频率表示,s(n)是音高的显著性表示，假设对于某一轮廓，共有n个频谱峰，采用上述方式对以下特征表示后者，假设对于某一轮廓，共有n个频谱峰，采用上述方式对以下特征的概率分布进行计算；
[0041]
(1)音高频率平均值，表示音高轮廓的平均频率，如式7所示：
[0042][0043]
(2)音高频率标准差，表示音高轮廓的频率标准差，如式8所示：
[0044][0045]
(3)音高频率峰度，表示音高轮廓频率的峰度，如式9所示：
[0046][0047]
(4)轮廓总显著性，表示某一轮廓的所有峰的总显著性，如式10所示：
[0048][0049]
(5)轮廓显著性平均值，表示音高轮廓显著性的均值，如式11所示：
[0050][0051]
(6)轮廓显著性标准差，表示音高轮廓显著性的标准差，如式12所示：
[0052][0053]
(7)轮廓显著性峰度，表示音高轮廓显著性的峰度，如式13所示：
[0054][0055]
(8)轮廓的持续时长，表示某一音高轮廓的持续时长，如式14所示，其中fs为信号采样率，h为进行fft变换时，窗口的前进步长：
[0056][0057]
(9)颤音是否存在，将每一个轮廓进行傅里叶变换，分析其频谱峰值是否位于5至8hz之间来确定颤音，如果是则存在颤音，否则不存在，采用一个布尔类型参数cv表示。
[0058]
优选地，检测旋律是否存在：
[0059]
对于发声检测，采用音高轮廓的平均显著性来引导处理，首先计算所有的均值，记为然后计算其标准差，记为引入临界值参数τv，来决定被剔除的轮廓所应该具有的平均显著性的上限，如式15所示：
[0060][0061]
其中，参数v决定允许的偏差。
[0062]
对于检测到颤音的轮廓，允许更大的偏差，对于不满足参数τv，但音调标准差在40音分以上时，也应该允许更大的偏差，为此引入参数τ
vib
和τ
div
来对进行调整，采用布尔类型参数c
is
来表示轮廓是否为旋律轮廓，其取值有以下几种情况：
[0063]
1)时，c
is
＝true；
[0064]
2)cv＝false且时，c
is
＝false；
[0065]
3)cv＝true且时，如果c
is
＝true，否则c
is
＝false；
[0066]
4)cv＝false且时，如果c
is
＝true，否则c
is
＝false；
[0067]
5)cv＝true且时，如果c
is
＝true,否则，c
is
＝false。
[0068]
优选地，倍频声乐误差消除：
[0069]
首先，在轮廓的基础上检测共振峰,以削弱多音源带来的影响，在每一个音高轮廓重复的区域，在帧的基础上计算所有帧的音高偏差的平均值本技术令音分，通过这种方式检测到的共振峰，保证音高轮廓在形态上相似性，音高轮廓设置以下特征：一是旋律轮廓比起倍频轮廓具有更大的显著性；二是最终的旋律曲线应该避免较大的频率跳跃；
[0070]
对于检测到的具有倍频关系的音高轮廓，首先计算每个轮廓的总显著性然后计算每个轮廓总显著性是否在最大显著性的一半以上，如果不是，则直接将其分离净化掉，如果是则进行后续处理，此时对于存在共振峰的轮廓，其在显著性上相似，根据上述的第二个特征进一步处理；
[0071]
采用权重变换的方式，以帧为基础，计算每一帧的平均音高，得到一个参考旋律序列然后为了引入最终旋律应该避免较大跳跃这一信息，在出现轮廓重叠的区域，分离净化掉距离较远或具有一场音高的轮廓，每次滤出轮廓之后都对进行调整，以获得更精确的结果。
[0072]
优选地，本技术的整面域声乐误差消除过程包括：
[0073]
步骤一：对旋律检测处理之后的轮廓集合进行处理，寻找时间上重叠且没有处理的轮廓，如果找到转步骤二，否则转步骤四；
[0074]
步骤二：对轮廓重叠区域计算所有帧的音高偏差平均值去除或者或者的轮廓，只保留近似符合八度关系的轮廓，转步骤三；
[0075]
步骤三：对于具有八度关系的轮廓，计算每个轮廓的总显著性保留在最大值一半以上的轮廓，去除谐音，转步骤一；
[0076]
步骤四：计算每个音高轮廓在所有轮廓中的权重，用cw表示，如式16所示,
[0077][0078]
其中nc表示轮廓总数表示计算得到的轮廓总显著性序列，转步骤五：
[0079]
步骤五：以帧为基础，计算每一帧的平均音高，得到一个关于时间的音高序列如式17所示：
[0080][0081]
其中nc表示某一帧所参与组成轮廓的数量，cw(n,i)表示第n号帧的共振峰i所组成的轮廓的权重，p(n,i)表示第n号帧的共振峰i处的频率，转步骤六；
[0082]
步骤六：寻找出现时间上重叠，但没有处理的轮廓，如果有则继续，否则转步骤七，计算轮廓的持续时间段上每个轮廓与序列的音高差值，选择差距较小的轮廓作为结果，但如果所有差值均在半个八度以上，选择轮廓总显著性较大的作为结果。转步骤四；
[0083]
步骤七：寻找与序列的音高差值在一个八度以上的轮廓，如果有，删除该轮廓，转步骤四，否则方法结束。
[0084]
通过以上方式，使得最终的旋律更加偏向于具有较大总显著性，也即具有较长时长的轮廓，最终得到旋律曲线。
[0085]
与现有技术相比，本技术的创新点和优势在于：
[0086]
(1)本技术创造性的提出一种采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法，基于音乐数据内容，可再现的方式获得的覆盖整个音乐数据的特征，基于专业
声乐旋律特征分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤，大幅提高了对专业声乐特征提取的准确性；采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉，改进信号相位信息缓解傅里叶变换存在的分辨率问题；将频率标度映射到音分标度用于后续精确处理，利用类比谐波加权求和的方式计算谱峰显著性，使得显著性更加符合听觉原理；采用整面域处理对音高轮廓的生成阶段进一步优化，缓解浊音帧被误过滤的问题；采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段，将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型，采用显著性加权的方式对旋律参考线进行不断调整，最终生成音乐旋律曲线，获得具有更高鲁棒性，能更好的表征音频数据，并具有更强的普适性和专业性的特征，在大规模音频检索系统中，能够更加快速精确的获得专业声乐旋律特征。
[0087]
(2)本技术创造性的提出了基于乐理的显著性表征方法，首先，提出利用信号相位信息引导校准频率的方法，以音分为标度，通过将对应的频率映射到符合人类听觉特征的十二平均律中；其次，在计算某一个量化点的显著性时，考虑一帧信号中所有谱峰的显著性贡献，将某一个谱峰视为该量化点的谐波分量，使器可被应用于多个量化点之间的一个谱峰，减弱噪声影响，对于量化引入的误差进行一定的消除，使得本技术方法最终具有更低的浊音误报率与较高的鲁棒性。
[0088]
(3)本技术提出了基于音高轮廓声乐计量特征的旋律提取方法，首先采用整面域处理的方式对倍频声乐误差的消除进行了优化，采用构成非音高轮廓的频谱峰值集合优化了建立轮廓的过程；其次提取音高轮廓的声乐计量特征，设置轮廓频率峰度以及显著性峰度，依次建立了各个特征的计算模型和方式，然后，新引入参数因子，将颤音引入以调整颤音特征的影响；对轮廓分离净化的最终阶段进行了优化,将轮廓总显著性及轮廓持续时长这两个特征引入，采用轮廓总显著性所占比重加权的方式调整参考旋律曲线，使得最终的旋律曲线倾向于总显著性更大的轮廓，提取的声乐旋律特征简单明晰、时间和节奏变化性能好，表示音乐信号内容多且全，实验中声乐旋律特征提取效率提高26％，有助于大数据下的音乐快速精确检索。
[0089]
(4)本技术的创新点还表现在：一是提出了利用信号的相位信息对常用的傅里叶变换存在的精度问题进行校正的方法；二是采用基于显著性的方式对频谱峰值进行表征，在计算显著性时，提出将频率标度映射到音分标度，使之更加符合听觉特征；同时提出采用整体分离净化的方式，将帧中的峰值用于所有音分标度的显著性计算中，利用频谱峰值的声乐计量特征进行分离净化,采用了一种整体的方式对音高轮廓的建立过程进行优化。三是提出利用音高轮廓的声乐计量特征，包括平均音高、音调偏差、显著性、颤音的出现以及持续时长和峰度特征引导本技术建立最终的旋律序列，并且提出采用显著性加权的方式设置参考旋律序列并进行迭代调整，建立最终的旋律序列。本技术方法在浊音召回率(vr)、浊音误报率(vfa)、真实音高估计(rpa)、真实色度估计精度(rca)等多个声乐旋律专业特征评价指标上较现有技术都有明显优势。
附图说明
[0090]
图1是基于乐理的显著性表征方法的整体流程图。
[0091]
图2是音高轮廓计量生成方法的优化流程示意图。
[0092]
图3是一段音频的音高轮廓提取结果示意图。
[0093]
图4是旋律分布的几种特征的概率分布曲线示意图。
[0094]
图5是基于轮廓声乐计量特征的旋律示意图。
[0095]
图6是倍频声乐误差消除流程示意图。
[0096]
图7是一段音频的最终旋律曲线示意图。
[0097]
图8是本技术所用a类参数符号说明及取值参考图。
[0098]
图9是本技术所用b类参数符号说明及取值参考图。
[0099]
图10是本技术几种旋律提取方法的评价结果示意图。
具体实施方式
[0100]
下面结合附图，对本技术提供的音乐大数据检索的专业声乐旋律特征提取方法的技术方案进行进一步的描述，使本领域的技术人员能够更好的理解本技术并能够予以实施。
[0101]
音乐的存储、访问、分发及消费的方式在过去的几十年中已经发生了根本性的改变，无论是音乐的发布还是流通，都变得更加便捷。音乐是互联网上最流行的信息之一，当今世界上存在数以千万计的音乐数据库可以在世界各地自由访问，这样大量且易获得的数据对音乐检索策略提出了挑战。传统检索方式是基于人工标注的元数据，然而这种方式由于其固有的缺点，已不能满足当今用户更加多样化的需求，基于内容的音乐检索逐渐被重视起来。
[0102]
本技术提出一种基于音高轮廓声乐计量特征与整面域优化的旋律提取方法，分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤，采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉，改进信号相位信息缓解傅里叶变换存在的分辨率问题；将频率标度映射到音分标度用于后续处理，利用类比谐波加权求和的方式计算谱峰显著性，对频谱峰值进行表征，使得显著性更加符合听觉原理；采用整面域处理对音高轮廓的生成阶段进行进一步优化，在一定程度上缓解浊音帧被误过滤的问题；采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段，将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型，采用显著性加权的方式对旋律参考线进行不断调整，最终生成音乐的旋律曲线。
[0103]
最后采用相关数据集与评价指标通过实验验证了本技术方法的可行性与有效性，与现有技术的方法进行了对比分析。在没有引入复杂数学模型及方法的情况下，本技术方法具有更高的鲁棒性，专业声乐旋律特征的提取更加准确，同时对于声乐信号具有更低的浊音误报率和较高的浊音召回率。
[0104]
一、基于乐理的显著性表征方法
[0105]
虽然通过谐波加权求和可以近似表征某一时间点的一系列频率的显著性，但其并没有考虑人类的听觉原理，以及噪声和谐波带来的误差。
[0106]
因此，本技术(基本流程如图1所示)：首先，通过将对应的频率映射到符合人类听觉特征的十二平均律中，以音分为标度；其次，本技术不直接采用谐波加权求和的方式，而是在计算某一个量化点的显著性时，考虑一帧信号中所有谱峰的显著性贡献，也即将某一个谱峰视为该量化点的谐波分量，使得可以被应用于多个量化点之间的一个谱峰，以减弱
噪声的影响。
[0107]
基于乐理的显著性表征方法的流程中涉及到的计算包括：
[0108]
1.将谱峰映射到音分标度
[0109]
首先，根据听觉原理，基于55hz至1760hz(其中55hz为钢琴的音符a1所具有的频率)范围内的5个八度音频率范围，根据十二平均律将这一频率范围分为600个量化点(每两点间距为10音分)，对于频率fi，将其映射到量化后的刻度上如式1所示：
[0110][0111]
将谱峰映射到音分标度。
[0112]
2.计算旋律显著性
[0113]
对于某一个频谱峰值f，将其视为某一音分的n次谐波，采用一个临界值进行处理，也即只将与帧内最大谱峰的能量差异在某一临界值(γ)内的共振峰(只考虑与cents标度中音程差距一个半音之内的共振峰)考虑在内，以削弱非旋律频率的影响。
[0114]
接下来计算点b的显著性(将一帧中所有共振峰考虑在内)，如式2所示，其中fi为谱峰pi的频率，mi为谱峰的振幅，nh为考虑的共振峰的数量，β为将振幅转化为能量的缩放函数(通常认为能量为振幅的二次方，但引入参数便于本技术后续的调优)：
[0115][0116]
函数e(mi)为进行振幅量化的方式，如式3所示，其中m
max
为谱峰(帧中振幅最大的峰)的振幅，γ为共振峰与谱峰的能量差异(采用db标度)：
[0117][0118]
最后采用函数g(b,h,fi)定义共振峰的权重，如式4所示，其中h是考虑所有共振峰(共n,个)的编号，峰值(振幅最大的频率)处为1，α是谐波权重的参数，b是谱峰的映射后的标度(音分)，δ是谐波频率fi/h与量化点b的中心频率的距离(以半音为单位)，引进δ保证共振峰不是单独的应用于某一个量化点，而是应用于相邻的量化点之间，削弱量化带来的误差，如式5所示：
[0119]
[0120][0121]
得到基于乐理的显著性表示。
[0122]
二、基于音高轮廓声乐计量特征的旋律提取方法
[0123]
得到音乐信号的频率组成及其显著性表示后，对于最终的旋律，单纯的显著性表示还不够直观，并且单纯的临界值处理也很难保证方法的鲁棒性。为此，本技术提出一种基于音高轮廓声乐计量特征的旋律提取方法，首先采用整体分离净化方式对轮廓的生成进行优化，然后在此基础上利用轮廓的声乐计量特征引导最终旋律的生成。
[0124]
(一)音高轮廓计量生成方法的优化
[0125]
通过前面的处理,得到了信号的频率组成,及其对应的显著性，相对于直接采用振幅的频谱图，旋律变得更加直观，但获得的效果并不理想，因为此时显著性相对于最终旋律而言还是比较复杂。本技术利用音高轮廓(根据显著函数的峰值将音高组织成在时间上连续的序列)的声乐计量特征引导生成最终的旋律序列，并且提出采用整体分离净化的方式对轮廓的建立阶段进行优化。
[0126]
与其它直接采用临界值处理的技术不同，基于音高轮廓的方式首先根据音高序列，提取出所有可能成为最终旋律的短时序列，然后计算其综合特征进一步优化，最终得到旋律结果，在选择轮廓之前首先对音高序列进行分离净化，去除非旋律音高的影响，丢弃过滤掉的非旋律音高，获得更高精度的轮廓特征，建立最终的旋律曲线，并对其进行进一步的优化。
[0127]
首先，在帧的基础上过滤掉与峰值差距一个临界值τ1之外的共振峰；其次，计算第一步处理之后的所有峰(所有帧中)的平均值μs以及标准差δs，然后引入参数τ
δ
，以便决定对峰值的分离净化程度(即允许共振峰与平均值的最大偏差)，如式6所示：
[0128]smax
＝μ
s-τ
δ
·
δsꢀꢀꢀ
式6
[0129]
对于τ
δ
，当其较大时，在过滤掉更多的非旋律峰的同时，也会分离净化掉更多的旋律峰；但当其较小时，很少分离净化掉旋律峰，但对于非旋律峰的分离净化效果也不明显；
[0130]
虽然通过以上方式,可以对音高轮廓的建立起到一定的优化作用，但考虑到在分离净化峰值时，由于有可能在一定程度上分离净化掉一部分因为噪声因素被掩盖的构成旋律序列的音高，所以在建立音高轮廓时，综合考虑分离净化后的音高集合c1与被滤出的音高集合c2，基本流程如图2所示。
[0131]
具体流程包括：
[0132]
第一步：从集合c1中选取最大值f0，如果存在f0，将其从c中去除，设定参考点f
t
＝f0，并且建立新的音高轮廓s0，转向第二步，如果不存在，方法结束；
[0133]
第二步：从集合c1中选取时间上在f
t
之后，并且与之音高偏差在一个半音之内的峰值f1，如果f1存在，将其从c1中去除，并且将其添加到s0中，更新f
t
＝f1，重复第二步，如果f1不存在，开始计算间隔时长t0＝0，转向第三步；
[0134]
第三步：从集合c2中选择与f
t
音高偏差在一个半音之内，且时间上在f
t
之后的峰值f2，如果f2不存在，转向第五步，如果f2存在，转向第四步；
[0135]
第四步：如果t0≤100ms，则将f2添加到s0，并将其从c2中去除，更新f
t
＝f2，转向第二步，否则，转向第五步；
[0136]
第五步：如果s0不为空，将s0添加到轮廓集合c3中，转向第一步﹔
[0137]
引入参数τ1，用于分离净化单帧内的非旋律峰；参数τ
δ
用于确定允许的旋律峰值的最大偏差，本技术τ1＝0.92，τ
δ
＝0.91，虽然增大τ1，同时增大τ
δ
，导致分离净化掉更多非旋律峰的同时也分离净化掉更多的旋律峰，但由于在建立轮廓时综合考虑了已经滤出的集合，对于最终旋律的构建，起到了更好的作用。
[0138]
(二)基于音高轮廓的声乐旋律构建方法
[0139]
经过上述处理，得到了一系列的旋律轮廓，如图3所示，但对最终的旋律，在每一个时间点，应该只有一个频率值与之对应。所以，本技术对所得旋律轮廓进行进一步分离净化处理，以确定最终的旋律曲线，采用音高轮廓的声乐计量特征来引导旋律生成的最后阶段。
[0140]
1.旋律轮廓的声乐计量特征
[0141]
采用基于轮廓声乐计量特征的方式对轮廓进行分离净化，并且利用颤音以及音高标准差引导旋律的构建，以获得最终结果，得到的音高轮廓由两种方式表示:音高的频率表示(用音分表示)和音高的显著性表示,p(n)是音高的频率表示,s(n)是音高的显著性表示，假设对于某一轮廓，共有n个频谱峰，采用上述方式对以下特征表示后者。假设对于某一轮廓，共有n个频谱峰，采用上述方式对以下特征的概率分布进行计算，如图4所示，其中图(a)为音高频率平局值、图(b)为音高频率标准差、图(c)为音高频率峰度、图(d)为轮廓总显著性、图(e)为轮廓显著性平均值、图(f)为轮廓显著性标准差、图(g)为轮廓显著性峰度、图(h)为轮廓持续时长的概率分布。其中实线代表构成旋律的音高轮廓的特征，虚线代表非旋律轮廓的特征。
[0142]
(1)音高频率平均值，表示音高轮廓的平均频率，如式7所示：
[0143][0144]
(2)音高频率标准差，表示音高轮廓的频率标准差，如式8所示：
[0145][0146]
(3)音高频率峰度，表示音高轮廓频率的峰度，如式9所示：
[0147][0148]
(4)轮廓总显著性，表示某一轮廓的所有峰的总显著性，如式10所示：
[0149][0150]
(5)轮廓显著性平均值，表示音高轮廓显著性的均值，如式11所示：
[0151]
[0152]
(6)轮廓显著性标准差，表示音高轮廓显著性的标准差，如式12所示：
[0153][0154]
(7)轮廓显著性峰度，表示音高轮廓显著性的峰度，如式13所示：
[0155][0156]
(8)轮廓的持续时长，表示某一音高轮廓的持续时长，如式14所示，其中fs为信号采样率，h为进行fft变换时，窗口的前进步长：
[0157][0158]
(9)颤音是否存在，如图3中2.5至3.5s时间的音高表示，呈现有规律的波动，本技术将这种波动称之为颤音，将每一个轮廓进行傅里叶变换，分析其频谱峰值是否位于5至8hz之间来确定颤音，如果是则存在颤音，否则不存在，采用一个布尔类型参数cv表示。
[0159]
旋律具有较大的音高频率方差、持续时间较长的轮廓、较大的显著性以及频率集中分布在中频区域。本技术通过图4给出概率分布观察，可以看出在图(b)中，当音高频率方差在50音分以上时，非旋律轮廓的概率在10％以下；在图(h)中，当轮廓持续时长大于0.5s时，几乎可以确定为旋律轮廓；在图(d)中，当轮廓总显著性在1以上时，是非旋律轮廓的概率在10％以下；在图(a)中,音高频率分布在2000至3000音分(频率大概在200至300hz)之间。可以看出这些特征的分布与本技术描述吻合，可以用其引导建立更加精确的旋律曲线。
[0160]
2.基于轮廓声乐计量特征的旋律构建
[0161]
旋律曲线提取所面临的问题为：旋律是否存在(发声检测)以及倍频声乐误差。虽然上述处理在一定程度上缓解了该问题，对于同一时间点，最终的旋律曲线应该只有一个固定的频率与之对应，但本技术现在所得到的音高轮廓序列并不满足这种要求。所以，在上述处理得到的频谱分布、音高轮廓序列以及音高轮廓特征的引导下，进一步处理，得到最终的旋律曲线。
[0162]
(1)检测旋律是否存在
[0163]
对于发声检测，采用音高轮廓的平均显著性来引导处理(如图5所示)，因为如果采用轮廓总显著性来执行类似处理，可能会由于轮廓长度的不一致带来额外的误差。首先计算所有的均值，记为然后计算其标准差，记为引入临界值参数τv，来决定被剔除的轮廓所应该具有的平均显著性的上限，如式15所示：
[0164][0165]
其中，参数v决定允许的偏差。
[0166]
对于检测到颤音的轮廓，允许更大的偏差。对于图4中图(b)，可以看出当音调标准差在40音分以上时，轮廓为旋律轮廓的概率在95％以上，因此，对于不满足参数τv，但音调标准差在40音分以上时，也应该允许更大的偏差，为此本技术引入参数τ
vib
和τ
div
来对进
行调整，采用布尔类型参数c
is
来表示轮廓是否为旋律轮廓，其取值有以下几种情况：
[0167]
1)时，c
is
＝true；
[0168]
2)cv＝false且时，c
is
＝false；
[0169]
3)cv＝true且时，如果c
is
＝true，否则c
is
＝false；
[0170]
4)cv＝false且时，如果c
is
＝true，否则c
is
＝false；
[0171]
5)cv＝true且时，如果c
is
＝true,否则，c
is
＝false。
[0172]
(2)倍频声乐误差消除
[0173]
由于发声体在振动时，通常会产生一系列的谐波(即共振峰)。通常这些谐波的频率接近倍数关系，他们的特征非常相似，这使得本技术确定含有谐波的时间段的音高轮廓变得十分困难。对于这种问题，通常采用基于帧的方式，也即直接根据音高的显著性，在音高的整数倍处的峰值进行分离净化。虽然这种方式对于单音音乐而言可以达到很好的效果，但对于复音音乐而言，由于同时存在多个声源，使得在同时时间段内的整数倍处的波峰可能不是属于同一个音源，这样如果本技术单纯的采用上述的基于帧的方式，很有可能引入较大的误差。因此，本技术提出采用整面域处理的方式对倍频声乐误差的消除进行优化。
[0174]
首先，在轮廓的基础上检测共振峰,以削弱多音源带来的影响，在每一个音高轮廓重复的区域，在帧的基础上计算所有帧的音高偏差的平均值本技术令音分，通过这种方式检测到的共振峰，保证音高轮廓在形态上相似性，音高轮廓设置以下特征：一是旋律轮廓比起倍频轮廓具有更大的显著性；二是最终的旋律曲线应该避免较大的频率跳跃。
[0175]
因此本技术提出的方式如图6所示，对于检测到的具有倍频关系的音高轮廓，首先计算每个轮廓的总显著性然后计算每个轮廓总显著性是否在最大显著性的一半以上，如果不是，则直接将其分离净化掉，如果是则进行后续处理，此时对于存在共振峰的轮廓，其在显著性上相似，根据上述的第二个特征进一步处理。
[0176]
由前边计算的旋律轮廓的总显著性以及持续时长的概率分布(图4中图(b)以及图(h))可知，对于构成最终旋律的轮廓，往往相对具有更大的总显著性，以及更长的持续时长，为了利用这种信息，本技术对这一阶段进行优化。本技术采用权重变换的方式，以帧为基础，计算每一帧的平均音高，得到一个参考旋律序列然后为了引入最终旋律应该避免较大跳跃这一信息，在出现轮廓重叠的区域，分离净化掉距离较远或具有一场音高的轮廓(有可能为噪声引入)，每次滤出轮廓之后都对进行调整，以获得更精确的结果。
[0177]
本技术的整面域声乐误差消除过程包括：
[0178]
步骤一：对旋律检测处理之后的轮廓集合进行处理，寻找时间上重叠且没有处理的轮廓，如果找到转步骤二，否则转步骤四；
[0179]
步骤二：对轮廓重叠区域计算所有帧的音高偏差平均值(相对于总显著性最大的轮廓)，去除或者的轮廓，只保留近似符合八度关系的轮廓，转步骤
三；
[0180]
步骤三：对于具有八度关系的轮廓，计算每个轮廓的总显著性保留在最大值一半以上的轮廓，去除谐音，转步骤一；
[0181]
步骤四：计算每个音高轮廓在所有轮廓中的权重，用cw表示，如式16所示,
[0182][0183]
其中nc表示轮廓总数表示计算得到的轮廓总显著性序列，转步骤五：
[0184]
步骤五：以帧为基础，计算每一帧的平均音高，得到一个关于时间(以帧为单位)的音高序列(作为最终旋律的参考序列)，如式17所示：
[0185][0186]
其中nc表示某一帧所参与组成轮廓的数量(也即含有共振峰的数量)，cw(n,i)表示第n号帧的共振峰i所组成的轮廓的权重(由步骤一计算给出)，p(n,i)表示第n号帧的共振峰i处的频率，转步骤六；
[0187]
步骤六：寻找出现时间上重叠，但没有处理的轮廓，如果有则继续，否则转步骤七，计算轮廓的持续时间段上每个轮廓与序列的音高差值(以帧为基础进行计算)，选择差距较小的轮廓作为结果，但如果所有差值均在半个八度以上，选择轮廓总显著性较大的作为结果。转步骤四；
[0188]
步骤七：寻找与序列的音高差值(以帧为基础进行计算)在一个八度以上的轮廓，如果有，删除该轮廓，转步骤四，否则方法结束。
[0189]
通过以上方式，本技术使得最终的旋律更加偏向于具有较大总显著性，也即具有较长时长的轮廓，符合本技术前面的声乐计量特征，最终所得的结果(旋律曲线)如图7所示,其中图(a)中y坐标轴为频率表示，图(b)中y坐标轴为相对于55hz的音分表示。
[0190]
三、实验及结果分析
[0191]
(一)参数调优
[0192]
如图8与图9所示,列出了本技术所采用的参数及其相应的说明和后续实验中采用的值，其中对于参数m、n、hop、fs、h、τ1、τ
δ
、以及由于本技术在前边已经给出了各个参数的意义，所以此处只对参数f
max
、γ、nh、β、α、τ
vib
、τ
div
和v的不同取值给实验带来的影响进行分析说明。
[0193]
首先，对于参数γ、nb、β、α，由于其用于最终的旋律构建阶段，为了更好的评估其它参数的影响，假定其取值分别为50db、15、2、0.9，其中γ＝50db是由人耳的响度曲线大致估算，也即将与谱峰能量差异在50db以上的谱峰视为背景或噪声，分离净化掉；nh＝15为根据计算一段音频信号中的单帧谱峰数量的均值得出；β＝2为根据经典的将振幅转化为能量的方式进行取值；a＝0.9为考虑到使得谐波的权重所占比重较大得出。
[0194]
如图8所示，其中图(a)、图(b)、图(c)和图(d)分别为参数f
max
、τ
vib
、τ
div
以及v取不同值时对实验总体精度的影响，其中测量一个参数的影响时，其它参数的取值为不产生效果的取值，其中参数f
max
、τ
vib
、τ
div
以及v不产生效果取值分别为0、1、1、1，当参数f
max
取
880hz，τ
vib
取3，τ
div
取2，v取0.2时，总体精度达到最高，因此实验中采用该组参数组合。
[0195]
另外，到当部分参数取值过大时,反而导致精度轻微减小。这也符合音高轮廓声乐计量特征的概率分布，即有可能将本不是期望结果的帧(所占比例较小)过度矫正，导致精度降低。
[0196]
如图9所示为f
max
、τ
vib
、τ
div
以及v分别取值为880、3、2以及0.2时，参数γ、nh、β、α取不同值时的实验结果(其中分析某一参数取值时，均取其它三个参数的假设值)其中图(a)、图(b)、图(c)以及图(d)分别为参数γ、nh、β、α取不同值时所得结果。可以看出对于所允许的单帧能量差值γ，当其取值为40db时精度达到最高，这说明其取值过大时会导致非旋律峰被过多的引入，取值过小时，会导致旋律峰被过多的滤出；对于谐波数量nk，当其取值为10时，精度达到最大，取值过小时会忽略掉本应是谐波分量的谱峰，取值过大时，会引入较多的非谐波峰值；对于能量指数β，其取值的变化对总体精度的变化影响不大，但为了运算的简便，本技术取值为1；对于谐波权重参数α，其取值为0.8时，总体精度达到最高，这说明，当其取值过大时，会使得不同频率的谐波的显著性衰减过小，导致产生误差，而取值过小时时，又会导致显著性衰减过快，引入误差。
[0197]
(二)总体评价
[0198]
如图10所示，给出了几种旋律提取方法的评价结果，其中sl1为一种基于贝叶斯神经网络的方法，iyl1为一种基于演奏转录的方法，cwj3为一种基于旋律音高与非旋律音高的计算模型的方法，yj2为一种基于隐马尔可夫模型(hmm)的方法。另外对于每个评价指标，还计算了其均值，并且对最大值与最小值用加粗字体表示。本技术方法的结果在倒数第二行给出。
[0199]
从图10中可以看出对于浊音召回率(vr)与浊音误报率(vfa)，二者之间近似成正相关关系，也就是说当提升vr时，一般情况下vfa也会随之提升。这是因为对于发声检测，通常会采用一系列的基于临界值的分离净化手段，当临界值设置过小时，会导致大量的清音帧被误估计为浊音帧，从而导致浊音误报率vfa的提升；但当临界值过大时，会导致大量的浊音帧被分离净化掉，导致浊音召回率vr降低。在本技术的方法中，采用建立音高轮廓的方式，并没有直接将分离净化掉的清音帧丢弃，而是在音高轮廓的建立阶段，在一定程度上允许方法重新引入被当做清音帧分离净化掉的浊音帧(有可能是由于噪声因素被掩盖)，相比cwj3方法，在一定程度上在尽量不增加浊音误报率的条件下提升了浊音召回率,相比均值提升。可以看出本技术方法在尽量少的增加浊音误报率的情况下，提升了浊音召回率，本技术方法具有最低的浊音误报率与最高的总体精度。
[0200]
对于真实音高估计(rpa),由于本技术在最终旋律建立的阶段，采用基于音高轮廓的声乐计量特征加权(总显著性)的方式(因为本技术从音高轮廓的总显著性以及持续时长的概率分布发现，最终旋律在很大概率上偏向于较长，总显著性较大的轮廓)，使得最终的旋律估计偏向于较长的音高轮廓，并且采用不断调整参考旋律序列的方式，从而在一定程度上对真实音高的估计产生了积极的作用，在一定程度上减少了yj2方法中所产生的音高估计误差。
[0201]
对于真实色度估计精度(rca)，本技术由于在旋律建立阶段，采用限制轮廓平均显著性偏差的方式，同时将声乐计量特征轮廓音调标准差、颤音的存在引入分离净化过程，从而对允许轮廓的偏差程度进行调整。另外采用轮廓平均偏差的方式(值为1100至
1300cents)，在一定程度上保证了倍频音高轮廓在形态上的相似性，最终在一定程度上分离净化掉噪声因素带来的误估计。
[0202]
最后对于总体精度(oa),可以看出，在列出的几种方法中，取得了最好的效果，而且本技术在方法中并没有引入比较复杂的多元高斯模型或隐马尔科夫模型，因此，本技术方法具有明显的可行性与有效性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钟国健
技术所有人：恩平市奥科电子科技有限公司
我是此专利的发明人

上一篇：一种智能化油气井水汽能热泵系统的制作方法
上一篇：一种肿瘤自动定位放疗装置