音频旋律识别模型的训练方法、音频处理方法及相关设备与流程

文档序号:33192193发布日期:2023-02-04 09:00阅读:61来源:国知局
音频旋律识别模型的训练方法、音频处理方法及相关设备与流程

1.本技术涉及人工智能领域,尤其涉及一种音频旋律识别模型的训练方法、音频处理方法及相关设备。


背景技术:

2.随着音频处理技术的发展,音频处理技术的应用越来越广,其中,音频处理技术可以应用于歌曲翻唱识别中。目前的音频处理技术大多是通过提取音频信号的频谱特征来判断是否为翻唱歌曲,然而,由于这些频谱特征包含一些与音频处理的任务无关的信息,如语义信息、说话人信息、歌曲风格信息、歌曲情感信息等,直接利用该频谱特征识别歌曲是否为翻唱歌曲,会受到与音频处理的任务无关的信息的干扰,影响音频处理的准确性。因此,如何提高音频处理的准确性非常重要。


技术实现要素:

3.本技术实施例提供了一种音频旋律识别模型训练方法、音频处理方法及相关设备,可以提高音频旋律识别的准确性。
4.第一方面,本技术实施例提供了一音频旋律识别模型的训练方法,包括:
5.获取样本数据集,所述样本数据集包括多组音频数据,每组音频数据包括原唱歌曲数据、所述原唱歌曲数据的翻唱歌曲数据、除所述原唱歌曲数据和所述翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据;
6.从所述每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量,并对所述每一类歌曲数据的频谱峰值特征向量和所述无关特征向量进行拼接处理,得到所述每组音频数据中每一类歌曲数据的目标特征向量;所述无关特征向量为与所述音频数据的旋律无关的特征向量;
7.将所述每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型。
8.第二方面,本技术实施例提供了一音频处理方法,包括:
9.获取待识别音频,并从所述待识别音频中提取频谱峰值特征向量和无关特征向量,所述无关特征向量为与所述待识别音频的旋律无关的特征向量;
10.对所述频谱峰值特征向量和所述无关特征向量进行拼接处理得到所述待识别音频的待识别特征向量;将所述待识别特征向量输入如第一方面所述的音频旋律识别模型,得到所述待识别音频的旋律特征向量;
11.若所述待识别音频的旋律特征向量与指定数据库中各原唱歌曲数据的旋律特征向量之间的最小距离小于或等于预设阈值,则确定所述待识别音频为翻唱歌曲。
12.第三方面,本技术实施例提供了一种计算机设备,所述设备包括:处理器和存储器,所述处理器用于执行:
13.获取样本数据集,所述样本数据集包括多组音频数据,每组音频数据包括原唱歌
曲数据、所述原唱歌曲数据的翻唱歌曲数据、除所述原唱歌曲数据和所述翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据;
14.从所述每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量,并对所述每一类歌曲数据的频谱峰值特征向量和所述无关特征向量进行拼接处理,得到所述每组音频数据中每一类歌曲数据的目标特征向量;所述无关特征向量为与所述音频数据的旋律无关的特征向量;
15.将所述每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型。
16.第四方面,本技术实施例提供了另一种计算机设备,所述设备包括:处理器和存储器,所述处理器用于执行:
17.获取待识别音频,并从所述待识别音频中提取频谱峰值特征向量和无关特征向量,所述无关特征向量为与所述待识别音频的旋律无关的特征向量;
18.对所述频谱峰值特征向量和所述无关特征向量进行拼接处理得到所述待识别音频的待识别特征向量;将所述待识别特征向量输入如权利要求1-8任一项所述的音频旋律识别模型,得到所述待识别音频的旋律特征向量;
19.若所述待识别音频的旋律特征向量与指定数据库中各原唱歌曲数据的旋律特征向量之间的最小距离小于或等于预设阈值,则确定所述待识别音频为翻唱歌曲。
20.第五方面,本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序指令,该程序指令被执行时,用于实现上述第一方面或第二方面所述的方法。
21.本技术实施例,通过获取样本数据集,该样本数据集包括多组音频数据,每组音频数据包括原唱歌曲数据、原唱歌曲数据的翻唱歌曲数据、除原唱歌曲数据和翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据,从每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量,无关特征向量为与音频数据的旋律无关的特征向量;对每一类歌曲数据的频谱峰值特征向量和无关特征向量进行拼接处理,得到每组音频数据中每一类歌曲数据的目标特征向量;将每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型。通过这种方式去除了大量与频谱旋律无关的信息,提高了音频旋律识别模型识别旋律的准确性。
附图说明
22.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1是一种音频旋律识别模型训练方法的流程示意图;
24.图2是另一种音频旋律识别模型训练方法的流程示意图;
25.图3是一种频谱图的示例图;
26.图4是一种峰值点的示例图;
27.图5是又一种音频旋律识别模型的训练方法的流程示意图;
28.图6是一种深度神经网络的结构示意图;
29.图7是一种计算损失函数值的示意图;
30.图8是又一种音频旋律识别模型的训练方法的流程示意图;
31.图9是一种音频处理方法的流程示意图;
32.图10是一种音频旋律识别模型的训练设备的结构示意图;
33.图11是一种音频处理设备的结构示意图。
具体实施方式
34.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
35.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
36.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
37.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
38.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
39.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
40.基于上述人工智能技术中所提及的机器学习等技术,本技术提出了一种音频旋律识别模型的训练方法、音频处理方法及相关设备,通过去除与音频的旋律无关的数据训练
得到音频旋律识别模型,提升了模型识别的准确性,有助于提高模型识别音频旋律的准确性。
41.本技术实施例提供的音频旋律识别模型的训练方法可以应用于一种音频旋律识别模型的训练装置,该音频旋律识别模型的训练装置可设置于计算机设备中,在某些实施例中,该计算机设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。在某些实施例中,所述计算机设备中包括一个或多个数据库,所述数据库可以用于存储音频数据。
42.本技术实施例提供的音频处理方法可以应用于一种音频处理装置,该音频处理装置可设置于计算机设备中,在某些实施例中,该计算机设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。在某些实施例中,所述计算机设备中包括一个或多个数据库,所述数据库可以用于存储音频数据。
43.在某些实施例中,本技术实施例提供的音频旋律识别模型的训练方法以及音频处理方法可以应用于歌曲翻唱识别的场景:例如根据歌曲处理得到的旋律特征向量判断歌曲是否为翻唱歌曲的场景等。当然,以上应用场景仅仅是示例说明,在其他实施例中,本技术实施例的音频处理可以应用到任意与音频处理相关联的场景中。
44.下面结合附图对本技术实施例提供的音频旋律识别模型的训练方法以及音频处理方法进行示意性说明。
45.具体请参见图1,图1是本技术实施例提供的一种音频旋律识别模型的训练方法的流程示意图,本技术实施例的音频旋律识别模型的训练方法可以由音频旋律识别模型的训练装置执行,其中,音频旋律识别模型的训练装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本技术实施例的方法包括如下步骤。
46.s101:获取样本数据集,该样本数据集包括多组音频数据,每组音频数据包括原唱歌曲数据、该原唱歌曲数据的翻唱歌曲数据、除该原唱歌曲数据和该翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据。
47.本技术实施例中,该翻唱歌曲数据可以包括原唱歌曲数据的翻唱歌曲数据,其中,原唱歌曲数据的翻唱歌曲数据可以包括原唱歌曲数据对应的一个或多个不同版本的翻唱歌曲数据。在某些实施例中,歌曲标注数据可以包括用于指示原唱歌曲数据的第一标签、用于指示原唱歌曲的翻唱歌曲数据的第二标签、用于指示其他歌曲数据的第三标签;在其他实施例中,歌曲标注数据还可以包括歌曲组标识,用于指示音频组,如歌曲标识1用于指示音频组1,音频组1可以包括一首原唱歌曲数据、该原唱歌曲数据的翻唱歌曲数据以及除该原唱歌曲数据和该翻唱歌曲数据以外的其他歌曲数据。在某些实施例中,音频数据可以包括但不限于音频信号。
48.s102:从每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量,并对每一类歌曲数据的频谱峰值特征向量和无关特征向量进行拼接处理,得到每组音频数据中每一类歌曲数据的目标特征向量。
49.本技术实施例中,频谱峰值特征向量可以包括音频数据的旋律信息;在某些实施例中,无关特征向量为与音频数据的旋律无关的特征向量,该无关特征向量可以包括用户信息如说话人信息、音频语义信息、音频情感信息中的一种或多种。通过在音频旋律识别模型训练过程中引入说话人信息这种无关特征向量,提供了充足的说话人信息先验,使得在
模型训练过程中学习如何剔除说话人信息等与音频旋律无关的信息,有助于让音频旋律识别模型提取的旋律特征和歌唱者无关,进一步确保了旋律特征的准确性。
50.在一个实施例中,计算机设备在从每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量时,可以从每组音频数据中提取每一类歌曲数据的峰值点序列,并对每一类歌曲数据的峰值点序列进行归一化处理,得到每一类歌曲数据的频谱峰值特征向量;以及,从每组音频数据中提取每一类歌曲数据的梅尔频谱特征,并根据每一类歌曲数据的梅尔频谱特征确定每一类歌曲数据的无关特征向量。
51.s103:将每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型。
52.本技术实施例中,计算机设备在将每组音频数据每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型时,可以将每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型,得到目标损失函数值;根据目标损失函数值调整模型参数,并将目标特征向量和歌曲标注数据输入调整模型参数后的神经网络模型进行重新训练;当重新训练得到的目标损失函数值小于函数阈值时,确定得到音频旋律识别模型。
53.本技术通过采用频谱峰值点序列和无关特征向量训练音频旋律识别模型,直接去除了大量与旋律信息无关的信息,即便对于翻唱改编力度较大的歌曲,也能准确提取旋律特征向量,以根据旋律特征向量判断是否为翻唱歌曲。
54.在一个实施例中,计算机设备在将所述每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型时,可以将每组音频数据中的原唱歌曲数据和原唱歌曲数据对应的歌曲标注数据输入音频旋律识别模型,得到原唱歌曲数据的旋律特征向量;将原唱歌曲数据的旋律特征向量存储至指定数据库中。通过这种方式,有助于在后续检索识别时从该指定数据库中查询与待识别音频相似的原唱旋律特征向量,并进一步确定待识别音频是否为翻唱歌曲。
55.本技术实施例通过获取样本数据集,该样本数据集包括多组音频数据,每组音频数据包括原唱歌曲数据、原唱歌曲数据的翻唱歌曲数据、除原唱歌曲数据和翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据,从每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量,根据该每一类歌曲数据的频谱峰值特征向量和无关特征向量训练得到音频旋律识别模型,去除了大量与频谱旋律无关的信息,有助于提高音频旋律识别模型识别旋律的准确性。
56.请参见图2,图2是本技术实施例提供的另一种音频旋律识别模型的训练方法的流程示意图,本技术实施例的音频旋律识别模型的训练方法可以由音频旋律识别模型的训练装置执行,其中,音频旋律识别模型的训练装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本技术实施例主要是对音频数据的目标特征向量提取过程的说明,具体包括如下步骤。
57.s201:获取样本数据集,该样本数据集包括多组音频数据,每组音频数据包括原唱歌曲数据、该原唱歌曲数据的翻唱歌曲数据、除该原唱歌曲数据和该翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据。
58.s202:从每组音频数据中提取每一类歌曲数据的峰值点序列,并对每一类歌曲数
据的峰值点序列进行归一化处理,得到每一类歌曲数据的频谱峰值特征向量,以及从每组音频数据中提取每一类歌曲数据的梅尔频谱特征,并根据每一类歌曲数据的梅尔频谱特征确定每一类歌曲数据的无关特征向量。
59.在一个实施例中,计算机设备在从每组音频数据中提取每一类歌曲数据的峰值点序列时,可以对每组音频数据的每一类歌曲数据进行变换处理,得到每组音频数据中每一类歌曲数据的频谱图;从每一类歌曲数据的频谱图中提取一个或多个峰值点,并确定一个或多个峰值点为每一类歌曲数据峰值点序列。
60.进一步地,计算机设备在对每组音频数据的每一类歌曲数据进行变换处理,得到每组音频数据中每一类歌曲数据的频谱图时,可以对每组音频数据中每一类歌曲数据的音频信号进行傅里叶变换处理,得到每组音频数据中每一类歌曲数据的频谱图,如图3所示,图3是一种频谱图的示意图。
61.进一步地,计算机设备在确定一个或多个峰值点为峰值点序列时,可以取频谱图中一个或多个峰值点的能量值,得到峰值点序列,如图4所示,图4是一种峰值点的示意图,其中,x用于表示峰值点。
62.在一个实施例中,计算机设备在对峰值点序列进行归一化处理,得到频谱峰值特征向量时,可以对峰值点序列进行归一化,得到归一化序列,并计算归一化序列的均值和方差;根据归一化序列、均值和方差,计算得到每一类歌曲数据的频谱峰值特征向量。
63.进一步地,计算机设备在根据归一化序列、均值和方差,计算得到频谱峰值特征向量时,可以利用归一化序列减去均值,再除以方差,得到每一类歌曲数据的频谱峰值特征向量。例如,假设峰值点序列x=(x1,x2,...,xn),则对该峰值点序列进行归一化,减去均值再除以方差σ,得到x',计算公式如下公式(1)所示:
[0064][0065]
本技术计算频谱峰值特征向量有助于让音频旋律识别模型快速学习音频数据中的旋律特征。
[0066]
在一个实施例中,计算机设备在根据梅尔频谱特征确定无关特征向量时,可以将梅尔频谱特征输入预训练的用户识别模型,得到用户特征向量;以及,将梅尔频谱特征输入预训练的音频情感类别识别模型,得到音频情感类别特征向量;确定用户特征向量和音频情感类别特征向量为无关特征向量。例如,用户特征向量可以为演唱歌曲的歌手的特征向量。
[0067]
由于音频数据的用户和情感类别均属于无关信息,两首歌曲是否同曲主要由旋律决定,因此本技术通过确定无关特征向量有助于让音频旋律识别模型学习去除音频数据中与旋律特征向量无关的信息,提高特征向量的精确度,以使音频旋律识别模型更准确地识别出旋律特征向量。
[0068]
s203:对每一类歌曲数据的频谱峰值特征向量和无关特征向量进行拼接处理,得到每组音频数据中每一类歌曲数据的目标特征向量。
[0069]
本技术实施例中,计算机设备在对每一类歌曲数据的频谱峰值特征向量和无关特征向量进行拼接处理,得到每组音频数据中每一类歌曲数据的目标特征向量时,可以将频
谱峰值特征向量和无关特征向量进行求和处理,得到每组音频数据中每一类歌曲数据的的目标特征向量。在其他实施例中,还可以采用其他处理方式对每一类歌曲数据的频谱峰值特征向量和无关特征向量进行拼接处理,本技术不做具体限定。
[0070]
s204:将每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型。
[0071]
本技术实施例中,计算机设备可以将每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型。在某些实施例中,该神经网络模型可以包括但不限于深度神经网络模型、卷积神经网络模型等。
[0072]
在一个实施例中,计算机设备可以为每组音频数据中的原唱歌曲数据添加第一标签,为每组音频数据中的翻唱歌曲数据添加第二标签,为每组音频数据中的其他歌曲数据添加第三标签,并将添加第一标签的原唱歌曲数据、添加第二标签的翻唱歌曲数据以及添加第三标签的其他歌曲数据输入神经网络模型的特征提取模块,得到每一类歌曲数据的频谱峰值特征向量和无关特征向量,并对每一类歌曲数据的频谱峰值特征向量和无关特征向量进行拼接处理,得到每组音频数据中每一类歌曲数据的目标特征向量;进一步将目标特征向量输入神经网络模型的预测模块进行训练,得到音频旋律识别模型。
[0073]
本技术实施例通过从样本数据集中的每组音频数据的每一类歌曲数据中提取峰值点序列,并对峰值点序列进行归一化处理,得到频谱峰值特征向量,有助于让音频旋律识别模型快速学习音频数据中的旋律特征,同时从每组音频数据中提取梅尔频谱特征,并根据梅尔频谱特征确定无关特征向量,有助于进一步使音频旋律识别模型更准确地识别出旋律特征向量。
[0074]
请参见图5,图5是本技术实施例提供的又一种音频旋律识别模型的训练方法的流程示意图,本技术实施例的音频旋律识别模型的训练方法可以由音频旋律识别模型的训练装置执行,其中,音频旋律识别模型的训练装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本技术实施例主要是对音频旋律识别模型的训练过程的说明,具体包括如下步骤。
[0075]
s501:获取样本数据集,该样本数据集包括多组音频数据,每组音频数据包括原唱歌曲数据、该原唱歌曲数据的翻唱歌曲数据、除该原唱歌曲数据和该翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据。
[0076]
在某些实施例中,该歌曲标注数据包括用于指示原唱歌曲数据的第一标签、用于指示翻唱歌曲数据的第二标签、用于指示其他歌曲数据的第三标签。其中,第一标签用于指示音频数据的类别为原唱歌曲数据,包括但不限于文字、数字、字母等任意一种或多种;第二标签用于指示音频数据的类别为翻唱歌曲数据,包括但不限于文字、数字、字母等任意一种或多种;该第三标签用于指示音频数据的类别为其他歌曲数据,包括但不限于文字、数字、字母等任意一种或多种,其中,第一标签、第二标签和第三标签各不相同。
[0077]
s502:从每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量,并对每一类歌曲数据的频谱峰值特征向量和无关特征向量进行拼接处理,得到每组音频数据中每一类歌曲数据的目标特征向量。
[0078]
s503:将每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型,得到目标损失函数值。
[0079]
在某些实施例中,本技术可以采用深度神经网络模型resnet,如该resnet可以为18层结构,如图6所示,图6是一种深度神经网络的结构示意图,将音频数据的目标特征向量输入18层的resnet中,得到输出结果即旋律特征向量。
[0080]
在一个实施例中,计算机设备在将每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型,得到目标损失函数值时,可以将每组音频数据中每一类歌曲数据的目标特征向量、第一标签、第二标签以及第三标签输入神经网络模型,得到每组音频数据中每一类歌曲数据的原唱歌曲数据的第一特征向量、原唱歌曲数据的翻唱歌曲数据的第二特征向量以及其他歌曲数据的第三特征向量;根据第一特征向量、第二特征向量以及第三特征向量确定目标损失函数值。
[0081]
在一种实施方式中,计算机设备在将每组音频数据中每一类歌曲数据的目标特征向量、第一标签、第二标签以及第三标签输入神经网络模型时,可以为每组音频数据中的原唱歌曲数据添加第一标签,为每组音频数据中的翻唱歌曲数据添加第二标签,为每组音频数据中的其他歌曲数据添加第三标签,并将添加第一标签的原唱歌曲数据、添加第二标签的翻唱歌曲数据以及添加第三标签的其他歌曲数据输入神经网络模型。
[0082]
在一个实施例中,计算机设备在根据第一特征向量、第二特征向量以及第三特征向量确定目标损失函数值时,可以根据第一特征向量和第二特征向量计算每组音频数据中原唱歌曲数据与原唱歌曲数据的翻唱歌曲数据之间的第一距离;根据第一特征向量和第三特征向量计算每组音频数据中原唱歌曲数据与其他歌曲数据之间的第二距离;根据每组音频数据的第一距离和第二距离确定目标损失函数值。
[0083]
具体可以图7提供的一种计算损失函数的示意图为例进行说明。如图7所示,本技术采用三元损失函数计算得到目标损失函数值,其中,anchor是原唱歌曲数据的embedding特征,positive是原唱歌曲数据对应的翻唱歌曲数据的embedding特征,negative是其他歌曲数据的embedding特征。其中,目标损失函数值l定义如下公式(2)所示:
[0084][0085]
其中,i为歌曲组,i的取值为1、2、...、n,d(a,p)为anchor和positive的余弦距离,d(a,n)为anchor和negative的余弦距离,marg in是预设的可调的程度系数。
[0086]
s504:根据目标损失函数值对神经网络模型进行重新训练,得到音频旋律识别模型。
[0087]
本技术实施例中,计算机设备可以根据目标损失函数值调整模型参数,并将目标特征向量和歌曲标注数据输入调整模型参数后的神经网络模型进行重新训练;当重新训练得到的目标损失函数值小于函数阈值时,确定得到音频旋律识别模型。
[0088]
本技术实施例通过目标损失函数值训练音频旋律识别模型,有助于让原唱歌曲数据和翻唱歌曲数据的特征向量更加靠近,同时让原唱歌曲数据和其他翻唱歌曲数据的特征向量更加疏远,有助于提高音频旋律识别模型识别的准确性。
[0089]
请参见图8,图8是本技术实施例提供的又一音频旋律识别模型的训练方法的流程示意图,如图8所示,本技术通过对音频数据进行傅里叶变换,提取得到频谱峰值序列以及提取得到梅尔频谱特征,通过对频谱峰值序列进行归一化,得到频谱峰值特征向量,同时通过将梅尔频谱特征输入用户识别模型,得到用户特征向量,进一步,对频谱峰值特征向量和
用户特征向量进行特征拼接,将拼接得到的目标特征向量输入18层的深度神经网络resnet18中,得到输出结果,该输出结果为旋律特征向量,以便根据该旋律特征向量找到与该旋律特征向量对应的同歌组的歌曲。在某些实施例中,在输出层前一层可以提取到原唱歌曲数据的旋律embedding特征即旋律特征向量,并进行建库,有助于在识别阶段计算并找到待识别音频如待识别音频的embedding特征和库内距离最近的原唱歌曲数据的embedding特征,从而得到旋律的embedding特征。
[0090]
请参见图9,图9是本技术实施例提供的一种音频处理方法的流程示意图,本技术实施例的音频处理方法可以由音频处理装置执行,其中,音频处理装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本技术实施例主要是对音频识别过程的说明,具体包括如下步骤。
[0091]
s901:获取待识别音频。
[0092]
s902:从待识别音频中提取频谱峰值特征向量和无关特征向量,无关特征向量为与待识别音频的旋律无关的特征向量。
[0093]
s903:对频谱峰值特征向量和无关特征向量进行拼接处理得到待识别音频的待识别特征向量。
[0094]
s904:将待识别特征向量输入音频旋律识别模型,得到待识别音频的旋律特征向量。
[0095]
s905:根据旋律特征向量确定待识别音频是否为翻唱歌曲。
[0096]
本技术实施例中,计算机设备可以将待识别特征向量输入音频旋律识别模型,得到待识别音频的音频特征向量;计算音频特征向量与指定数据库中存储的各原唱旋律特征向量的距离;确定指定数据库中与音频特征向量距离最小的原唱旋律特征向量为待识别音频的旋律特征向量;若待识别音频的旋律特征向量与指定数据库中原唱旋律特征向量的最小距离小于或等于预设阈值,则可以确定待识别音频为翻唱歌曲。
[0097]
本技术实施例通过将待识别音频输入预训练的音频旋律识别模型,有助于更准确地得到待识别音频的旋律特征向量,以根据该旋律特征向量确定待识别音频是否为翻唱歌曲,提高翻唱识别的准确性。
[0098]
请参见图10,图10是本技术实施例提供的一种音频旋律识别模型的训练设备的结构示意图。具体的,所述设备包括:存储器1001、处理器1002。
[0099]
在一种实施例中,所述设备还包括数据接口1003,所述数据接口1003,用于传递计算机设备和其他设备之间的数据信息。
[0100]
所述存储器1001可以包括易失性存储器(volatile memory);存储器1001也可以包括非易失性存储器(non-volatile memory);存储器1001还可以包括上述种类的存储器的组合。所述处理器1002可以是中央处理器(central processing unit,cpu)。所述处理器1002还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,asic),可编程逻辑器件(programmable logic device,pld)或其组合。上述pld可以是复杂可编程逻辑器件(complex programmable logic device,cpld),现场可编程逻辑门阵列(field-programmable gate array,fpga)或其任意组合。
[0101]
所述存储器1001用于存储程序,所述处理器1002可以调用存储1001中存储的程
序,用于执行如下步骤:
[0102]
获取样本数据集,所述样本数据集包括多组音频数据,每组音频数据包括原唱歌曲数据、所述原唱歌曲数据的翻唱歌曲数据、除所述原唱歌曲数据和所述翻唱歌曲数据以外的其他歌曲数据三类歌曲数据,且每类歌曲数据具有各自的歌曲标注数据;
[0103]
从所述每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量,并对所述每一类歌曲数据的频谱峰值特征向量和所述无关特征向量进行拼接处理,得到所述每组音频数据中每一类歌曲数据的目标特征向量;所述无关特征向量为与所述音频数据的旋律无关的特征向量;
[0104]
将所述每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型。
[0105]
进一步地,处理器1002从所述每组音频数据中提取每一类歌曲数据的频谱峰值特征向量和无关特征向量时,具体用于:
[0106]
从所述每组音频数据中提取所述每一类歌曲数据的峰值点序列,对所述每一类歌曲数据的峰值点序列进行归一化处理得到所述每一类歌曲数据的频谱峰值特征向量;以及,
[0107]
从所述每组音频数据中提取每一类歌曲数据的梅尔频谱特征,并根据所述每一类歌曲数据的梅尔频谱特征确定所述每一类歌曲数据的无关特征向量。
[0108]
进一步地,处理器1002根据所述每一类歌曲数据的梅尔频谱特征确定所述每一类歌曲数据的无关特征向量时,具体用于:
[0109]
将所述每一类歌曲数据的梅尔频谱特征输入预训练的用户识别模型,得到所述每一类歌曲数据的用户特征向量;
[0110]
将所述每一类歌曲数据的梅尔频谱特征输入预训练的音频情感类别识别模型,得到所述每一类歌曲数据的音频情感类别特征向量;
[0111]
确定所述每一类歌曲数据的用户特征向量和所述每一类歌曲数据的音频情感类别特征向量为所述每一类歌曲数据的无关特征向量。
[0112]
进一步地,处理器1002从所述每组音频数据中提取所述每一类歌曲数据的峰值点序列时,具体用于:
[0113]
对所述每组音频数据的所述每一类歌曲数据进行变换处理,得到所述每组音频数据中所述每一类歌曲数据的频谱图;
[0114]
从所述每一类歌曲数据的频谱图中提取一个或多个峰值点,并确定所述一个或多个峰值点为所述每一类歌曲数据的峰值点序列。
[0115]
进一步地,处理器1002对所述每一类歌曲数据的峰值点序列进行归一化处理得到所述每一类歌曲数据的频谱峰值特征向量时,具体用于:
[0116]
对所述每一类歌曲数据的峰值点序列进行归一化得到归一化序列,计算所述归一化序列的均值和方差;
[0117]
根据所述归一化序列、均值和方差,计算得到所述每一类歌曲数据的频谱峰值特征向量。
[0118]
进一步地,所述歌曲标注数据包括用于指示所述原唱歌曲数据的第一标签、用于指示所述翻唱歌曲数据的第二标签、用于指示所述其他歌曲数据的第三标签;处理器1002
将所述每组音频数据中每一类歌曲数据的目标特征向量和歌曲标注数据输入神经网络模型进行训练,得到音频旋律识别模型时,用于:
[0119]
将所述每组音频数据中所述原唱歌曲数据的目标特征向量及所述第一标签,所述翻唱歌曲数据的目标特征向量及所述第二标签,以及所述其他歌曲数据的的目标特征向量及所述第三标签输入神经网络模型,得到所述每组音频数据中所述原唱歌曲数据的第一特征向量、所述翻唱歌曲数据的第二特征向量以及所述其他歌曲数据的第三特征向量;
[0120]
根据所述第一特征向量、所述第二特征向量以及所述第三特征向量确定目标损失函数值,并根据所述目标损失函数值对所述神经网络模型进行训练得到所述音频旋律识别模型。
[0121]
进一步地,处理器1002根据所述第一特征向量、所述第二特征向量以及所述第三特征向量确定所述目标损失函数值时,具体用于:
[0122]
根据所述第一特征向量和所述第二特征向量计算所述每组音频数据中所述原唱歌曲数据与所述翻唱歌曲数据之间的第一距离;
[0123]
根据所述第一特征向量和所述第三特征向量计算所述每组音频数据中所述原唱歌曲数据与所述其他歌曲数据之间的第二距离;
[0124]
根据所述每组音频数据的所述第一距离和所述第二距离确定所述目标损失函数值。
[0125]
进一步地,处理器1002还用于:
[0126]
将所述每组音频数据中的所述原唱歌曲数据和所述原唱歌曲数据对应的歌曲标注数据输入所述音频旋律识别模型,得到所述原唱歌曲数据的旋律特征向量;
[0127]
将所述原唱歌曲数据的旋律特征向量存储至指定数据库中。
[0128]
本技术实施例通过从每组音频数据中提取频谱峰值特征向量和无关特征向量,根据该频谱峰值特征向量和无关特征向量训练得到音频旋律识别模型,去除了大量与频谱旋律无关的信息,有助于提高音频旋律识别模型识别旋律的准确性。
[0129]
请参见图11,图11是本技术实施例提供的一种音频处理设备的结构示意图。具体的,所述设备包括:存储器1101、处理器1102。
[0130]
在一种实施例中,所述设备还包括数据接口1103,所述数据接口1103,用于传递计算机设备和其他设备之间的数据信息。
[0131]
所述存储器1101可以包括易失性存储器(volatile memory);存储器1101也可以包括非易失性存储器(non-volatile memory);存储器1101还可以包括上述种类的存储器的组合。所述处理器1102可以是中央处理器(central processing unit,cpu)。所述处理器1102还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,asic),可编程逻辑器件(programmable logic device,pld)或其组合。上述pld可以是复杂可编程逻辑器件(complex programmable logic device,cpld),现场可编程逻辑门阵列(field-programmable gate array,fpga)或其任意组合。
[0132]
所述存储器1101用于存储程序,所述处理器1102可以调用存储1101中存储的程序,用于执行如下步骤:
[0133]
获取待识别音频,并从所述待识别音频中提取频谱峰值特征向量和无关特征向
量,所述无关特征向量为与所述待识别音频的旋律无关的特征向量;
[0134]
对所述频谱峰值特征向量和所述无关特征向量进行拼接处理得到所述待识别音频的待识别特征向量;将所述待识别特征向量输入如权利要求1-8任一项所述的音频旋律识别模型,得到所述待识别音频的旋律特征向量;
[0135]
若所述待识别音频的旋律特征向量与指定数据库中各原唱歌曲数据的旋律特征向量之间的最小距离小于或等于预设阈值,则确定所述待识别音频为翻唱歌曲。
[0136]
本技术实施例通过将待识别音频输入预训练的音频旋律识别模型,有助于更准确地得到待识别音频的旋律特征向量,以根据该旋律特征向量确定待识别音频是否为翻唱歌曲,提高翻唱识别的准确性。
[0137]
本技术的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本技术所对应实施例中描述的方法,也可实现本技术所对应实施例的装置,在此不再赘述。
[0138]
所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0139]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0140]
以上所揭露的仅为本技术的部分实施例而已,当然不能以此来限定本技术之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本技术权利要求所作的等同变化,仍属于发明所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1