本申请实施例涉及音频处理,具体涉及一种声场景分类模型生成方法、声场景分类方法、装置、存储介质及电子设备。
背景技术:
1、人们日常的活动都包含各种不同的声音事件,这些声音事件的组合构成各种不同的声场景。声场景分类技术具有广泛的应用场景,例如音频监控、多媒体检索、自动辅助驾驶、智能家居等领域。
2、随着声场景分类技术的发展,基于深度学习的声场景分类智能算法得到广泛的应用,然而,基于深度学习的声场景分类方法对训练数据的依赖性非常高,目前的声场景分类模型在实际应用中,通常会由于训练数据量少而导致性能较差,使得训练出的模型在实际场景中的应用受到限制,声场景分类结果不准确。
技术实现思路
1、本申请实施例提供了一种声场景分类模型生成方法、声场景分类方法、装置、存储介质及电子设备,可以提高声场景分类结果的准确性。
2、第一方面,本申请实施例提供了一种声场景分类模型生成方法,包括:
3、从声场景分类数据集中随机选取源音频和目标音频;
4、根据所述源语音和所述目标语音生成源梅尔频谱图和目标梅尔频谱图;
5、根据所述目标梅尔频谱图生成随机掩码图,并获取所述随机掩码图的倒转随机掩码图;
6、基于随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图和标签;
7、基于所述增强频谱图和所述标签对预设神经网络进行训练,生成声场景分类模型。
8、在本申请实施例提供的声场景分类模型生成方法中,所述基于随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图和标签,包括:
9、利用所述随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图;
10、利用所述随机掩码图、所述源梅尔频谱图和所述目标梅尔频谱图生成标签。
11、在本申请实施例提供的声场景分类模型生成方法中,所述利用所述随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图,包括:
12、将所述随机掩码图与所述目标梅尔频谱图进行点乘操作,生成第一中间结果图;
13、将所述源梅尔频谱图与所述倒转随机掩码进行点乘操作,生成第二中间结果图;
14、将所述第一中间结果图与所述第二中间结果图相加,得到增强频谱图。
15、在本申请实施例提供的声场景分类模型生成方法中,所述利用所述随机掩码图、所述源梅尔频谱图和所述目标梅尔频谱图生成标签,包括:
16、获取所述随机掩码图在所述目标梅尔频谱图的第一占比;
17、获取所述随机掩码图在所述源梅尔频谱图的第二占比;
18、基于所述第一占比和所述第二占比生成所述标签。
19、在本申请实施例提供的声场景分类模型生成方法中,所述根据所述源语音和所述目标语音生成源梅尔频谱图和目标梅尔频谱图,包括:
20、对所述源语音和所述目标语音分别进行快速傅里叶变换,生成第一频谱图和第二频谱图;
21、利用梅尔滤波器组分别对所述第一频谱图和所述第二频谱图进行处理,生成源梅尔频谱图和目标梅尔频谱图。
22、第二方面,本申请实施例提供了一种声场景分类方法,包括:
23、获取待分类音频;
24、将所述待分类音频输入至上述的声场景分类模型中,得到所述待分类音频的声场景分类结果。
25、第三方面,本申请实施例提供了一种声场景分类模型生成装置,包括:
26、音频选取单元,用于从声场景分类数据集中随机选取源音频和目标音频;
27、第一生成单元,用于根据所述源语音和所述目标语音生成源梅尔频谱图和目标梅尔频谱图;
28、第二生成单元,用于根据所述目标梅尔频谱图生成随机掩码图,并获取所述随机掩码图的倒转随机掩码图;
29、第三生成单元,用于基于随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图和标签;
30、第四生成单元,用于基于所述增强频谱图和所述标签对预设神经网络进行训练,生成声场景分类模型。
31、第四方面,本申请实施例提供了一种声场景分类装置,包括:
32、音频获取单元,用于获取待分类音频;
33、音频分类单元,用于将所述待分类音频输入至上述的声场景分类模型中,得到所述待分类音频的声场景分类结果。
34、第五方面,本申请实施例提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述任一项所述的方法。
35、第六方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
36、综上所述,本申请实施例提供的声场景分类模型生成方法采用从声场景分类数据集中随机选取源音频和目标音频;根据所述源语音和所述目标语音生成源梅尔频谱图和目标梅尔频谱图;根据所述目标梅尔频谱图生成随机掩码图,并获取所述随机掩码图的倒转随机掩码图;基于随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图和标签;基于所述增强频谱图和所述标签对预设神经网络进行训练,生成声场景分类模型。本方案通过随机掩码图对声场景分类数据集中的训练数据进行增强,避免由于训练数据量少而导致声场景分类模型性能较差的问题,从而提高了声场景分类结果的准确性。
1.一种声场景分类模型生成方法,其特征在于,包括:
2.如权利要求1所述的声场景分类模型生成方法,其特征在于,所述基于随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图和标签,包括:
3.如权利要求2所述的声场景分类模型生成方法,其特征在于,所述利用所述随机掩码图、所述倒转随机掩码、所述源梅尔频谱图和所述目标梅尔频谱图生成增强频谱图,包括:
4.如权利要求2所述的声场景分类模型生成方法,其特征在于,所述利用所述随机掩码图、所述源梅尔频谱图和所述目标梅尔频谱图生成标签,包括:
5.如权利要求1所述的声场景分类模型生成方法,其特征在于,所述根据所述源语音和所述目标语音生成源梅尔频谱图和目标梅尔频谱图,包括:
6.一种声场景分类方法,其特征在于,包括:
7.一种声场景分类模型生成装置,其特征在于,包括:
8.一种声场景分类装置,其特征在于,包括:
9.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1-5或6任一项所述的方法。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-5或6任一项所述的方法。