本公开涉及计算机,特别涉及一种音频分类模型的训练方法、音频分类方法以及装置。
背景技术:
1、随着各种各样的音频分类需求的产生,逐渐产生了多种音频分类方法,多层级的音频分类是其中极为重要的一种。多层级的音频分类指的是在不同层级均对该音频进行分类,例如,设置有两个层级,第一层级包括“歌声”和“非歌声”两个类型标签,在第二层级中,“歌声”关联的类型标签包括“男性”和“女性”,“非歌声”关联的类型标签包括“无声”和“伴奏”,则在对某个音频进行分类时,该音频在第一层级的类型标签可以是“歌声”,在第二层级的类型标签可以为“女性”。
2、在当前的多层级的音频分类任务中,使用的方法是:针对每个层级分别训练独立的音频分类模型,在进行音频分类时,分别将该音频输入到各个层级对应的音频分类模型,得到每个音频分类模型输出的各个层级的预测类型标签。
3、上述方法虽然可以对每个层级的类型标签进行预测,但该方法忽略了每个层级的类型标签之间的关联性,很容易导致不同层级的预测类型标签不对应的矛盾情况(例如,在第一层级的预测类型标签是“歌声”,但在第二层级的预测类型标签是“伴奏”,而“歌声”与“伴奏”并不具有关联性),从而降低了预测的一致性和准确性。
技术实现思路
1、本公开实施例提供了一种音频分类模型的训练方法、音频分类方法、以及装置,能够解决现有技术中音频分类预测的一致性和准确性较低的问题。
2、第一方面,提供了一种音频分类模型的训练方法,所述方法包括:
3、获取待训练的音频分类模型对应的类型标签层级关系,其中,所述音频分类模型用于预测音频在预设的不同层级的类型标签下的匹配概率值,所述类型标签层级关系表示的是所述不同层级的类型标签之间的关联关系;
4、获取样本音频的音频数据和所述样本音频的基准分类结果,其中,所述基准分类结果包括所述样本音频在每个所述层级对应的基准类型标签;
5、将所述样本音频的音频数据输入所述待训练的音频分类模型,得到预测分类结果,其中,所述预测分类结果包括所述样本音频分别与每个所述层级中的每个类型标签的匹配概率值;
6、基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值;
7、基于所述类型标签层级关系中存在关联关系的类型标签在所述预测分类结果中对应的匹配概率值,确定第二损失值;
8、基于所述第一损失值和所述第二损失值,对所述待训练的音频分类模型进行训练,若满足预设训练结束条件则得到训练完成的音频分类模型。
9、在一种可能的实现方式中,所述基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值,包括:
10、将所述预测分类结果中每个所述层级中匹配概率值最大的类型标签,确定为所述样本音频在所述层级的预测类型标签;
11、比对样本音频在每个所述层级的预测类型标签以及在每个所述层级的基准类型标签,得到所述预测类型标签与所述基准类型标签不相同的层级数目,将所述不相同的层级数目与所述层级的总数目之间的第一比值,确定为所述第一损失值。
12、在一种可能的实现方式中,所述基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值,包括:
13、对于所述每个层级的基准类型标签,在所述预测分类结果中确定所述基准类型标签对应的匹配概率值,计算1与所述基准类型标签对应的匹配概率值之间的第一差值;
14、将多个层级对应的第一差值之和与所述类型标签层级关系中层级的总数目之间的第二比值,确定为所述第一损失值。
15、在一种可能的实现方式中,所述基于所述类型标签层级关系中存在关联关系的类型标签在所述预测分类结果中对应的匹配概率值,确定第二损失值,包括:
16、对于所述类型标签层级关系中的每个非底层类型标签,在所述预测分类结果中确定所述非底层类型标签关联的各个下一层级类型标签对应的匹配概率值中的最大匹配概率值,确定所述非底层类型标签对应的匹配概率值与所述最大匹配概率值之间的第二差值;
17、基于多个非底层类型标签对应的第二差值,确定所述第二损失值。
18、在一种可能的实现方式中,所述基于多个非底层类型标签对应的第二差值,确定所述第二损失值,包括:
19、对于所述类型标签层级关系中的每个非首层类型标签,在所述预测分类结果中确定所述非首层类型标签对应的匹配概率值与所述非首层类型标签关联的上一层级类型标签对应的匹配概率值之间的第三差值;
20、基于多个非底层类型标签对应的第二差值和多个非首层类型标签对应的第三差值,确定所述第二损失值。
21、在一种可能的实现方式中,所述基于多个非底层类型标签对应的第二差值和多个非首层类型标签对应的第三差值,确定所述第二损失值,包括:
22、确定多个所述第二差值中的、大于零的第二差值的平方和,得到第一数值,将第一系数与所述第一数值的乘积,确定为第一层级间损失值;
23、确定多个所述第三差值中的、大于零的第三差值的平方和,得到第二数值,将第二系数与所述第二数值的乘积,确定为第二层级间损失值;
24、基于所述第一层级间损失值和所述第二层级间损失值,确定所述第二损失值。
25、在一种可能的实现方式中,所述第一系数为所述类型标签层级关系中层级的总数目与1之间的差值的倒数,所述第二系数为所述类型标签层级关系中层级的总数目与首层级中的类型标签的数目之间的差值的倒数。
26、第二方面,提供了一种音频分类方法,所述方法包括:
27、获取待分类音频的音频数据;
28、将所述待分类音频的音频数据分别输入如权利要求1-7任一项所述的训练完成的音频分类模型,得到所述待分类音频对应的预测分类结果,其中,所述待分类音频对应的预测分类结果包括所述待分类音频分别与类型标签层级关系中的多个层级中的每个类型标签的匹配概率值;
29、基于所述待分类音频对应的预测分类结果,确定所述待分类音频在每个所述层级的预测类型标签获取待分类音频对应的多个音频段的音频数据;
30、将所述多个音频段的音频数据输入如上述任一项所述的训练完成的音频分类模型,得到每个音频段对应的预测分类结果,其中,所述音频段对应的预测分类结果包括所述音频段分别与类型标签层级关系中的多个层级中的每个类型标签的匹配概率值;
31、基于所述每个音频段对应的预测分类结果,确定所述每个音频段在每个所述层级的预测类型标签;
32、基于所述每个音频段在每个所述层级的预测类型标签,确定所述待分类音频在每个所述层级的预测类型标签。
33、第三方面,提供了一种音频分类模型的训练装置,所述装置包括:
34、第一获取模块,用于获取待训练的音频分类模型对应的类型标签层级关系,其中,所述音频分类模型用于预测音频在预设的不同层级的类型标签下的匹配概率值,所述类型标签层级关系表示的是所述不同层级的类型标签之间的关联关系;
35、第二获取模块,用于获取样本音频的音频数据和所述样本音频的基准分类结果,其中,所述基准分类结果包括所述样本音频在每个所述层级对应的基准类型标签;
36、第一预测模块,用于将所述样本音频的音频数据输入所述待训练的音频分类模型,得到预测分类结果,其中,所述预测分类结果包括所述样本音频分别与每个所述层级中的每个类型标签的匹配概率值;
37、第一确定模块,用于基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值;
38、第二确定模块,用于基于所述类型标签层级关系中存在关联关系的类型标签在所述预测分类结果中对应的匹配概率值,确定第二损失值;
39、训练模块,用于基于所述第一损失值和所述第二损失值,对所述待训练的音频分类模型进行训练,若满足预设训练结束条件则得到训练完成的音频分类模型。
40、在一种可能的实现方式中,所述第一确定模块,用于:
41、将所述预测分类结果中每个所述层级中匹配概率值最大的类型标签,确定为所述样本音频在所述层级的预测类型标签;
42、比对样本音频在每个所述层级的预测类型标签以及在每个所述层级的基准类型标签,得到所述预测类型标签与所述基准类型标签不相同的层级数目,将所述不相同的层级数目与所述层级的总数目之间的第一比值,确定为所述第一损失值。
43、在一种可能的实现方式中,所述第一确定模块,用于:
44、对于所述每个层级的基准类型标签,在所述预测分类结果中确定所述基准类型标签对应的匹配概率值,计算1与所述基准类型标签对应的匹配概率值之间的第一差值;
45、将多个层级对应的第一差值之和与所述类型标签层级关系中层级的总数目之间的第二比值,确定为所述第一损失值。
46、在一种可能的实现方式中,所述第二确定模块,用于:
47、对于所述类型标签层级关系中的每个非底层类型标签,在所述预测分类结果中确定所述非底层类型标签关联的各个下一层级类型标签对应的匹配概率值中的最大匹配概率值,确定所述非底层类型标签对应的匹配概率值与所述最大匹配概率值之间的第二差值;
48、基于多个非底层类型标签对应的第二差值,确定所述第二损失值。
49、在一种可能的实现方式中,所述第二确定模块,用于:
50、对于所述类型标签层级关系中的每个非首层类型标签,在所述预测分类结果中确定所述非首层类型标签对应的匹配概率值与所述非首层类型标签关联的上一层级类型标签对应的匹配概率值之间的第三差值;
51、基于多个非底层类型标签对应的第二差值和多个非首层类型标签对应的第三差值,确定所述第二损失值。
52、在一种可能的实现方式中,所述第二确定模块,用于:
53、确定多个所述第二差值中的、大于零的第二差值的平方和,得到第一数值,将第一系数与所述第一数值的乘积,确定为第一层级间损失值;
54、确定多个所述第三差值中的、大于零的第三差值的平方和,得到第二数值,将第二系数与所述第二数值的乘积,确定为第二层级间损失值;
55、基于所述第一层级间损失值和所述第二层级间损失值,确定所述第二损失值。
56、在一种可能的实现方式中,所述第一系数为所述类型标签层级关系中层级的总数目与1之间的差值的倒数,所述第二系数为所述类型标签层级关系中层级的总数目与首层级中的类型标签的数目之间的差值的倒数。
57、第四方面,提供了一种音频分类装置,所述装置包括:
58、第三获取模块,用于获取待分类音频的音频数据;
59、第二预测模块,用于将所述待分类音频的音频数据分别输入如权利要求1-7任一项所述的训练完成的音频分类模型,得到所述待分类音频对应的预测分类结果,其中,所述待分类音频对应的预测分类结果包括所述待分类音频分别与类型标签层级关系中的多个层级中的每个类型标签的匹配概率值;
60、第三确定模块,用于基于所述待分类音频对应的预测分类结果,确定所述待分类音频在每个所述层级的预测类型标签。
61、第五方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,存储器中存储有至少一条指令,指令由处理器加载并执行以实现上述任一项所述的音频分类模型的训练方法或者实现上述所述的音频分类方法所执行的操作。
62、第六方面,提供了一种计算机可读存储介质,存储介质中存储有至少一条指令,指令由处理器加载并执行以实现上述任一项所述的音频分类模型的训练方法或者实现上述所述的音频分类方法所执行的操作。
63、本公开实施例提供的技术方案带来的有益效果是:本公开实施例中提到的方案,在基于预测分类结果和基准分类结果之间的匹配情况,确定出第一损失值时,还会基于类型标签层级关系中存在关联关系的类型标签在预测分类结果中对应的匹配概率值,确定出第二损失值,在对待训练的音频分类模型进行训练时,会综合考虑第一损失值和第二损失值,这样,可以在通过第一损失值来调节音频分类模型的预测的准确性的同时,还通过第二损失值来调节音频分类模型的预测的一致性,进而有效提高了训练完成的音频分类模型对各层级预测的准确性和一致性。