本发明涉及人工智能,特别涉及一种音频数据的聚类分类方法及系统。
背景技术:
1、目前,对于音频数据的聚类分类的使用需求、使用场景越来越多,例如:音乐平台每个月都需要对该月内新发布的歌曲音频进行分类、广播电台每个月都需要对该月内新录播的节目音频进行分类等。
2、然而,一般的,对音频数据进行聚类分类时,多是利用训练样本(一一标记有音频类别标签的音频数据),训练音频聚类分类模型,直接利用训练好的音频聚类分类模型对用户输入的音频数据进行聚类分类,例如:申请号为cn202111594903.3的发明专利公开了音频数据聚类方法、装置、设备及存储介质,其中,音频数据聚类方法包括:获取待处理的多个音频片段;对各音频片段进行特征提取,得到对应的声纹特征;将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;基于各音频片段的特征向量表示,对各音频片段进行聚类。该方法直接利用预训练的图神经网络根据音频片段的声纹特征对音频片段进行聚类。
3、但是,这样做可能会导致音频数据的聚类分类结果不符合用户的音频聚类分类预期,用户无法结合自身的音频聚类分类预期要求对训练音频聚类分类模型的训练样本进行个性化选择,以至于训练出能够针对用户预期的音频聚类分类模型,导致用户体验降低。
4、因此,亟需一种解决办法。
技术实现思路
1、本发明目的之一在于提供了一种音频数据的聚类分类方法,提供用户个性化选择音频聚类分类模型的音频聚类分类模型训练样本的途经,用户可以结合自身的音频聚类分类预期进行实施,使得利用音频聚类分类模型对音频数据进行聚类分类的聚类分类结果符合用户的音频聚类分类预期,极大程度上提升了用户体验。
2、本发明实施例提供的一种音频数据的聚类分类方法,包括:
3、辅助用户个性化选择音频聚类分类模型训练样本;
4、当选择完成时,利用音频聚类分类模型训练样本,训练神经网络模型,得到音频聚类分类模型;
5、获取待聚类分类的音频数据;
6、利用音频聚类分类模型,对音频数据进行聚类分类,并输出聚类分类结果。
7、优选的,辅助用户个性化选择音频聚类分类模型训练样本,包括:
8、获取用户的多模态数据;
9、基于多模态数据,确定推荐聚类分类标签序列;推荐聚类分类标签序列中有按推荐度从大到小排序的第一推荐聚类分类标签;
10、向用户显示第一信息窗;第一信息窗按照推荐度从大到小依次滚动显示推荐聚类分类标签序列中的第一推荐聚类分类标签;
11、交互式辅助用户通过查看第一信息窗从第一推荐聚类分类标签中确定样本选择依据;
12、基于样本选择依据,确定音频聚类分类模型训练样本。
13、优选的,交互式辅助用户通过查看第一信息窗从第一推荐聚类分类标签中确定样本选择依据,包括:
14、持续获取用户的视线区域;
15、构建第一信息窗的第一方向向量、第二方向向量和第三方向向量;其中,第一方向向量为基于第一信息窗的窗口中心位置、第一信息窗的滚动显示方向构建;第二方向向量为基于第一信息窗的窗口中心位置、第一信息窗的滚动显示方向的反方向构建;第三方向向量为基于第一信息窗的窗口中心位置、垂直于第一信息窗的滚动显示方向的一个第一垂直方向构建;
16、当视线区域中与第一信息窗同时存在重叠区域和非重叠区域时,确定非重叠区域大于重叠区域的面积差;
17、当面积差大于等于面积差阈值时,基于重叠区域的区域中心位置、由重叠区域的区域中心位置向非重叠区域的区域中心位置的连线方向,确定第四方向向量;
18、当第四方向向量与第一方向向量之间的向量夹角小于夹角阈值时,控制第一信息窗正向滚动显示第一推荐聚类分类标签;
19、当第四方向向量与第二方向向量之间的向量夹角小于夹角阈值时,控制第一信息窗反向滚动显示第一推荐聚类分类标签;
20、当第四方向向量与第三方向向量之间的向量夹角小于夹角阈值时,将第一信息窗当前滚动显示的第一推荐聚类分类标签作为样本选择依据。
21、优选的,音频数据的聚类分类方法,还包括:
22、构建第一信息窗的第五方向向量;其中,第五方向向量为基于第一信息窗的窗口中心位置、垂直于第一信息窗的滚动显示方向的一个第二垂直方向构建;
23、当第四方向向量与第五方向向量之间的向量夹角小于夹角阈值时,将第一信息窗当前滚动显示的第一推荐聚类分类标签作为扩展推荐依据;
24、基于扩展推荐依据,确定第二推荐聚类分类标签;
25、向用户显示第二信息窗;第二信息窗与非重叠区域部分重叠,第二信息窗内静态显示全部第二推荐聚类分类标签;
26、当用户的新的视线区域包含第二信息窗时,控制第一信息窗插队依次滚动显示第二推荐聚类分类标签;
27、当新的第四方向向量与第三方向向量之间的向量夹角小于夹角阈值时,将第一信息窗当前滚动显示的第二推荐聚类分类标签作为样本选择依据。
28、优选的,所述基于扩展推荐依据,确定第二推荐聚类分类标签,包括:
29、从推荐聚类分类标签序列中确定扩展推荐依据所属的标签簇;同一标签簇内的第一推荐聚类分类标签依次相邻排列,且属于相同的母标签;
30、当历史上第一信息窗滚动显示完标签簇中的每一第一推荐聚类分类标签又反向滚动显示标签簇中的至少一个第一推荐聚类分类标签时,从下级聚类分类标签库中确定扩展推荐依据对应的下级聚类分类标签,并作为第二推荐聚类分类标签。
31、本发明实施例提供的一种音频数据的聚类分类系统,包括:
32、第一用户辅助模块,用于辅助用户个性化选择音频聚类分类模型训练样本;
33、模型训练模块,用于当选择完成时,利用音频聚类分类模型训练样本,训练神经网络模型,得到音频聚类分类模型;
34、数据获取模块,用于获取待聚类分类的音频数据;
35、聚类分类模块,用于利用音频聚类分类模型,对音频数据进行聚类分类,并输出聚类分类结果。
36、优选的,第一用户辅助模块辅助用户个性化选择音频聚类分类模型训练样本,包括:
37、获取用户的多模态数据;
38、基于多模态数据,确定推荐聚类分类标签序列;推荐聚类分类标签序列中有按推荐度从大到小排序的第一推荐聚类分类标签;
39、向用户显示第一信息窗;第一信息窗按照推荐度从大到小依次滚动显示推荐聚类分类标签序列中的第一推荐聚类分类标签;
40、交互式辅助用户通过查看第一信息窗从第一推荐聚类分类标签中确定样本选择依据;
41、基于样本选择依据,确定音频聚类分类模型训练样本。
42、优选的,第一用户辅助模块交互式辅助用户通过查看第一信息窗从第一推荐聚类分类标签中确定样本选择依据,包括:
43、持续获取用户的视线区域;
44、构建第一信息窗的第一方向向量、第二方向向量和第三方向向量;其中,第一方向向量为基于第一信息窗的窗口中心位置、第一信息窗的滚动显示方向构建;第二方向向量为基于第一信息窗的窗口中心位置、第一信息窗的滚动显示方向的反方向构建;第三方向向量为基于第一信息窗的窗口中心位置、垂直于第一信息窗的滚动显示方向的一个第一垂直方向构建;
45、当视线区域中与第一信息窗同时存在重叠区域和非重叠区域时,确定非重叠区域大于重叠区域的面积差;
46、当面积差大于等于面积差阈值时,基于重叠区域的区域中心位置、由重叠区域的区域中心位置向非重叠区域的区域中心位置的连线方向,确定第四方向向量;
47、当第四方向向量与第一方向向量之间的向量夹角小于夹角阈值时,控制第一信息窗正向滚动显示第一推荐聚类分类标签;
48、当第四方向向量与第二方向向量之间的向量夹角小于夹角阈值时,控制第一信息窗反向滚动显示第一推荐聚类分类标签;
49、当第四方向向量与第三方向向量之间的向量夹角小于夹角阈值时,将第一信息窗当前滚动显示的第一推荐聚类分类标签作为样本选择依据。
50、优选的,音频数据的聚类分类系统,还包括:
51、第二用户辅助模块,用于包括:
52、构建第一信息窗的第五方向向量;其中,第五方向向量为基于第一信息窗的窗口中心位置、垂直于第一信息窗的滚动显示方向的一个第二垂直方向构建;
53、当第四方向向量与第五方向向量之间的向量夹角小于夹角阈值时,将第一信息窗当前滚动显示的第一推荐聚类分类标签作为扩展推荐依据;
54、基于扩展推荐依据,确定第二推荐聚类分类标签;
55、向用户显示第二信息窗;第二信息窗与非重叠区域部分重叠,第二信息窗内静态显示全部第二推荐聚类分类标签;
56、当用户的新的视线区域包含第二信息窗时,控制第一信息窗插队依次滚动显示第二推荐聚类分类标签;
57、当新的第四方向向量与第三方向向量之间的向量夹角小于夹角阈值时,将第一信息窗当前滚动显示的第二推荐聚类分类标签作为样本选择依据。
58、优选的,所述第二用户辅助模块基于扩展推荐依据,确定第二推荐聚类分类标签,包括:
59、从推荐聚类分类标签序列中确定扩展推荐依据所属的标签簇;同一标签簇内的第一推荐聚类分类标签依次相邻排列,且属于相同的母标签;
60、当历史上第一信息窗滚动显示完标签簇中的每一第一推荐聚类分类标签又反向滚动显示标签簇中的至少一个第一推荐聚类分类标签时,从下级聚类分类标签库中确定扩展推荐依据对应的下级聚类分类标签,并作为第二推荐聚类分类标签。
61、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
62、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。