本发明涉及数据处理,尤其涉及一种角色音频匹配方法、装置、电子设备及存储介质。
背景技术:
1、在视听作品中,角色的声音特征是塑造人物特色和传达情感的关键元素。角色音频不仅增强了观众的观看体验,也是语音模型训练的重要数据源,而进行语音模型训练的数据,通常需要明确标记各个音频信息对应的角色,进而保证训练的准确性。
2、但是,相关技术中,角色的音频提取方式主要依赖人工剪辑,这种方法耗时耗力,且难以高效地将大量角色音频与角色进行匹配。
3、因此,如何更高效的进行视听作品中角色与角色音频的匹配,已经成为业界亟待解决的问题。
技术实现思路
1、本发明提供一种角色音频匹配方法、装置、电子设备及存储介质,用以解决现有技术中如何更高效的进行视听作品中角色与角色音频的匹配的问题。
2、本发明提供一种角色音频匹配方法,包括如下步骤:
3、获取待处理视听作品的视听作品数据,以及所述待处理视听作品中各个角色对应的第一声纹表征;
4、对所述视听作品数据进行单角色音频提取,得到多个单角色音频信息;
5、基于各所述单角色音频信息对应的第二声纹表征,对多个所述单角色音频信息进行音频聚类,得到至少一个单角色音频信息集合;
6、基于各个所述角色的目标角色音频信息与各个所述单角色音频信息集合的声纹表征相似性信息,确定每个所述角色匹配的单角色音频信息集合;其中,所述声纹表征相似性信息是根据所述第一声纹表征和所述第二声纹表征确定的。
7、根据本发明提供的一种角色音频匹配方法,对所述视听作品数据进行单角色音频提取,得到多个单角色音频信息,包括:
8、将所述视听作品数据转换为视听作品音频数据,并通过语音活动检测,将所述视听作品音频数据分割为多段子音频数据;
9、在去除各个所述子音频数据中的背景声后,对各个所述子音频数据进行语音质量评估,确定各个所述子音频数据中的目标子音频数据;其中,所述目标子音频数据是语音质量评估值超过第一预设阈值的所述子音频数据;
10、获取仅包括单角色音频的所述目标子音频数据,得到多个单角色音频信息。
11、根据本发明提供的一种角色音频匹配方法,所述声纹表征相似性信息的计算方法,具体包括:
12、根据所述单角色音频信息集合中单角色音频信息的第二声纹表征均值,确定所述单角色音频信息集合的类中心;
13、根据所述单角色音频信息集合的类中心和所述角色的目标角色音频信息对应的第一声纹表征,得到所述声纹表征相似性信息。
14、根据本发明提供的一种角色音频匹配方法,基于各个所述角色的目标角色音频信息与各个所述单角色音频信息集合的声纹表征相似性信息,确定每个所述角色匹配的单角色音频信息集合,包括:
15、在任一单角色音频信息集合的类中心与任一角色的第一声纹表征之间的声纹表征相似性信息小于第二预设阈值的情况下,将所述声纹表征相似性信息小于第二预设阈值的单角色音频信息集合和所述角色进行匹配,得到所述待处理视听作品中每个角色匹配的单角色音频信息集合。
16、根据本发明提供的一种角色音频匹配方法,将所述声纹表征相似性信息小于第二预设阈值的单角色音频信息集合和所述角色进行匹配,包括:
17、在各个所述单角色音频信息集合中,存在任一目标单角色音频信息集合的类中心与多个角色的第一声纹表征之间的声纹表征相似性信息均小于第二预设阈值的情况下,将目标角色与所述目标单角色音频信息集合进行匹配;
18、其中,所述目标角色为所述多个角色中,与所述目标单角色音频信息集合的类中心之间声纹表征相似性信息最小的角色。
19、根据本发明提供的一种角色音频匹配方法,所述各个角色的第一声纹表征的获取方法,具体包括:
20、在所述视听作品数据中,获取用户标注的各个角色对应的角色音频信息;
21、在去除各个所述角色音频信息的背景声后,将每个角色对应的角色音频信息进行拼接,得到每个角色对应的目标角色音频信息;
22、对各个角色对应的目标角色音频信息进行声纹表征提取,得到各个角色对应的第一声纹表征。
23、根据本发明提供的一种角色音频匹配方法,在所述基于各个所述角色的目标角色音频信息与各个所述单角色音频信息集合的声纹表征相似性信息,确定每个所述角色匹配的单角色音频信息集合的步骤之后,所述方法还包括:
24、基于匹配有角色的各个所述单角色音频信息集合,构建所述待处理视听作品的视听作品角色音频库。
25、本发明还提供一种角色音频匹配装置,包括:
26、获取模块,用于获取待处理视听作品的视听作品数据,并根据所述视听作品数据中所述待处理视听作品各个角色的目标角色音频信息,获取各个角色的第一声纹表征;
27、提取模块,用于对所述视听作品数据进行单角色音频提取,得到多个单角色音频信息;
28、聚类模块,用于基于各所述单角色音频信息对应的第二声纹表征,对多个所述单角色音频信息进行音频聚类,得到至少一个单角色音频信息集合;
29、匹配模块,用于基于各个所述角色的目标角色音频信息与各个所述单角色音频信息集合的声纹表征相似性信息,确定每个所述角色匹配的单角色音频信息集合;其中,所述声纹表征相似性信息是根据所述第一声纹表征和所述第二声纹表征确定的。
30、根据本发明提供的角色音频匹配装置,所述装置还用于:
31、将所述视听作品数据转换为视听作品音频数据,并通过语音活动检测,将所述视听作品音频数据分割为多段子音频数据;
32、在去除各个所述子音频数据中的背景声后,对各个所述子音频数据进行语音质量评估,确定各个所述子音频数据中的目标子音频数据;其中,所述目标子音频数据是语音质量评估值超过第一预设阈值的所述子音频数据;
33、获取仅包括单角色音频的所述目标子音频数据,得到多个单角色音频信息。
34、根据本发明提供的角色音频匹配装置,所述装置还用于:
35、在所述视听作品数据中,获取用户标注的各个角色对应的角色音频信息;
36、在去除各个所述角色音频信息的背景声后,将每个角色对应的角色音频信息进行拼接,得到每个角色对应的目标角色音频信息;
37、对各个角色对应的目标角色音频信息进行声纹表征提取,得到各个角色对应的第一声纹表征。
38、根据本发明提供的角色音频匹配装置,所述装置还用于:
39、根据所述单角色音频信息集合中单角色音频信息的第二声纹表征均值,确定所述单角色音频信息集合的类中心;
40、根据所述单角色音频信息集合的类中心和所述角色的目标角色音频信息对应的第一声纹表征,得到所述声纹表征相似性信息。
41、根据本发明提供的角色音频匹配装置,所述装置还用于:
42、在任一单角色音频信息集合的类中心与任一角色的第一声纹表征之间的声纹表征相似性信息小于第二预设阈值的情况下,将所述声纹表征相似性信息小于第二预设阈值的单角色音频信息集合和所述角色进行匹配,得到所述待处理视听作品中每个角色匹配的单角色音频信息集合。
43、根据本发明提供的角色音频匹配装置,所述装置还用于:
44、在各个所述单角色音频信息集合中,存在任一目标单角色音频信息集合的类中心与多个角色的第一声纹表征之间的声纹表征相似性信息均小于第二预设阈值的情况下,将目标角色与所述目标单角色音频信息集合进行匹配;
45、其中,所述目标角色为所述多个角色中,与所述目标单角色音频信息集合的类中心之间声纹表征相似性信息最小的角色。
46、根据本发明提供的角色音频匹配装置,所述装置还用于:
47、基于匹配有角色的各个所述单角色音频信息集合,构建所述待处理视听作品的视听作品角色音频库。
48、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述角色音频匹配方法。
49、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述角色音频匹配方法。
50、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述角色音频匹配方法。
51、本发明提供的角色音频匹配方法、装置、电子设备及存储介质,通过实现单角色音频的精确提取,确保从复杂的视听作品数据中得到清晰、独立的单角色音频信息。随后,通过音频聚类技术,自动化地将这些单角色音频信息归类,形成便于后续处理的音频信息集合。并且,利用声纹表征和相似性度量技术,将每个音频信息集合的类中心与预设的第一声纹表征进行匹配,从而实现每个单角色音频信息集合与最相似角色的精确对应。这一自动化匹配流程不仅减少了人工剪辑和匹配的工作量,降低了后期制作成本,而且提高了匹配的准确性。