本技术实施例涉及音视频,特别涉及一种音频处理方法、装置、设备、存储介质及程序产品。
背景技术:
1、随着线上平台的发展,线上平台中的内容逐渐增加;为了便于对线上音视频进行管理和推荐,线上平台通常会对线上音视频进行分类和管理;比如,基于语种类型对音视频内容进行分类。
2、在相关技术中,在对音视频内容进行分类时,计算机设备可以利用语音识别技术,对音视频内容中包含的语音信息进行识别,将语音信息转换为文本信息,之后,再基于文本信息进行语种分类,获得音视频内容的语种类型。
3、然而,上述过程中基于文本进行语种分类的过程中需要相关人员进行标注,从而使得获取音视频内容的语种类型的效率较低,准确性较差。
技术实现思路
1、本技术实施例提供了一种音频处理方法、装置、设备、存储介质及程序产品,可以避免获取第一音频的语种类型的过程中的人工标注过程,简化语种识别的过程,从而提高获取音视频内容的语种类型的效率以及获取语种类型的准确性。该技术方案如下:
2、一方面,提供了一种音频处理方法,所述方法包括:
3、获取第一音频;
4、对所述第一音频进行语音定位,获得所述第一音频中的至少一个目标音频段落;所述目标音频段落是包含语音的音频段落;
5、获取至少一个所述目标音频段落的音频特征;
6、基于至少一个所述目标音频段落的音频特征进行语种识别,获得至少一个所述目标音频段落各自的语种类型;
7、基于至少一个所述目标音频段落各自的语种类型,获取所述第一音频的语种类型。
8、另一方面,提供了一种音频处理装置,所述装置包括:
9、音频获取模块,用于获取第一音频;
10、语音定位模块,用于对所述第一音频进行语音定位,获得所述第一音频中的至少一个目标音频段落;所述目标音频段落是包含语音的音频段落;
11、特征获取模块,用于获取至少一个所述目标音频段落的音频特征;
12、语种识别模块,用于基于至少一个所述目标音频段落的音频特征进行语种识别,获得至少一个所述目标音频段落各自的语种类型;
13、语种获取模块,用于基于至少一个所述目标音频段落各自的语种类型,获取所述第一音频的语种类型。
14、在一种可能的实现方式中,所述特征获取模块,用于基于语种识别网络中的第一特征提取层对至少一个所述目标音频段落分别进行处理,获得至少一个所述目标音频段落的音频特征;
15、所述语种识别模块,用于基于所述语种识别网络中的语种识别层分别对至少一个所述目标音频段落的音频特征进行处理,获得至少一个目标音频段落各自的语种类型;
16、其中,所述语种识别网络是基于样本音频片段以及所述样本音频片段的语种标签训练获得的网络。
17、在一种可能的实现方式中,所述语音定位模块,包括:
18、语音定位子模块,用于对所述第一音频进行语音定位,获得至少一个所述目标音频段落的时间信息;所述时间信息用以指示所述目标音频段落的起始时间以及结束时间;
19、段落截取子模块,用于基于至少一个所述目标音频段落的所述时间信息,从所述第一音频中截取出至少一个所述目标音频段落。
20、在一种可能的实现方式中,所述语音定位子模块,包括:
21、特征获取单元,用于对所述第一音频进行音频特征提取,获得所述第一音频的音频特征;
22、时间信息获取单元,用于基于所述第一音频的音频特征对所述第一音频进行语音定位,获取至少一个所述目标音频段落的所述时间信息。
23、在一种可能的实现方式中,所述特征获取单元,用于,
24、提取所述第一音频的频谱特征;
25、基于所述第一音频的所述频谱特征,生成所述第一音频的音频特征图;
26、对所述第一音频的所述音频特征图进行特征提取,获得所述第一音频的音频特征。
27、在一种可能的实现方式中,所述特征获取单元,用于,
28、基于音频定位网络对所述第一音频的所述音频特征图进行处理,获得所述第一音频的音频特征;
29、所述时间信息获取单元,用于基于所述音频定位网络中的音频分类层,对所述第一音频的音频特征进行处理,获得至少一个所述目标音频段落的所述时间信息;
30、其中,所述音频定位网络是基于样本音频以及所述样本音频的音频段落标签训练获得的网络。
31、在一种可能的实现方式中,所述语种获取模块,用于基于至少一个所述目标音频段落各自的语种类型,统计至少一个所述目标音频段落中,属于各个语种类型的音频段落的数量;
32、将所述各个语种类型中,包含所述目标音频段落的数量最多的语种类型,确定为所述第一音频的语种类型。
33、在一种可能的实现方式中,所述语种获取模块,包括:
34、累计时长获取子模块,用于基于至少一个所述目标音频段落各自的语种类型,获取与各个语种类型分别对应的所述目标音频段落的累计时长;
35、语种获取子模块,用于基于与各个语种类型分别对应的所述累计时长,获取所述第一音频的语种类型。
36、在一种可能的实现方式中,所述语种获取子模块,用于,
37、将所述各个语种类型中,所述累计时长最长的语种类型,确定为所述第一音频的语种类型;
38、或者,
39、将所述各个语种类型中,所述累计时长与所述第一音频的时长之间的比例最大的语种类型,确定为所述第一音频的语种类型。
40、在一种可能的实现方式中,所述累计时长获取子模块,包括:
41、位置信息获取单元,用于获取至少一个所述目标音频段落分别在所述第一音频中的位置信息;所述位置信息用于指示所述目标音频段落在所述第一音频中的时间位置;
42、加权处理单元,用于基于至少一个所述目标音频段落分别在所述第一音频中的位置信息,对至少一个所述目标音频段落各自的段落时长进行加权处理;
43、累计时长获取单元,用于基于至少一个所述目标音频段落各自的语种类型,以及至少一个所述目标音频段落各自加权处理后的段落时长,获取与各个语种类型分别对应的所述目标音频段落的累计时长。
44、在一种可能的实现方式中,所述位置信息获取单元,用于,
45、获取至少一个所述目标音频段落分别在所述第一音频中的参考时间点;所述参考时间点是音频段落的起始时间点、中间时间点以及结束时间点中的一种;
46、基于至少一个所述目标音频段落分别在所述第一音频中的参考时间点,获取至少一个所述目标音频段落的偏移时长,作为至少一个所述目标音频段落分别在所述第一音频中的位置信息;所述偏移时长为所述参考时间点与所述第一音频的中间时间点之间的时长;
47、所述加权处理单元,用于获取至少一个所述目标音频段落各自的权重;所述权重与所述偏移时长呈反相关;
48、基于至少一个所述目标音频段落各自的权重,对至少一个所述目标音频段落各自的段落时长进行加权处理。
49、另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现上述的音频处理方法。
50、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述的者音频处理方法。
51、另一方面,提供了一种计算机程序产品,所述计算机程序产品包括至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述各种可选实现方式中提供的音频处理方法。
52、本技术提供的技术方案可以包括以下有益效果:
53、通过对第一音频中包含语音的目标音频段落进行提取,获取各个目标音频段落的音频特征,以分别基于各个目标音频段落的音频特征获取各个目标音频段落各自的语种类型,之后,基于各个目标音频段落各自的语种类型获取第一音频的语种类型;在上述方案中,通过对音频中包含语音的各个音频段落进行语种识别,实现对音频的语种的自动获取,从而避免了获取第一音频的语种类型的过程中的人工标注过程,简化了语种识别的过程,提高了获取音视频内容的语种类型的效率,提高了获取语种类型的准确性。
54、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。