本发明实施例涉及语音处理,尤其涉及一种音频处理方法及装置。
背景技术:
1、用户在基于会议音频制作相应的会议记录时,存在只针对该会议音频中某一个特定说话人的说话内容进行汇总与记录的情况。目前,对于这种情况的处理,需要用户完整听完会议音频,人工识别该会议音频中属于特定说话人的说话内容。十分浪费人力,且,效率低下。
2、对此,亟需一种能够智能分析出会议音频中说话内容与具体说话人的对应关系的技术方案。
技术实现思路
1、鉴于此,为可以智能分析出会议音频中说话内容与具体说话人的对应关系,本发明实施例提供一种音频处理方法及装置。
2、第一方面,本发明实施例提供一种音频处理方法,包括:
3、获取多个音频数据片段,其中,每个所述音频数据片段中仅包含一个说话对象的语音数据;
4、对每个所述音频数据片段分别进行特征提取,得到每个所述音频数据片段的音频片段特征;
5、基于多个所述音频数据片段的数量确定目标参数范围;
6、基于所述目标参数范围和所述音频片段特征对多个所述音频数据片段进行聚类,得到多个聚类类簇;
7、基于多个所述聚类类簇确定不同说话对象与所述音频数据片段的对应关系。
8、在一可能的实施方式中,基于多个所述音频数据片段的数量确定目标参数范围,包括:
9、获取预设的参照系数,以及确定多个所述音频数据片段的数量;
10、将所述参照系数与所述数量进行设定运算,得到参照上限值;
11、基于所述参照上限值确定目标上限值,并基于所述目标上限值确定所述目标参数范围,其中,所述目标上限值不大于所述参照上限值。
12、在一可能的实施方式中,所述获取多个音频数据片段,包括:
13、获取待处理的目标音频数据,其中,所述目标音频数据为至少两个说话对象对话过程中产生的音频数据;
14、对所述目标音频数据进行分割,得到多个所述音频数据片段。
15、在一可能的实施方式中,所述对所述目标音频数据进行分割,得到多个所述音频数据片段,包括:
16、识别所述目标音频数据中每个音频帧对应的对象说话概率;
17、将对应的所述对象说话概率大于预设概率值的音频帧,确定为目标音频帧,其中,所述目标音频帧中仅包含一个说话对象的语音数据;
18、将所述目标音频数据中连续的多个所述目标音频帧作为目标帧序列,提取所述目标帧序列得到对应的音频数据片段。
19、在一可能的实施方式中,所述对所述目标音频数据进行分割,得到多个所述音频数据片段之前,还包括:
20、获取预设的数据格式,并按照所述数据格式对所述目标音频数据进行格式转换。
21、在一可能的实施方式中,所述基于所述目标参数范围和所述音频片段特征对多个所述音频数据片段进行聚类,得到多个聚类类簇,包括:
22、确定每两个所述音频片段特征之间的相似度;
23、基于多个所述相似度构建初始关联矩阵;
24、基于所述目标参数范围和所述初始关联矩阵,确定对象数量及目标关联矩阵,并对所述目标关联矩阵进行降维得到对应的谱嵌入矩阵;
25、基于所述对象数量对所述谱嵌入矩阵进行聚类操作,得到多个所述聚类类簇。
26、在一可能的实施方式中,所述目标参数范围中包含多个候选参数,所述基于所述目标参数范围和所述初始关联矩阵,确定对象数量及目标关联矩阵,包括:
27、针对每个候选参数执行以下处理:
28、基于所述候选参数对所述初始关联矩阵进行二值化处理,得到对应的候选关联矩阵,并基于所述候选关联矩阵进行特征值分解操作,得到对应的特征值集合;
29、对所述特征值集合中的所有特征值按照由小到大的顺序进行排列,得到对应的特征值序列,并依次计算所述特征值序列中相邻的两个特征值之间的差值,得到对应的差值序列;
30、计算所述差值序列中的最大差值与所述特征值集合中的最大特征值的比值,得到最大特征差异值;
31、计算所述候选参数与所述最大特征差异值的比值,得到目标比值;
32、将对应目标比值最小的候选参数确定为目标参数,并将所述目标参数对应的候选关联矩阵确定为所述目标关联矩阵,以及,确定所述目标参数对应的最大差值在对应差值序列中的排序,将所述排序对应的序列号确定为所述对象数量。
33、在一可能的实施方式中,所述基于所述对象数量对所述谱嵌入矩阵进行聚类操作,得到多个所述聚类类簇,包括:
34、在所述谱嵌入矩阵中随机选取所述对象数量的矩阵元素,并将每个所述矩阵元素作为一个聚类中心;
35、基于所述对象数量的所述聚类中心对所述谱嵌入矩阵中的所有矩阵元素进行聚类操作,得到所述对象数量的聚类类簇。
36、在一可能的实施方式中,所述对每个所述音频数据片段分别进行特征提取,得到每个所述音频数据片段的音频片段特征,包括:
37、针对每个所述音频数据片段执行以下处理:
38、提取所述音频数据片段的声学特征;
39、对所述声学特征进行线性变换得到对应的音频特征,并计算所述音频特征的统计学特征;
40、将所述统计学特征映射到预设特征维度,得到所述音频片段特征。
41、第二方面,本发明实施例提供一种音频处理装置,包括:
42、获取模块,用于获取多个音频数据片段,其中,每个所述音频数据片段中仅包含一个说话对象的语音数据;
43、提取模块,用于对每个所述音频数据片段分别进行特征提取,得到每个所述音频数据片段的音频片段特征;
44、第一确定模块,用于基于多个所述音频数据片段的数量确定目标参数范围;
45、聚类模块,用于基于所述目标参数范围和所述音频片段特征对多个所述音频数据片段进行聚类,得到多个聚类类簇;
46、第二确定模块,用于基于多个所述聚类类簇确定不同说话对象与所述音频数据片段的对应关系。
47、在一可能的实施方式中,所述第一确定模块,具体用于:
48、获取预设的参照系数,以及确定多个所述音频数据片段的数量;
49、将所述参照系数与所述数量进行设定运算,得到参照上限值;
50、基于所述参照上限值确定目标上限值,并基于所述目标上限值确定所述目标参数范围,其中,所述目标上限值不大于所述参照上限值。
51、在一可能的实施方式中,所述获取模块,具体用于:
52、获取待处理的目标音频数据,其中,所述目标音频数据为至少两个说话对象对话过程中产生的音频数据;
53、对所述目标音频数据进行分割,得到多个所述音频数据片段。
54、在一可能的实施方式中,所述获取模块,还用于:
55、识别所述目标音频数据中每个音频帧对应的对象说话概率;
56、将对应的所述对象说话概率大于预设概率值的音频帧,确定为目标音频帧,其中,所述目标音频帧中仅包含一个说话对象的语音数据;
57、将所述目标音频数据中连续的多个所述目标音频帧作为目标帧序列,提取所述目标帧序列得到对应的音频数据片段。
58、在一可能的实施方式中,所述装置还包括格式转换模块,用于:
59、获取预设的数据格式,并按照所述数据格式对所述目标音频数据进行格式转换。
60、在一可能的实施方式中,所述聚类模块,具体用于:
61、确定每两个所述音频片段特征之间的相似度;
62、基于多个所述相似度构建初始关联矩阵;
63、基于所述目标参数范围和所述初始关联矩阵,确定对象数量及目标关联矩阵,并对所述目标关联矩阵进行降维得到对应的谱嵌入矩阵;
64、基于所述对象数量对所述谱嵌入矩阵进行聚类操作,得到多个所述聚类类簇。
65、在一可能的实施方式中,所述目标参数范围中包含多个候选参数,所述聚类模块,还用于:
66、针对每个候选参数执行以下处理:
67、基于所述候选参数对所述初始关联矩阵进行二值化处理,得到对应的候选关联矩阵,并基于所述候选关联矩阵进行特征值分解操作,得到对应的特征值集合;
68、对所述特征值集合中的所有特征值按照由小到大的顺序进行排列,得到对应的特征值序列,并依次计算所述特征值序列中相邻的两个特征值之间的差值,得到对应的差值序列;
69、计算所述差值序列中的最大差值与所述特征值集合中的最大特征值的比值,得到最大特征差异值;
70、计算所述候选参数与所述最大特征差异值的比值,得到目标比值;
71、将对应目标比值最小的候选参数确定为目标参数,并将所述目标参数对应的候选关联矩阵确定为所述目标关联矩阵,以及,确定所述目标参数对应的最大差值在对应差值序列中的排序,将所述排序对应的序列号确定为所述对象数量。
72、在一可能的实施方式中,所述聚类模块,还用于:
73、在所述谱嵌入矩阵中随机选取所述对象数量的矩阵元素,并将每个所述矩阵元素作为一个聚类中心;
74、基于所述对象数量的所述聚类中心对所述谱嵌入矩阵中的所有矩阵元素进行聚类操作,得到所述对象数量的聚类类簇。
75、在一可能的实施方式中,所述提取模块,具体用于:
76、针对每个所述音频数据片段执行以下处理:
77、提取所述音频数据片段的声学特征;
78、对所述声学特征进行线性变换得到对应的音频特征,并计算所述音频特征的统计学特征;
79、将所述统计学特征映射到预设特征维度,得到所述音频片段特征。
80、第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的音频处理程序,以实现第一方面中任一项所述的音频处理方法。
81、第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的音频处理方法。
82、本发明实施例提供的技术方案,首先,获取多个音频数据片段,其中,每个音频数据片段中仅包含一个说话对象的语音数据,然后,对每个音频数据片段分别进行特征提取,得到每个音频数据片段的音频片段特征,进而,基于多个音频数据片段的数量确定目标参数范围,并基于目标参数范围和音频片段特征对多个音频数据片段进行聚类,得到多个聚类类簇,最后,基于多个聚类类簇确定不同说话对象与音频数据片段的对应关系。通过本方案,可以智能分析出音频中说话人(即,说话对象)与说话内容(即,音频数据片段)的对应关系,从而辅助用户快速定位目标音频数据中所有属于同一个说话人的音频数据片段,提高会议记录的效率。