一种话者分离方法、装置、电子设备及存储介质与流程

文档序号:30334217发布日期:2022-06-08 06:24阅读:225来源:国知局

1.本公开涉及计算机技术领域,尤其涉及语音处理、智能客服技术领域,具体涉及一种话者分离方法、装置、电子设备及存储介质。


背景技术:

2.在智能客服、会议讨论、访谈对话、综艺节目等场景中,单个声道上通常有多个说话人的声音,因而需要对语音进行话者分离。


技术实现要素:

3.本公开提供了一种话者分离方法、装置、设备以及存储介质。
4.根据本公开的一方面,提供了一种话者分离方法,包括:
5.对目标音频的第一音频片段进行人声判定,得到多个人声片段;
6.对所述人声片段进行特征提取,得到各个人声片段的话者特征;
7.基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;
8.针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。
9.根据本公开的一方面,提供了一种话者分离装置,包括:
10.判定模块,用于对目标音频的第一音频片段进行人声判定,得到多个人声片段;
11.第一特征提取模块,用于对所述人声片段进行特征提取,得到各个人声片段的话者特征;
12.聚类模块,用于基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;
13.计算模块,用于针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。
14.根据本公开的另一方面,提供了一种电子设备,包括:
15.至少一个处理器;以及
16.与所述至少一个处理器通信连接的存储器;其中,
17.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一
个处理器执行,以使所述至少一个处理器能够执行话者分离方法。
18.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行话者分离方法。
19.根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现话者分离方法。
20.应用本公开实施例提供的话者分离方法,先对目标音频的第一音频片段进行人声判定,得到人声片段,再提取人声片段的语音特征。随后基于人声片段的话者特征之间的特征相似度进行第一次聚类,即粗聚类,将达到预设数目的聚类集合确定为话者片段集合。粗聚类的聚类延迟低,并且确保每个话者片段集合的高纯度。再根据非话者片段集合包含的人声片段与各个话者片段集合的特征相似度,对非话者片段集合中的人声片段进行重新划分,实现了进一步的细聚类,从而对粗聚类的结果进行实时的细致的调节,得到实时、快速的话者分离结果。
21.由于特征提取、聚类的过程均可在线进行,且聚类结果可以包含多个话者片段集合,因此本公开实施例提供的话者分离方法适用于包含多个说话人声音的在线音频的在线话者分离,在说话人较多情况下仍有良好的话者分离效果。并且,也无需大量的话者分离的标注数据,训练特征提取网络的音频样本只需进行整体标注,从公开数据集即可获取,成本较低。
22.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案,不构成对本公开的限定。其中:
24.图1为相关技术中在线音频的话者分离方法的一种示意图;
25.图2为本公开实施例提供的话者分离方法的一种流程示意图;
26.图3(a)是裁剪之前无向图的一种示意图;
27.图3(b)是裁剪之后无向图的一种示意图;
28.图4为本公开实施例提供的标签匹配的一种流程示意图;
29.图5为本公开实施例提供的话者分离方法的一种示意图;
30.图6是用来实现本公开实施例的话者分离方法的装置的框图;
31.图7是用来实现本公开实施例的话者分离方法的电子设备的框图。
具体实施方式
32.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
33.在智能客服、会议讨论、访谈对话、综艺节目等场景中,单个声道上通常有多个说话人的声音,因而需要对语音进行话者分离。
34.通常话者分离这个过程是离线完成的,即需要获取完整音频,并确定音频中说话
人的个数,才可以分离。但离线完成的话者分离无法应用于实时性要求高的场合。
35.目前也有针对在线音频的在线话者分离,采用端到端深度学习的方案。具体可以参见图1,图1为相关技术中在线音频的话者分离方法的一种示意图,如图1所示,包括音频分帧模块、基于自注意力机制(self-attentive)的编解码(encoder-decoder)模块、预测模块。音频分帧模块对在线音频分帧,再经过编解码模块,得到音频特征,根据音频特征直接预测每帧的说话人标签。整个模型采用端到端的方式进行训练。
36.这种端到端的处理方案,在说话人数目小于2的情况下处理结果比较理想,但是一旦多于两人,效果下降明显,即不适用于多个说话人的场景。此外,还需要大量的话者分离的标注数据用于训练,也就是说,对于音频样本,需要确定各个片段是谁说的,即需要确定样本音频数据中各个音频片段的说话人标签,才可以用于训练。然而,获取大量的话者分离的标注数据的人力成本较高。
37.为了解决上述技术问题,本公开提供了一种话者分离方法、装置、电子设备及存储介质。
38.本公开的一个实施例中,提供了一种话者分离方法,方法包括:
39.对目标音频的第一音频片段进行人声判定,得到多个人声片段;
40.对所述人声片段进行特征提取,得到各个人声片段的话者特征;
41.基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;
42.针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。
43.应用本公开实施例提供的话者分离方法,先对目标音频的第一音频片段进行人声判定,得到人声片段,再提取人声片段的语音特征。随后基于人声片段的话者特征之间的特征相似度进行第一次聚类,即粗聚类,将达到预设数目的聚类集合确定为话者片段集合。粗聚类的聚类延迟低,并且确保每个话者片段集合的高纯度。再根据非话者片段集合包含的人声片段与各个话者片段集合的特征相似度,对非话者片段集合中的人声片段进行重新划分,实现了进一步的细聚类,从而对粗聚类的结果进行实时的细致的调节,得到实时、快速的话者分离结果。
44.由于特征提取、聚类的过程均可在线进行,且聚类结果可以包含多个话者片段集合,因此本公开实施例提供的话者分离方法适用于包含多个说话人声音的在线音频的在线话者分离,在说话人较多情况下仍有良好的话者分离效果。并且,也无需大量的话者分离的标注数据,训练特征提取网络的音频样本只需进行整体标注,从公开数据集即可获取,成本较低。
45.下面对本公开实施例提供的话者分离方法、装置、电子设备及存储介质分别进行详细介绍。
46.参见图2,图2为本公开实施例提供的话者分离方法的一种流程示意图,如图2所示,方法可以包括以下步骤:
47.s201:对目标音频的第一音频片段进行人声判定,得到多个人声片段。
48.本公开实施例提供的话者分离方法可以应用于电子设备,能够针对在线音频进行话者分离,也就是说,电子设备可以实时获取在线音频并对所获取的音频片段进行实时的话者分离,并非获取完整音频后才进行话者分离。
49.因此,目标音频可以是在线音频。此外,本公开实施例提供的话者分离方法同样适用于离线音频,因此目标音频也可以是离线音频。
50.本步骤中,对目标音频的第一音频片段进行人声判定,其中,第一音频片段可以是当前已获取片段。人声判定的目的是确定哪些音频片段是人声音频,哪些音频片段是非人声音频,并只保留人声音频。即筛除噪声片段、静音片段,得到人声音频片段,其中噪声可以是彩铃,忙音,音乐,环境等。
51.具体的,可以对目标音频的第一音频片段进行分帧,每帧25ms,帧移10ms,并分别对每帧进行人声判定。
52.例如,预先利用开源数据中获取的人声样本数据以及彩铃、忙音、音乐等非人声样本数据,训练gmm(gaussian mixed model,混合高斯模型)、dnn(deep neural networks,深度神经网络)或其他语音检测模型。训练完成的语音检测模型即可作为分类器,用于识别音频帧是否为人声音频帧。
53.此外,可以通过音频帧的短时能量识别是否为静音音频帧,即音频帧的短时能量为0表示音频帧为静音音频帧。
54.对于目标音频的第一音频片段,筛除噪声片段、静音片段,即可得到人声片段。其中,每个人声片段的长度可以根据需求设定,例如设置为大约1.5s。
55.s202:对人声片段进行特征提取,得到各个人声片段的话者特征。
56.本公开实施例中,可以用预先训练的特征提取网络,提取各个人声片段的话者特征。特征提取网络可以是预先训练完成的深度学习网络模型,深度学习网络模型的结构可以依次包括:多层lstm(long-short termmemory,长短时记忆模型)或tdnn(time delay neural network,延时网络)、linear映射层,fc(full connection,全连接层)。
57.特征提取网络可以采用开源数据集例如aishell(一种公开的大规模中文语音数据库)或librispeech(一种公开的大规模英文语音数据库)提前训练。区别于相关技术,本公开实施例中,无需话者分离的标注数据。也就是说,对于音频样本,无需确定各个片段是谁说的,只需确定该音频样本整体是谁说的,即可用于训练。
58.作为一个示例,从aishell开源数据集中获取大量的音频样本,这些音频样本均来自于100个说话人,将音频样本分帧,首先提取各帧的普通特征,例如mfcc(mel-frequencycepstral coefficients,梅尔倒谱系数)特征或plp(perceptual linear predictive,感知线性预测特征)、fbank(filter bank,频域特征)等,通常设置为40维度,然后经过多层lstm、linear映射层,得到说话人声谱特征,通常设置为128维度,且由多帧累加再平均得到,例如每150帧计算一次平均,作为大约1.5s的人声片段的话者特征,随后经过全连接层、输出层,得到100维度的输出向量,即可根据音频样本的说话人标签计算损失值,例如采用ce(cross entropy,交叉熵)的损失函数计算损失值,进而调整网络中的参数。
59.可见,本公开实施例中,无需大量的话者分离的标注数据用于训练,训练特征提取网络的音频样本只需进行整体标注,从公开数据集即可获取,成本较低。
60.特征提取网络训练完成后,即可用于提取人声片段的话者特征。
61.作为一个示例,相邻的150个人声音频帧组成人声片段,时长大约1.5s,人声片段的话者特征可以为128维。
62.s203:基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;非话者片段集合包含的人声片段的数目未达到预设数目。
63.本公开实施例中,由于人声片段的话者特征即说话人的声谱特征,因此可以根据话者特征的特征相似度进行聚类。其中,特征相似度可以是话者特征在特征空间的距离的倒数,即在特征空间的距离越小,表示特征相似度越高。
64.本公开实施例中,先基于预设的第一相似度阈值进行快速聚类,即粗聚类。粗聚类的算法可以是增量更新的自底而上的层次聚类(agglomerative hierarchy clustering,ahc)。
65.具体的,基于各个人声片段的话者特征之间的特征相似度进行粗聚类。为了确保聚在一起的话者片段属于同一个说话人,可以预先设置较大的第一相似度阈值。作为一个示例,第一相似度阈值可以设置为95%。也就是说,只有相似度非常高的话者片段,才聚集为一类。
66.并且,当某个聚类集合中包含的人声数目达到预设数目,可以认为该聚类集合为话者片段集合,即认为这个集合的人声片段是属于同一个说话人的。
67.作为一个示例,预设数目可以设置为6。
68.也就是说,对于未达到预设数目的聚类集合,还不确定是不是属于一个人的人声片段的集合。并且,也可能是异常的聚类,例如感叹词,延长音,交叠音或没有去除干净的噪音等。因此需要进行后续的精细划分。
69.本公开实施例中,上述粗聚类过程能够确保每个聚类集合的纯度,且聚类速度快、延时小,不需要像传统的聚类一样等待完整数据后才进行。
70.上述粗聚类过程的弊端是形成的聚类集合的个数,大于真实的说话人个数,需要进行二次聚类,即细聚类。
71.s204:针对非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至特征相似度最大值对应的话者片段集合。
72.对于粗聚类之后产生的非话者片段集合中的人声片段,需要进行细聚类。
73.首先,针对非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度。
74.本公开的一个实施例中,针对非话者片段集合包含的某个人声片段,分别计算该人声片段与话者片段集合中各个人声片段的相似度,取平均值,作为该人声片段与话者片段集合的特征相似度。
75.举例来讲,非话者片段集合a中包含人声片段a1,话者片段集合表示为b,c和d,则分别计算人声片段a1与话者片段集合b中的人声片段b1,b2

bm的特征相似度,并取平均,得到人声片段a1与话者片段集合b的特征相似度。
76.容易理解的,特征相似度越高,表示该人声片段与话者片段集合越可能是属于同一个说话人的;如果所计算的特征相似度均很小,说明不存在与该人声片段近似的集合。
77.因此,本公开实施例中,判断计算得到的特征相似度最大值是否大于预设的第二相似度阈值,若是将该人声片段划分至特征相似度最大值对应的话者片段集合。其中,预设的第二相似度阈值通常小于粗聚类采用的相似度阈值,即第一相似度阈值。但为了保证话者分离的准确度,第二相似度阈值也需要足够大。作为一个示例,第二相似度阈值可以设置为85%。
78.承接上例,如果人声片段a1与话者片段集合b的特征相似度为m1,人声片段a1与话者片段集合c的特征相似度为m2,人声片段a1与话者片段集合d的特征相似度为m3,若特征相似度最大值为m2,且大于预设的第二相似度阈值,则将人声片段a1划分至m2对应的话者片段集合,即话者片段集合d。若特征相似度最大值不大于预设的第二相似度阈值,则不对人声片段a1进行重新划分。
79.针对非话者片段集合a中包含的其他人声片段a2,a3等,可以采用与a1相同的方式进行重新划分。
80.至此,每个话者片段集合中的人声片段都对应同一个说话人,可以为每一个话者片段集合生成话者标签,即得到针对目标音频的第一音频片段的话者分离结果。
81.应用本公开实施例提供的话者分离方法,先对目标音频的第一音频片段进行人声判定,得到人声片段,再提取人声片段的语音特征。随后基于人声片段的话者特征之间的特征相似度进行第一次聚类,即粗聚类,将达到预设数目的聚类集合确定为话者片段集合。粗聚类的聚类延迟低,并且确保每个话者片段集合的高纯度。再根据非话者片段集合包含的人声片段与各个话者片段集合的特征相似度,对非话者片段集合中的人声片段进行重新划分,实现了进一步的细聚类,从而对粗聚类的结果进行实时的细致的调节,得到实时、快速的话者分离结果。
82.由于特征提取、聚类的过程均可在线进行,且聚类结果可以包含多个话者片段集合,因此本公开实施例提供的话者分离方法适用于包含多个说话人声音的在线音频的在线话者分离,在说话人较多情况下仍有良好的话者分离效果。并且,也无需大量的话者分离的标注数据,训练特征提取网络的音频样本只需进行整体标注,从公开数据集即可获取,成本较低。
83.本公开的一个实施例中,在粗聚类结果的基础上进行细聚类的过程中,可以构建无向图,基于无向图进行细聚类。
84.具体的,方法还包括:基于各个人声片段的话者特征之间的特征相似度构建无向图,无向图的节点即为人声片段,节点之间的连接权重即为人声片段之间的特征相似度。
85.如果任意两个人声片段均进行连接,将生成复杂度非常高的无向图,为了对无向图进行裁剪,减少计算量,可以设定无向图中相连接的节点之间的特征相似度均大于预设阈值,也就是说,只有特征相似度大于预设相似度阈值的两个节点,才进行连接。
86.参见图3(a)和图3(b),图3(a)是裁剪之前无向图的一种示意图,图3(b)是裁剪之后无向图的一种示意图。
87.可见,裁剪之前,任意两个人声片段均进行连接,复杂度非常高;裁剪之后,删去了大量的连接关系,进而在后续基于无向图的计算过程中,能够大幅降低计算量。
88.相应的,针对非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值的步骤,具体可以包括:
89.步骤11:针对非话者片段集合包含的每个人声片段,基于该人声片段与各个话者片段集合中人声片段的连接数目,筛选出连接数目大于预设数目的话者片段集合,作为该人声片段的候选话者片段集合。
90.步骤12:针对非话者片段集合包含的每个人声片段,计算该人声片段与各个候选话者片段集合中人声片段的均值相似度,分别作为该人声片段与各个候选话者片段集合的特征相似度,并从该人声片段与各个候选话者片段集合的特征相似度中确定特征相似度最大值。
91.具体的,为了降低计算量,可以根据人声片段与各个话者片段集合中人声片段的连接数目进行初步筛选。
92.作为一个示例,设置连接数目的阈值为n,对于非话者片段集合包含的人声片段a,判断人声片段a与话者片段集合b中人声片段的连接数目,如果大于n,则将话者片段集合b确定为候选话者片段集合,即话者片段集合b参与后续的特征相似度计算;否则,说明人声片段a与话者片段集合b中的人声片段的特征相似度均不高,人声片段a必然不属于话者片段集合b,即无需进行后续的特征相似度计算,从而降低了计算量。
93.在计算特征相似度时,计算非话者片段集合中人声片段与各个候选话者片段集合中人声片段的均值相似度,作为该人声片段与各个候选话者片段集合的特征相似度。具体计算过程可以参见s204,不再赘述。
94.可见,本公开实施例中,基于各个人声片段的话者特征之间的特征相似度构建话者特征无向图,且话者特征无向图中,特征相似度大于预设相似度阈值的两个节点,才进行连接,从而大幅降低了无向图的复杂度。进一步的,根据非话者片段集合包含的每个人声片段与各个话者片段集合中人声片段的连接数目,进行初步筛选,确定候选话者片段集合。后续的细聚类过程中,仅考虑候选话者片段集合,进一步降低了计算复杂度,进而提高在线话者分离的实时性。
95.本公开实施例中,在所处理的目标音频是在线音频的情况下,会不断的获取新的音频片段。
96.在获取新的音频片段后,需要再次进行聚类,形成新的话者片段集合,而新形成的话者片段集合的标签可能与之前形成的话者片段集合的标签不一致,但可能对应同一个说话人,因此需要进行标签匹配,以之前的标签为准。
97.具体的,参见图4,图4为本公开实施例提供的标签匹配的一种流程示意图,如图4所示,方法还包括:
98.s401:对目标音频的第二音频片段进行人声判定和特征提取,得到多个后续人声片段的话者特征。
99.其中,第二音频片段可以是目标音频的新获取片段,也是第一音频片段之后的片段。
100.首先,对于目标音频的第二音频片段,同样进行人声判定和特征提取,具体步骤可以参见s201-s202,不再赘述。
101.s402:针对话者片段集合、非话者片段集合和后续人声片段进行重新聚类,得到更
新后的话者片段集合。
102.本公开的一个实施例中,步骤s402可以包括以下步骤:
103.步骤21:对非话者片段集合包含的人声片段和后续人声片段进行重聚类,得到重聚类后的话者片段集合和重聚类后的非话者片段集合。
104.首先,对上次聚类得到的非话者片段集合包含的人声片段和后续人声片段进行重聚类,可以得到重聚类后的话者片段集合和重聚类后的非话者片段集合。
105.上述重聚类过程,实质上是针对当前的非话者片段集合包含的人声片段、后续人声片段进行粗聚类,因此可以设置较大的特征相似度阈值,例如等同于步骤s203中的第一相似度阈值,也就是说,只有相似度非常高的话者片段,才聚集为一类。具体聚类过程可以参见s203步骤,不再赘述。
106.步骤22:基于重聚类前的话者片段集合和重聚类后的话者片段集合之间的特征相似度,对重聚类前的话者片段集合、重聚类后的话者片段集合进行合并,得到至少一个合并后的话者片段集合。
107.由于重聚类前的话者片段集合和重聚类后的话者片段集合可能对应同一个说话人,因此可以基于重聚类前的话者片段集合和重聚类后的话者片段集合之间的特征相似度,将重聚类前的话者片段集合和重聚类后的话者片段集合进行合并,即合并为同一个话者片段集合。
108.作为一个示例,重聚类前的话者片段集合包括p1,p2,重聚类后的话者片段集合包括p3,p4,即可以分别计算p1与p3、p1与p4、p2与p3和p2与p4之间的特征相似度,基于特征相似度进行合并。若p1和p4实质上对应同一个说话人,则p1和p4之间的特征相似度必然大于预设的阈值,则将p1和p4合并,由于p1是重聚类前的话者片段集合,因此可以将p4中包含的所有人声片段均划分至p1,实现合并。
109.本公开实施例中,可以将两个话者片段集合各自包含的人声片段的均值特征之间的相似度,作为这两个话者片段集合之间的特征相似度。
110.将完成上述合并操作之后保留的话者片段集合,记为合并后的话者片段集合。承接上例,由于p4被合并至p1,则合并后的话者片段集合包括:p1,p2和p3。
111.步骤23:针对重聚类后的非话者片段集合包含的每个人声片段,计算该人声片段与各个合并后的话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第三相似度阈值,将该人声片段划分至该特征相似度最大值对应的合并后的话者片段集合,得到更新后的话者片段集合。
112.本公开实施例中,对于重聚类后的非话者片段集合包含的每个人声片段,同样进行细聚类,即划分至合并后的话者片段集合,得到更新后的话者片段集合。
113.划分的依据同样为特征相似度,具体可以参见步骤s204,不再赘述。
114.至此,可以得到更新后的话者片段集合,也就是新的话者分离结果。
115.可见,本公开实施例中,可以分阶段获取在线音频的片段,并分阶段进行话者分离,直到在线音频的每个片段都处理完毕,处理过程延时低,实时性强,从而很好的适用于在线音频的实时话者分离。
116.s403:为每一个更新后的话者片段集合生成第二话者标签,并基于更新前的话者片段集合与更新后的话者片段集合中相同人声片段的数目进行匹配,得到更新前的话者片
段集合与更新后的话者片段集合的匹配结果。
117.得到更新后的话者片段集合后,为每一个更新后的话者片段集合生成第二话者标签。
118.如上文所述,更新后的话者片段集合的第二话者标签可能与之前形成的话者片段集合的第一话者标签不一致,但可能对应同一个说话人,因此需要进行标签匹配,以之前的标签,即第一话者标签为准。
119.例如,更新后的某个话者片段集合的第二话者标签为2,之前形成的某个话者片段集合的第一话者标签为1,但这两个话者片段集合实质上对应同一个说话人,因此,使用不同的标签是不合理的,需要以第一次生成的标签为准。
120.具体的,标签匹配的依据为更新前的话者片段集合与更新后的话者片段集合中相同人声片段的数目。
121.该匹配问题可视为最大权重双边匹配的问题,可以采用匈牙利算法(hungarian algorithm)解决。
122.s404:将更新后的话者片段集合的第二话者标签调整为与其相匹配的更新前的话者片段集合的第一话者标签。
123.在完成匹配后,对更新后的话者片段集合的第二话者标签进行调整,调整为与其相匹配的更新前的话者片段集合的第一话者标签,从而保证在分阶段处理在线音频过程中,生成标签的前后一致性。
124.下面结合图5,对本公开实施例提供的话者分离方法进行进一步说明,图5为本公开实施例提供的话者分离方法的一种示意图,如图5所示,对于需要进行话者分离的目标音频(在线音频或离线音频),对目标音频分帧,进行语音检测,去除环境噪音和静音帧,得到人声片段;随后提取人声片段的话者特征,一方面基于话者特征,基于增量更新的自底而上的层次聚类算法进行粗聚类,得到话者片段集合和非话者片段集合;另一方面,基于话者特征构建话者特征无向图,再基于无向图进行细聚类。随后以之前得到的标签为准,进行标签匹配,将新生成的标签与之前生成的标签对齐,保证分阶段处理在线音频过程中,生成标签的前后一致性。最终得到话者分离结果。
125.由于特征提取、粗聚类和细聚类的过程均可在线进行,且经过粗聚类和细聚类之后,聚类结果可以包含多个话者片段集合,因此本公开实施例提供的话者分离方法适用于包含多个说话人声音的在线音频的在线话者分离,在说话人较多情况下仍有良好的话者分离效果。并且,也无需大量的话者分离的标注数据,训练特征提取网络的音频样本只需进行整体标注,从公开数据集即可获取,成本较低。
126.参见图6,图6是用来实现本公开实施例的话者分离方法的装置的框图,如图6所示,装置可以包括:
127.判定模块601,用于对目标音频的第一音频片段进行人声判定,得到多个人声片段;
128.第一特征提取模块602,用于对所述人声片段进行特征提取,得到各个人声片段的话者特征;
129.聚类模块603,用于基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话
者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;
130.计算模块604,用于针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。
131.本公开的一个实施例中,还包括:
132.构建模块,用于基于各个人声片段的话者特征之间的特征相似度构建无向图,所述无向图的节点为所述人声片段,所述节点之间的连接权重为所述人声片段之间的特征相似度,且所述无向图中相连接的节点之间的特征相似度均大于预设相似度阈值;
133.计算模块604,具体可以用于:
134.针对所述非话者片段集合包含的每个人声片段,基于该人声片段与各个话者片段集合中人声片段的连接数目,筛选出连接数目大于预设数目的话者片段集合,作为该人声片段的候选话者片段集合;
135.针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个候选话者片段集合中人声片段的均值相似度,分别作为该人声片段与各个候选话者片段集合的特征相似度,并从该人声片段与各个候选话者片段集合的特征相似度中确定特征相似度最大值。
136.本公开的一个实施例中,还包括:
137.第一生成模块,用于为每一个话者片段集合生成第一话者标签,得到针对所述目标音频的第一音频片段的话者分离结果。
138.本公开的一个实施例中,还包括:
139.第二特征提取模块,用于对所述目标音频的第二音频片段进行人声判定和特征提取,得到多个后续人声片段的话者特征;
140.重聚类模块,用于针对所述话者片段集合、所述非话者片段集合和所述后续人声片段进行重新聚类,得到更新后的话者片段集合;
141.第二生成模块,用于为每一个更新后的话者片段集合生成第二话者标签,并基于更新前的话者片段集合与更新后的话者片段集合中相同人声片段的数目进行匹配,得到更新前的话者片段集合与更新后的话者片段集合的匹配结果;
142.标签调整模块,用于将更新后的话者片段集合的第二话者标签调整为与其相匹配的更新前的话者片段集合的第一话者标签。
143.本公开的一个实施例中,所述重聚类模块,具体用于:
144.对所述非话者片段集合包含的人声片段和所述后续人声片段进行重聚类,得到重聚类后的话者片段集合和重聚类后的非话者片段集合;
145.基于重聚类前的话者片段集合和所述重聚类后的话者片段集合之间的特征相似度,对所述重聚类前的话者片段集合、所述重聚类后的话者片段集合进行合并,得到至少一个合并后的话者片段集合;
146.针对所述重聚类后的非话者片段集合包含的每个人声片段,计算该人声片段与各个合并后的话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征
相似度最大值大于预设的第三相似度阈值,将该人声片段划分至该特征相似度最大值对应的合并后的话者片段集合,得到所述更新后的话者片段集合。
147.应用本公开实施例提供的话者分离装置,先对目标音频的第一音频片段进行人声判定,得到人声片段,再提取人声片段的语音特征。随后基于人声片段的话者特征之间的特征相似度进行第一次聚类,即粗聚类,将达到预设数目的聚类集合确定为话者片段集合。粗聚类的聚类延迟低,并且确保每个话者片段集合的高纯度。再根据非话者片段集合包含的人声片段与各个话者片段集合的特征相似度,对非话者片段集合中的人声片段进行重新划分,实现了进一步的细聚类,从而对粗聚类的结果进行实时的细致的调节,得到实时、快速的话者分离结果。
148.由于特征提取、聚类的过程均可在线进行,且聚类结果可以包含多个话者片段集合,因此本公开实施例提供的话者分离方法适用于包含多个说话人声音的在线音频的在线话者分离,在说话人较多情况下仍有良好的话者分离效果。并且,也无需大量的话者分离的标注数据,训练特征提取网络的音频样本只需进行整体标注,从公开数据集即可获取,成本较低。
149.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
150.本公开提供了一种电子设备,包括:
151.至少一个处理器;以及
152.与所述至少一个处理器通信连接的存储器;其中,
153.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行话者分离方法。
154.本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行话者分离方法。
155.本公开提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现话者分离方法。
156.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
157.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
158.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如
因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
159.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如话者分离方法。例如,在一些实施例中,话者分离方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的话者分离方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行话者分离方法。
160.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
161.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
162.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
163.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
164.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据
服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
165.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
166.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
167.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1