一种说话人分割模型的优化方法、说话人分割方法及装置与流程

文档序号:30579676发布日期:2022-06-29 11:29阅读:181来源:国知局
一种说话人分割模型的优化方法、说话人分割方法及装置与流程

1.本发明涉及说话人分割技术领域,尤其涉及一种说话人分割模型的优化方法、说话人分割方法及装置。


背景技术:

2.实时说话人分割技术,可以自动判断实时语音流中说话人的身份,给出说话人在何时进行说话的信息。在会议、采访等场景有着较大的应用需求,是当前语音行业研究的热点。
3.说话人分割技术常用的框架是先切分语音,然后再对语音片段进行聚类,但这种框架无法处理实时的语音流,因此,只能作为后端系统对语音做非实时的说话人分割。
4.uis-rnn(unbounded interleaved-state recurrent neural network,无界间隔状态循环神经网络)的出现实现了实时的说话人分割,该框架基于d-vector特征,不限制说话人数目,为每一个说话人建立了一个rnn(recurrent neural network,循环神经网络)模型,并且持续更新,其性能超越了先前基于聚类和深度网络嵌入的方法,成为了当前的主流技术。其中,d-vector是谷歌提出的基于dnn(deep neural networks,深度神经网络)的说话人embedding。
5.虽然uis-rnn技术已经在实际的说话人分割任务中取得了很大的成功,但它仍存在如下缺点:
6.1、基于uis-rnn的系统在实用中,通常使用滑窗方法来截取语音片段进行处理,因此,会出现在一个语音片段中同时包含两个或两个以上说话人的情况。这种情况下,系统的识别能力较弱,使得说话人分割点准确率下降,进而恶化系统的性能。
7.2、在中远场多人对话复杂场景中,噪声问题会导致系统得到的说话人分割点精度低,而在实时说话人模型更新的过程中,这部分受影响的语音会生成新的说话人,使说话人模型逐渐发散,最终在长时对话上效果会严重恶化。


技术实现要素:

8.本技术实施例通过提供一种说话人分割模型的优化方法、说话人分割方法及装置,解决了现有技术中的说话人分割模型,在应用到一个语音片段中同时包含两个或两个以上说话人的情况时,存在说话人分割点准确率低的技术问题,实现了提高说话人分割点准确率的技术效果。
9.第一方面,本技术通过本技术的一实施例提供如下技术方案:
10.一种说话人分割模型的优化方法,包括:
11.获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;
12.基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;
13.基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;
14.基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;
15.基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。
16.优选地,所述基于所述第一语音流数据获得对比误差函数的第一误差函数项,包括:
17.对所述第一语音流数据进行语音检测,获得第一声学特征;
18.按照预设窗长和预设窗移,对所述第一声学特征进行说话人身份特征提取,获得所述第一说话人的第一身份向量;
19.基于所述第一身份向量,获得所述第一误差函数项。
20.优选地,所述基于所述第一身份向量,获得所述第一误差函数项,包括:
21.将所述第一身份向量输入至所述原说话人分割模型,获得第一模型向量;
22.对所述第一模型向量求均值,获得第一模型均值向量;
23.计算所述第一模型均值向量和所述第一说话人的真实标签的加权平方差,获得所述第一误差函数项。
24.优选地,所述基于所述第二语音流数据获得所述对比误差函数的第二误差函数项,包括:
25.对所述第二语音流数据进行语音检测,获得第二声学特征;
26.按照预设窗长和预设窗移,对所述第二声学特征进行说话人身份特征提取,获得所述第二说话人的第二身份向量;
27.基于所述第二身份向量,获得所述第二误差函数项。
28.优选地,所述基于所述第二身份向量,获得所述第二误差函数项,包括:
29.从所述第二身份向量中提取多个身份特征,并将所述多个身份特征与所述第一说话人的真实标签取均值,获得负样本标签;
30.计算所述第一模型均值向量与所述负样本标签的加权平方差,获得所述第二误差函数项。
31.优选地,所述基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数,包括:
32.将所述第一误差函数项减去所述第二误差函数项,获得所述目标对比误差函数。
33.优选地,所述基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型,包括:
34.计算所述目标对比误差函数在多个时刻的均值,获得所述第一语音流数据的更新误差;
35.基于所述第一语音流数据的更新误差,计算所述原说话人分割模型的原模型参数的梯度;
36.基于所述原模型参数的梯度,对所述原模型参数进行更新,获得所述目标说话人分割模型。
37.基于同一发明构思,第二方面,本技术通过本技术的一实施例,提供如下技术方
案:
38.一种说话人分割方法,包括:
39.获取第三语音流数据;
40.将所述第三语音端输入至所述目标说话人分割模型中,获得说话人分割结果;其中,所述目标说话人分割模型基于上述第一方面的任一实施方式获得。
41.基于同一发明构思,第三方面,本技术通过本技术的一实施例,提供如下技术方案:
42.一种说话人分割模型的优化装置,包括:
43.第一获取单元,用于获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;
44.第一获得单元,用于基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;
45.第二获得单元,用于基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;
46.第三获得单元,用于基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;
47.调整单元,用于基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。
48.优选地,所述第一获得单元,具体用于:
49.对所述第一语音流数据进行语音检测,获得第一声学特征;按照预设窗长和预设窗移,对所述第一声学特征进行说话人身份特征提取,获得所述第一说话人的第一身份向量;基于所述第一身份向量,获得所述第一误差函数项。
50.优选地,所述第一获得单元,具体用于:
51.将所述第一身份向量输入至所述原说话人分割模型,获得第一模型向量;对所述第一模型向量求均值,获得第一模型均值向量;计算所述第一模型均值向量和所述第一说话人的真实标签的加权平方差,获得所述第一误差函数项。
52.优选地,所述第二获得单元,具体用于:
53.对所述第二语音流数据进行语音检测,获得第二声学特征;按照预设窗长和预设窗移,对所述第二声学特征进行说话人身份特征提取,获得所述第二说话人的第二身份向量;基于所述第二身份向量,获得所述第二误差函数项。
54.优选地,所述第二获得单元,具体用于:
55.从所述第二身份向量中提取多个身份特征,并将所述多个身份特征与所述第一说话人的真实标签取均值,获得负样本标签;计算所述第一模型均值向量与所述负样本标签的加权平方差,获得所述第二误差函数项。
56.优选地,所述第三获得单元,具体用于:
57.将所述第一误差函数项减去所述第二误差函数项,获得所述目标对比误差函数。
58.优选地,所述调整单元,具体用于:
59.计算目标对比误差函数在多个时刻的均值,获得第一语音流数据的更新误差;基于第一语音流数据的更新误差,计算原说话人分割模型的原模型参数的梯度;基于原说话
人分割模型的原模型模型参数的梯度,对所述原模型模型参数进行更新,获得目标说话人分割模型。
60.基于同一发明构思,第四方面,本技术通过本技术的一实施例,提供如下技术方案:
61.一种说话人分割装置,包括;
62.第二获取单元,用于获取第三语音流数据;
63.输入单元,用于将所述第三语音端输入至所述目标说话人分割模型中,获得说话人分割结果;其中,所述目标说话人分割模型基于上述第一方面的任一实施方式获得。
64.基于同一发明构思,第五方面,本技术通过本技术的一实施例,提供如下技术方案:
65.一种说话人分割模型的优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可以实现上述第一方面的任一实施方式所述的方法步骤。
66.基于同一发明构思,第六方面,本技术通过本技术的一实施例,提供如下技术方案:
67.一种说话人分割装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可以上述第二方面所述的方法步骤。
68.基于同一发明构思,第七方面,本技术通过本技术的一实施例,提供如下技术方案:
69.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可以实现上述第一方面的任一实施方式所述的方法步骤。
70.基于同一发明构思,第八方面,本技术通过本技术的一实施例,提供如下技术方案:
71.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可以实现上述第二方面的方法步骤。
72.本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
73.在本技术实施例中,公开了一种说话人分割模型的优化方法,包括:获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。由于在注重最小化属于同一个说话人语音之间的距离基础上,同时最大化不同说话人语音之间的距离来增加说话人的类间差异信息,以提升gru模型对embedding中说话人信息的建模能力,从而提高说话人分割点的准确率,所以,有效解决了现有技术中的说话人分割模型,在应用到一个语音片段中同时包含两个或两个以上说话人的情况时,存在说话人分割点准确率低的技术问题,实现了提高说话人分割点准确率的技术效果。
附图说明
74.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
75.图1为本技术实施例中一种说话人分割模型的优化方法的流程图;
76.图2为本技术实施例中使用目标对比误差函数更新gru模型的过程示意图;
77.图3为本技术实施例中一种说话人分割方法的流程图;
78.图4为本技术实施例中一种说话人分割模型的优化装置的结构图;
79.图5为本技术实施例中一种说话人分割装置的结构图;
80.图6为本技术实施例中一种说话人分割模型的优化装置和说话人分割装置的结构图;
81.图7为本技术实施例中一种说话人分割装置和说话人分割装置作为服务器时的结构图。
具体实施方式
82.本技术实施例通过提供一种说话人分割模型的优化方法、说话人分割方法及装置,解决了现有技术中的说话人分割模型,在应用到一个语音片段中同时包含两个或两个以上说话人的情况时,存在说话人分割点准确率低的技术问题,实现了提高说话人分割点准确率的技术效果。
83.本技术实施例的技术方案为解决上述技术问题,总体思路如下:
84.一种说话人分割模型的优化方法,包括:获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。由于在原优化函数注重最小化属于同一个说话人语音之间的距离基础上,同时最大化不同说话人语音之间的距离来增加说话人的类间差异信息,以提升gru模型对embedding中说话人信息的建模能力,从而提高说话人分割点的准确率,所以,有效解决了现有技术中的说话人分割模型,在应用到一个语音片段中同时包含两个或两个以上说话人的情况时,存在说话人分割点准确率低的技术问题,实现了提高说话人分割点准确率的技术效果。
85.为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
86.首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
87.实施例一
88.本实施例提供了一种说话人分割模型的优化方法,应用于uis-rnn系统中,用于对uis-rnn系统中的gru(gatedrecurrent unit,门控循环单元)模型进行优化。
89.如图1所示,所述说话人分割模型的优化方法(以gru参数的一次更新为例),包括:
90.步骤s101:获取第一语音流数据和第二语音流数据,第一语音流数据与第一说话人对应,第二语音流数据与第二说话人对应。
91.在具体实施过程中,可以实时采集至少两个不同说话人的语音流数据。
92.举例来讲,第一说话人为说话人a,第二说话人为说话人b,可以实时采集说话人a的第一语音流数据和说话人b的第二语音流数据。
93.步骤s102:基于第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,第一误差函数项为最小化的对象。
94.在具体实施过程中,提供了一种改进型的对比误差函数(即:目标对比误差函数),用于对uis-rnn系统框架中的gru模型进行参数调整。其中,目标对比误差函数包括两个误差函数项(即:第一误差函数项和第二误差函数项),第一误差函数项是基于第一语音流数据获得,且是最小化的对象。
95.作为一种可选的实施例,步骤s102,包括:
96.对第一语音流数据进行语音检测,获得第一声学特征;按照预设窗长和预设窗移,对第一声学特征进行说话人身份特征提取,获得第一说话人的第一身份向量;基于第一身份向量,获得第一误差函数项。
97.举例来讲,可以对说话人a的第一语音流数据进行有效语音检测,例如,vad(voice activity detection,语音活动检测),提取出说话人a的声学特征,然后按照1秒窗长0.5秒窗移提取x-vector(x-vector用于表示说话人身份特征),获得xa={a1,a2,

,a
l
},再添加0向量为初始向量,则获得说话人a的身份向量x
′a={a0,a1,a2,

,a
l
},即第一身份向量为x
′a,下角标代表不同的时间点。其中,x-vector是使用基于均值方差统计的tdnn框架提取的说话人embedding。在获得说话人a的身份向量x
′a后,即可基于说话人a的身份向量x
′a,获得第一误差函数项。
98.具体来讲,所述基于第一身份向量,获得第一误差函数项,包括:
99.将第一身份向量输入至原说话人分割模型,获得第一模型向量;对第一模型向量求均值,获得第一模型均值向量;计算第一模型均值向量和第一说话人的真实标签的加权平方差,获得第一误差函数项。
100.在具体实施过程中,原说话人分割模型是指参数优化前的gru模型,目标说话人分割模型是指参数优化后的gru模型。
101.举例来讲,对于说话人a,在第j(j=1,2,

,l)时刻的说话人a的模型向量(即:第一模型向量)为μ(gru(a0),..,gru(a
j-1
));其中,μ表示求均值操作;gru(*)表示第一身份向量经过原gru模型前向得到的向量输出。
102.如图2所示,在计算第一误差函数项时,以aj为第一说话人的真实标签(即:xa中第j时刻的x-vector),求μ(gru(a0),..,gru(a
j-1
))与aj的加权均方差(mse),即:
[0103][0104]
其中,为第一误差函数项,w为可训练变量加权项。
[0105]
此处,第一误差函数项为最小化的对象,表示属于同一个说话人语音之间的距离。
[0106]
步骤s103:基于第一语音流数据和第二语音流数据,获得目标对比误差函数的第二误差函数项;其中,第二误差函数项为最大化的对象。
[0107]
在具体实施过程中,第二误差函数项为最大化的对象,通过最大化不同说话人语音之间的距离,可以增加说话人的类间差异信息,以提升gru模型对embedding中说话人信息的建模能力,从而提高说话人分割点的准确率。
[0108]
作为一种可选的实施例,步骤s103,包括:
[0109]
对第二语音流数据进行语音检测,获得第二声学特征;按照预设窗长和预设窗移,对第二声学特征进行说话人身份特征提取,获得第二说话人的第二身份向量;基于第二身份向量,获得第二误差函数项。
[0110]
举例来讲,可以对说话人b的第二语音流数据进行有效语音检测,提取出说话人b的声学特征,然后按照1秒窗长0.5秒窗移提取x-vector,则获得说话人b的身份向量xb={b1,b2,

,b
t
},即,第二身份向量为xb,其中,下角标代表不同的时间点。在获得说话人b的身份向量xb后,即可基于说话人b的身份向量xb,获得第二误差函数项。
[0111]
具体来讲,所述基于第二身份向量,获得第二误差函数项,包括:
[0112]
从第二身份向量中提取多个身份特征,并将多个身份特征与第一说话人的真实标签取均值,获得负样本标签;计算第一模型均值向量与负样本标签的加权平方差,获得第二误差函数项。
[0113]
如图2所示,在计算第二误差函数项时,可以对第二身份向量xb进行采样(sampling),提取出n个x-vector(通常n=2),获得样本sample(xb)(n),再求取ample(xb)(n)与第一说话人的真实标签aj的均值,构成负样本标签:
[0114]
μ(sample(xb)(n),aj);
[0115]
然后,再计算第一模型均值向与负样本标签的加权平方差,获得第二误差函数项(mse),即:
[0116][0117]
其中,为第二误差函数项,w为可训练变量加权项。
[0118]
此处,为减少在一个语音片段中同时包含两个、或两个以上说话人的情况所带来的影响,采用真实标签与不同说话人的标签相结合生成负样本标签,通过最大化与该负样
本标签之间的距离,来加强系统对滑窗内同时存在多说话人语音情况的处理能力,提高了gru模型的精度,有利于在中远场多人对话复杂场景中的应用。
[0119]
步骤s104:基于第一误差函数项和第二误差函数项,获得目标对比误差函数。
[0120]
在具体实施过程中,步骤s104,包括:将第一误差函数项减去第二误差函数项,获得目标对比误差函数。
[0121]
举例来讲,目标对比误差函数为:
[0122][0123]
其中,lossj为目标对比误差函数,为第一误差函数项,为第二误差函数项。
[0124]
在本实施例中,为解决说话人分割点精度低的问题,在注重最小化属于同一个说话人语音之间的距离基础上,同时最大化不同说话人语音之间的距离来增加说话人的类间差异信息,以提升gru模型对embedding中说话人信息的建模能力,从而提高说话人分割点的准确率。
[0125]
步骤s105:基于目标对比误差函数,对原说话人分割模型的模型参数进行更新,获得目标说话人分割模型。
[0126]
在具体实施过程中,步骤s105,包括:
[0127]
计算目标对比误差函数在多个时刻的均值,获得第一语音流数据的更新误差;基于第一语音流数据的更新误差,计算原说话人分割模型的原模型参数的梯度;基于原说话人分割模型的原模型模型参数的梯度,对所述原模型模型参数进行更新,获得目标说话人分割模型。
[0128]
举例来讲,首先,在计算目标对比误差函数在多个时刻的均值时,可以对于x
′a,求得j=1,

,l时刻的误差{lossj|j=1,..,l},然后对这些时刻的误差求均值:
[0129][0130]
其中,loss(a)为第一语音流数据的更新误差,即,说话人a语音的更新误差。
[0131]
然后,基于第一语音流数据的更新误差,计算原说话人分割模型的原模型参数的梯度:
[0132][0133]
其中,θ为原说话人分割模型的原模型参数,即,gru模型中所有参与训练更新的参数。
[0134]
再次,基于原说话人分割模型的原模型模型参数的梯度,以预设的更新率η对原模型参数进行更新,更新后的模型参数为:
[0135][0136]
其中,θ

为更新后的模型参数,θ为原模型参数,η为更新率。
[0137]
另外,还可以基于第一语音流数据的更新误差,计算可训练变量加权项w的梯度:
[0138][0139]
然后,以更新率η进行参数更新,更新后的加权项为:
[0140][0141]
其中,w

为更新后的加权项,w为原加权项,η为更新率。
[0142]
至此,即完成对gru模型的模型参数的一次更新,循环执行本方法,直至语音流结束,如此,可以实时对说话人分割模型进行优化,从而不断提高提说话人分割点的准确率。
[0143]
上述本技术实施例中的技术方案,至少具有如下的技术效果或优点:
[0144]
在本技术实施例中,公开了一种说话人分割模型的优化方法,包括:获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。由于在注重最小化属于同一个说话人语音之间的距离基础上,同时最大化不同说话人语音之间的距离来增加说话人的类间差异信息,以提升gru模型对embedding中说话人信息的建模能力,从而提高说话人分割点的准确率,所以,有效解决了现有技术中的说话人分割模型,在应用到一个语音片段中同时包含两个或两个以上说话人的情况时,存在说话人分割点准确率低的技术问题,实现了提高说话人分割点准确率的技术效果。
[0145]
实施例二
[0146]
基于同一发明构思,本实施例提供了一种说话人分割方法,如图3所示,包括:
[0147]
步骤s201:获取第三语音流数据;
[0148]
步骤s202:将第三语音端输入至目标说话人分割模型中,获得说话人分割结果。其中,该目标说话人分割模型是基于实施例一中的任一实施方式获得。
[0149]
在具体实施过程中,第三语音流数据可以是实时采集到的的语音流数据,将第三语音流数据输入至目标说话人分割模型后,目标说话人分割模型可以识别出第三语音流数据中的不同说话人的身份,并基于不同说话人的身份对第三语音数据进行分割,获得每个说话人对应的语音段数据。
[0150]
上述本技术实施例中的技术方案,至少具有如下的技术效果或优点:
[0151]
在本技术实施例中,由于采用目标说话人分割模型对第三语音流数据进行说话人分割,使得分割结果的准率更高,精度也更高。
[0152]
实施例三
[0153]
基于同一发明构思,本实施例提供了一种说话人分割模型的优化装置,如图4所示,包括:
[0154]
第一获取单元301,用于获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;
[0155]
第一获得单元302,用于基于所述第一语音流数据,获得目标对比误差函数的第一
误差函数项;其中,所述第一误差函数项为最小化的对象;
[0156]
第二获得单元303,用于基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;
[0157]
第三获得单元304,用于基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;
[0158]
调整单元305,用于基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。
[0159]
作为一种可选的实施例,所述第一获得单元302,具体用于:
[0160]
对所述第一语音流数据进行语音检测,获得第一声学特征;按照预设窗长和预设窗移,对所述第一声学特征进行说话人身份特征提取,获得所述第一说话人的第一身份向量;基于所述第一身份向量,获得所述第一误差函数项。
[0161]
作为一种可选的实施例,所述第一获得单元302,具体用于:
[0162]
将所述第一身份向量输入至所述原说话人分割模型,获得第一模型向量;对所述第一模型向量求均值,获得第一模型均值向量;计算所述第一模型均值向量和所述第一说话人的真实标签的加权平方差,获得所述第一误差函数项。
[0163]
作为一种可选的实施例,所述第二获得单元303,具体用于:
[0164]
对所述第二语音流数据进行语音检测,获得第二声学特征;按照预设窗长和预设窗移,对所述第二声学特征进行说话人身份特征提取,获得所述第二说话人的第二身份向量;基于所述第二身份向量,获得所述第二误差函数项。
[0165]
作为一种可选的实施例,所述第二获得单元303,具体用于:
[0166]
从所述第二身份向量中提取多个身份特征,并将所述多个身份特征与所述第一说话人的真实标签取均值,获得负样本标签;计算所述第一模型均值向量与所述负样本标签的加权平方差,获得所述第二误差函数项。
[0167]
作为一种可选的实施例,所述第三获得单元304,具体用于:
[0168]
将所述第一误差函数项减去所述第二误差函数项,获得所述目标对比误差函数。
[0169]
作为一种可选的实施例,所述调整单元305,具体用于:
[0170]
计算目标对比误差函数在多个时刻的均值,获得第一语音流数据的更新误差;基于第一语音流数据的更新误差,计算原说话人分割模型的原模型参数的梯度;基于原说话人分割模型的原模型模型参数的梯度,对所述原模型模型参数进行更新,获得目标说话人分割模型。
[0171]
由于本实施例所介绍的说话人分割模型的优化装置为实施本技术实施例一中说话人分割模型的优化方法所采用的装置,故而基于本技术实施例一中所介绍的说话人分割模型的优化方法,本领域所属技术人员能够了解本实施例的说话人分割模型的优化装置的具体实施方式以及其各种变化形式,所以在此对于该说话人分割模型的优化装置如何实现本技术实施例一中的方法不再详细介绍。只要本领域所属技术人员实施本技术实施例一中说话人分割模型的优化方法所采用的装置,都属于本技术所欲保护的范围。
[0172]
实施例四
[0173]
基于同一发明构思,本实施例提供了一种说话人分割装置,如图5所示,包括;
[0174]
第二获取单元401,用于获取第三语音流数据;
[0175]
输入单元402,用于将第三语音端输入至目标说话人分割模型中,获得说话人分割结果;其中,该目标说话人分割模型是基于实施例一中任一实施方式获得。
[0176]
由于本实施例所介绍的说话人分割装置为实施本技术实施例二中说话人分割方法所采用的装置,故而基于本技术实施例二中所介绍的一种说话人分割方法,本领域所属技术人员能够了解本实施例的说话人分割装置的具体实施方式以及其各种变化形式,所以在此对于该说话人分割装置如何实现本技术实施例二中的方法不再详细介绍。只要本领域所属技术人员实施本技术实施例二中说话人分割方法所采用的装置,都属于本技术所欲保护的范围。
[0177]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0178]
图6是根据一示例性实施例示出的一种说话人分割模型的优化装置的结构图(也是一种说话人分割装置的结构图)。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0179]
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
[0180]
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
[0181]
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0182]
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
[0183]
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0184]
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配
置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
[0185]
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0186]
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0187]
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0188]
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0189]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0190]
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种说话人分割模型的优化方法,包括:获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。
[0191]
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种说话人分割方法,包括:获取第三语音流数据;将第三语音端输入至目标说话人分割模型中,获得说话人分割结果。其中,目标说话人分割模型基于实施例一种的任一实施方式获得。
[0192]
图7是本发明实施例中一种说话人分割模型的优化装置作为服务器时的结构图(也是一种说话人分割装置作为服务器时的结构图)。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
[0193]
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0194]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0195]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1