一种目标说话人语音获取方法和系统与流程

文档序号:33707029发布日期:2023-03-31 22:03阅读:45来源:国知局
一种目标说话人语音获取方法和系统与流程

1.本发明涉及语音识别领域,特别是指一种目标说话人语音获取方法和系统。


背景技术:

2.每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。近几年,随着深度学习技术的发展,声纹识别技术也得到了较大的提升,已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战,比如说在多说话人场景中,人类可以准确的从多说话人里面辨识出某个人的声音,但是声纹识别模型的表现就会比较差,无法从多说话人场景里面正确的识别出目标说话人,给声纹识别系统的推广应用带来了一定的阻碍。


技术实现要素:

3.本发明的主要目的在于克服现有技术中的上述缺陷,提出一种目标说话人语音获取方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
4.本发明采用如下技术方案:
5.一种目标说话人语音获取方法,包括:
6.获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
7.将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
8.将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
9.说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
10.将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
11.将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
12.所述混合语料的合成方法,设定为两个说话人混合,具体为:
13.[0014][0015]
s1=w1*f
source1
[0016]
s2=w2*f
source2
[0017]
m=s1+s2
[0018]fsource1
为第一说话人的原始语音信号,f
source2
为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
[0019]
具体地,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。
[0020]
具体地,所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
[0021]
具体地,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
[0022]
具体地,训练的损失函数包括:交叉熵损失函数l1和源失真比损失函数l2:
[0023][0024][0025][0026]
x
t
+xe=x
*
[0027]
其中,其中,y为数据标签,值为0或者1,为模型预测输出;为原始声音信号,x
*
为待测信号,xe和x
t
为源失真比损失函数计算过程中的中间变量。
[0028]
具体地,所述特征打分具体,具体为:
[0029][0030]
其中,similarity声纹特征a和声纹特征b的相似度,θ为特征a和b之间的夹角,a和b为声纹特征,ai为特征a的第i个矢量,bi特征b的第i个矢量,n为声纹特征中矢量个数,||a||为特征a的模长,||b||为特征b的模长。
[0031]
本发明实施例另一方面提供一种目标说话人语音获取系统,包括:
[0032]
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
[0033]
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接
口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
[0034]
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
[0035]
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
[0036]
语音解码单元:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
[0037]
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音本发明实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种目标说话人语音获取方法步骤。
[0038]
本发明实施例又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种目标说话人语音获取方法步骤。
[0039]
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0040]
本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音;本发明提供的方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
附图说明
[0041]
图1为本发明实施例提供的一种目标说话人语音获取方法流程图;
[0042]
图2为本发明实施例提供的说话人提取模块的结构图;
[0043]
图3为本发明实施例提供的掩膜层的结构图;
[0044]
图4为本发明实施例提供的说话人编码模块的结构图;
[0045]
图5为本发明实施例提供的一种目标说话人语音获取系统架构图;
[0046]
图6为本发明实施例提供的一种电子设备示意图;
[0047]
图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
[0048]
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
[0049]
本发明提供的一种目标说话人语音获取方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景
[0050]
如图1,为本发明实施例提供的一种目标说话人语音获取方法流程图,包括:
[0051]
s101:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
[0052]
所述混合语料的合成方法,设定为两个说话人混合,具体为:
[0053][0054][0055]
s1=w1*f
source1
[0056]
s2=w2*f
source2
[0057]
m=s1+s2
[0058]fsource1
为第一说话人的原始语音信号,f
source2
为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
[0059]
混合数据集由合成后的m1~m
x
组成,共x条。第一说话人数据集由s11~s1
x
组成,共x条。第二说话人数据集由s21~s2
x
组成,共x条。参考数据集为随机抽取的包含有第一说话人1和第二说话人2声音的语音数据,总共k人
[0060]
本发明实施例中共需合成20000条训练数据,6000条验证数据。
[0061]
s102:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
[0062]
说话人提取模块是改进的模型结构,如图2所示,实验证明取得了良好的效果,可以加速模型训练的收敛速度,说话人提取sdr指标可以提升10%以上;
[0063]
具体地,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。个模型有低维、中维、高维三个维度的卷积层,可以从各个角度提取时域语音信号,有助于提升源失真比(sdr)指标。
[0064]
具体地,如图3所示,掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
[0065]
掩膜层可以将无关说话人的语音信号过滤掉,只留下目标说话人的语音信号,提高识别准确率。
[0066]
s103:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模
块获取参考语料中的参考声学特征,得到参考声学特征集;
[0067]
s104:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
[0068]
具体地,所述特征打分具体,具体为:
[0069][0070]
其中,similarity声纹特征a和声纹特征b的相似度,θ为特征a和b之间的夹角,a和b为声纹特征,ai为特征a的第i个矢量,bi特征b的第i个矢量,n为声纹特征中矢量个数,||a||为特征a的模长,||b||为特征b的模长。
[0071]
当打分高于阈值的时候,认为为同一说话人,当打分高于阈值,认为不是同一说话人。
[0072]
s105:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
[0073]
如图4为说话人编码模块示意图,采用改进网络结构,基于resnet block,改进后的网络结构可以提升模型的鲁棒性,提高声纹识别准确率;
[0074]
具体地,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
[0075]
s106:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
[0076]
本发明实施例提供的损失函数改进了说话人编码模块和语音解码模块的输出权重,加快模型训练的收敛速度,声纹识别准确率可以提升10%以上。
[0077]
具体地,训练的损失函数包括:交叉熵损失函数l1和源失真比损失函数l2:
[0078][0079][0080][0081]
x
t
+xe=x
*
[0082]
其中,其中,y为数据标签,值为0或者1,为模型预测输出;为原始声音信号,x
*
为待测信号,xe和x
t
为源失真比损失函数计算过程中的中间变量。
[0083]
如图5,本发明实施例另一方面提供一种目标说话人语音获取系统,包括:
[0084]
语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
[0085]
混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
[0086]
参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
[0087]
特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
[0088]
语音解码单元:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
[0089]
检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
[0090]
图6所示,本发明实施例提供了一种电子设备600,包括存储器610、处理器620及存储在存储器620上并可在处理器620上运行的计算机程序611,处理器620执行计算机程序611时实现本发明实施例提供的一种目标说话人语音获取方法。
[0091]
由于本实施例所介绍的电子设备为实施本发明实施例中所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
[0092]
请参阅图7,图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
[0093]
如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现本发明实施例提供一种目标说话人语音获取方法;
[0094]
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
[0095]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0096]
本发明实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得
到含有目标说话人的混合语音中目标说话人语音;本发明提供的方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
[0097]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
[0098]
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1