基于嵌入增强的超短时说话人确认方法、设备及介质与流程

文档序号：35196344发布日期：2023-08-21 17:11阅读：29来源：国知局

本发明属于说话人确认，特别涉及一种基于嵌入增强的超短时说话人确认方法、设备及介质。

背景技术：

1、声纹识别是通过语音确定说话人身份的任务，说话人确认是声纹识别研究的一个分支。说话人确认是根据当前语音数据与注册过的说话人语音进行比对，从而判断是否是同一个说话人的任务。说话人确认模型可分为端到端的模型和分阶段的模型。

2、其中，端到端的说话人确认以一对语音作为输入，直接生成该对语音的相似性分数。分阶段的说话人确认分成前端和后端两个阶段，前端阶段用于说话人身份特征提取，即将说话人语音数据生成一个矢量，后端阶段用于对生成的一对矢量进行相似性计算从而判断两段语音是否属于同一说话人。现如今研究最多、使用最广泛的是分阶段的模型。

3、后端阶段常用余弦距离和概率线性判别分析帮助判别。而前端阶段的网络模型多种多样，最具代表性的是基于时延神经网络的x-vector，很多工作都是在其基础上做了改进，并且在特定测试条件下已经达到了非常好的效果。实验表明，说话人确认系统的性能随语音时长减少而降低，而现阶段得到的较优的效果都是基于尽可能长的语音测试而来的。

4、现实中很难获取到足够长的语音数据，所以在实际使用中系统的效果比预期要差很多。

5、曾经的研究认为5-10秒是短时问题，并做了很多优化。然而随着深度学习时代的到来，5-10秒已经不再是问题，并且现阶段的基于深度学习的说话人确认模型，在大于2秒的条件下也有不错的效果，而对于小于2秒也就是超短时条件下，判别效果较差。

技术实现思路

1、本发明的目的在于提出一种基于嵌入增强的超短时说话人确认方法，以提升现有的说话人确认模型在超短时条件下的说话人确认效果。

2、本发明为了实现上述目的，采用如下技术方案：

3、一种基于嵌入增强的超短时说话人确认方法，包括如下步骤：

4、基于嵌入增强的超短时说话人确认方法，包括如下步骤：

5、步骤1. 搭建网络模型，其包括预先训练好的说话人确认模型以及增强器模型；

6、语音在网络模型中的处理流程如下：

7、输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到相对较好的第二说话人嵌入；

8、步骤2. 保持说话人确认模型的模型参数不变，使用训练语音对网络模型进行训练，从而优化增强器模型的模型参数，进而得到训练好的增强器模型；

9、步骤3. 利用训练好的网络模型，对输入的语音进行说话人确认。

10、优选的，增强器模型包括输入层、隐藏层以及输出层；

11、输入层包含一个第一全连接层，该输入层使用leakyrelu进行激活；

12、隐藏层由三个残差块组成，隐藏层的输入输出维度为512；

13、每个残差块由第二全连接层以及第三全连接层组成；第二全连接层用leakyrelu进行激活，将第三全连接层的输出与残差块的输入相加后使用leakyrelu进行激活；

14、输出层使用一个第四全连接层；

15、相对较差的第一说话人嵌入在增强器模型中的处理流程如下：

16、定义第一说话人嵌入为d维的向量；

17、第一说话人嵌入先经过第一全连接层和leakyrelu激活函数的计算，得到512维的输入向量，该输入向量经过三个残差块的计算得到512维度的输出向量；

18、最后该输出向量经过输出层得到d维的向量，即相对较好的第二说话人嵌入。

19、在上述基于嵌入增强的超短时说话人确认方法的基础上，本发明还提出了一种计算机设备，该计算机设备包括存储器和一个或多个处理器。

20、所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上面述及的基于嵌入增强的超短时说话人确认方法的步骤。

21、在上述基于嵌入增强的超短时说话人确认方法的基础上，本发明还提出了一种计算机可读存储介质，在计算机可读存储介质上存储有程序。

22、该程序被处理器执行时用于实现上述基于嵌入增强的超短时说话人确认方法的步骤。

23、本发明具有如下优点：

24、如上所述，本发明述及了一种基于嵌入增强的超短时说话人确认方法、设备及介质。其中，本发明设计并训练了一个增强器模型，该增强器模型能够将差的嵌入映射到好的嵌入，差的说话人嵌入表现为较大的类内距离和较小的类间距离，区分度较差，而好的说话人嵌入表现为较小的类内距离和较大的类间距离，因此有较好的区分度，使用较好区分度的说话人嵌入进行打分后的结果也更准确，从而对语音身份的判别更准确。本发明方法既能够保持现有说话人确认模型在长语音条件下的性能，又能够提升在短语音条件下的性能，实用性强。

技术特征：

1.基于嵌入增强的超短时说话人确认方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于嵌入增强的超短时说话人确认方法，其特征在于，

3.根据权利要求2所述的基于嵌入增强的超短时说话人确认方法，其特征在于，

4.根据权利要求1所述的基于嵌入增强的超短时说话人确认方法，其特征在于，

5.一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，

6.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，实现如权利要求1至4任一项所述的基于嵌入增强的超短时说话人确认方法的步骤。

技术总结
本发明属于说话人确认技术领域，公开了一种基于嵌入增强的超短时说话人确认方法、设备及介质。本发明方法包括如下步骤：搭建网络模型，其包括预先训练好的说话人确认模型以及增强器模型；语音在网络模型中的处理流程如下：输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到相对较好的第二说话人嵌入；保持说话人确认模型的模型参数不变，使用训练语音对网络模型进行训练，从而优化增强器模型的模型参数，进而得到训练好的增强器模型；利用训练好的网络模型，对输入的语音进行说话人确。本发明利于提升现有的说话人确认模型在超短时条件下的说话人确认效果。

技术研发人员：杨爽,刘天,黄开,李波,孙彬,晁聪,陈聪,纪发蕾
受保护的技术使用者：国网山东省电力公司菏泽供电公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨爽刘天黄开李波孙彬晁聪陈聪纪发蕾
技术所有人：国网山东省电力公司菏泽供电公司
我是此专利的发明人

上一篇：一种神经外科患者综合诊疗护理系统的制作方法
上一篇：基于多媒体舞蹈动作图像分解处理方法