发音对象识别、会议中的说话人识别方法以及装置与流程

文档序号：34303673发布日期：2023-05-31 17:54阅读：101来源：国知局

本说明书实施例涉及语音识别，特别涉及一种发音对象识别、会议中的说话人识别、声纹识别模型的训练方法。

背景技术：

1、说话人识别是利用机器对语音数据进行语音识别，以确定该语音数据对应的说话人。现有的说话人识别均是利用有标签语音数据训练神经网络以提取说话人的特征，再根据说话人的特征确定说话人。但对神经网络的训练往往需要大量的有标签语音数据，而大量的有标签语音数据需要耗费大量的人力物力，效率较低。

2、因此，亟需一种更可靠的发音对象识别方法。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种发音对象识别方法。本说明书一个或者多个实施例同时涉及一种会议中的说话人识别方法，一种声纹识别模型的训练方法，一种发音对象识别装置，一种会议中的说话人识别装置，一种声纹识别模型的训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种发音对象识别方法，包括：

3、获取待识别的语音数据；

4、将语音数据输入预先训练的声纹识别模型，确定语音数据对应的目标发音对象，其中，声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。

5、根据本说明书实施例的第二方面，提供了一种会议中的说话人识别方法，包括：

6、获取会议语音数据；

7、将会议语音数据输入预先训练的声纹识别模型，确定会议语音数据对应的说话人，其中，声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。

8、根据本说明书实施例的第三方面，提供了一种声纹识别模型的训练方法，应用于云侧设备，包括：

9、获取样本集，其中，样本集包括多个无标签语音样本；

10、将样本集划分为多个批次；

11、根据各批次的无标签语音样本，利用指定模型，获得各批次中无标签语音样本对应的样本对象的对象特征和概率分布；

12、对各样本对象的对象特征之间进行差异分析得到第一损失，并根据概率分布确定第二损失；

13、根据第一损失和第二损失，对指定模型进行训练，获得训练后的声纹识别模型的模型参数；

14、将模型参数发送至端侧设备。

15、根据本说明书实施例的第四方面，提供了一种发音对象识别装置，包括：

16、第一获取模块，被配置为获取待识别的语音数据；

17、第一确定模块，被配置为将语音数据输入预先训练的声纹识别模型，确定语音数据对应的目标发音对象，其中，声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。

18、根据本说明书实施例的第五方面，提供了一种会议中的说话人识别装置，包括：

19、第二获取模块，被配置为获取会议语音数据；

20、第二确定模块，被配置为将会议语音数据输入预先训练的声纹识别模型，确定会议语音数据对应的说话人，其中，声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。

21、根据本说明书实施例的第六方面，提供了一种声纹识别模型的训练装置，包括：

22、第二获取模块，被配置为获取样本集，其中，样本集包括多个无标签语音样本；

23、批次划分模块，被配置为将样本集划分为多个批次；

24、第一获得模块，被配置为根据各批次的无标签语音样本，利用指定模型，获得各批次中无标签语音样本对应的样本对象的对象特征和概率分布；

25、第二获得模块，被配置为对各样本对象的对象特征之间进行差异分析得到第一损失，并根据概率分布确定第二损失；

26、训练模块，被配置为根据第一损失和第二损失，对指定模型进行训练，获得训练后的声纹识别模型的模型参数；

27、发送模块，被配置为将模型参数发送至端侧设备。

28、根据本说明书实施例的第七方面，提供了一种计算设备，包括：

29、存储器和处理器；

30、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述第一方面所述的发音对象识别方法或第二方面所述的会议中的说话人识别方法或第三方面所述的声纹识别模型的训练方法的步骤。

31、根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述第一方面所述的发音对象识别方法或第二方面所述的会议中的说话人识别方法或第三方面所述的声纹识别模型的训练方法的步骤。

32、根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述第一方面所述的发音对象识别方法或第二方面所述的会议中的说话人识别方法或第三方面所述的声纹识别模型的训练方法的步骤。

33、本说明书实施例提供了一种发音对象识别方法，获取待识别的语音数据；将语音数据输入预先训练的声纹识别模型，确定语音数据对应的目标发音对象，其中，声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。上述方案使用无标签语音样本对模型进行自监督训练，则不需要人工进行大量的标签标注工作，降低了数据成本和人力成本，提高了获取样本的效率，进而提高了模型训练的效率，并且，使用同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定第一损失，能够确保同一批次的不同发音对象的对象特征的多样性，即不同的发音对象的对象特征差异较大，降低了将不同的发音对象的无标签语音样本映射为相同的对象特征的情况的出现，降低了模型坍塌的问题出现的可能性，提高了训练得到的声纹识别模型的性能，进而使用该声纹识别模型进行发音对象识别，能够提高发音对象识别的准确性。

技术特征：

1.一种发音对象识别方法，包括：

2.根据权利要求1所述的方法，所述获取待识别的语音数据之前，还包括：

3.根据权利要求2所述的方法，所述对象特征包括第一对象特征和第二对象特征，所述概率分布包括第一概率分布和第二概率分布；所述根据各批次的无标签语音样本，利用指定模型，获得所述各批次中无标签语音样本对应的样本对象的对象特征和概率分布，包括：

4.根据权利要求3所述的方法，所述对各样本对象的对象特征之间进行差异分析得到第一损失，包括：

5.根据权利要求4所述的方法，所述第一损失包括多样性损失；所述基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征，确定第一损失，包括：

6.根据权利要求4或5所述的方法，所述第一损失包括冗余度消除损失；所述基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征，确定第一损失，包括：

7.根据权利要求4所述的方法，所述基于所述第一无标签语音样本对应的样本发音对象的第一概率分布和第二概率分布，确定第二损失，包括：

8.根据权利要求2或7所述的方法，所述根据所述第一损失和所述第二损失，对所述指定模型进行训练，包括：

9.根据权利要求3所述的方法，所述声纹识别模型包括第一特征提取网络和第二特征提取网络，所述第一对象特征包括第一子对象特征和第二子对象特征，所述第一概率分布包括第一子概率分布和第二子概率分布；

10.根据权利要求9所述的方法，所述第一损失包括多样性损失；所述对各样本对象的对象特征之间进行差异分析得到第一损失，包括：

11.一种会议中的说话人识别方法，包括：

12.一种声纹识别模型的训练方法，应用于云侧设备，包括：

13.一种计算设备，包括：

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1-10任一项所述的发音对象识别方法的步骤，或者，实现权利要求11所述的会议中的说话人识别方法的步骤，或者，实现权利要求12所述的声纹识别模型的训练方法的步骤。

技术总结
本说明书实施例提供发音对象识别、会议中的说话人识别方法以及装置，其中发音识别方法包括：获取待识别的语音数据；将语音数据输入预先训练的声纹识别模型，确定语音数据对应的目标发音对象，该声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。如此，使用无标签语音样本对模型进行自监督训练，降低了数据成本和人力成本，提高了模型训练的效率，并且能够确保同一批次的不同发音对象的对象特征的多样性，降低了模型坍塌问题出现的可能性。

技术研发人员：陈亚峰,郑斯奇,王绘,程路遥
受保护的技术使用者：阿里巴巴达摩院（杭州）科技有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈亚峰郑斯奇王绘程路遥
技术所有人：阿里巴巴达摩院（杭州）科技有限公司
我是此专利的发明人

上一篇：一种基于层状周期性结构的主被动混合压电隔振支座
上一篇：一种可折叠式室壁瘤封堵装置