基于联邦学习的语音识别方法、系统和计算机设备与流程

文档序号：34624912发布日期：2023-06-29 13:24阅读：94来源：国知局

本技术涉及自然语言处理，特别涉及一种基于联邦学习的语音识别方法、系统和计算机设备。

背景技术：

1、联邦学习(federated learning)是一种新兴的人工智能基础技术，包括多个终端和服务器。在基于联邦学习的语音识别模型的训练过程中，每个终端所具有的语音样本不与其他终端以及服务器共享，并且服务器与终端之间仅沟通模型参数，使得每个终端能够确保自身语音样本不外传的同时从其他终端的数据中受益，从而保证模型的准确性，语音识别准确度高。随着技术的发展，语音样本所具有的标签越来越多，或者输入模型的语音序列过长，导致模型参数量增加。相关技术中，通过在一个大型模型结构中的适当位置加入适配器模块，通过冻结原始模型，只更新适配器模块的参数，大幅度减少模型参数修改的数量。然而，适配器模块是一个较为简单的结构，其修正能力有限，学习能力有限，导致语音识别的准确率有所降低。

技术实现思路

1、本技术的旨在至少一定程度解决现有技术的问题，提供一种基于联邦学习的语音识别方法、系统和计算机设备，通过向服务器只传输模型的特征融合结构修改的参数，能够在减少模型参数量的同时，增加特征的表示能力，具有较高的语音识别准确率。

2、本技术实施例的技术方案如下：

3、第一方面，本技术提供了一种基于联邦学习的语音识别方法，应用于语音识别系统，所述语音识别系统包括应用端、服务器和多个学习端，所述方法包括：

4、所述学习端获取本地语音样本集，所述语音样本集包括多个语音样本和各个所述语音样本对应的样本标签；

5、所述学习端获取初始本地模型，所述初始本地模型的自编码网络进行以下处理：对各个所述语音样本进行第一特征提取处理得到第一语音特征集，对所述第一语音特征集进行第二特征提取处理得到第二语音特征集，将所述第一语音特征集和所述第二语音特征集进行第一融合处理，得到第三语音特征集，将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理，得到输出值；

6、所述学习端根据所述输出值和所述样本标签对所述初始本地模型进行训练，以得到第一融合自适应参数；

7、所述学习端向所述服务器发送所述第一融合自适应参数，并接收来自所述服务器发送的对所述第一融合自适应参数进行聚合得到的第一全局融合参数；

8、所述学习端基于所述第一全局融合参数训练所述初始本地模型，得到第二融合自适应参数，在满足预设的结束条件下，得到所述第二融合自适应参数对应的目标本地模型，并将所述目标本地模型发送至所述服务器；

9、所述服务器根据每个所述学习端发送的所述目标本地模型确定目标语音识别模型，并将所述目标语音识别模型发送至所述应用端；

10、所述应用端通过所述目标语音识别模型对输入的语音数据进行语音识别。

11、根据本技术的一些实施例，所述将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理，得到输出值，包括：

12、将所述第一语音特征集作为注意力机制的第一矩阵；

13、将所述第二语音特征集作为所述注意力机制的第二矩阵；

14、将所述第三语音特征集作为所述注意力机制的第三矩阵；

15、所述学习端根据预设的融合算法对所述第一矩阵、所述第二矩阵和所述第三矩阵进行第一矩阵融合处理，得到所述输出值。

16、根据本技术的一些实施例，所述学习端根据预设的融合算法对所述第一矩阵、所述第二矩阵和所述第三矩阵进行第一矩阵融合处理，得到所述输出值，包括：

17、所述学习端对所述第一矩阵和所述第二矩阵进行第二矩阵融合处理，得到第一融合值；

18、所述学习端利用归一化层对所述第一融合值进行归一化处理，得到第二融合值；

19、所述学习端对所述第二融合值和所述第三矩阵进行第三矩阵融合处理，得到所述输出值。

20、根据本技术的一些实施例，在所述学习端基于所述第一全局融合参数训练所述初始本地模型，得到第二融合自适应参数之后，所述方法还包括：

21、在不满足预设的结束条件的情况下，所述学习端向所述服务器发送所述第二融合自适应参数；

22、所述学习端接收来自所述服务器发送的对所述第二融合自适应参数进行聚合得到的第二全局融合参数；

23、所述学习端基于所述第二全局融合参数训练所述初始本地模型。

24、根据本技术的一些实施例，所述学习端根据所述输出值和所述样本标签对所述初始本地模型进行训练，以得到第一融合自适应参数，包括：

25、所述学习端根据所述输出值和所述输出值对应的所述样本标签，得到损失函数的值；

26、所述学习端根据所述损失函数的值对所述初始本地模型进行训练，得到所述第一融合自适应参数。

27、根据本技术的一些实施例，所述对所述第一语音特征集进行第二特征提取处理得到第二语音特征集，包括：

28、所述学习端对所述第一语音特征集进行下采样操作，得到采样特征；

29、所述学习端对所述采样特征进行上采样操作，得到所述第二语音特征集。

30、根据本技术的一些实施例，所述学习端根据所述输出值和所述输出值对应的所述样本标签，得到损失函数的值，包括：

31、所述学习端利用kl散度计算所述输出值与所述输出值对应的所述样本标签的值，得到损失函数的值。

32、第二方面，本技术提供了一种基于联邦学习的语音识别系统，所述语音识别系统包括应用端、服务器和多个学习端，所述学习端包括：

33、数据获取模块，用于获取本地语音样本集，所述语音样本集包括多个语音样本和各个所述语音样本对应的样本标签；

34、模型获取模块，用于获取初始本地模型，所述初始本地模型的自编码网络进行以下处理：对各个所述语音样本进行第一特征提取处理得到第一语音特征集，对所述第一语音特征集进行第二特征提取处理得到第二语音特征集，将所述第一语音特征集和所述第二语音特征集进行第一融合处理，得到第三语音特征集，将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理，得到输出值；

35、第一处理模块，用于根据所述输出值和所述样本标签对所述初始本地模型进行训练，以得到第一融合自适应参数；

36、发送模块，用于向所述服务器发送所述第一融合自适应参数，接收模块用于接收来自所述服务器发送的对所述第一融合自适应参数进行聚合得到的第一全局融合参数；

37、第二处理模块，用于基于所述第一全局融合参数训练所述初始本地模型，得到第二融合自适应参数，在满足预设的结束条件下，得到所述第二融合自适应参数对应的目标本地模型，发送模块还用于将所述目标本地模型发送至所述服务器；

38、所述服务器根据每个所述学习端发送的所述目标本地模型确定目标语音识别模型，并将所述目标语音识别模型发送至所述应用端；

39、所述应用端通过所述目标语音识别模型对输入的语音数据进行语音识别。

40、第三方面，本技术提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如上第一方面描述的任一项所述方法的步骤。

41、第四方面，本技术还提供了一种计算机可读存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上第一方面描述的任一项所述方法的步骤。

42、本技术实施例所提供的技术方案具有如下的有益效果：

43、本技术实施例提出一种基于联邦学习的语音识别方法、系统和计算机设备，该基于联邦学习的语音识别方法包括：学习端获取本地语音样本集，语音样本集包括多个语音样本和各个语音样本对应的样本标签；学习端获取初始本地模型，初始本地模型的自编码网络进行以下处理：对各个语音样本进行第一特征提取处理得到第一语音特征集，对第一语音特征集进行第二特征提取处理得到第二语音特征集，将第一语音特征集和第二语音特征集进行第一融合处理，得到第三语音特征集，将第一语音特征集、第二语音特征集和第三语音特征集进行第二融合处理，得到输出值，通过融合处理能够增加特征的表示能力；学习端根据输出值和样本标签对初始本地模型进行训练，以得到第一融合自适应参数；学习端向服务器发送第一融合自适应参数，只向服务器发送第一融合自适应参数，而不是全部模型参数，减少了参数传递，提高了通信速度，并接收来自服务器发送的对第一融合自适应参数进行聚合得到的第一全局融合参数，有利于后续利用第一全局融合参数进行初始本地模型的参数微调；学习端基于第一全局融合参数训练初始本地模型，得到第二融合自适应参数，在满足预设的结束条件下，得到第二融合自适应参数对应的目标本地模型，并将目标本地模型发送至服务器；服务器根据每个学习端发送的目标本地模型确定目标语音识别模型，通过联邦学习得到目标语音识别模型，能够增加模型语音识别的准确率，并将目标语音识别模型发送至应用端；应用端通过目标语音识别模型对输入的语音数据进行语音识别。本技术实施例通过在模型进行特征融合，向服务器只传输模型的特征融合结构修改的参数，能够在减少模型参数量的同时，增加特征的表示能力，具有较高的语音识别准确率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李泽远王健宗
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种金属钻孔防碎屑飞溅装置的制作方法
上一篇：一种方便内部清洁的卧式水气筒的制作方法