技术简介:
本专利针对语音识别模型在多客户端场景下因口音差异导致的高错误识别率问题,提出一种基于联邦学习的解耦优化方法。通过中心端有监督训练种子模型并分发分类器,客户端利用本地数据半监督训练特征提取器,结合伪标签生成技术,实现模型个性化适配,有效降低错误识别率。
关键词:联邦学习,语音识别,错误率降低
1.本技术实施例涉及语音识别领域,具体涉及一种语音识别模型的个性化联邦学习方法和系统。
背景技术:2.语音识别模型可以实现将语音转化为文本的功能,传统的中心式智能语音系统需要将所有客户端的语音样本汇总到中心端进行中心化训练。然而,在中心化训练范式中,由于需要将客户的语音样本外传至中心端,这一过程中有可能造成数据的泄漏从而导致对数据信息安全的威胁。
3.联邦学习方法通过在客户端和中心端间传递非原始数据的方法实现在语音样本不外传至中心端的前提下利用所有客户端语音样本进行学习。在现实场景中,通常每个客户端的语音数据分布存在差异,但现有的用于语音识别的联邦学习方法通常没有考虑每个客户端的分布差异问题。
技术实现要素:4.本技术实施例的目的是针对多个客户端的个性化的语音,有效提升语音识别模型性能以降低错误识别率。
5.为实现上述目的,第一方面,本技术实施例提供了一种语音识别模型的个性化联邦学习方法,应用于中心端其特征在于,包括:利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定所述多个客户端中每个客户端的语音信息的个性化特征;所述分类器用于根据所述个性化特征将所述语音信息转化为文本;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端。
6.作为一个可行的实施方式,所述利用本地有标注语音样本进行有监督的训练语音识别模型,包括:以有标注语音样本为输入,以第一损失函数为学习目标,对所述语音识别模型进行有监督训练,所述第一损失函数为:
[0007][0008]
其中,x为所述有标注语音样本,y为所述有标注语音样本对应的文本标注,p(x)为所述有标注语音样本的分布函数,θ
t
为第t次训练迭代时的模型参数,a(
·
)为频谱数据增强函数。
[0009]
作为一个可行的实施方式,所述利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,包括:以所述多个客户端中每个客户端的个性化特征为输入,以第三损失函数为学习目标,对所述分类器进行半监督训练,所述第三损失函数为:
[0010][0011]
其中,x2为个性化特征,为所述个性化特征的伪标签。
[0012]
作为一个可行的实施方式,所述伪标签为:
[0013][0014]
其中,为第t次训练迭代时所述分类器的教师模型参数。
[0015]
作为一个可行的实施方式,所述所述分类器的教师模型参数的取值为第t次迭代次的模型参数和前一次教师模型参数的指数滑动平均值:
[0016][0017]
其中,α为衰减系数。
[0018]
本技术实施例提供了一种语音识别个性化联邦学习方法,应用于客户端,包括:获得语音识别模型的种子模型;使用本地的语音样本对所述种子模型的特征提取器进行半监督训练,得到训练好的特征提取器;将训练集中的语音信息输入所述个性化特征提取器,得到所述语音信息的个性化特征,并将所述个性化特征发送至中心端;将所述训练好的特征提取器与训练好的分类器组合得到训练好的语音识别模型;所述训练好的分类器由中心端训练。
[0019]
作为一个可行的实施方式,所述使用本地的语音样本对所述种子模型的特征提取器进行半监督训练,包括:以所述本地的语音样本为输入,以第二损失函数为学习目标,对所述语音识别模型进行半监督训练,所述第二损失函数为:
[0020][0021]
其中,x1为语音样本,为伪标签。
[0022]
作为一个可行的实施方式,所述伪标签为:
[0023][0024]
其中,为第t次训练迭代时的教师模型参数。
[0025]
作为一个可行的实施方式,所述教师模型参数的取值为第t次迭代次的学生模型参数和前一次教师模型参数的指数滑动平均值:
[0026][0027]
其中,模型参数θ
t
为第t次训练迭代时的学生模型参数,α为衰减系数。
[0028]
第二方面,本技术实施例提供了一种语音识别模型的个性化联邦学习系统,所述系统包括:中心端,用于利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定所述多个客户端中每个客户端的语音信息的个性化特征;所述分类器用于根据所述个性化特征将所述语音信息转化为文本;利用所述多个
客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端;多个客户端,所述多个客户端中的每一个客户端用于获得所述语音识别模型的种子模型;使用本地的语音样本对所述种子模型的特征提取器进行半监督训练,得到训练好的特征提取器;将训练集中的语音信息输入所述个性化特征提取器,得到所述语音信息的个性化特征,并将所述个性化特征发送至中心端;将所述训练好的特征提取器与训练好的分类器组合得到训练好的语音识别模型;所述训练好的分类器由中心端训练。
[0029]
本技术实施例提出的一种语音识别模型的个性化联邦学习方法和系统可以通过将语音识别模型的特征提取器与分类器进行模型解耦优化的方式实现个性化联邦学习,从而通过中心端和客户端的联合训练产生针对多个客户端的个性化的语音识别模型,有效提升通过联邦学习训练得到的语音识别模型性能,降低错误识别率。
附图说明
[0030]
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0031]
图1为本技术实施例提出的一种语音识别模型示意图;
[0032]
图2为本技术实施例的语音识别模型的个性化联邦学习方法的系统的架构图;
[0033]
图3为本技术实施例提出的语音识别模型的个性化联邦学习方法的学习场景示意图;
[0034]
图4为本技术实施例提出的语音识别模型的个性化联邦学习方法流程图。
具体实施方式
[0035]
为了使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本技术实施例中的技术方案进行描述。
[0036]
在本技术实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
[0037]
在本技术实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,单独存在b,同时存在a和b这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个终端是指两个或两个以上的终端。
[0038]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0039]
在以下的描述中,所涉及的表示步骤的标号,如s110、s120
……
等,并不表示一定
会按此步骤执行,在允许的情况下可以互换前后步骤的顺序,或同时执行。
[0040]
除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
[0041]
图1为本技术实施例提出的一种语音识别模型示意图。如图1所示,该语音识别模型10包括特征提取器11及分类器12。特征提取器11用于处理多个客户端输入的语音信息,得到每个客户端的该语音信息的个性化特征;分类器12用于根据该个性化特征将该语音信息转化为文本。
[0042]
本技术实施例提出的语音识别模型可应用于客户端,该客户端可以是智能终端、智能家居、智能安防、自动驾驶等领域智能设备,在智能手机、音箱、智能车载终端(electronic control unit,ecu)等客户端上提供语音用户界面(vui),并将用户输入的语音信息转化为文本。
[0043]
示例性地,智能设备包括智能电视、智能音箱、机器人、智能空调、智能烟雾警报器、智能灭火器、智能车载终端、手机、平板、笔记本电脑、台式电脑、一体机等。
[0044]
图2为本技术实施例的语音识别模型的个性化联邦学习方法的系统的架构图。如图2所示,该系统包括一个中心端21和多个客户端22,通过一个中心端和多个客户端的联合训练产生针对多个客户端中每一个客户端的个性化的语音识别模型,有效提升通过联邦学习训练得到的语音识别模型的语音识别性能。
[0045]
基于此,本技术实施例提供了一种语音识别个性化联邦学习系统,该系统包括中心端,中心端利用本地有标注语音样本进行有监督的训练语音识别模型,获得语音识别模型的种子模型,种子模型包括特征提取器及分类器;特征提取器用于处理多个客户端输入的语音信息,确定多个客户端中每个客户端的语音信息的个性化特征;利用多个客户端中每个客户端的语音信息的个性化特征对分类器进行半监督训练,获得训练好的分类器;将训练好的分类器传递至多个客户端中每个客户端。该系统还包括多个客户端,多个客户端中的每一个客户端获得语音识别模型的种子模型;使用本地的语音样本对种子模型的特征提取器进行半监督训练,得到训练好的特征提取器;将训练集中的语音信息输入个性化特征提取器,得到语音信息的个性化特征,并将个性化特征发送至中心端;将训练好的特征提取器与训练好的分类器组合得到训练好的语音识别模型;训练好的分类器由中心端训练。
[0046]
图3为本技术实施例提出的语音识别模型的个性化联邦学习方法的学习场景示意图。如图3所示,在该学习场景中,包括中心端21和客户端22。
[0047]
在中心端21利用有标注语音样本训练一个语音识别模型10的种子模型,该种子模型包含特征提取器及分类器,将该语音识别模型10的种子模型传递至多个客户端中的每个客户端22。
[0048]
考虑每个客户端22的分布差异问题,客户端22利用自身的个性化的语音数据训练特征提取器11,使用训练好的特征提取器11处理该客户端的语音样本,得到该客户端的个性化特征,将得到的个性化特征汇聚至中心端21。
[0049]
中心端21利用多个客户端中所有客户端的个性化特征对语音识别模型10的分类器12进行半监督训练,获得训练好的分类器;将训练好的分类器12传递至客户端22。
[0050]
客户端22将自身训练好的特征提取器11与训练好的分类器12进行组合即可得到
该客户端的个性化的语音识别模型10。
[0051]
在本技术实施例提出的语音识别模型的个性化联邦学习场景中,中心端21和客户端22间通过传递非原始数据的方法实现在语音样本不外传至中心端的前提下,利用每个客户端的个性化语音样本进行学习,能够解决每个客户端的语音数据分布存在差异性的问题。
[0052]
基于上述学习场景,本技术实施例提出一种语音识别模型的个性化联邦学习方法,通过将特征提取器与分类器进行模型解耦优化的方式实现个性化联邦学习,从而产生针对多个客户端的个性化的语音识别模型,有效提升语音识别模型的性能,降低错误识别率。
[0053]
图4为本技术实施例提出的语音识别模型的个性化联邦学习方法的流程图。如图4所示,联邦学习方法的流程应用于中心端和多个客户端,包括以下步骤101-107。
[0054]
步骤101,中心端利用中心端的有标注语音样本有监督训练一个语音识别模型10,该语音识别模型包含特征提取器及分类器。
[0055]
在一个可以实现的实施方式中,可以将中心端的训练集中任意一个有标注语音样本输入一个语音识别模型10进行有监督训练,计算连接主义时间分类损失的值:
[0056][0057]
其中,x为语音样本,y为对应的文本标注,p(x)为语音样本的分布函数,θ
t
为第t次训练迭代时的模型参数,a(
·
)为频谱数据增强方法。可以将记为第一损失函数值。
[0058]
当连接主义时间分类损失的值达到或小于设定的阈值时,或达到设定的迭代次数t时,结束训练,获得该语音识别模型10的种子模型,该种子模型的模型参数为当前的模型参数θ
t
。
[0059]
步骤102:中心端将该语音识别模型10的种子模型传递给每个客户端22。
[0060]
步骤103:在每个客户端22分别使用本地个性化训练集的语音样本对语音识别模型10的种子模型的特征提取器11进行半监督训练,每个客户端得到训练好的特征提取器11。
[0061]
在一个可以实现的实施方式中,客户端22可以将本地个性化训练集中任意一个语音样本x1输入种子模型的特征提取器11,输出伪标签在此过程中计算连接主义时间分类损失的值:
[0062][0063]
与步骤101中的训练准则不同的是,式(2)中,语音样本x1对应的文本标注y不可得,因此,使用伪标签作为替代,该伪标签的生成方式为:
[0064][0065]
式(3)中,为第t次训练迭代时的教师模型参数,其取值为第t次迭代次的学生模型参数和前一次教师模型参数的指数滑动平均值:
[0066]
[0067]
式(4)中,模型参数θ
t
为第t次训练迭代时的学生模型参数,α为衰减系数,在本专利中取常数0.99。可以将记为第二损失函数值。
[0068]
当连接主义时间分类损失达到或小于设定的阈值时,或迭代次数达到设定的次数t时,结束训练。该特征提取器11的模型参数更新为当前的教师模型参数
[0069]
在步骤103的训练中,分类器12的参数保持固定,只更新特征提取器11的参数。
[0070]
步骤104,每个客户端使用训练好的特征提取器11处理该客户端的语音样本,得到该客户端的个性化特征,并将得到的个性化特征汇聚至中心端21。
[0071]
在一个可以实现的实施方式中,客户端22可以将本地个性化训练集中任意语音样本输入训练好的特征提取器11,提取该语音样本的个性化特征,将得到的个性化特征发送至中心端21。
[0072]
其中,个性化特征是根据不同客户端间存在的差异而提取的特征向量,不同客户端间存在的差异包括地域性的口语或口音差异,如朗读风格和自然对话风格,以及语音传播的信道差异,如电话信道和手机麦克风信道等。
[0073]
步骤105,中心端21利用接收到的所有客户端22的个性化特征对语音识别模型的分类器12进行半监督训练,得到训练好的分类器12。
[0074]
在一个可以实现的实施方式中,中心端21可以将个性化特征x2输入分类器12,输出伪标签y2,在此过程中计算连接主义时间分类损失的值:
[0075][0076]
式(5)中,个性化特征x2对应的文本标注y不可得,因此,使用个性化特征x2的伪标签作为替代,该伪标签的生成方式为:
[0077][0078]
式(6)中,为第t次训练迭代时的教师模型参数,其取值为第t次迭代次的学生模型参数和前一次教师模型参数的指数滑动平均值:
[0079][0080]
式(7)中,模型参数θ
t
为第t次训练迭代时的学生模型参数,α为衰减系数,在本专利中取常数0.99。可以将记为第三损失函数值。
[0081]
当达到或小于设定的阈值时,或迭代次数达到设定的次数t时,结束训练。该分类器12的模型参数更新为当前的教师模型参数
[0082]
在步骤105的训练中特征提取器11不参与模型训练,只有后端分类器12的参数进行更新。
[0083]
步骤106,中心端21将训练好的分类器12发送至每一个客户端22。
[0084]
步骤107,在任一客户端,将训练好的特征提取器11与训练好的分类器12进行组合即可得到该客户端具有个性化的语音识别模型10。
[0085]
使用该语音识别模型10处理客户端输入的语音信息,可以将该语音信息转化为对应的文本。
[0086]
基于本技术实施例的语音识别系统的合理性和有效性已经在实际系统上得到了验证,在实验验证中,中心端有标注语音样本包括不同风格的共计6919小时英语语音,共有三个客户端,每个客户端包含100小时额外的口音英语语音,三个客户端的口音分别为澳大利亚口音、英国口音和印度口音。实验平台采用显卡v100,核心频率5012mhz,显存3*32gb,主机配备440gb内存,cpu采用2.70ghz。
[0087]
表1
[0088][0089]
实验结果见表1,可以看出,本技术实施例的方法能够有效降低错误识别率。
[0090]
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0091]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0092]
以上所述的具体实施方式,对本技术实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本技术实施例的具体实施方式而已,并不用于限定本技术实施例的保护范围,凡在本技术实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术实施例的保护范围之内。