说话人自适应识别方法及系统的制作方法

文档序号:10536405阅读:966来源:国知局
说话人自适应识别方法及系统的制作方法
【专利摘要】本发明公开了一种说话人自适应识别方法及系统,该方法包括:训练说话人无关DNN模型;基于所述说话人无关DNN模型确定说话人相关网络拓扑;获取训练数据;利用所述训练数据进行说话人相关网络参数训练,得到说话人相关网络;在接收到说话人语音数据后,利用所述说话人相关网络对所述说话人语音数据进行解码,得到解码结果。利用本发明,可以获得更为精确的识别效果。
【专利说明】
说话人自适应识别方法及系统
技术领域
[0001] 本发明涉及语音信号处理领域,尤其涉及一种说话人自适应识别方法及系统。
【背景技术】
[0002] 语音识别即让机器听懂人说的话,将语音信号转化为计算机可识别的输入。传统 自动连续语音识别系统主要采用基于隐马尔科夫模型(Hidden Markov Model,HMM)和高 斯混合模型(Gaussian Mixture Model, GMM)的GMM-HMM语音识别系统。GMM-HMM语音识 别系统使用HMM对语音信号的时序结构进行建模,每个HMM状态的输出概率采用混合高斯 模型模拟。由于不同的说话人有各自的特点,而通用的GMM-HMM模型不能很好地适应某 个特定的说话人,为此有研究人员提出说话人自适应方法,传统GMM-HMM模型框架下的说 话人自适应技术已经相对成熟,最典型的是使用最大似然线性回归进行参数变换的方法 (MLLR,Maximum Likelihood Linear Regression)和最大后验概率的方法(MAP,Maximum A Posteriori),这两种方法都较好地解决了 GMM-HMM模型的说话人自适应问题,通过这两种 方法得到的说话人相关模型的识别效果比说话人无关模型均有较大幅度的改善。
[0003] 近年来,基于深度神经网络(Deep Neural Networks, DNN)和隐马尔科夫模型 DNN-HMM的语音识别系统受到研究人员越来越多的关注,DNN-HMM系统采用DNN替代GMM模 拟每个HMM状态的输出概率。相比于GMM模型,DNN模型的描述能力更强,能够更好地模拟 非常复杂的数据分布,并且能够很好地学习到数据上下文的信息,因此相对于GMM-HMM系 统,DNN-HMM系统能够取得显著的性能提升。
[0004] 但是,目前如何在DNN的框架下进行说话人自适应仍没有成熟的方案,因此,基于 DNN框架下的说话人自适应将是一个热门的研究课题。

【发明内容】

[0005] 本发明实施例提供一种说话人自适应识别方法及系统,可以在自适应数据量较小 的情况下,也能得到较好的识别效果,提高语音识别系统性能。
[0006] 为实现上述目的,本发明的技术方案是:
[0007] -种说话人自适应识别方法,包括:
[0008] 训练说话人无关DNN模型;
[0009] 基于所述说话人无关DNN模型确定说话人相关网络拓扑;
[0010] 获取训练数据;
[0011] 利用所述训练数据进行说话人相关网络参数训练,得到说话人相关网络;
[0012] 在接收到说话人语音数据后,利用所述说话人相关网络对所述说话人语音数据进 行解码,得到解码结果。
[0013] 优选地,所述基于所述说话人无关DNN模型确定说话人相关网络拓扑包括:
[0014] 将说话人编码向量与所述说话人无关DNN模型的各隐层及输出层相连接,形成说 话人相关网络拓扑;或者
[0015] 将说话人编码向量与所述说话人无关DNN模型的任意一个或多个隐层相连接,形 成说话人相关网络拓扑。
[0016] 优选地,所述利用所述训练数据进行说话人相关网络参数训练包括:
[0017] 初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和输出层的权 重、以及说话人编码向量;
[0018] 在所有训练数据上使用梯度下降方法更新所述说话人编码向量与说话人无关DNN 模型相连的隐层和输出层的权重,并在与所述说话人相关的训练数据上更新所述说话人编 码向量。
[0019] 优选地,所述初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和 输出层的权重、以及说话人编码向量包括:
[0020] 采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型相连的隐 层和输出层的权重、以及说话人编码向量。
[0021] 优选地,所述初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和 输出层的权重、以及说话人编码向量包括:
[0022] 采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型相连的隐 层和输出层的权重;
[0023] 采用因子分析方法得到代表特定说话人编码的向量;
[0024] 将所述代表特定说话人编码的向量作为初始的说话人编码向量。
[0025] 优选地,所述利用所述说话人相关网络对所述说话人语音数据进行解码包括:
[0026] 自适应过程:利用所述说话人相关网络获得对应所述说话人的说话人编码向量;
[0027] 解码过程:利用获得的说话人编码向量逐层计算所述说话人相关网络各层的网络 参数,得到每个状态的声学后验概率。
[0028] 优选地,所述方法还包括:
[0029] 根据所述训练数据的总量和所有说话人的平均训练数据量确定说话人编码向量 的维数,并且在所述训练过程和自适应过程中所有说话人编码向量的维数保持不变;或者
[0030] 在所述训练过程中根据所述训练数据的总量和所有说话人的平均训练数据量确 定说话人编码向量的维数,并且在自适应过程中通过将说话人编码向量与说话人无关DNN 模型相连的一个或多个隐层的权重置零降低说话人编码向量的维数。
[0031] 一种说话人自适应识别系统,所述系统包括:
[0032] DNN模型训练模块,用于训练说话人无关DNN模型;
[0033] 网络拓扑确定模块,用于基于所述说话人无关DNN模型确定说话人相关网络拓 扑;
[0034] 训练数据获取模块,用于获取训练数据;
[0035] 网络参数训练模块,用于利用所述训练数据进行说话人相关网络参数训练,得到 说话人相关网络;
[0036] 接收模块,用于接收说话人语音数据;
[0037] 解码模块,用于在所述接收模块接收到说话人语音数据后,利用所述说话人相关 网络对所述说话人语音数据进行解码,得到解码结果。
[0038] 优选地,所述网络拓扑确定模块,具体用于将说话人编码向量与所述说话人无关 DNN模型的各隐层及输出层相连接,形成说话人相关网络拓扑;或者将说话人编码向量与 所述说话人无关DNN模型的任意一个或多个隐层相连接,形成说话人相关网络拓扑。
[0039] 优选地,所述网络参数训练模块包括:
[0040] 初始化单元,用于初始化所有的说话人编码向量与说话人无关DNN模型相连的隐 层和输出层的权重、以及说话人编码向量;
[0041] 参数更新单元,用于在所有训练数据上使用梯度下降方法更新所述说话人编码向 量与说话人无关DNN模型相连的隐层和输出层的权重,并在与所述说话人相关的训练数据 上更新所述说话人编码向量。
[0042] 优选地,所述初始化单元,具体用于采用随机的方式初始化所有的说话人编码向 量与说话人无关DNN模型相连的隐层和输出层的权重、以及说话人编码向量。
[0043] 优选地,所述初始化单元包括:
[0044] 第一单元,用于采用随机的方式初始化所有的说话人编码向量与说话人无关DNN 模型相连的隐层和输出层的权重;
[0045] 第二单元,用于采用因子分析方法得到代表特定说话人编码的向量,并将所述代 表特定说话人编码的向量作为初始的说话人编码向量。
[0046] 优选地,所述解码模块包括:
[0047] 自适应单元,用于利用所述说话人相关网络获得对应所述说话人的说话人编码向 量;
[0048] 解码单元,用于利用所述自适应单元获得的说话人编码向量逐层计算所述说话人 相关网络各层的网络参数,得到每个状态的声学后验概率。
[0049] 优选地,所述系统还包括:
[0050] 第一维数确定模块,用于根据所述训练数据的总量和所有说话人的平均训练数据 量确定说话人编码向量的维数,并且在训练过程和自适应过程中所有说话人编码向量的维 数保持不变;或者
[0051] 第二维数确定模块,用于在训练过程中根据所述训练数据的总量和所有说话人的 平均训练数据量确定说话人编码向量的维数,并且在自适应过程中通过将说话人编码向量 与说话人无关DNN模型相连的一个或多个隐层的权重置零降低说话人编码向量的维数。
[0052] 本发明实施例提供的说话人自适应识别方法及系统,基于现有的说话人无关DNN 模型,通过对每个说话人分别采用单个向量来模拟,并通过训练各向量和说话人无关模型 网络的连接权重来构建说话人相关DNN模型,利用该说话人相关DNN模型对特定说话人进 行语音识别,可以获得更为精确的识别效果。
【附图说明】
[0053] 为了更清楚地说明本发明实施的技术方案,下面将对实施例中所需要使用的附图 作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0054] 图1示出了本发明实施例说话人自适应识别方法的流程图;
[0055] 图2示出了本发明实施例中说话人相关网络拓扑第一种结构示意图;
[0056] 图3示出了本发明实施例中说话人相关网络拓扑第二种结构示意图;
[0057] 图4示出了本发明实施例中说话人相关网络拓扑第三种结构示意图;
[0058] 图5示出了本发明实施例说话人自适应识别系统的结构示意图。
【具体实施方式】
[0059] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0060] 由于基于DNN-HMM的语音识别系统相比于传统的基于GMM-HMM的语音识别系统能 够取得显著的性能提升,因此本发明实施例提供一种说话人自适应识别方法及系统,基于 现有的说话人无关DNN模型,通过对每个说话人分别采用单个向量来模拟,并通过训练各 向量和说话人无关DNN模型的连接权重来构建说话人相关DNN模型,利用该说话人相关DNN 模型对特定说话人进行语音识别,可以获得更为精确的识别效果。
[0061] 如图1所示,是本发明实施例说话人自适应识别方法的流程图,包括以下步骤:
[0062] 步骤101,训练说话人无关DNN模型。
[0063] 说话人无关DNN网络的训练过程可以采用现有技术,比如,传统DNN网络的训练过 程如下:
[0064] (1)确定DNN模型的拓扑结构
[0065] 具体地,DNN的输入层和输出层分别对应于声学特征和HMM模型的输出状态,其节 点个数可在训练前预先确定。其中输入层的节点个数由输入特征维数决定,一般为几百左 右(考虑帧扩展),输出层的节点个数一般由和分类目标相关联的HMM状态数决定,为了尽 可能保证语音识别效果,深度神经网络输出层的节点个数一般很多,可以达到5000-20000。 而隐含层位于输入层和输出层之间,加入隐含层的目的是为了提高神经网络模拟变换函数 的能力,深度神经网络包含多个隐含层。隐含层层数及隐含层节点个数的增加可以提高神 经网络的分类性能,目前主流的DNN-HMM语音识别系统通常选用固定结构的DNN模型,即由 系统预先确定DNN的隐含层层数及各隐含层的节点个数。虽然不同系统经验值会有不同, 但大多数情况下为了提高模型对声学特征模拟的精度,会设置DNN的隐含层层数为4到9 之间,每个隐含层的节点个数通常都相同,为1〇24、2048或者2560。
[0066] (2)DNN模型参数训练
[0067] 具体地,在DNN模型中,待训练的模型参数主要包括连接输入层和隐含层、连接各 隐含层之间、连接隐含层和输出层的线性变换的权重参数(即W矩阵,这里将偏置参数也合 并到W矩阵中),在训练时,利用采集的训练数据训练所述DNN模型的权重参数,整个训练过 程分为两个步骤:
[0068] a)无监督预训练
[0069] 首先随机生成符合高斯分布的随机数作为DNN的初始权重,然后仅仅利用训练数 据的声学特征从输入层往输出层按照受限玻尔兹曼机的训练方法逐层进行权重的训练。具 体地,当输入层与第一个隐含层之间的权重首先训练完成后,利用声学特征和该权重得到 第一个隐含层的输出值,将其视为受限玻尔兹曼机的输入训练第一个隐含层与第二个隐含 层之间的权重,如此重复下去,直到倒数第二个隐含层与最后一个隐含层之间的权重已经 训练完成。
[0070] b)有监督最终训练
[0071] 将无监督预训练得到的权重作为DNN的初始权重,利用训练数据的声学特征以 及对应的标注,采用误差反向传播算法进行所有权重的最终优化调整。具体地,首先根 据当前权重值计算出当前神经网络的输出与真实结果--标注之间的误差值E,然后计 算出误差值E对各层权重的梯度Of,最后根据梯度下降法进行各层权重的更新,即 町+1 =町-/^此/^町,其中r/表示第i层的当前权重,奪+1表示第i层更新后的权重。
[0072] 当然,在实际应用中,还有采用一些优化的DNN模型参数训练方法,可以进一步提 高训练效率,对此本发明实施例不做限定。
[0073] 步骤102,基于所述说话人无关DNN模型确定说话人相关网络拓扑。
[0074] 在本发明实施例中,可以将说话人编码向量与所述说话人无关DNN模型的各隐 层及输出层相连接,形成说话人相关网络拓扑;或者将说话人编码向量与所述说话人无关 DNN模型的任意一个或多个隐层相连接,形成说话人相关网络拓扑。
[0075] 如图2所示,是本发明实施例中说话人相关网络拓扑第一种结构示意图。
[0076] 其中,W矩阵为说话人无关DNN模型的权重矩阵;S为说话人编码向量,用于代表不 同的说话人;B矩阵为说话人编码向量与说话人无关DNN模型的隐层和输出层相连的权重 矩阵,是所有说话人共享矩阵。
[0077] 为了进一步提高训练与自适应效率,降低B矩阵的参数量,还可以将说话人编码 向量与DNN模型中的一个或多个隐层相连,比如,图3示出了只将说话人编码向量与第一个 隐层相连的说话人相关网络拓扑结构,图4示出了只将说话人编码向量与最后一个隐层相 连的说话人相关网络拓扑结构。
[0078] 步骤103,获取说话人相关的训练数据。
[0079] 步骤104,利用所述训练数据进行说话人相关网络参数训练,得到说话人相关网 络。
[0080] 下面以图2所示的网络拓扑为例,详细说明说话人相关网络参数训练的过程。
[0081] 如图2所示,假设W(1)代表说话人无关DNN模型的第1个隐层的权重,B (1)代表连 接说话人编码向量与第1个隐层的权重,Sw代表第c个说话人的编码向量,0 (1)代表第1 层网络的输出,〇为DNN网络的激活函数,则第1层的输出如下式:
[0082] 0⑴=〇 (W⑴0(1 n+B⑴S(c)) (1)
[0083] 由于W矩阵即为说话人无关DNN模型中的参数,在整个自适应的过程中不需要更 新,接下来介绍如何估计B矩阵及S向量即可。
[0084] 在本发明实施例中,可以使用交叉熵准则,假设E代表交叉熵准则的目标函数,则 B矩阵与S向量的梯度分别如下式所示:
[0087] 其中,代表第1层网络输出的第j维,從)代表第c个说话人的编码向量的第k 维,句T代表连接说话人编码向量与第1个隐层的权重矩阵的第k维第j列。
[0088] 在网络参数训练时,对于某个特定的说话人,需要更新说话人相关的说话人编码 向量与说话人共享的B矩阵。由于B矩阵具有大量的参数,但所有说话人的数据都参与 训练,所以可以在一定程度上避免数据过拟合的问题。基于说话人编码向量的训练过程如 下:
[0089] 首先,随机初始化所有的B(1)和SW ;然后,在所有的训练数据上使用梯度下降的 方法(如公式(2)和公式(3))更新8(1),而3(0的更新只在第c个说话人的数据上进行,迭 代步数根据具体的收敛情况确定。
[0090] 自适应过程如下:在训练过程得到B(1)矩阵后,针对某个说话人,使用公式(3)求 得对应该说话人的说话人编码向量,而W (1)与B(1)均保持不变。
[0091] 需要说明的是,基于图3和图4所示的说话人相关网络拓扑,其网络参数的训练过 程与上述类似,不同的是,基于图3所示的说话人相关网络拓扑,由于说话人编码向量只与 第一个隐层相连,因此可以极大地减少网络参数量,从而在一定程度上提高训练效率。同 时,参数量的减少也使得更少数据量的自适应变为可能,但其梯度的计算需要从第一个隐 层传递到输出层。而基于图4所示的说话人相关网络拓扑,由于说话人编码向量只与最后 一个隐层相连,因此其梯度的计算速度更快,从而可进一步提高训练效率。
[0092] 另外,需要说明的是,在本发明实施例中,不论采用上述哪种说话人相关网络模 型,对于说话人编码向量S,可以有多种不同的选择方式。
[0093] 比如,采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型相连 的隐层和输出层的权重、以及说话人编码向量。
[0094] 再比如,采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型相 连的隐层和输出层的权重;采用因子分析方法得到代表特定说话人编码的向量,然后将所 述代表特定说话人编码的向量作为初始的说话人编码向量。代表特定说话人编码的向量的 计算如下:
[0095] 首先,训练一个UBM模型;其次,训练公共因子T,根据这个公共因子得到每个人的 i-Vector ;最后,对i-Vector进行降维,进而得到最终的向量。这种使用降维后的i-Vector 作为Sw的初始值可以更快地收敛速度,且最终的自适应效果也更优。
[0096] 步骤105,在接收到说话人语音数据后,利用所述说话人相关网络对所述说话人语 音数据进行解码,得到解码结果。
[0097] 具体解码过程包括两个过程,具体如下:
[0098] (1)自适应过程:
[0099] 在训练过程得到B(1)矩阵后,针对某个特定的说话人,使用公式(3)求得对应该说 话人的说话人编码向量,而W (1)与B(1)均保持不变。
[0100] (2)解码过程:
[0101] 通过公式(1)逐层计算所述说话人相关网络逐层计算网络参数,得到每个状态的 声学后验概率,通过结合声学先验概率与语言模型概率,最终实现解码。
[0102] 需要说明的是,在实际应用中,针对说话人编码向量S的维数,可以有多种选择方 案。一般地,可根据训练数据的总量和所有说话人的平均训练数据量来选择向量S的维数, 当向量S的维数确定后,训练过程和自适应过程中所有说话人均采用相同的维数。除此之 外,还可以采用变长说话人向量的方案,具体地,在训练过程中,时仍根据训练数据的总量 和所有说话人的平均训练数据量来选择向量S的维数;在自适应过程中,如果某些说话人 的数据量较少,可将说话人共享的矩阵B的一些权重按一定的概率置零,仍采用梯度下降 的方法确定说话人编码向量S,显然此时向量S的一些维数也为零。采用这种方式,实现了 说话人向量长度的可变,从而进一步解决了某些说话人自适应数据较少的参数估计问题。
[0103] 本发明实施例提供的说话人自适应识别方法,基于现有的说话人无关DNN模型, 通过对每个说话人分别采用单个向量来模拟,并通过训练各向量和说话人无关模型网络的 连接权重来构建说话人相关DNN模型,利用该说话人相关DNN模型对特定说话人进行语音 识别,可以获得更为精确的识别效果。
[0104] 相应地,本发明实施例还提供一种说话人自适应识别系统,如图5所示,是该系统 的一种结构示意图。
[0105] 在该实施例中,所述系统包括:
[0106] DNN模型训练模块501,用于训练说话人无关DNN模型;
[0107] 网络拓扑确定模块502,用于基于所述说话人无关DNN模型确定说话人相关网络 拓扑;
[0108] 训练数据获取模块503,用于获取训练数据;
[0109] 网络参数训练模块504,用于利用所述训练数据进行说话人相关网络参数训练,得 到说话人相关网络;
[0110] 接收模块505,用于接收说话人语音数据;
[0111] 解码模块506,用于在所述接收模块接收到说话人语音数据后,利用所述说话人相 关网络对所述说话人语音数据进行解码,得到解码结果。
[0112] 上述DNN模型训练模块501可以采用现有的一些技术进行说话人无关DNN网络的 训练。
[0113] 基于所述说话人无关DNN模型,上述网络拓扑确定模块502可以将说话人编码向 量与所述说话人无关DNN模型的各隐层及输出层相连接,形成说话人相关网络拓扑;或者 将说话人编码向量与所述说话人无关DNN模型的任意一个或多个隐层相连接,形成说话人 相关网络拓扑。不同的说话人相关网络拓扑结构在前面已有详细描述,在此不再赘述。
[0114] 上述网络参数训练模块504包括:初始化单元和参数更新单元。其中,所述初始化 单元用于初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和输出层的权 重、以及说话人编码向量。所述参数更新单元用于在所有训练数据上使用梯度下降方法更 新所述说话人编码向量与说话人无关DNN模型相连的隐层和输出层的权重,并在与所述说 话人相关的训练数据上更新所述说话人编码向量。
[0115] 在实际应用中,所述初始化单元可以采用多种方式设置相关网络参数的初始值, 比如,可以采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型相连的隐 层和输出层的权重、以及说话人编码向量。再比如,还可以对不同参数采用不同的初始化方 式,其中一种实现结构包括:第一单元和第二单元,其中,所述第一单元采用随机的方式初 始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和输出层的权重;第二单元 采用因子分析方法得到代表特定说话人编码的向量,并将所述代表特定说话人编码的向量 作为初始的说话人编码向量。
[0116] 由于本发明实施例中的解码网络为与说话人相关的DNN网络,因此,上述解码模 块506在对特定说话人语音解码过程中需要先进行自适应处理,获得相应的说话人编码向 量,然后再利用该说话人编码向量进行解码。相应地,所述解码模块506的一种具体结构包 括:自适应单元和解码单元,其中,所述自适应单元利用所述说话人相关网络获得对应所述 说话人的说话人编码向量,具体地,利用上述公式(3)完成相应的计算;所述解码单元利用 自适应单元获得的说话人编码向量,逐层计算所述说话人相关网络各层的网络参数,得到 每个状态的声学后验概率。
[0117] 需要说明的是,在实际应用中,针对说话人编码向量S的维数,可以有多种选择方 案。相应地,在本发明系统的另一实施例中,还可以进一步包括:第一维数确定模块,或者第 二维数确定模块。其中:
[0118] 第一维数确定模块用于根据所述训练数据的总量和所有说话人的平均训练数据 量确定说话人编码向量的维数,并且在训练过程和自适应过程中所有说话人编码向量的维 数保持不变;
[0119] 第二维数确定模块,用于在训练过程中根据所述训练数据的总量和所有说话人的 平均训练数据量确定说话人编码向量的维数,并且在自适应过程中通过将说话人编码向量 与说话人无关DNN模型相连的一个或多个隐层的权重置零降低说话人编码向量的维数。
[0120] 本发明实施例提供的说话人自适应识别系统,基于现有的说话人无关DNN模型, 通过对每个说话人分别采用单个向量来模拟,并通过训练各向量和说话人无关模型网络的 连接权重来构建说话人相关DNN模型,利用该说话人相关DNN模型对特定说话人进行语音 识别,可以获得更为精确的识别效果。
[0121] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实 施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例 的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明 的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其 中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出 创造性劳动的情况下,即可以理解并实施。
[0122] 以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,以上所 述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构 想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时, 均应在本发明的保护范围内。
【主权项】
1. 一种说话人自适应识别方法,其特征在于,包括: 训练说话人无关DNN模型; 基于所述说话人无关DNN t旲型确定说话人相关网络拓扑; 获取训练数据; 利用所述训练数据进行说话人相关网络参数训练,得到说话人相关网络; 在接收到说话人语音数据后,利用所述说话人相关网络对所述说话人语音数据进行解 码,得到解码结果。2. 根据权利要求1所述的方法,其特征在于,所述基于所述说话人无关DNN模型确定说 话人相关网络拓扑包括: 将说话人编码向量与所述说话人无关DNN模型的各隐层及输出层相连接,形成说话人 相关网络拓扑;或者 将说话人编码向量与所述说话人无关DNN模型的任意一个或多个隐层相连接,形成说 话人相关网络拓扑。3. 根据权利要求2所述的方法,其特征在于,所述利用所述训练数据进行说话人相关 网络参数训练包括: 初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和输出层的权重、以 及说话人编码向量; 在所有训练数据上使用梯度下降方法更新所述说话人编码向量与说话人无关DNN模 型相连的隐层和输出层的权重,并在与所述说话人相关的训练数据上更新所述说话人编码 向量。4. 根据权利要求3所述的方法,其特征在于,所述初始化所有的说话人编码向量与说 话人无关DNN模型相连的隐层和输出层的权重、以及说话人编码向量包括: 采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和 输出层的权重、以及说话人编码向量。5. 根据权利要求3所述的方法,其特征在于,所述初始化所有的说话人编码向量与说 话人无关DNN模型相连的隐层和输出层的权重、以及说话人编码向量包括: 采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和 输出层的权重; 采用因子分析方法得到代表特定说话人编码的向量; 将所述代表特定说话人编码的向量作为初始的说话人编码向量。6. 根据权利要求3所述的方法,其特征在于,所述利用所述说话人相关网络对所述说 话人语音数据进行解码包括: 自适应过程:利用所述说话人相关网络获得对应所述说话人的说话人编码向量; 解码过程:利用获得的说话人编码向量逐层计算所述说话人相关网络各层的网络参 数,得到每个状态的声学后验概率。7. 根据权利要求6所述的方法,其特征在于,所述方法还包括: 根据所述训练数据的总量和所有说话人的平均训练数据量确定说话人编码向量的维 数,并且在所述训练过程和自适应过程中所有说话人编码向量的维数保持不变;或者 在所述训练过程中根据所述训练数据的总量和所有说话人的平均训练数据量确定说 话人编码向量的维数,并且在自适应过程中通过将说话人编码向量与说话人无关DNN模型 相连的一个或多个隐层的权重置零降低说话人编码向量的维数。8. -种说话人自适应识别系统,其特征在于,所述系统包括: DNN模型训练模块,用于训练说话人无关DNN模型; 网络拓扑确定模块,用于基于所述说话人无关DNN模型确定说话人相关网络拓扑; 训练数据获取模块,用于获取训练数据; 网络参数训练模块,用于利用所述训练数据进行说话人相关网络参数训练,得到说话 人相关网络; 接收模块,用于接收说话人语音数据; 解码模块,用于在所述接收模块接收到说话人语音数据后,利用所述说话人相关网络 对所述说话人语音数据进行解码,得到解码结果。9. 根据权利要求8所述的系统,其特征在于, 所述网络拓扑确定模块,具体用于将说话人编码向量与所述说话人无关DNN模型的各 隐层及输出层相连接,形成说话人相关网络拓扑;或者将说话人编码向量与所述说话人无 关DNN模型的任意一个或多个隐层相连接,形成说话人相关网络拓扑。10. 根据权利要求9所述的系统,其特征在于,所述网络参数训练模块包括: 初始化单元,用于初始化所有的说话人编码向量与说话人无关DNN模型相连的隐层和 输出层的权重、以及说话人编码向量; 参数更新单元,用于在所有训练数据上使用梯度下降方法更新所述说话人编码向量与 说话人无关DNN模型相连的隐层和输出层的权重,并在与所述说话人相关的训练数据上更 新所述说话人编码向量。11. 根据权利要求10所述的系统,其特征在于, 所述初始化单元,具体用于采用随机的方式初始化所有的说话人编码向量与说话人无 关DNN模型相连的隐层和输出层的权重、以及说话人编码向量。12. 根据权利要求10所述的系统,其特征在于,所述初始化单元包括: 第一单元,用于采用随机的方式初始化所有的说话人编码向量与说话人无关DNN模型 相连的隐层和输出层的权重; 第二单元,用于采用因子分析方法得到代表特定说话人编码的向量,并将所述代表特 定说话人编码的向量作为初始的说话人编码向量。13. 根据权利要求10所述的系统,其特征在于,所述解码模块包括: 自适应单元,用于利用所述说话人相关网络获得对应所述说话人的说话人编码向量; 解码单元,用于利用所述自适应单元获得的说话人编码向量逐层计算所述说话人相关 网络各层的网络参数,得到每个状态的声学后验概率。14. 根据权利要求13所述的系统,其特征在于,所述系统还包括: 第一维数确定模块,用于根据所述训练数据的总量和所有说话人的平均训练数据量确 定说话人编码向量的维数,并且在训练过程和自适应过程中所有说话人编码向量的维数保 持不变;或者 第二维数确定模块,用于在训练过程中根据所述训练数据的总量和所有说话人的平均 训练数据量确定说话人编码向量的维数,并且在自适应过程中通过将说话人编码向量与说 话人无关DNN模型相连的一个或多个隐层的权重置零降低说话人编码向量的维数。
【文档编号】G10L17/00GK105895104SQ201410184608
【公开日】2016年8月24日
【申请日】2014年5月4日
【发明人】高建清, 刘聪, 王智国, 胡国平, 胡郁, 刘庆峰
【申请人】讯飞智元信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1