一种语音识别方法及其设备的制造方法

文档序号:10614112阅读:385来源:国知局
一种语音识别方法及其设备的制造方法
【专利摘要】本发明实施例公开一种语音识别方法及其设备,其中方法包括如下步骤:获取基于交互应用所输入的目标音频数据;提取所述目标音频数据中的目标Filter bank特征;将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征;创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。采用本发明,可以满足各种实际应用环境以及发音习惯的语音识别,提升语音识别的准确性。
【专利说明】
一种语音识别方法及其设备
技术领域
[0001 ]本发明涉及计算机技术领域,尤其涉及一种语音识别方法及其设备。
【背景技术】
[0002] 随着计算机技术不断的开发和完善,针对声音识别的应用场景也逐渐增多,例如: 通过用户输入的音频提取终端中的联系人信息、通过用户输入的音频生成对应的聊天内 容、通过用户输入的音频进行用户验证等,声音识别技术方便了用户在操作手机、电脑等终 端时的操作,提升了用户体验。
[0003] 现有的声音识别技术是基于高斯混合模型(Gaussian Mixture Model,GMM)以及 隐马尔科夫模型(Hidden Markov Model,HMM)进行声学模型的建立,在实际应用过程中,需 要提取目标音频中的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特 征,将MFCC特征输入至声学模型中,最终输出对目标音频的语音识别结果。由于GMM-HMM的 声学建模是一种区分性的建模方式,用于解决发音音素状态的区分性问题,因此其需要具 备特征维度之间的独立性的MFCC特征作为声学模型的输入数据,无法满足各种实际应用环 境以及发音习惯的语音识别,降低了语音识别的准确性。

【发明内容】

[0004] 本发明实施例提供一种语音识别方法及其设备,可以满足各种实际应用环境以及 发音习惯的语音识别,提升语音识别的准确性。
[0005] 本发明实施例第一方面提供了一种语音识别方法,可包括:
[0006] 获取基于交互应用所输入的目标音频数据;
[0007] 提取所述目标音频数据中的目标Filter bank(滤波器组)特征;
[0008] 将所述目标音频数据中的目标Filter bank特征作为训练后的深层神经网络 (Deep Neura 1 Networks,DNN)模型的输入数据,获取所述训练后的DNN模型输出的所述目 标音频数据的目标音素状态上的后验概率特征;
[0009] 创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转 换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所 述目标音频数据对应的目标词序列数据。
[0010] 本发明实施例第二方面提供了一种语音识别设备,可包括:
[0011] 音频数据获取单元,用于获取基于交互应用所输入的目标音频数据;
[0012] 特征提取单元,用于提取所述目标音频数据中的目标Filter bank特征;
[0013] 特征获取单元,用于将所述目标音频数据中的目标FiIter bank特征作为训练后 的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状 态上的后验概率特征;
[0014] 词序列数据获取单元,用于创建与所述目标音频数据相关联的音素解码网络,并 采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征 在所述解码网络中获取所述目标音频数据对应的目标词序列数据。
[0015] 在本发明实施例中,在获取到基于交互应用输入的目标音频数据时,通过获取目 标音频数据中的目标Filter bank特征,并基于训练后的DNN模型以及训练后的HMM,对目标 音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语 音识别的功能,并结合Fi 1 ter bank特征作为声学模型的输入数据,无需去除特征维度间的 相关性,可以满足各种实际应用环境以及发音习惯的语音识别,提升了语音识别的准确性。
【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0017] 图1是本发明实施例提供的一种语音识别方法的流程示意图;
[0018] 图2是本发明实施例提供的另一种语音识别方法的流程示意图;
[0019] 图3是本发明实施例提供的一种语音识别设备的结构示意图;
[0020] 图4是本发明实施例提供的另一种语音识别设备的结构示意图;
[0021 ]图5是本发明实施例提供的特征提取单元的结构示意图;
[0022] 图6是本发明实施例提供的特征获取单元的结构示意图;
[0023] 图7是本发明实施例提供的又一种语音识别设备的结构示意图。
【具体实施方式】
[0024]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0025] 本发明实施例提供的语音识别方法可以应用于对终端用户输入的目标音频数据 (例如:包含数字的音频、包含文字的音频等)进行识别并生成相应词序列(例如:数字串、词 句等)的场景,例如:语音识别设备获取基于交互应用所输入的目标音频数据,所述语音识 别设备提取所述目标音频数据中的目标Fi Iter bank特征,所述语音识别设备将所述目标 音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的 DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征,所述语音识别设备 创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转换概率和 所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音 频数据对应的目标词序列数据的场景等。通过DNN模型和HMM所建立的声学模型实现语音识 别的功能,并结合Filter bank特征作为声学模型的输入数据,无需去除特征维度间的相关 性,可以满足各种实际应用环境以及发音习惯的语音识别,提升了语音识别的准确性。
[0026] 本发明实施例涉及的应用资源加载设备可以为包括平板电脑、智能手机、掌上电 脑、车载终端、PC(个人计算机)以及移动互联网设备(MID)等具备语音识别功能的终端设 备,也可以为交互应用对应的具备语音识别功能的服务器设备;所述交互应用可以为需要 结合用户输入的音频进行相应的交互功能实现的终端应用,例如:交易应用、即时通信应用 等,可以通过本发明实施例提供的语音识别方法进行验证码输入、密码输入、通信内容输入 等。
[0027] 下面将结合附图1和附图2,对本发明实施例提供的一种语音识别方法进行详细介 绍。
[0028] 请参见图1,为本发明实施例提供了一种语音识别方法的流程示意图。如图1所示, 本发明实施例的所述方法可以包括以下步骤S101 -步骤S104。
[0029] S101,获取基于交互应用所输入的目标音频数据;
[0030]具体的,语音识别设备获取用户基于交互应用所输入的目标音频数据,所述目标 音频数据具体可以为用户基于当前需要进行语音输入的所述交互应用的应用界面所输入 的语音,并且为当前需要进行语音识别的音频数据。
[0031] S102,提取所述目标音频数据中的目标Filter bank特征;
[0032] 具体的,所述语音识别设备可以在所述目标音频数据中提取目标Filter bank特 征,需要说明的是,所述语音识别设备需要将所述目标音频数据拆分成多帧音频数据,并分 别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型中,即分帧 输入进行音素状态的后验概率特征的计算。因此所述语音识别设备可以对所述目标音频数 据进行数据分帧,获取所述目标音频数据中的至少一帧音频数据,所述语音识别设备获取 所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征,所述目标 Filter bank特征表示为属于所述目标音频数据的Filter bank特征,所述第一音频数据为 所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据,所述第一目标 Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。
[0033] S103,将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输 入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概 率特征;
[0034]具体的,所述语音识别设备可以将所述目标音频数据中的目标Filter bank特征 作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的 目标音素状态上的后验概率特征,优选的,音素状态即为音标,所述目标音素状态为所述目 标音频数据中存在的音素状态,所述DNN模型在训练过程中可以得到输出层节点间的矩阵 权重值和矩阵偏置值,所述输出层节点可以为至少一个节点,输出层节点的数量与音素状 态的数量相关(例如:相等),一个输出层节点即表示一个音素状态的特征向量。
[0035] S104,创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音 素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获 取所述目标音频数据对应的目标词序列数据;
[0036] 具体的,所述语音识别设备可以创建与所述目标音频数据相关联的音素解码网 络,优选的,所述音素解码网络可以为以带权有限状态转换器(Weighted Finite-State TransducehWFST)为框架,音素状态序列为输入,词序列数据为输出的词图解码网络,可以 理解的是,所述音素解码网络也可以在对DNN模型和HMM进行训练时预先进行创建。
[0037] 所述语音识别设备采用训练后的HMM的音素转换概率和所述目标音频数据的目标 音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列 数据,所述训练后的HMM的音素转换概率包括每个音素状态跳转至自身的音素转换概率以 及所述每个音素状态跳转至自身的下一个音素状态的音素转换概率,可以理解的是,所述 语音识别设备可以根据训练后的HMM的音素转换概率以及所有的所述第一目标Filter bank特征的目标音素状态上的后验概率特征,在所述音素解码网络中设置每条网络路径的 概率值,并根据所述每条网络路径的概率值筛选出最优路径,并将所述最优路径指示的识 别结果作为所述目标音频数据对应的目标词序列数据。
[0038] 在本发明实施例中,在获取到基于交互应用输入的目标音频数据时,通过获取目 标音频数据中的目标Filter bank特征,并基于训练后的DNN模型以及训练后的HMM,对目标 音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语 音识别的功能,并结合Fi 1 ter bank特征作为声学模型的输入数据,无需去除特征维度间的 相关性,可以满足各种实际应用环境以及发音习惯的语音识别,提升了语音识别的准确性。
[0039] 请参见图2,为本发明实施例提供了另一种语音识别方法的流程示意图。如图2所 示,本发明实施例的所述方法可以包括以下步骤S201 -步骤S211。
[0040] S201,采用训练音频语料对GMM和HMM进行训练,获取训练后的GMM输出的至少一个 音素状态中每个音素状态的似然概率特征,并获取训练后的HMM的音素转换概率;
[0041 ]具体的,在对DNN模型进行训练之前,需要先训练出一个GMM和HMM的声学模型,所 述语音识别设备可以采用训练音频语料对GMM和HMM进行训练,获取训练后的GMM输出的至 少一个音素状态中每个音素状态的似然概率特征,并获取训练后的HMM的音素转换概率,所 述训练音频语料可以尽量包含不同噪声环境、不同语速、不同字词间停顿等场景下的音频 数据。
[0042]需要说明的是,所述语音识别设备可以对训练音频语料进行数据预处理,所述数 据预处理可以包括:对训练音频语料进行数据分帧、数据预加重、数据加窗操作等以得到时 域上的至少一帧音频数据;进行快速傅里叶变换,将所述至少一帧音频数据转换到频域,得 到所述至少一帧音频数据在频域上对应的至少一个功率谱数据;将频域上的至少一个功率 谱数据通过具有三角滤波特性的梅尔频率滤波器,得到至少一个梅尔功率频谱数据;对至 少一个梅尔功率频谱数据取对数能量,得到至少一个梅尔对数能量谱数据,此时所得到的 至少一个梅尔对数能量谱数据(即Filter bank特征),采用DCT去除至少一个梅尔对数能量 谱数据的数据相关性以得到MFCC特征,所述语音识别设备将所述MFCC特征作为GMM的输入 数据,以对GMM和HMM进行训练,并获取训练后的GMM输出的至少一个音素状态中每个音素状 态的似然概率特征,以及训练后的HMM的音素转换概率。可以理解的是,针对训练音频语料 中的同一帧音频数据的Fi lterbank特征与MFCC特征存在--对应的关系。
[0043] S202,采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音 素状态的后验概率特征;
[0044]具体的,所述语音识别设备可以采用强制对齐操作将所述每个音素状态的似然概 率特征转换为所述每个音素状态的后验概率特征,可以理解的是,由于似然概率特征是属 于发散性的概率特征,因此针对所述训练音频语料中的一帧音频数据,其在每个音素状态 上的似然概率特征的特征值总和不为1,而针对所述训练音频语料中的一帧音频数据,其在 每个音素状态上的后验概率特征的特征值总和为1,因此需要选取似然概率特征的特征值 最大的音素状态,将该音素状态上的后验概率特征的特征值设置为1,而对于该帧音频数据 的其它音素状态上的后验概率特征的特征值则设置为0,以此类推,转换所述训练音频语料 中每帧音频数据在音素状态上的似然概率特征,获得所述训练音频语料中每帧音频数据在 音素状态上的后验概率特征。
[0045] S203,根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个 音素状态的后验概率特征,计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值; [0046] S204,将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中,生成训练后的 DNN模型;
[0047]具体的,所述语音识别设备可以根据在所述训练音频语料中所提取的训练 Filter bank特征以及所述每个音素状态的后验概率特征,计算DNN模型中输出层节点间的 矩阵权重值和矩阵偏置值,优选的,所述语音识别设备可以基于上述方法提取所述训练音 频语料中每帧音频数据对应的训练Filter bank特征,并将所述训练Filter bank特征与对 应的后验概率特征作为训练样本对,则所述训练音频语料可以存在多个训练样本对,基于 所述多个训练样本对,并采用最大似然准则的后向传递算法计算DNN模型中输出层节点间 的矩阵权重值和矩阵偏置值。所述语音识别设备将所述矩阵权重值和所述矩阵偏置值添加 至所述DNN模型中,生成训练后的DNN模型。
[0048] S205,在训练词序列语料中获取训练词序列数据的出现概率,并根据所述训练词 序列数据的出现概率生成N-Gram语言模型;
[0049] 具体的,所述语音识别设备在训练DNN模型和HMM的声学模型的同时,还可以对语 言模型进行训练,所述语音识别设备可以在训练词序列语料中获取训练词序列数据的出现 概率,并根据所述训练词序列数据的出现概率生成N-Gram语言模型,N-Gram语言模型是基 于一种假设,第K个词的出现置于前面的K-1个词相关,而与其它任何词都不相关,一个字词 串的概率为各个词的出现概率的乘积。
[0050] S206,获取基于交互应用所输入的目标音频数据;
[0051] 具体的,所述语音识别设备获取用户基于交互应用所输入的目标音频数据,所述 目标音频数据具体可以为用户基于当前需要进行语音输入的所述交互应用的应用界面所 输入的语音,并且为当前需要进行语音识别的音频数据。
[0052] S207,对所述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧 音频数据;
[0053] S208,获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征;
[0054] 具体的,所述语音识别设备需要将所述目标音频数据拆分成多帧音频数据,并分 别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型中,即分帧 输入进行音素状态的后验概率特征的计算。因此所述语音识别设备可以对所述目标音频数 据进行数据分帧,获取所述目标音频数据中的至少一帧音频数据,所述语音识别设备获取 所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征,所述目标 Filter bank特征表示为属于所述目标音频数据的Filter bank特征,所述第一音频数据 为所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据,所述第一目标 Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。
[0055] 进一步的,所述语音识别设备可以对所述目标音频数据进行数据预处理,所述数 据预处理可以包括:数据分帧、数据预加重、数据加窗操作等以得到时域上的至少一帧音频 数据;进行快速傅里叶变换,将所述至少一帧音频数据转换到频域,得到所述至少一帧音频 数据在频域上对应的至少一个功率谱数据;将频域上的至少一个功率谱数据通过具有三角 滤波特性的梅尔频率滤波器,得到至少一个梅尔功率频谱数据;对至少一个梅尔功率频谱 数据取对数能量,得到至少一个梅尔对数能量谱数据,此时所得到的至少一个梅尔对数能 量谱数据的集合即为所述目标Filter bank特征,可以理解的是,Filter bank特征在不同 特征维度之间存在数据相关性,而MFCC特征则是采用离散余弦变换(DiscreteCosine Transform,DCT)去除FiIter bank特征的数据相关性所得到的特征。
[0056] 优选的,所述语音识别设备还会进一步对所述目标Filter bank特征进行特征后 处理,所述特征后处理可以包括特征扩展和特征规整,特征扩展可以为求取所述目标 Filter bank特征的一阶差分和二阶差分特征,得到所述每帧第一音频数据对应的预设维 数特征的目标Filter bank特征,特征规整可以为采用倒谱均值减(Cepstrum Mean Subtraction,CMS)技术对所述每帧第一音频数据对应的预设维数特征的目标Filter bank 特征进行规整,得到所述每帧第一音频数据对应的第一目标Filter bank特征,优选的,所 述预设维数可以为72维。
[0057] S209,按照所述至少一帧音频数据的时间排序,获取所述每帧第一音频数据的前 后预设帧数的第二音频数据;
[0058] S210,将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标 Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所 述第一目标Filter bank特征的目标音素状态上的后验概率特征;
[0059] 具体的,所述语音识别设备可以按照所述至少一帧音频数据的时间排序,获取所 述每帧第一音频数据的前后预设帧数的第二音频数据,所述语音识别设备将所述第一目标 Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的 DNN模型的输入数据,获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的 目标音素状态上的后验概率特征,可以理解的是,所述第二音频数据为与所述第一音频数 据具备维度关联性的数据。
[0060] 假设所述目标音频数据中存在N帧音频数据,第i帧第一音频数据对应的第一目标 Fi Iter bank特征为Fi,i = 1,2,3···Ν,前后预设帧数为前后8帧,则输入数据可以包括Fi以及 第i帧第一音频数据前后8帧的第二目标Filter bank特征,基于上述优选的预设维数,则所 述输入数据在所述训练后的DNN模型中对应的输入层节点的数量为(8+1+8)*72 = 1224个节 点,所述训练后的DNN模型的输出层节点的节点数量等于所有音素状态的个数P,输入层与 输出层之间存在预设数量的隐藏层,隐藏层个数优选为3层,每个隐藏层均存在1024个节 点,所述训练后的DNN模型中第M-1层输出层节点与第Μ层输出层节点间的矩阵权重值和矩 阵偏置值可以分别表示为%和bM,Μ=1,2,3…Ρ,则第i帧第一音频数据在第Μ层输出层节点 对应的音素状态的特征向量满足.14 = 其中f(x)为激活函数,优选为 Relu函数,则所述训练后的DNN模型输出的h的第Μ个音素状态上的后验概率特征.0|^为:
[0061]
[0062] S211,创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音 素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获 取所述目标音频数据对应的目标词序列数据;
[0063] 具体的,所述语音识别设备可以创建与所述目标音频数据相关联的音素解码网 络,优选的,所述音素解码网络可以为以WFST为框架,音素状态序列为输入,词序列数据为 输出的词图解码网络,可以理解的是,所述音素解码网络也可以在对DNN模型和HMM进行训 练时预先进行创建。
[0064]所述语音识别设备采用训练后的HMM的音素转换概率和所述目标音频数据的目标 音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列 数据,所述训练后的HMM的音素转换概率包括每个音素状态跳转至自身的音素转换概率以 及所述每个音素状态跳转至自身的下一个音素状态的音素转换概率,可以理解的是,所述 语音识别设备可以根据训练后的HMM的音素转换概率以及所有的所述第一目标Filter bank特征的目标音素状态上的后验概率特征,在所述音素解码网络中设置每条网络路径的 概率值,并根据所述每条网络路径的概率值筛选出最优路径,并将所述最优路径指示的识 别结果作为所述目标音频数据对应的目标词序列数据。
[0065] 进一步的,所述语音识别设备可以采用训练后的HMM的音素转换概率、所述第一目 标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型,在所述 解码网络中获取所述目标音频数据对应的目标词序列数据,由于N-Gram语言模型可以自行 推断下一个词出现的概率,因此可以结合出现概率对每条网络路径的概率值进行加权,增 加网络路径的可能性,通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数 据,可以进一步提升语音识别的准确性。
[0066] 在本发明实施例中,在获取到基于交互应用输入的目标音频数据时,通过获取目 标音频数据中的目标Filter bank特征,并基于训练后的DNN模型以及训练后的HMM,对目标 音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语 音识别的功能,并结合Fi 1 ter bank特征作为声学模型的输入数据,无需去除特征维度间的 相关性,可以满足各种实际应用环境以及发音习惯的语音识别,提升了语音识别的准确性; 通过融合了Fi 1 ter bank特征提取的方法以及DNN-HMM声学模型的训练方法,实现了完整的 训练到识别的过程;通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据, 由于N-Gram语言模型可以自行推断下一个词出现的概率,因此可以结合出现概率对每条网 络路径的概率值进行加权,增加网络路径的可能性,进一步提升了语音识别的准确性。
[0067] 下面将结合附图3-附图6,对本发明实施例提供的语音识别设备进行详细介绍。需 要说明的是,附图3-附图6所示的语音识别设备,用于执行本发明图1和图2所示实施例的方 法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照 本发明图1和图2所示的实施例。
[0068] 请参见图3,为本发明实施例提供了一种语音识别设备的结构示意图。如图3所示, 本发明实施例的所述语音识别设备1可以包括:音频数据获取单元11、特征提取单元12、特 征获取单元13和词序列数据获取单元14。
[0069]音频数据获取单元11,用于获取基于交互应用所输入的目标音频数据;
[0070]具体实现中,所述音频数据获取单元11获取用户基于交互应用所输入的目标音频 数据,所述目标音频数据具体可以为用户基于当前需要进行语音输入的所述交互应用的 应用界面所输入的语音,并且为当前需要进行语音识别的音频数据。
[0071] 特征提取单元12,用于提取所述目标音频数据中的目标Filter bank特征;
[0072] 具体实现中,所述特征提取单元12可以在所述目标音频数据中提取目标Filter bank特征,需要说明的是,所述特征提取单元12需要将所述目标音频数据拆分成多帧音频 数据,并分别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型 中,即分帧输入进行音素状态的后验概率特征的计算。因此所述特征提取单元12可以对所 述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧音频数据,所述特征 提取单元12获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank 特征,所述目标Filter bank特征表示为属于所述目标音频数据的Filter bank特征,所述 第一音频数据为所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据,所 述第一目标Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。
[0073] 特征获取单元13,用于将所述目标音频数据中的目标Filter bank特征作为训练 后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素 状态上的后验概率特征;
[0074] 具体实现中,所述特征获取单元13可以将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音 频数据的目标音素状态上的后验概率特征,优选的,音素状态即为音标,所述目标音素状态 为所述目标音频数据中存在的音素状态,所述DNN模型在训练过程中可以得到输出层节点 间的矩阵权重值和矩阵偏置值,所述输出层节点可以为至少一个节点,输出层节点的数量 与音素状态的数量相关(例如:相等),一个输出层节点即表示一个音素状态的特征向量。
[0075] 词序列数据获取单元14,用于创建与所述目标音频数据相关联的音素解码网络, 并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特 征在所述解码网络中获取所述目标音频数据对应的目标词序列数据;
[0076] 具体实现中,所述词序列数据获取单元14可以创建与所述目标音频数据相关联的 音素解码网络,优选的,所述音素解码网络可以为以WFST为框架,音素状态序列为输入,词 序列数据为输出的词图解码网络,可以理解的是,所述音素解码网络也可以在对DNN模型 和HMM进行训练时预先进行创建。
[0077] 所述词序列数据获取单元14采用训练后的HMM的音素转换概率和所述目标音频数 据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目 标词序列数据,所述训练后的HMM的音素转换概率包括每个音素状态跳转至自身的音素转 换概率以及所述每个音素状态跳转至自身的下一个音素状态的音素转换概率,可以理解的 是,所述词序列数据获取单元14可以根据训练后的HMM的音素转换概率以及所有的所述第 一目标Filter bank特征的目标音素状态上的后验概率特征,在所述音素解码网络中设置 每条网络路径的概率值,并根据所述每条网络路径的概率值筛选出最优路径,并将所述最 优路径指示的识别结果作为所述目标音频数据对应的目标词序列数据。
[0078] 在本发明实施例中,在获取到基于交互应用输入的目标音频数据时,通过获取目 标音频数据中的目标Filter bank特征,并基于训练后的DNN模型以及训练后的HMM,对目标 音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语 音识别的功能,并结合Fi 1 ter bank特征作为声学模型的输入数据,无需去除特征维度间的 相关性,可以满足各种实际应用环境以及发音习惯的语音识别,提升了语音识别的准确性。
[0079] 请参见图4,为本发明实施例提供了另一种语音识别设备的结构示意图。如图4所 示,本发明实施例的所述语音识别设备1可以包括:音频数据获取单元11、特征提取单元12、 特征获取单元13、词序列数据获取单元14、声学模型训练单元15、特征转换单元16、参数计 算单元17、声学模型生成单元18和语言模型生成单元19。
[0080] 声学模型训练单元15,用于采用训练音频语料对GMM和HMM进行训练,获取训练后 的GMM输出的至少一个音素状态中每个音素状态的似然概率特征,并获取训练后的HMM的音 素转换概率;
[0081 ]具体实现中,在对DNN模型进行训练之前,需要先训练出一个GMM和HMM的声学模 型,所述声学模型训练单元15可以采用训练音频语料对GMM和HMM进行训练,获取训练后的 GMM输出的至少一个音素状态中每个音素状态的似然概率特征,并获取训练后的HMM的音素 转换概率,所述训练音频语料可以尽量包含不同噪声环境、不同语速、不同字词间停顿等场 景下的音频数据。
[0082] 需要说明的是,所述声学模型训练单元15可以对训练音频语料进行数据预处理, 所述数据预处理可以包括:对训练音频语料进行数据分帧、数据预加重、数据加窗操作等以 得到时域上的至少一帧音频数据;进行快速傅里叶变换,将所述至少一帧音频数据转换到 频域,得到所述至少一帧音频数据在频域上对应的至少一个功率谱数据;将频域上的至少 一个功率谱数据通过具有三角滤波特性的梅尔频率滤波器,得到至少一个梅尔功率频谱数 据;对至少一个梅尔功率频谱数据取对数能量,得到至少一个梅尔对数能量谱数据,此时所 得到的至少一个梅尔对数能量谱数据(即Filter bank特征),采用DCT去除至少一个梅尔对 数能量谱数据的数据相关性以得到MFCC特征,所述声学模型训练单元15将所述MFCC特征作 为GMM的输入数据,以对GMM和HMM进行训练,并获取训练后的GMM输出的至少一个音素状态 中每个音素状态的似然概率特征,以及训练后的HMM的音素转换概率。可以理解的是,针对 训练音频语料中的同一帧音频数据的Fi Iter bank特征与MFCC特征存在一一对应的关系。
[0083] 特征转换单元16,用于采用强制对齐操作将所述每个音素状态的似然概率特征转 换为所述每个音素状态的后验概率特征;
[0084] 具体实现中,所述特征转换单元16可以采用强制对齐操作将所述每个音素状态的 似然概率特征转换为所述每个音素状态的后验概率特征,可以理解的是,由于似然概率特 征是属于发散性的概率特征,因此针对所述训练音频语料中的一帧音频数据,其在每个音 素状态上的似然概率特征的特征值总和不为1,而针对所述训练音频语料中的一帧音频数 据,其在每个音素状态上的后验概率特征的特征值总和为1,因此需要选取似然概率特征的 特征值最大的音素状态,将该音素状态上的后验概率特征的特征值设置为1,而对于该帧音 频数据的其它音素状态上的后验概率特征的特征值则设置为〇,以此类推,转换所述训练音 频语料中每帧音频数据在音素状态上的似然概率特征,获得所述训练音频语料中每帧音频 数据在音素状态上的后验概率特征。
[0085]参数计算单元17,用于根据在所述训练音频语料中所提取的训练Filter bank特 征以及所述每个音素状态的后验概率特征,计算DNN模型中输出层节点间的矩阵权重值和 矩阵偏置值;
[0086] 声学模型生成单元18,用于将所述矩阵权重值和所述矩阵偏置值添加至所述DNN 模型中,生成训练后的DNN模型;
[0087] 具体实现中,所述参数计算单元17可以根据在所述训练音频语料中所提取的训练 Filter bank特征以及所述每个音素状态的后验概率特征,计算DNN模型中输出层节点间的 矩阵权重值和矩阵偏置值,优选的,所述参数计算单元17可以基于上述方法提取所述训练 音频语料中每帧音频数据对应的训练Filter bank特征,并将所述训练Filter bank特征与 对应的后验概率特征作为训练样本对,则所述训练音频语料可以存在多个训练样本对,基 于所述多个训练样本对,并采用最大似然准则的后向传递算法计算DNN模型中输出层节点 间的矩阵权重值和矩阵偏置值。所述声学模型生成单元18将所述矩阵权重值和所述矩阵偏 置值添加至所述DNN模型中,生成训练后的DNN模型。
[0088] 语言模型生成单元19,用于在训练词序列语料中获取训练词序列数据的出现概 率,并根据所述训练词序列数据的出现概率生成N-Gram语言模型;
[0089]具体实现中,在训练DNN模型和HMM的声学模型的同时,所述语言模型生成单元19 可以对语言模型进行训练,所述语言模型生成单元19可以在训练词序列语料中获取训练词 序列数据的出现概率,并根据所述训练词序列数据的出现概率生成N-Gram语言模型,N-Gram语言模型是基于一种假设,第K个词的出现置于前面的K-1个词相关,而与其它任何词 都不相关,一个字词串的概率为各个词的出现概率的乘积。
[0090] 音频数据获取单元11,用于获取基于交互应用所输入的目标音频数据;
[0091] 具体实现中,所述音频数据获取单元11获取用户基于交互应用所输入的目标音频 数据,所述目标音频数据具体可以为用户基于当前需要进行语音输入的所述交互应用的应 用界面所输入的语音,并且为当前需要进行语音识别的音频数据。
[0092]特征提取单元12,用于提取所述目标音频数据中的目标Filter bank特征;
[0093] 具体实现中,所述特征提取单元12可以在所述目标音频数据中提取目标Filter bank特征,需要说明的是,所述特征提取单元12需要将所述目标音频数据拆分成多帧音频 数据,并分别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型 中,即分帧输入进行音素状态的后验概率特征的计算。因此所述特征提取单元12可以对所 述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧音频数据,所述特征 提取单元12获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征,所述目标Filterbank特征表示为属于所述目标音频数据的FiIter bank特征,所 述第一音频数据为所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据, 所述第一目标Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。
[0094] 具体的,请一并参见图5,为本发明实施例提供了特征提取单元的结构示意图。如 图5所示,所述特征提取单元12可以包括:
[0095] 第一数据获取子单元121,用于对所述目标音频数据进行数据分帧,获取所述目标 音频数据中的至少一帧音频数据;
[0096] 第一特征获取子单元122,用于获取所述至少一帧音频数据中每帧第一音频数据 对应的第一目标Filter bank特征;
[0097] 具体实现中,所述第一数据获取子单元121需要将所述目标音频数据拆分成多帧 音频数据,并分别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN 模型中,即分帧输入进行音素状态的后验概率特征的计算。因此所述第一数据获取子单元 121可以对所述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧音频数 据,所述第一特征获取子单元122获取所述至少一帧音频数据中每帧第一音频数据对应的 第一目标Filter bank特征,所述目标Filter bank特征表示为属于所述目标音频数据的 Filter bank特征,所述第一音频数据为所述目标音频数据中当前实际需要进行后验概率 特征计算的语音数据,所述第一目标FiIter bank特征表示为属于所述第一目标音频数据 的Filter bank特征。
[0098]进一步的,所述第一数据获取子单元121可以对所述目标音频数据进行数据预处 理,所述数据预处理可以包括:数据分帧、数据预加重、数据加窗操作等以得到时域上的至 少一帧音频数据;进行快速傅里叶变换,将所述至少一帧音频数据转换到频域,得到所述至 少一帧音频数据在频域上对应的至少一个功率谱数据;将频域上的至少一个功率谱数据通 过具有三角滤波特性的梅尔频率滤波器,得到至少一个梅尔功率频谱数据;对至少一个梅 尔功率频谱数据取对数能量,得到至少一个梅尔对数能量谱数据,此时所得到的至少一个 梅尔对数能量谱数据的集合即为所述目标Fi 1 ter bank特征,可以理解的是,Fi 1 ter bank 特征在不同特征维度之间存在数据相关性,而MFCC特征则是采用DCT去除Filter bank特征 的数据相关性所得到的特征。
[00"] 优选的,所述第一特征获取子单元122还会进一步对所述目标Filter bank特征进 行特征后处理,所述特征后处理可以包括特征扩展和特征规整,特征扩展可以为求取所述 目标Filter bank特征的一阶差分和二阶差分特征,得到所述每帧第一音频数据对应的预 设维数特征的目标Fi 1 ter bank特征,特征规整可以为采用CMS技术对所述每帧第一音频数 据对应的预设维数特征的目标Filter bank特征进行规整,得到所述每帧第一音频数据对 应的第一目标Filter bank特征,优选的,所述预设维数可以为72维。
[0100] 特征获取单元13,用于将所述目标音频数据中的目标Filter bank特征作为训练 后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素 状态上的后验概率特征;
[0101] 具体实现中,所述特征获取单元13可以将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音 频数据的目标音素状态上的后验概率特征,优选的,音素状态即为音标,所述目标音素状态 为所述目标音频数据中存在的音素状态,所述DNN模型在训练过程中可以得到输出层节点 间的矩阵权重值和矩阵偏置值,所述输出层节点可以为至少一个节点,输出层节点的数量 与音素状态的数量相关(例如:相等),一个输出层节点即表示一个音素状态的特征向量。
[0102] 具体的,请一并参见图6,为本发明实施例提供了特征获取单元的结构示意图。如 图6所示,所述特征获取单元13可以包括:
[0103] 第二数据获取子单元131,用于按照所述至少一帧音频数据的时间排序,获取所述 每帧第一音频数据的前后预设帧数的第二音频数据;
[0104] 第二特征获取子单元132,用于将所述第一目标Filter bank特征以及所述第二音 频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练 后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征;
[0105] 具体实现中,所述第二数据获取子单元131可以按照所述至少一帧音频数据的时 间排序,获取所述每帧第一音频数据的前后预设帧数的第二音频数据,所述第二特征获取 子单元132将所述第一目标Fi Iter bank特征以及所述第二音频数据对应的第二目标 Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所 述第一目标Filter bank特征的目标音素状态上的后验概率特征,可以理解的是,所述第 二音频数据为与所述第一音频数据具备维度关联性的数据。
[0106] 假设所述目标音频数据中存在N帧音频数据,第i帧第一音频数据对应的第一目标 FiIter bank特征为Fi,i = 1,2,3···Ν,前后预设帧数为前后8帧,则输入数据可以包括Fi以及 第i帧第一音频数据前后8帧的第二目标Filter bank特征,基于上述优选的预设维数,则所 述输入数据在所述训练后的DNN模型中对应的输入层节点的数量为(8+1+8)*72 = 1224个节 点,所述训练后的DNN模型的输出层节点的节点数量等于所有音素状态的个数P,输入层与 输出层之间存在预设数量的隐藏层,隐藏层个数优选为3层,每个隐藏层均存在1024个节 点,所述训练后的DNN模型中第M-1层输出层节点与第Μ层输出层节点间的矩阵权重值和矩 阵偏置值可以分别表示为%和bM,Μ=1,2,3…Ρ,则第i帧第一音频数据在第Μ层输出层节点 对应的音素状态的特征向量hk满足]^ = bM),其中f(x)为激活函数,优选为 Relu函数,则所述训练后的DNN模型输出的h的第Μ个音素状态上的后验概率特征:0^为:
[0107]
[0108] 词序列数据获取单元14,用于创建与所述目标音频数据相关联的音素解码网络, 并采用训练后的ΗΜΜ的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特 征在所述解码网络中获取所述目标音频数据对应的目标词序列数据;
[0109] 具体实现中,所述词序列数据获取单元14可以创建与所述目标音频数据相关联的 音素解码网络,优选的,所述音素解码网络可以为以WFST为框架,音素状态序列为输入,词 序列数据为输出的词图解码网络,可以理解的是,所述音素解码网络也可以在对DNN模型和 ΗΜΜ进行训练时预先进行创建。
[0110] 所述词序列数据获取单元14采用训练后的ΗΜΜ的音素转换概率和所述目标音频数 据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目 标词序列数据,所述训练后的ΗΜΜ的音素转换概率包括每个音素状态跳转至自身的音素转 换概率以及所述每个音素状态跳转至自身的下一个音素状态的音素转换概率,可以理解的 是,所述词序列数据获取单元14可以根据训练后的ΗΜΜ的音素转换概率以及所有的所述第 一目标Filter bank特征的目标音素状态上的后验概率特征,在所述音素解码网络中设置 每条网络路径的概率值,并根据所述每条网络路径的概率值筛选出最优路径,并将所述最 优路径指示的识别结果作为所述目标音频数据对应的目标词序列数据。
[0111] 进一步的,所述词序列数据获取单元14可以采用训练后的HMM的音素转换概率、所 述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模 型,在所述解码网络中获取所述目标音频数据对应的目标词序列数据,由于N-Gram语言模 型可以自行推断下一个词出现的概率,因此可以结合出现概率对每条网络路径的概率值进 行加权,增加网络路径的可能性,通过结合N-Gram语言模型获取目标音频数据对应的目标 词序列数据,可以进一步提升语音识别的准确性。
[0112] 在本发明实施例中,在获取到基于交互应用输入的目标音频数据时,通过获取目 标音频数据中的目标Filter bank特征,并基于训练后的DNN模型以及训练后的HMM,对目标 音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语 音识别的功能,并结合Fi 1 ter bank特征作为声学模型的输入数据,无需去除特征维度间的 相关性,可以满足各种实际应用环境以及发音习惯的语音识别,提升了语音识别的准确性; 通过融合了Fi 1 ter bank特征提取的方法以及DNN-HMM声学模型的训练方法,实现了完整的 训练到识别的过程;通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据, 由于N-Gram语言模型可以自行推断下一个词出现的概率,因此可以结合出现概率对每条网 络路径的概率值进行加权,增加网络路径的可能性,进一步提升了语音识别的准确性。
[0113] 请参见图7,为本发明实施例提供了又一种语音识别设备的结构示意图。如图7所 示,所述语音识别设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口 1004,用户接口 1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这 些组件之间的连接通信。其中,用户接口 1003可以包括显示屏(Display)、键盘(Keyboard), 可选用户接口 1003还可以包括标准的有线接口、无线接口。网络接口 1004可选的可以包括 标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非 不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的 还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储 介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别应用 程序。
[0114] 在图7所示的语音识别设备1000中,用户接口 1003主要用于为用户提供输入的接 口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的语音识别应用 程序,并具体执行以下操作:
[0115] 获取基于交互应用所输入的目标音频数据;
[0116]提取所述目标音频数据中的目标Filter bank特征;
[0117] 将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数 据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特 征;
[0118] 创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转 换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所 述目标音频数据对应的目标词序列数据。
[0119] 在一个实施例中,所述处理器1001在执行获取基于交互应用所输入的目标音频数 据之前,还执行以下操作:
[0120] 采用训练音频语料对GMM和HMM进行训练,获取训练后的GMM输出的至少一个音素 状态中每个音素状态的似然概率特征,并获取训练后的HMM的音素转换概率;
[0121] 采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状 态的后验概率特征;
[0122] 根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状 态的后验概率特征,计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值;
[0123] 将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中,生成训练后的DNN模 型。
[0124] 在一个实施例中,所述处理器1001在执行获取基于交互应用所输入的目标音频数 据之前,还执行以下操作:
[0125] 在训练词序列语料中获取训练词序列数据的出现概率,并根据所述训练词序列数 据的出现概率生成N-Gram语言模型。
[0126] 在一个实施例中,所述处理器1001在执行提取所述目标音频数据中的目标Filter bank特征时,具体执行以下操作:
[0127] 对所述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧音频数 据;
[0128] 获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特 征。
[0129] 在一个实施例中,所述处理器1001在执行将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音 频数据的目标音素状态上的后验概率特征时,具体执行以下操作:
[0130] 按照所述至少一帧音频数据的时间排序,获取所述每帧第一音频数据的前后预设 帧数的第二音频数据;
[0131]将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述第一目 标Filter bank特征的目标音素状态上的后验概率特征;
[0132] 其中,所述第一音频数据为当前需要进行后验概率特征计算的数据,所述第二音 频数据为与所述第一音频数据具备维度关联性的数据。
[0133] 在一个实施例中,所述处理器1001在执行创建与所述目标音频数据相关联的音素 解码网络,并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的 后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据时,具体执 行以下操作:
[0134] 创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转 换概率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型,在所述解码网络中获取所述目标音频数据对应的目标词序列数据。
[0135] 在本发明实施例中,在获取到基于交互应用输入的目标音频数据时,通过获取目 标音频数据中的目标Filter bank特征,并基于训练后的DNN模型以及训练后的HMM,对目标 音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语 音识别的功能,并结合Fi 1 ter bank特征作为声学模型的输入数据,无需去除特征维度间的 相关性,可以满足各种实际应用环境以及发音习惯的语音识别,提升了语音识别的准确 性;通过融合了 Fi 1 terbank特征提取的方法以及DNN-HMM声学模型的训练方法,实现了完整 的训练到识别的过程;通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数 据,由于N-Gram语言模型可以自行推断下一个词出现的概率,因此可以结合出现概率对每 条网络路径的概率值进行加权,增加网络路径的可能性,进一步提升了语音识别的准确性。
[0136] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以 通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁 碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0137]以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范 围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1. 一种语音识别方法,其特征在于,包括: 获取基于交互应用所输入的目标音频数据; 提取所述目标音频数据中的目标滤波器组Filter bank特征; 将所述目标音频数据中的目标Filter bank特征作为训练后的深层神经网络DNN模型 的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后 验概率特征; 创建与所述目标音频数据相关联的音素解码网络,并采用训练后的隐马尔科夫模型 HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网 络中获取所述目标音频数据对应的目标词序列数据。2. 根据权利要求1所述的方法,其特征在于,所述获取基于交互应用所输入的目标音频 数据之前,还包括: 采用训练音频语料对高斯混合模型GMM和HMM进行训练,获取训练后的GMM输出的至少 一个音素状态中每个音素状态的似然概率特征,并获取训练后的HMM的音素转换概率; 采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状态的 后验概率特征; 根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的 后验概率特征,计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值; 将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中,生成训练后的DNN模型。3. 根据权利要求2所述的方法,其特征在于,所述获取基于交互应用所输入的目标音频 数据之前,还包括: 在训练词序列语料中获取训练词序列数据的出现概率,并根据所述训练词序列数据的 出现概率生成N-Gram语言模型。4. 根据权利要求3所述的方法,其特征在于,所述提取所述目标音频数据中的目标 Filter bank特征,包括: 对所述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧音频数据; 获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征。5. 根据权利要求4所述的方法,其特征在于,所述将所述目标音频数据中的目标FiIter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音 频数据的目标音素状态上的后验概率特征,包括: 按照所述至少一帧音频数据的时间排序,获取所述每帧第一音频数据的前后预设帧数 的第二音频数据; 将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述第一目 标Filter bank特征的目标音素状态上的后验概率特征; 其中,所述第一音频数据为当前需要进行后验概率特征计算的数据,所述第二音频数 据为与所述第一音频数据具备维度关联性的数据。6. 根据权利要求5所述的方法,其特征在于,所述创建与所述目标音频数据相关联的音 素解码网络,并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上 的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据,包括: 创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转换概 率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语 言模型,在所述解码网络中获取所述目标音频数据对应的目标词序列数据。7. -种语音识别设备,其特征在于,包括: 音频数据获取单元,用于获取基于交互应用所输入的目标音频数据; 特征提取单元,用于提取所述目标音频数据中的目标FiIter bank特征; 特征获取单元,用于将所述目标音频数据中的目标FiIter bank特征作为训练后的DNN 模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上 的后验概率特征; 词序列数据获取单元,用于创建与所述目标音频数据相关联的音素解码网络,并采用 训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所 述解码网络中获取所述目标音频数据对应的目标词序列数据。8. 根据权利要求7所述的设备,其特征在于,还包括: 声学模型训练单元,用于采用训练音频语料对GMM和HMM进行训练,获取训练后的GMM输 出的至少一个音素状态中每个音素状态的似然概率特征,并获取训练后的HMM的音素转换 概率; 特征转换单元,用于采用强制对齐操作将所述每个音素状态的似然概率特征转换为所 述每个音素状态的后验概率特征; 参数计算单元,用于根据在所述训练音频语料中所提取的训练Filter bank特征以及 所述每个音素状态的后验概率特征,计算DNN模型中输出层节点间的矩阵权重值和矩阵偏 置值; 声学模型生成单元,用于将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中, 生成训练后的DNN模型。9. 根据权利要求8所述的设备,其特征在于,还包括: 语言模型生成单元,用于在训练词序列语料中获取训练词序列数据的出现概率,并根 据所述训练词序列数据的出现概率生成N-Gram语言模型。10. 根据权利要求9所述的设备,其特征在于,所述特征提取单元包括: 第一数据获取子单元,用于对所述目标音频数据进行数据分帧,获取所述目标音频数 据中的至少一帧音频数据; 第一特征获取子单元,用于获取所述至少一帧音频数据中每帧第一音频数据对应的第 一目标Filter bank特征。11. 根据权利要求10所述的设备,其特征在于,所述特征获取单元包括: 第二数据获取子单元,用于按照所述至少一帧音频数据的时间排序,获取所述每帧第 一音频数据的前后预设帧数的第二音频数据; 第二特征获取子单元,用于将所述第一目标Filter bank特征以及所述第二音频数据 对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的 DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征; 其中,所述第一音频数据为当前需要进行后验概率特征计算的数据,所述第二音频数 据为与所述第一音频数据具备维度关联性的数据。12.根据权利要求11所述的设备,其特征在于,所述词序列数据获取单元具体用于创建 与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转换概率、所述第 一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型,在 所述解码网络中获取所述目标音频数据对应的目标词序列数据。
【文档编号】G10L15/14GK105976812SQ201610272292
【公开日】2016年9月28日
【申请日】2016年4月28日
【发明人】钱柄桦, 吴富章, 李为, 李科, 吴永坚, 黄飞跃
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1