基于二值神经网络声学模型的语音识别系统的制作方法

文档序号：12598526阅读：来源：国知局

技术特征：

1.一种面向语音识别的二值神经网络声学模型的实现方法，其特征在于，使用二值神经网络对隐马尔科夫模型的观测概率分布进行建模，并采用提取后的语音特征进行训练，从而得到声学模型。

2.根据权利要求1所述的方法，其特征是，所述的二值神经网络为递归神经网络、卷积神经网络或深度前馈神经网络，其具体包括：依次连接的输入层、至少两个隐层以及输出层，其中：每个隐层对输入向量进行非线性处理后输出；所述的隐层对输入向量x以及网络权重W均进行二值化处理。

3.根据权利要求2所述的方法，其特征是，所述的二值化处理是指：当输入不大于零时输出为-1，否则输出为1。

4.根据权利要求2所述的方法，其特征是，所述的非线性处理是指：当输入小于-1时输出为-1，当输入大于1时输出为1，其他情况下输入等于输出。

5.根据权利要求1所述的方法，其特征是，将多个输入向量合并成一个矩阵作为输入进行运算，则二值神经网络的输出为矩阵形式。

6.根据权利要求1所述的方法，其特征是，所述的特征是指：将音频经过分帧，即切成多个相邻两段之间有重叠的小段，再在这些小段上应用数学变换，每一段语音就变成了特征，提取过的特征被用作语音识别系统的输入。

7.根据权利要求1所述的方法，其特征是，所述的隐马尔科夫模型包含多个状态、状态转移概率分布和基于高斯混合模型进行建模的观测概率分布，其中：一个语音音素对应一个HMM，而一个HMM包含多个状态。

8.根据权利要求1所述的方法，其特征是，所述的训练是指：使用事先从音频中提取的特征，计算与语音特征数据及文本匹配的隐马尔可夫模型的参数，即状态转移概率分布和观测概率分布。

9.一种基于上述任一权利要求所述方法得到的二值神经网络声学模型的语音识别系统，其特征在于，包括：采集模块、特征提取模块、训练模块和识别模块，其中：采集模块在离线过程向特征提取模块输出训练音频和对应的文本，在在线测试过程向特征提取模块输出原始音频，特征提取模块分别向训练模块输出训练音频的特征文件和对应标签，向识别模块输出原始音频的特征文件，训练模块使用提取的特征和标签训练二值神经网络声学模型并将训练后的二值神经网络声学模型输出至识别模块，识别模块通过该模型对原始音频的特征文件进行识别。

10.根据权利要求9所述的系统，其特征是，所述的识别是指：识别模块对原始音频的特征文件使用隐马尔可夫模型进行计算，得出最大概率的对应隐藏状态序列，从而得出音素序列，进一步得到音频对应的文本。

完整全部详细技术资料下载

当前第2页1 2 3