本发明涉及语音识别,尤其涉及一种语音的识别方法、装置和设备。
背景技术:
1、在过去几十年中,车载交通工具在人们的日常生活中变得越来越重要。人们使用车辆来完成日常的工作、购物和娱乐活动,因此车载交通工具需要提供更好的用户体验和更高的安全性能。在车内,司机需要通过交互方式来控制车辆,例如控制音频设备、导航系统、空调等。然而,传统的交互方式(例如按钮和旋钮)需要司机手动操作,这会影响驾驶员的注意力和反应时间,从而增加了交通事故的风险。
2、近年来,人工智能技术的发展为车载交通工具的交互方式提供了新的选择,特别是语音识别技术。车载交通工具可以通过语音识别技术来识别司机的语音指令,并相应地执行操作,这种交互方式可以提高驾驶员的安全性和便利性。然而,车载环境具有一定的复杂性,例如车内噪音和驾驶员的口音和语速等,这些因素会影响语音识别系统的准确性和性能,因此,如何提高语音识别系统的准确性和性能,成为亟待解决的问题。
技术实现思路
1、本发明实施例的目的是提供一种语音的识别方法、装置和设备,其能够有效提高语音识别的准确性和效率。
2、为实现上述目的,本发明实施例提供了一种语音的识别方法,包括:
3、采集待识别的语音信号;
4、对所述语音信号进行特征提取操作,得到所述语音信号的特征向量;
5、将所述语音信号的特征向量输入至预先训练完成的语音识别模型中,以使所述语音识别模型对所述语音信号的特征向量进行识别,生成语音识别结果;
6、其中,所述语音识别模型为极限学习机分类器,且在训练所述语音识别模型的过程中,所述语音识别模型的权重矩阵和偏置向量是根据训练样本的预测结果生成的。
7、作为优选的实施方式,通过以下方式训练所述语音识别模型:
8、获取训练样本集和极限学习机分类器的神经网络模型;其中,所述训练样本集包括若干个训练样本;所述神经网络模型包括输入层、隐藏层和输出层;
9、对所述训练样本进行特征提取操作,得到所述训练样本的特征向量;
10、将所述训练样本的特征向量输入至所述神经网络模型中进行识别,得到所述训练样本的预测结果;其中,所述预测结果包括预测值和预测误差;
11、根据每一所述训练样本的所述预测值和所述预测误差,对所述神经网络模型的权重矩阵和偏置向量进行反复迭代更新,以训练所述神经网络模型,得到训练完成的语音识别模型。
12、作为优选的实施方式,所述语音识别模型的目标函数为:
13、
14、其中,n为所述训练样本集中的训练样本的数量,y为训练样本的真实值,为训练样本的预测值,w为输入层到隐藏层的权重矩阵,λ表示正则化参数。
15、作为优选的实施方式,所述将所述训练样本的特征向量输入至所述神经网络模型中进行识别,得到所述训练样本的预测结果,具体为:
16、将所述训练样本的特征向量输入至所述神经网络模型中进行识别,得到所述训练样本的预测值为:
17、
18、其中,xi为第i个所述训练样本的特征向量,为第i个所述训练样本的预测值,w为输入层到隐藏层的权重矩阵,b为输入层到隐藏层的偏置向量,v为输出层的权重矩阵,σ(·)表示激活函数;
19、根据所述预测值和所述训练样本对应的真实值,计算所述预测误差为:
20、
21、其中,δi为第i个所述训练样本的预测误差,yi为第i个所述训练样本的真实值。
22、作为优选的实施方式,所述根据每一所述训练样本的所述预测值和所述预测误差,对神经网络模型的权重矩阵和偏置向量进行反复迭代更新,以训练所述神经网络模型,得到训练完成的语音识别模型,具体为:
23、根据所述训练样本的所述预测值和所述预测误差,计算权重矩阵w1和偏置向量b1,分别为:
24、w1=w-ηδiσ′(xiw+b)vt+ηλw;
25、b1=b-ηδiσ′(xiw+b);
26、其中,η表示学习率,σ′(·)表示激活函数的导数;
27、根据计算得到的权重矩阵w1和偏置向量b1,对所述输入层到隐藏层当前的权重矩阵w和偏置向量b进行更新;
28、根据所述输入层到隐藏层的权重矩阵w和偏置向量b,采用最小二乘法计算隐藏层到输出层的权重矩阵为:
29、
30、h=σ(xw+b);
31、其中,表示h的moore-penrose伪逆,h为隐藏层的输出值;
32、通过对所述神经网络模型的输入层到隐藏层、隐藏层到输出层的权重矩阵和偏置向量进行反复迭代更新,以训练所述神经网络模型,得到训练完成的语音识别模型。
33、作为优选的实施方式,所述对所述语音信号进行特征提取操作,得到所述语音信号的特征向量,具体为:
34、采用梅尔频率倒谱系数法,对所述语音信号进行特征提取操作,得到所述语音信号的特征向量。
35、作为优选的实施方式,所述采用梅尔频率倒谱系数法,对所述语音信号进行特征提取操作,得到所述语音信号的特征向量,具体为:
36、对所述语音信号进行预处理操作,以转换得到时频图谱数据;
37、将所述时频图谱数据通过mel滤波器组得到mel频率谱;
38、对所述mel频率谱进行离散余弦变化,得到mel频率倒谱系数,作为所述语音信号的特征向量。
39、本发明实施例提供了一种语音的识别装置,包括:
40、语音信号采集模块,用于采集待识别的语音信号;
41、特征提取模块,用于对所述语音信号进行特征提取操作,得到所述语音信号的特征向量;
42、语音识别模块,用于将所述语音信号的特征向量输入至预先训练完成的语音识别模型中,以使所述语音识别模型对所述语音信号的特征向量进行识别,生成语音识别结果;
43、其中,所述语音识别模型为极限学习机分类器,且在训练所述极限学习机分类器的过程中,所述极限学习机分类器的输入层到隐藏层的权重矩阵和偏置向量是根据训练样本的预测结果生成的。
44、作为优选的实施方式,通过以下方式训练所述语音识别模型:
45、获取训练样本集和极限学习机分类器的神经网络模型;其中,所述训练样本集包括若干个训练样本;所述神经网络模型包括输入层、隐藏层和输出层,输入层到隐藏层的初始的权重矩阵和偏置向量是随机生成的;
46、对所述训练样本进行特征提取操作,得到所述训练样本的特征向量;
47、将所述训练样本的特征向量输入至所述神经网络模型中进行识别,得到所述训练样本的预测结果;其中,所述预测结果包括预测值和预测误差;
48、根据每一所述训练样本的所述预测值和所述预测误差,对所述神经网络模型的输入层到隐藏层的权重矩阵和偏置向量进行反复迭代更新,以训练所述神经网络模型,得到训练完成的语音识别模型。
49、本发明实施例还提供了一种语音的识别设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的一种语音的识别方法。
50、与现有技术相比,本发明公开的语音的识别方法、装置和设备,通过采集待识别的语音信号,对所述语音信号进行特征提取操作,得到所述语音信号的特征向量;将所述语音信号的特征向量输入至预先训练完成的语音识别模型中,以使所述语音识别模型对所述语音信号的特征向量进行识别,生成语音识别结果;其中,所述语音识别模型为极限学习机分类器,且在训练所述语音识别模型的过程中,所述语音识别模型的权重矩阵和偏置向量是根据训练样本的预测结果生成的。采用本发明的技术手段,对语音识别模型的训练过程进行了优化,相比于传统的神经网络算法需要逐层训练,需要大量的计算资源和时间,本发明实施例采用极限学习机分类器对语音特征进行分类,能够有效节省计算资源,提高语音识别效率,并且,相对于传统的极限学习机算法采用随机生成输入层到隐藏层的权重和偏置的方式,本发明实施例采用改进的极限学习机算法,引入了负反馈机制,通过监督学习的方式更新分类器的权重矩阵和偏置向量,能够有效提高语音识别模型的稳定性和准确性。