语音识别方法、装置、电子设备、存储介质及程序产品与流程

文档序号：30581083发布日期：2022-06-29 12:15阅读：来源：国知局

技术特征：
1.一种语音识别方法，其特征在于，包括：获取待进行语音识别的语音信号；基于声学模型及语言模型对所述语音信号进行语音识别；其中，所述声学模型和所述语言模型是基于修改了自注意力模块的transformer结构构建的，所述修改了自注意力模块的transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。2.根据权利要求1所述的语音识别方法，其特征在于，所述基于声学模型及语言模型对所述语音信号进行语音识别，包括：对所述语音信号进行声学处理，得到声学特征；利用所述声学特征及所述声学模型进行声学编码，得到音节序列；将所述音节序列和词表进行词表匹配，得到词序列；将所述词序列输入到所述语言模型输出语言解码结果。3.根据权利要求1所述的语音识别方法，其特征在于，所述自注意力值表示为：a＝softmax(f(g(w)))，且f(g(w))的计算量小于q＝xw
q
，k＝xw
k
，式中，a表示所述自注意力值，x表示所述语音信号，w
q
、w
k
表示转换矩阵，d
k
表示转换矩阵w
k
的列数；w表示所述神经网络的权重矩阵，g(w)表示w的函数，f(g(w))表示g(w)的函数。4.根据权利要求3所述的语音识别方法，其特征在于，g(w)＝wx或g(w)＝w；其中，x表示所述语音信号。5.根据权利要求1所述的语音识别方法，其特征在于，所述神经网络的权重矩阵经过稀疏化处理。6.根据权利要求4所述的语音识别方法，其特征在于，所述神经网络的权重矩阵的有效值存在于对角线及从对角线向两侧延伸的位置上；且对应所述神经网络的权重矩阵的每行，有效值数量之和小于所述语音信号的行数。7.一种语音识别装置，其特征在于，包括：语音信号获取模块，用于：获取待进行语音识别的语音信号；语音识别模块，用于：基于声学模型及语言模型对所述语音信号进行语音识别；其中，所述声学模型和所述语言模型是基于修改了自注意力模块的transformer结构构建的，所述修改了自注意力模块的transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语音识别方法的步骤。9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音识别方法的步骤。10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音识别方法的步骤。

技术总结
本发明实施例提供一种语音识别方法、装置、电子设备、存储介质及程序产品，该方法包括：获取待进行语音识别的语音信号；基于声学模型及语言模型对语音信号进行语音识别；其中，声学模型和语言模型是基于修改了自注意力模块的Transformer结构构建的，修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。本发明实施例可以提高自注意力值的计算速度，进而提高改进的Transformer结构自注意力模块输出结果的速度，提高利用改进的Transformer结构构建的声学模型和语言模型的处理速度，从而从整体上提高了语音识别的处理速度。而从整体上提高了语音识别的处理速度。而从整体上提高了语音识别的处理速度。

技术研发人员：李先刚汤志远
受保护的技术使用者：贝壳找房网（北京）信息技术有限公司
技术研发日：2022.03.29
技术公布日：2022/6/28

完整全部详细技术资料下载

当前第2页1 2