一种语音识别方法、装置、电子设备和存储介质与流程

文档序号：35961467发布日期：2023-11-08 23:56阅读：47来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及信息，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术：

1、在语音识别中，通常借助语言模型获得较高的识别准确度。常用的语言模型包括lstm(long short term memory，长短时记忆)模型。

2、在基于lstm模型进行语音识别的过程中，通常会通过一系列运算从与某一时刻的音频帧相对应的多个汉字或者音节中确定一个最准确的。

3、目前，在基于lstm模型进行语音识别的过程中，存在运算量大，运算速度慢的问题。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种语音识别方法、装置、电子设备和存储介质，达到了降低运算量、提高运算速度以及语音识别效率的目的。

2、本公开实施例提供了一种语音识别方法，包括：

3、将待识别语音片段输入至长短时记忆lstm模型；

4、通过所述lstm模型对所述待识别语音片段进行处理，获得语音识别结果；

5、其中，所述lstm模型包括至少一个处理层，各所述处理层分别包括多个处理单元，各所述处理单元基于对应单元的输入数据集和目标时刻之前的历史状态数据集通过两个一重循环确定对应单元目标时刻的输出量，所述目标时刻为所述对应单元的输入数据集所对应的时刻，所述目标时刻之前各时刻的所述输出量包括所述目标时刻之前的历史状态数据集；

6、相邻两个处理层中的前一个处理层的输出作为后一个处理层的输入，相邻两个处理单元中的前一个处理单元的输出作为后一个处理单元的输入；

7、所述lstm模型的第一个处理层的输入数据集包括所述待识别语音片段中各音频帧分别对应的多个识别单元的向量，所述lstm模型的最后一个处理层的输出用于确定所述语音识别结果。

8、本公开实施例还提供了一种语音识别装置，包括：

9、输入模块，用于将待识别语音片段输入至长短时记忆lstm模型；

10、处理模块，用于通过所述lstm模型对所述待识别语音片段进行处理，获得语音识别结果；

11、其中，所述lstm模型包括至少一个处理层，各所述处理层分别包括多个处理单元，各所述处理单元基于对应单元的输入数据集和目标时刻之前的历史状态数据集通过两个一重循环确定对应单元目标时刻的输出量，所述目标时刻为所述对应单元的输入数据集所对应的时刻，所述目标时刻之前各时刻的所述输出量包括所述目标时刻之前的历史状态数据集；

12、相邻两个处理层中的前一个处理层的输出作为后一个处理层的输入，相邻两个处理单元中的前一个处理单元的输出作为后一个处理单元的输入，所述lstm模型的第一个处理层的输入数据集包括所述待识别语音片段中各音频帧分别对应的多个识别单元的向量，所述lstm模型的最后一个处理层的输出用于确定所述语音识别结果。

13、本公开实施例还提供了一种电子设备，所述电子设备包括：

14、一个或多个处理器；

15、存储装置，用于存储一个或多个程序；

16、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的语音识别方法。

17、本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的语音识别方法。

18、本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的语音识别方法。

19、本公开实施例提供的技术方案与现有技术相比至少具有如下优点：本公开实施例提供的语音识别方法，通过两个一重循环确定对应单元目标时刻的输出量，可达到降低运算量、提高运算速度以及语音识别效率的目的。

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，各所述处理单元的所述输出量基于对应单元的所述输入数据集与第一矩阵的乘积和对应单元的所述历史状态数据集与第二矩阵的乘积之和确定；

3.根据权利要求2所述的方法，其特征在于，所述各所述处理单元基于对应单元的输入数据集和目标时刻之前的历史状态数据集通过两个一重循环确定对应单元目标时刻的输出量，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对对应单元的所述输入数据集中的每个输入子集，分别确定每个输入子集与所述第一矩阵的乘积，获得第三矩阵，包括：

5.根据权利要求3所述的方法，其特征在于，所述针对对应单元目标时刻之前的所述历史状态数据集中的每个历史状态子集，分别确定每个历史状态子集与所述第二矩阵的乘积，获得第四矩阵，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述第三矩阵和所述第四矩阵确定中间量，包括：

7.根据权利要求2所述的方法，其特征在于，目标处理单元的所述输入数据集包括待识别语音片段在t时刻的第i个音频帧对应的多个识别单元的向量以及各识别单元对应的第一匹配度；

8.一种语音识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

技术总结
本公开实施例公开了一种语音识别方法、装置、电子设备和存储介质，该方法包括：将待识别语音片段输入至长短时记忆LSTM模型；通过所述LSTM模型对所述待识别语音片段进行处理，获得语音识别结果；其中，所述LSTM模型包括至少一个处理层，各所述处理层分别包括多个处理单元，各所述处理单元基于对应单元的输入数据集和目标时刻之前的历史状态数据集通过两个一重循环确定对应单元目标时刻的输出量。本公开达到了降低运算量、提高运算速度以及语音识别效率的目的。

技术研发人员：蒋泳森
受保护的技术使用者：北京字跳网络技术有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋泳森
技术所有人：北京字跳网络技术有限公司
我是此专利的发明人

上一篇：车联网数据上传方法及装置与流程
上一篇：一种批次注塑过程的约束跟踪控制方法及系统与流程