语音识别方法、装置、设备及存储介质与流程

文档序号：19145634发布日期：2019-11-15 23:29阅读：来源：国知局

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

获取目标语音音频，所述目标语音音频包括目标用户的语音和除所述目标用户以外的干扰用户的语音中的至少一个；

利用音频识别神经网络对所述目标语音音频进行识别处理，得到所述音频识别神经网络输出的概率信息，所述概率信息用于指示所述目标语音音频包括所述目标用户的语音的概率；

当所述概率信息指示的概率大于或等于预设概率阈值时，对所述目标语音音频进行语音识别，得到所述目标语音音频对应的目标文字。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述概率信息所指示的概率小于所述预设概率阈值时，禁止对所述目标语音音频进行语音识别。

3.根据权利要求1或2任意所述的方法，其特征在于，所述利用音频识别神经网络对所述目标语音音频进行识别处理，得到所述音频识别神经网络输出的概率信息，包括：

对所述目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵；

将所述音频特征参数矩阵输入至所述音频识别神经网络中，得到所述音频识别神经网络输出的所述概率信息。

4.根据权利要求3所述的方法，其特征在于，所述音频识别神经网络包括特征提取子网络和特征识别子网络，所述将所述音频特征参数矩阵输入至所述音频识别神经网络中，得到所述音频识别神经网络输出的概率信息，包括：

将所述音频特征参数矩阵输入至所述特征提取子网络，得到所述特征提取子网络输出的特征矩阵；

将所述特征矩阵输入至所述特征识别子网络，得到所述特征识别子网络输出的所述概率信息。

5.根据权利要求4所述的方法，其特征在于，所述特征提取子网络为卷积神经网络，所述特征识别子网络包括长短时记忆循环神经网络层和全连接层。

6.根据权利要求1所述的方法，其特征在于，所述获取目标语音音频，包括：

获取音频流，并从所述音频流中提取出包含人的语音的音频段；

对所述音频段进行分割，得到多个音频长度相等的所述目标语音音频。

7.根据权利要求1所述的方法，其特征在于，对所述目标语音音频进行语音识别，得到所述目标语音音频对应的目标文字之后，所述方法还包括：

对所述目标文字进行自然语义识别，得到语义识别结果；

根据所述语义识别结果生成响应内容；

将所述响应内容发送至所述目标用户对应的终端，所述响应内容供所述目标用户对应的终端进行展示。

8.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标语音音频，所述目标语音音频包括目标用户的语音和除所述目标用户以外的干扰用户的语音中的至少一个；

第一识别模块，用于利用音频识别神经网络对所述目标语音音频进行识别处理，得到所述音频识别神经网络输出的概率信息，所述概率信息用于指示所述目标语音音频包括所述目标用户的语音的概率；

第二识别模块，用于在所述概率信息指示的概率大于或等于预设概率阈值时，对所述目标语音音频进行语音识别，得到所述目标语音音频对应的目标文字。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的语音识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一所述的语音识别方法。

技术总结
本申请公开了一种语音识别方法、装置、设备及存储介质，属于人工智能领域。所述方法包括：获取目标语音音频，该目标语音音频包括目标用户的语音和除该目标用户以外的干扰用户的语音中的至少一个；利用音频识别神经网络对该目标语音音频进行识别处理，得到该音频识别神经网络输出的概率信息，该概率信息用于指示该目标语音音频包括该目标用户的语音的概率；当该概率信息指示的概率大于或等于预设概率阈值时，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字。本申请实施例提供的技术方案能够提高语音识别的准确性。

技术研发人员：王逐尘
受保护的技术使用者：深圳追一科技有限公司
技术研发日：2019.08.20
技术公布日：2019.11.15

完整全部详细技术资料下载

当前第2页1 2