一种实时纠正的流式语音识别方法及系统与流程

文档序号：37643823发布日期：2024-04-18 18:08阅读：12来源：国知局

本发明涉及语音识别领域，特别涉及一种实时纠正的流式语音识别方法及系统。

背景技术：

1、语音识别系统大应用在直播实时字幕、会议实时记录、语音输入、语音唤醒等场景，传统的流式语音识别时间步长度设置越大，获得的下文信息越多，识别结果更加准确，但也意味着系统响应时间会越慢，用户感知到实时回显的延时会越明显，时间步长度设置越小，系统的响应越快，但当前帧得到的下文长度也越短，识别准确性也将越差，因此，需设计一种实时纠正的流式语音识别方法及系统，来解决这一问题。

技术实现思路

1、本发明的目的在于提供一种实时纠正的流式语音识别方法及系统，以解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：一种实时纠正的流式语音识别系统，所述识别系统包括特征提取模块、编码解码模块和prefix beam search；

3、所述特征提取模块用于收集音频数据提取音频特征；

4、所述编码解码模块用于将音频特征进行编码和解码；

5、所述prefix beam search用于将进行编码和解码的音频特征进行预测。

6、优选的，所述prefix beam search将预测出的得分top1的序列作为识别结果输出。

7、一种实时纠正的流式语音识别系统的识别方法，采用包括所述的识别系统，所述识别方法包括以下几个步骤：

8、第一步，数据收集，系统接收t毫秒的音频数据，提取音频特征，得到wxp的二维特征矩阵；

9、第二步，对收集的数据进行编码，将wxp的二维特征矩阵输入到编码模块，系统将设置一个缓存数据，缓存上一个时间步需要重新识别的hxp的音频特征数据；

10、第三步，对编码的数据进行拼接，将缓存的音频特征数据与步骤1输出的wxp的音频特征拼接，形成(h+w)xp的二维特征矩阵，将拼接后的二维特征输入到编码模块，编码模块输出(n+m)xq的二维编码特征矩阵；

11、第四步，对编码的数据进行解码，将(n+m)xq的编码特征矩阵输入到ctc解码模块，输出(n+m)xk的预测矩阵，接下来对预测矩阵中n+m个字符的预测结果进行解析；

12、第五步，对解码数据进行筛选，将预测矩阵通过prefix beam search策略，找出总得分最高的beam size个候选预测序列并将得分top1的序列作为识别结果输出。

13、优选的，所述第一步中的wxp的二维特征矩阵包括w和p，所述w为音频特征序列长度，所述p为特征向量维度。

14、优选的，所述第二步中的编码模块包括自注意力层，所述自注意力层能够通过系统缓存将之前已接收到的音频特征拼接到当前的音频特征中。

15、优选的，所述第三步中的(h+w)xp的二维特征矩阵需要入到编码模块，所述编码模块输出(n+m)xq的二维编码特征矩阵，所述n为需要重新识别的音频特征对应的重新编码特征的序列长度。

16、优选的，所述第三步中的(n+m)xq的编码特征矩阵输入到ctc解码模块后，输出(n+m)xk的预测矩阵，所述n+m个字符的top1的预测分数都大于设定阈值，则该n+m个字符不需要再重识别，所述n+m个字符中倒数第r个字符的top1的预测分数小于设定阈值，则从该字符开始后面的字符都需要重识别；

17、所述n+m个字符中倒数第r个字符的top1的预测分数小于设定阈值，则从该字符开始后面的字符都需要重识别；

18、所述倒数r个字符对应的音频特征数据。

19、优选的，所述第四步中的编码特征矩通过ctc解码模块输出预测矩阵，对预测矩阵中的预测结果进行解析。

20、优选的，所述第五步中的预测矩阵通过prefix beam search策略的筛选，找出总得分高的预测序列。

21、优选的，所述第五步中的beam size个候选预测序列是在原保存beam size个候选预测序列输出的基础上，再增加beam size个缓存序列，用于缓存中间识别结果作为下一时刻的标签前缀。

22、本发明的技术效果和优点：

23、(1)本发明输入到编码器的音频特征序列长度不固定，采用实时自动变长输入机制，且在每一个时间步中既识别新接收的音频数据，又纠正过去语音的识别结果，与现有技术的纠正时刻不相同，并且整个过程没有用到第二个识别模型；

24、(2)本发明是对音频数据拼接不同下文数据多次识别，始终使用同一个网络模型，并且针对性的采用多次识别加权融合机制，设置了最大识别次数，降低对流式语音识别系统性能的影响，且本发明增加beam size个缓存序列，下一时刻输出序列是以上一时刻的beam size个缓存序列为标签前缀，实现实时纠正功能。

技术特征：

1.一种实时纠正的流式语音识别系统，其特征在于，所述识别系统包括特征提取模块、编码解码模块和prefix beam search；

2.一种实时纠正的流式语音识别系统，其特征在于，所述prefix beam search将预测出的得分top1的序列作为识别结果输出。

3.一种实时纠正的流式语音识别系统的识别方法，其特征在于，采用包括权利要求1-2任一项所述的识别系统，所述识别方法包括以下几个步骤：

4.根据权利要求3所述的一种实时纠正的流式语音识别系统的识别方法，其特征在于，所述第一步中的wxp的二维特征矩阵包括w和p，所述w为音频特征序列长度，所述p为特征向量维度。

5.根据权利要求3所述的一种实时纠正的流式语音识别系统的识别方法，其特征在于，所述第二步中的编码模块包括自注意力层，所述自注意力层能够通过系统缓存将之前已接收到的音频特征拼接到当前的音频特征中。

6.根据权利要求3所述的一种实时纠正的流式语音识别系统的识别方法，其特征在于，所述第三步中的(h+w)xp的二维特征矩阵需要入到编码模块，所述编码模块输出(n+m)xq的二维编码特征矩阵，所述n为需要重新识别的音频特征对应的重新编码特征的序列长度。

7.根据权利要求3所述的一种实时纠正的流式语音识别系统的识别方法，其特征在于，所述第三步中的(n+m)x q的编码特征矩阵输入到ctc解码模块后，输出(n+m)xk的预测矩阵，所述n+m个字符的top1的预测分数都大于设定阈值，则该n+m个字符不需要再重识别，所述n+m个字符中倒数第r个字符的top1的预测分数小于设定阈值，则从该字符开始后面的字符都需要重识别；

8.根据权利要求3所述的一种实时纠正的流式语音识别系统的识别方法，其特征在于，所述第四步中的编码特征矩通过ctc解码模块输出预测矩阵，对预测矩阵中的预测结果进行解析。

9.根据权利要求3所述的一种实时纠正的流式语音识别系统的识别方法，其特征在于，所述第五步中的预测矩阵通过prefix beam search策略的筛选，找出总得分高的预测序列。

10.根据权利要求3所述的一种实时纠正的流式语音识别系统的识别方法，其特征在于，所述第五步中的beam size个候选预测序列是在原保存beam size个候选预测序列输出的基础上，再增加beam size个缓存序列，用于缓存中间识别结果作为下一时刻的标签前缀。

技术总结
本发明公开了一种实时纠正的流式语音识别方法及系统，包括特征提取模块、编码解码模块和prefix beam search：特征提取模块用于收集音频数据提取音频特征；编码解码模块用于将音频特征进行编码和解码；prefix beam search用于将进行编码和解码的音频特征进行预测。prefix beam search将预测出的得分top1的序列作为识别结果输出。本发明在每一个时间步中既识别新接收的音频数据，又纠正过去语音的识别结果，与现有技术的纠正时刻不相同，并且整个过程没有用到第二个识别模型；本发明是对音频数据拼接不同下文数据多次识别，始终使用同一个网络模型，并且针对性的采用多次识别加权融合机制，设置了最大识别次数，降低对流式语音识别系统性能的影响。

技术研发人员：郭逸豪
受保护的技术使用者：天翼云科技有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭逸豪
技术所有人：天翼云科技有限公司
我是此专利的发明人

上一篇：斜井TBM的安全供电控制系统及方法、斜井TBM与流程
上一篇：一种适配多种数据库的数据转换方法及系统与流程