数字的语音识别方法、设备和介质与流程

文档序号：44194911发布日期：2025-12-26 23:16阅读：24来源：国知局

技术简介：
本发明针对现有数字语音识别中分类模型类别过多导致识别困难、识别模型易出现混识别和误识别的问题，提出通过回看n帧音素概率数据判断数字混淆类型，并结合针对性纠错策略提升准确率。方法在模型解码后分析音素概率路径，识别混识别、同位竞争等混淆类型，通过纠错策略优化结果，兼顾实时性与低成本，适配端侧设备场景。
关键词：数字语音识别,混淆类型纠错

本发明涉及到语音识别，特别涉及到一种数字的语音识别方法、设备和介质。

背景技术：

1、命令词识别技术方案当前有分类和识别两个方向，前者是将其当做分类问题进行处理，直接收集大量的词条数据进行训练，也就是说有多少种数字就有多少个类别数，就需要收集相应的数据；后者是在通用识别模型的基础上进行垂直领域数据微调，识别时先由模型输出预测的概率矩阵，然后以目标词条的标签为路径，从概率矩阵中解码出目标路径的得分，判断是否存在目标命令词。分类的方案主要应用于词条、功能少的场景，模型可以做得很小。识别的方案主要应用于词条、功能多的场景，对模型能力要求较高。

2、实际应用中，很多设备涉及到数字的功能有非常多种，也就是分类任务的类别数会非常多，类别数越多，分类模型的效果越难兼顾，显然分类方案无法有效区分数量繁多且形式相近的数字内容。识别方案可以应对数量繁多的数字，但是对于相近的词，效果有限，容易出现目标词混识别，非目标集外词误识别等情况，还有很大的提升空间。

3、因此，如何以高效和低成本的方式解决数字相关的混识别和误识别问题，是急需解决的技术问题。

技术实现思路

1、本发明的主要目的为提供一种数字的语音识别方法、设备和介质，旨在解决现有技术中数字的语音识别准确率低的技术问题。

2、为了实现上述发明目的，本发明第一方面提出一种数字的语音识别方法，所述方法包括：

3、获取待识别语音；

4、通过语音识别模型对所述待识别语音进行解码，得到初步识别结果；

5、回看n 帧的音素概率输出数据，确定是否存在预设的数字混淆类型，其中，n为大于1的正整数；

6、若存在，则基于对应所述数字混淆类型的纠错策略，对所述初步识别结果进行纠错，得到最终的识别结果；

7、若不存在，则将所述初步识别结果作为最终的识别结果。

8、本发明第二方面提出一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如上述任一项的数字的语音识别方法的步骤。

9、本发明第三方面提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项的数字的语音识别方法的步骤。

10、有益效果：

11、本发明的数字的语音识别方法、设备和介质，针对现有分类模型无法应对数量繁多的数字，识别模型易出现数字混识别、误识别。本发明通过回看 n 帧音素概率输出数据，精准判断路径包含混识别、路径同位竞争混识别等预设数字混淆类型，并针对性纠错，从根源减少数字识别错误，尤其对 “十分钟 / 二十分钟 / 三十分钟” 等易混数字词条，识别准确率提升明显。无需对语音识别模型架构进行复杂改造，也无需大规模重新训练，仅通过解码后回帧判断与纠错策略即可实现优化，开发时间、人力成本低；n 值、混淆类型判定标准等参数可根据端侧离线语音识别模组、家电 / 消费电子设备等不同应用场景灵活调整，适配性强。仅回看 n（n 为大于 1 的正整数）帧音素概率数据，计算量小，不增加过多端侧设备算力负担，在完成纠错的同时，确保语音识别从获取待识别语音到输出最终结果的整体响应速度，满足家电、消费电子等设备的实时交互需求。

技术特征：

1.一种数字的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数字的语音识别方法，其特征在于，所述语音识别模型是基于集外词数据与目标命令词数据按预设比例形成的混合训练集进行微调后的语音识别模型；其中，所述集外词数据是指目标命令词以外的词数据。

3.根据权利要求1或2所述的数字的语音识别方法，其特征在于，所述回看n帧的音素概率输出数据，确定是否存在预设的数字混淆类型，包括：

4.根据权利要求3所述的数字的语音识别方法，其特征在于，所述若在回看n帧的音素概率输出数据中，检索到存在易混词条的目标音素且该目标音素得分符合设定阈值，则确定存在路径包含混识别类型，包括：

5.根据权利要求3所述的数字的语音识别方法，其特征在于，所述若在回看n帧的音素概率输出数据中，易混词条的同位关键音素均有概率输出且需通过得分对比判定结果，则确定存在路径同位竞争混识别类型，包括：

6.根据权利要求3所述的数字的语音识别方法，其特征在于，所述若在回看n帧的音素概率输出数据中，检测到存在非目标音素且该非目标音素得分超过异常阈值，则确定存在路径包含误识别类型，包括：

7.根据权利要求3所述的数字的语音识别方法，其特征在于，所述若在回看n帧的音素概率输出数据中对应的识别区间内，计算得到前后时间间隔大于时间长度阈值，且统计到得分超过设定值的非目标音素数量满足预设策略，则确定存在集外词误识别类型，包括：

8.根据权利要求3所述的数字的语音识别方法，其特征在于，所述基于对应所述数字混淆类型的纠错策略，对所述初步识别结果进行纠错，得到最终的识别结果，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的数字的语音识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数字的语音识别方法的步骤。

技术总结
本发明属于语音识别技术领域，公开一种数字的语音识别方法、设备和介质，应用于端侧离线语音识别模组及带语音交互功能的家电、消费电子设备。其中方法包括：获取待识别语音；通过语音识别模型解码待识别语音，得到初步识别结果；回看 N（N 为大于 1 的正整数）帧音素概率输出数据，确定是否存在预设数字混淆类型；若存在，基于对应混淆类型的纠错策略对初步结果纠错，得到最终结果；若不存在，直接输出初步结果。本发明通过 “模型解码 + 回帧判断 + 针对性纠错” 的流程，精准解决数字语音识别中的路径包含混识别、同位竞争混识别等问题，在保证识别实时性的同时，显著提升数字识别准确率，实现成本低、灵活性高，适配端侧设备的场景需求。

技术研发人员：杨浪珺
受保护的技术使用者：深圳市友杰智新科技有限公司
技术研发日：
技术公布日：2025/12/25

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨浪珺
技术所有人：深圳市友杰智新科技有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！