语音命令词识别后处理方法、系统、设备及存储介质与流程

文档序号:42651499发布日期:2025-08-05 18:35阅读:72来源:国知局

本技术涉及语音解码领域,特别是涉及到一种语音命令词识别后处理方法、系统、设备及存储介质。


背景技术:

1、在端侧离线语音命令词识别场景中,现有技术通过构建声学模型解码识别命令词时,存在包括因过度依赖声学模型效果,多条件识别机制在受干扰时难以满足全部条件,放松条件又会导致误识别率显著上升,当命令词列表中存在严格前缀后缀包含、近似或对称等结构关系时,模型易因端侧资源限制出现混识别;以及数字相关命令词中,模型常将集外词(如风扇四档等非目标命令)误识别为目标词的情况,上述情况本质均源于端侧资源约束下,现有识别方案难以平衡抗干扰能力与识别准确性,且对命令词结构关联性及集外词范围缺乏有效处理机制,导致误识别、混识别及集外词识别问题频发,亟待通过后处理技术优化解决。

2、因此,现有技术因过度依赖声学模型且端侧资源受限,无法准确识别命令词,导致识别错误频发是亟待解决的问题。


技术实现思路

1、本技术的主要目的为提供一种语音命令词识别后处理方法、系统、设备及存储介质,旨在解决现有技术因过度依赖声学模型且端侧资源受限,无法准确识别命令词,导致识别错误频发的技术问题。

2、为了实现上述发明目的,本技术提出一种语音命令词识别后处理方法,所述方法包括:获取声学模型输出的音素概率矩阵及命令词路径得分;

3、基于音素概率矩阵和命令词路径得分初步判断是否存在误识别、混识别或集外词识别;

4、若初步判断存在误识别,基于音素概率矩阵中提取得分向量并统计非目标音素数量进行判断,生成第一确认结果;

5、若初步判断存在混识别,根据混识别对应的异常类型从音素概率矩阵中获取后续帧或历史帧的音素序列,基于命令词结构关系进行分析,得到第二确认结果;

6、若初步判断存在集外词识别,从音素概率矩阵中提取得分最高的关键音素,查询候选音素库,生成第三确认结果;

7、基于第一确认结果、第二确认结果或第三确认结果,输出最终识别结果。

8、进一步地,所述获取声学模型输出的音素概率矩阵及命令词路径得分的步骤,包括:

9、接收声学模型在各时间帧输出的音素概率分布,形成音素概率矩阵;

10、基于所述音素概率矩阵,通过解码算法获取与命令词列表匹配的最优音素路径,并计算该路径的综合得分;

11、缓存当前识别帧及历史n帧的音素概率矩阵,其中n为根据命令词最大音素长度预设的正整数,用于后续延迟识别或历史帧分析;

12、同步记录所述命令词路径得分,用于识别结果类型的初步判断使用。

13、进一步地,所述基于音素概率矩阵和命令词路径得分初步判断是否存在误识别、混识别或集外词识别的步骤,包括:

14、若命令词路径得分低于预设的误识别阈值初步判断存在误识别;

15、判断当前命令与命令词列表中各词条的结构关系;

16、若当前命令与命令词列表中任一词条存在预设的结构关系,初步判断为存在混识别;

17、若识别到当前命令词中包含数字,且当前命令词路径得分低于集外词触发阈值时,初步判断为存在集外词识别。

18、进一步地,所述预设的结构关系包括严格前缀包含、严格后缀包含、非严格包含、近似包含及对称关系;所述若当前命令与命令词列表中任一词条存在预设的结构关系,初步判断为存在混识别的步骤,包括:

19、提取当前识别结果对应的音素序列路径;

20、将当前识别路径与命令词列表中的其他词条进行前缀比对,若短路径词的音素序列完全匹配长路径词的起始部分,则存在严格前缀包含,初步判定为前缀包含型混识别;

21、若长路径词的末尾音素序列完全匹配短路径词,则存在严格后缀包含,初步判定为后缀包含型混识别;

22、分析当前识别路径是否为命令词列表中其他长路径词条的非连续子集,若是,则存在非严格包含,初步判定为非严格包含型混识别;

23、计算当前识别路径与命令词列表中的其他词条的音素序列相似度,若相似度超过预设阈值且存在共享音素片段,则存在近似包含,初步判定为近似包含型混识别;

24、若识别到当前命令词与命令词列表中其他词条的差异部分呈对称结构,则存在对称关系,初步判定为对称型混识别。

25、进一步地,所述若初步判断存在误识别,基于音素概率矩阵中提取得分向量并统计非目标音素数量进行判断,生成第一确认结果的步骤,包括:

26、若初步判断存在误识别,从当前帧音素概率矩阵中提取所有非目标命令词对应的音素概率值,形成得分向量;

27、统计得分向量中概率值高于目标音素或与目标音素的差值在第一预设差值内的非目标音素数量;

28、若所述数量超过预设数量阈值,则判定当前识别结果为误识别,生成第一确认结果。

29、进一步地,所述若初步判断存在混识别,根据混识别对应的异常类型从音素概率矩阵中获取后续帧或历史帧的音素序列,基于命令词结构关系进行分析,得到第二确认结果的步骤,包括:

30、若为严格前缀包含,当识别到被包含词时,延迟获取后续第一预设数量帧音素序列,判断是否存在包含词相关音素信息,若存在判定为混识别,生成第二确认结果;

31、若为严格后缀包含,当识别到被包含词时,获取缓存数据中的第二预设数量帧音素序列,判断是否存在包含词相关音素信息,若存在判定为混识别,生成第二确认结果;

32、若为非严格包含,在短路径音素序列的时间范围内,识别是否存在长路径特定音素的历史或后续帧信息,若存在判定为混识别,生成第二确认结果;

33、若为近似包含,根据包含形式延迟获取后续第一预设数量帧音素序列或获取缓存数据中的第二预设数量帧音素序列,判断是否存在包含词相关音素信息,若存在判定为混识别,生成第二确认结果;

34、若为对称关系,识别到对称词的对称位置的音素得分低于第一得分阈值时,识别对称音素位置对称的两个音素的得分,若得分差异大于第一得分差异阈值,则判定当前识别结果为混识别,生成第二确认结果。

35、进一步地,所述若初步判断存在集外词识别,从音素概率矩阵中提取得分最高的关键音素,查询候选音素库,生成第三确认结果的步骤,包括:

36、在音素概率矩阵中提取与当前命令词关联的关键音素,并确定其中得分最高的音素;

37、基于得分最高的关键音素,查询预先建立的候选音素库,获取相关候选音素的得分情况;

38、若相关候选音素的得分超过预设候选阈值或与关键音素得分差值小于设定值,则判定当前识别为集外词识别,生成第三确认结果。

39、本技术的第二方面还包括一种语音命令词识别后处理系统,包括:

40、获取模块,用于获取声学模型输出的音素概率矩阵及命令词路径得分;

41、初步判断模块,用于基于音素概率矩阵和命令词路径得分初步判断是否存在误识别、混识别或集外词识别;

42、误识别二次确认模块,用于若初步判断存在误识别,基于音素概率矩阵中提取得分向量并统计非目标音素数量进行判断,生成第一确认结果;

43、混识别二次确认模块,用于若初步判断存在混识别,根据混识别对应的异常类型从音素概率矩阵中获取后续帧或历史帧的音素序列,基于命令词结构关系进行分析,得到第二确认结果;

44、集外词二次确认模块,用于若初步判断存在集外词识别,从音素概率矩阵中提取得分最高的关键音素,查询候选音素库,生成第三确认结果;

45、输出模块,用于基于第一确认结果、第二确认结果或第三确认结果,输出最终识别结果。

46、本技术的第三方面还包括一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

47、本技术的第四方面还包括一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

48、本技术通过获取音素概率矩阵及路径得分并进行多维度识别问题判断与处理,可有效提升语音命令词识别的准确性与抗干扰能力。针对误识别启动二次确认机制,通过统计非目标音素数量排除不可靠识别;针对混识别基于命令词结构关系提取后续或历史帧音素序列分析,解决不同类型结构引发的混淆问题;针对集外词通过关键音素与候选音素库比对,排除数字相关的越界识别。本方案无需重新训练模型,能够利用后处理机制高效处理三类识别问题,在端侧离线资源受限场景下,既能平衡识别灵敏度与误识别率,又能通过结构化分析提升复杂命令词列表的识别鲁棒性,显著降低误识别、混识别及集外词识别风险,实现快速高效的识别优化。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1