本技术涉及到语音识别,具体而言,涉及到一种集外词的拒识别方法、装置、设备及介质。
背景技术:
1、命令词识别是语音识别领域的关键应用方向,在智能家居领域应用广泛,典型场景包括智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等设备的语音交互控制。当前,低资源智能家居设备受硬件性能限制,通常采用固定命令词列表进行识别,然而,该模式存在显著缺陷:设备对命令词列表之外的集外词,尤其是与列表内命令词发音或语义相近的集外词,极易产生误识别,例如,当命令词列表仅包含“定时二十分钟”时,“定时二十五分钟”“定时二十八分钟”等本不应被识别的集外词,实际应用中常会被错误识别为“定时二十分钟”,严重影响设备交互准确性,难以满足用户对智能家居设备精准语音控制的需求。
技术实现思路
1、本技术的主要目的为提供一种集外词的拒识别方法,旨在解决低资源智能家居设备采用固定命令词列表识别时,对相近集外词误识别率高,影响交互准确性,难满足精准控制需求的技术问题。
2、本技术的第一方面提出一种集外词的拒识别方法,包括:
3、对当前语音段识别结果与命令词列表中的目标命令词进行强制对齐,得到对齐路径,其中,所述强制对齐基于动态规划及维特比算法,结合ctc准则将语音段解码生成的解码矩阵与目标命令词的标准音素路径进行对齐;
4、基于所述对齐路径,确定关键区间并对区间内的对齐结果分情形判定,统计错误行计数,其中,对齐结果为blank音素或目标命令词音素时分别进行占比判断;
5、基于所述对齐路径及目标命令词的音素序列特征,定位至少一组关键音素对,每组关键音素对包含两个具有位置关联的关键音素;
6、计算每组所述关键音素对中两个关键音素的位置距离,判断所述位置距离是否异常;
7、若所述错误行计数超过设定阈值或所述位置距离异常,则判定所述当前语音段为集外词并执行拒识别,否则判定为有效命令词。
8、进一步地,所述对当前语音段识别结果与命令词列表中的目标命令词进行强制对齐,得到对齐路径的步骤,包括以下步骤:
9、提取所述目标命令词对应的标准音素路径,并获取所述当前语音段经解码生成的解码矩阵;
10、基于ctc准则,采用修改后的前向算法计算所述解码矩阵各位置最大概率及来源位置,通过回溯确定最大概率路径;
11、在预设的识别窗口区间内,基于动态规划和维特比算法,将所述最大概率路径与目标命令词的标准音素路径进行映射对齐,生成对齐路径。
12、进一步地,所述基于ctc准则,采用修改后的前向算法计算所述解码矩阵各位置最大概率及来源位置,通过回溯确定最大概率路径的步骤,包括以下步骤:
13、基于ctc准则,将传统ctc前向算法中的概率求和运算替换为求最大值运算,得到修改后的前向算法;
14、采用所述修改后的前向算法对解码矩阵进行动态规划计算,确定到达每个位置的最大概率;
15、记录所述最大概率对应的前一时间来源位置,形成路径信息;
16、以解码矩阵末端为起点,依据所述路径信息进行反向回溯至起始端,将回溯得到的连贯路径与目标命令词的标准音素路径进行匹配,确定最大概率路径。
17、进一步地,所述基于所述对齐路径,确定关键区间并对区间内的对齐结果分情形判定,统计错误行计数的步骤,包括:
18、基于所述对齐路径,确定关键区间的范围;
19、将关键区间内的对齐结果分类为blank音素对齐结果或目标命令词音素对齐结果;
20、若为blank音素对齐结果,判断其是否占主要地位,若否,则错误行计数加1;若为目标命令词音素对齐结果,判断该音素是否占主要地位且非目标命令词音素是否不占主要地位,若任一判断为否,则错误行计数加1;
21、统计关键区间内不符合判定条件的对齐结果总数,作为错误行计数。
22、进一步地,所述基于所述对齐路径及目标命令词的音素序列特征,定位至少一组关键音素对,每组关键音素对包含两个具有位置关联的关键音素的步骤,包括:
23、提取目标命令词的音素序列特征,确定待定位关键音素的类型及位置关联关系;
24、基于所述音素序列特征,识别各关键音素在序列中的唯一性或重复出现属性;
25、遍历所述对齐路径,对唯一关键音素直接定位其位置,对重复关键音素结合前后特征音素序列筛选定位;
26、将定位得到的两个具有位置关联的关键音素组合,形成一组关键音素对。
27、进一步地,所述计算每组所述关键音素对中两个关键音素的位置距离,判断所述位置距离是否异常的步骤,包括以下步骤:
28、获取每组关键音素对中两个关键音素在对齐路径中的定位位置;
29、基于所述定位位置,计算两个关键音素之间的位置距离;
30、依据目标命令词的音素序列特征,确定所述位置距离对应的判定标准;
31、将所述位置距离与所述判定标准进行比对,若不符合所述判定标准,则判定所述位置距离异常。
32、进一步地,所述若所述错误行计数超过设定阈值或所述位置距离异常,则判定所述当前语音段为集外词并执行拒识别,否则判定为有效命令词的步骤,包括以下步骤:
33、获取所述错误行计数及各关键音素对的位置距离判定结果;
34、判断所述错误行计数是否超过设定阈值,或任一所述关键音素对的位置距离是否异常;
35、若满足上述任一条件,则判定所述当前语音段为集外词并执行拒识别操作,否则判定为有效命令词。
36、本技术的第二方面还提出一种集外词的拒识别装置,包括:
37、对齐模块,用于对当前语音段识别结果与命令词列表中的目标命令词进行强制对齐,得到对齐路径,其中,所述强制对齐基于动态规划及维特比算法,结合ctc准则将语音段解码生成的解码矩阵与目标命令词的标准音素路径进行对齐;
38、统计模块,用于基于所述对齐路径,确定关键区间并对区间内的对齐结果分情形判定,统计错误行计数,其中,对齐结果为blank音素或目标命令词音素时分别进行占比判断;
39、定位模块,用于基于所述对齐路径及目标命令词的音素序列特征,定位至少一组关键音素对,每组关键音素对包含两个具有位置关联的关键音素;
40、距离判断模块,用于计算每组所述关键音素对中两个关键音素的位置距离,判断所述位置距离是否异常;
41、判定模块,用于若所述错误行计数超过设定阈值或所述位置距离异常,则判定所述当前语音段为集外词并执行拒识别,否则判定为有效命令词。
42、本技术的第三方面提出一种集外词的拒识别设备,包括:
43、处理器;
44、存储器,用于存储计算机程序;
45、其中,所述处理器执行所述计算机程序时实现上述实施例中任一项所述的集外词的拒识别方法。
46、本技术的第四方面提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一项所述的集外词的拒识别方法。
47、本方案第一方面带来的有益效果:
48、本技术通过动态规划、维特比算法与ctc准则的强制对齐,无需重新训练模型,适配低资源设备硬件限制,降低部署成本,同时关键区间对齐判定与错误行统计,可精准识别对齐异常的相近集外词,并且关键音素对定位与位置距离校验,进一步锁定语义关联音素的位置偏差,双重保障减少误判,进而整体流程计算简单、资源占用少,能在低配置设备上高效运行,大幅降低相近集外词误识别率,提升语音交互准确性,满足用户对智能家居精准控制的需求。