混识别的处理方法、装置、设备及存储介质与流程

文档序号:39440157发布日期:2024-09-20 22:41阅读:106来源:国知局

本申请涉及语音识别,尤其涉及一种混识别的处理方法、装置、设备及存储介质。


背景技术:

1、在智能家居领域,语音唤醒和命令词识别属于常见的智能,需要用户喊出唤醒词或命令词后,设备能实时做出应答。命令词识别属于语音识别,广泛应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。命令词语音控制设备时,如果喊没有反应,会连续喊同一个命令词的情形。如果命令词列表中存在一个命令词的后缀是另一个命令词的前缀的情形,就容易引起混识别。比如风速一档和一档风速同时存在在命令词中,如果连续喊风速一档、风速一档则容易混识别为一档风速。又比如set unlock和lock set同时存在命令词时,set unlockset unlock连续喊时,容易混识别为lock set。因此,如何解决在命令词列表中存在一个命令词的后缀是另一个命令词的前缀的情形下,重复喊同一命令词容易引起混识别是目前亟需解决的技术问题。


技术实现思路

1、针对上述技术问题,本申请的目的在于提供一种混识别的处理方法、装置、设备及存储介质,旨在解决在命令词列表中存在一个命令词的后缀是另一个命令词的前缀的情形下,重复喊同一命令词容易引起混识别的技术问题。

2、第一方面,本申请实施例提供一种混识别的处理方法,包括:

3、对输入的语音计算其特征,然后送入语音识别网络,输出一音素概率分布列,同时记录该音素概率分布列的时间戳;

4、将输出的音素概率分布列缓存到一个缓存窗口中;

5、当缓存窗口中新来一音素概率分布列时,基于新来的音素概率分布列的时间戳和缓存窗口中所有音素概率分布列的时间戳确定过期的音素概率分布列;

6、将过期的音素概率分布列从缓存窗口中清理掉,得到清理后的缓存窗口;

7、基于清理后的缓存窗口进行解码操作,获得命令词的识别结果。

8、进一步的,所述基于新来的音素概率分布列的时间戳和缓存窗口中所有音素概率分布列的时间戳确定过期的音素概率分布列的步骤包括:

9、基于新来的音素概率分布列的时间戳,从左到右遍历缓存窗口,找出时间差大于一定阈值且最靠右的位置;其中,所述时间差基于新来的音素概率分布列的时间戳和缓存窗口中存储的音素概率分布列的时间戳计算得到,缓存窗口中的0位置位于缓存窗口的左边,将音素概率分布列存储到缓存窗口时,从0位置开始存储;

10、所述将过期的音素概率分布列从缓存窗口中清理掉,得到清理后的缓存窗口的步骤包括:

11、将找出的位置之后的信息左移到从缓存窗口的0位置开始存储,得到清理后的缓存窗口。

12、进一步的,所述基于清理后的缓存窗口进行解码操作,获得命令词的识别结果的步骤之后,所述方法还包括:

13、获取命令词识别结果的长度;

14、根据所述命令词识别结果的长度调整所述阈值。

15、进一步的,所述将输出的音素概率分布列缓存到一个缓存窗口中的步骤之前,还包括:

16、分析所述音素概率分布列中的blank概率是否大于设定的概率值;

17、如果大于,则认为包含音素信息过小,过滤掉此音素概率分布列。

18、进一步的,所述时间戳为相对时间戳,所述相对时间戳是一个相对的计数,当达到计数阈值时,重置,重新计数。

19、进一步的,所述基于新来的音素概率分布列的时间戳,从左到右遍历缓存窗口,找出时间差大于一定阈值且最靠右的位置的过程中,时间差的计算方式为:

20、idiff = icurr_time - timecnt[j] ;其中,j表示遍历的标号, timecnt[j]表示第j个位置的时间戳乘以输出一列音素概率分布列的时间间隔的结果,icurr_time表示当前时间戳乘以输出一列音素概率分布列的时间间隔的结果;idiff 表示时间差;j=0,1,2,......,n;n表示缓存窗口长度;

21、如果idiff小于0 ,表示存在重置,idiff需要加上所述计数阈值。

22、进一步的,所述语音识别网络的语音识别算法采用ctc解码算法。

23、第二方面,本申请实施例提供一种混识别的处理装置,所述装置包括:

24、识别模块,用于对输入的语音计算其特征,然后送入语音识别网络,输出一音素概率分布列,同时记录该音素概率分布列的时间戳;

25、缓存模块,用于将输出的音素概率分布列缓存到一个缓存窗口中;

26、确定模块,用于当缓存窗口中新来一音素概率分布列时,基于新来的音素概率分布列的时间戳和缓存窗口中所有音素概率分布列的时间戳确定过期的音素概率分布列;

27、清理模块,用于将过期的音素概率分布列从缓存窗口中清理掉,得到清理后的缓存窗口;

28、解码模块,用于基于清理后的缓存窗口进行解码操作,获得命令词的识别结果。

29、第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的混识别的处理方法的步骤。

30、第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的混识别的处理方法的步骤。

31、本申请实施例通过记录音素概率分布列的时间戳,并将音素概率分布列缓存在一个缓存窗口中,当缓存窗口中新来一音素概率分布列时,基于新来的音素概率分布列的时间戳和缓存窗口中所有音素概率分布的时间戳确定过期的音素概率分布列;将过期的音素概率分布列从缓存窗口中清理掉,最后基于清理后的缓存窗口进行解码操作,获得命令词的识别结果,由于本发明存在清理机制,之前的缓存信息不会影响当前的识别,从而可解决连续喊命令词时,命令词列表存在一个命令词的后缀和另一个命令词的前缀相同的情形时的混识别的问题,进而本申请可提高命令词识别的准确性。



技术特征:

1.一种混识别的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的混识别的处理方法,其特征在于,所述基于新来的音素概率分布列的时间戳和缓存窗口中所有音素概率分布列的时间戳确定过期的音素概率分布列的步骤包括:

3.根据权利要求2所述的混识别的处理方法,其特征在于,所述基于清理后的缓存窗口进行解码操作,获得命令词的识别结果的步骤之后,所述方法还包括:

4.根据权利要求1所述的混识别的处理方法,其特征在于,所述将输出的音素概率分布列缓存到一个缓存窗口中的步骤之前,还包括:

5.根据权利要求1所述的混识别的处理方法,其特征在于,所述时间戳为相对时间戳,所述相对时间戳是一个相对的计数,当达到计数阈值时,重置,重新计数。

6.根据权利要求5所述的混识别的处理方法,其特征在于, 所述基于新来的音素概率分布列的时间戳,从左到右遍历缓存窗口,找出时间差大于一定阈值且最靠右的位置的过程中,时间差的计算方式为:

7.根据权利要求1-6任一项所述的混识别的处理方法,其特征在于,所述语音识别网络的语音识别算法采用ctc解码算法。

8.一种混识别的处理装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的混识别的处理方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的混识别的处理方法的步骤。


技术总结
本申请涉及语音识别技术领域,提供一种混识别的处理方法、装置、设备及存储介质,方法包括:对输入的语音计算其特征,然后送入语音识别网络,输出一音素概率分布列,同时记录该音素概率分布列的时间戳;将输出的音素概率分布列缓存到一个缓存窗口中;当缓存窗口中新来一音素概率分布列时,基于新来的音素概率分布列的时间戳和缓存窗口中所有音素概率分布列的时间戳确定过期的音素概率分布列;将过期的音素概率分布列从缓存窗口中清理掉,得到清理后的缓存窗口;基于清理后的缓存窗口进行解码操作,获得命令词的识别结果。本申请可以解决重复喊同一命令词容易引起混识别技术问题,提高命令词识别的准确性。

技术研发人员:刘汉卿
受保护的技术使用者:深圳市陨力软件科技有限公司
技术研发日:
技术公布日:2024/9/19
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1