一种基于有限状态机的自定义语音唤醒词检测方法

文档序号:41465187发布日期:2025-03-28 18:06阅读:92来源:国知局

本发明涉及语音识别,尤其涉及一种基于有限状态机的自定义语音唤醒词检测方法。


背景技术:

1、随着人工智能技术的发展,语音识别技术已经成为智能设备的重要组成部分。作为语音识别系统的入口,语音唤醒功能能够通过特定的唤醒词启动设备,避免连续监听导致的资源浪费和隐私问题。这种功能广泛应用于智能音箱、车载系统、移动设备等领域,实现了人机自然交互。然而,现有的语音唤醒技术在多样化需求、性能优化以及可扩展性方面仍然面临挑战。

2、现有技术中,常见的语音唤醒方法主要依赖深度学习模型对语音信号进行分类。这些方法通过神经网络模型对每帧语音的特征进行分类,判断是否符合目标唤醒词的特定模式。语音特征的提取通常采用mfcc、filterbank或对数mel谱等方式,这些特征能够有效捕捉语音信号的频谱特性。然而,大多数现有技术采用的是直接对特定唤醒词进行训练的单一模型,即每次需要支持新的唤醒词时,必须重新训练声学模型。这种方法不仅耗费大量的时间和计算资源,而且对于用户来说缺乏灵活性。

3、此外,现有的语音唤醒系统往往受限于资源消耗和运行效率。针对低功耗设备的实际需求,复杂的神经网络模型可能导致过高的计算和存储负担。一些方法通过削减模型规模来减少资源消耗,但同时牺牲了模型的性能和鲁棒性。在噪声环境、远场拾音或多语言场景下,这些方法的误唤醒率和漏唤醒率较高,难以满足用户的实际需求。

4、为了提升唤醒词检测的精度,现有技术通常会通过端到端训练的方式对语音进行直接建模。然而,这种方法的模型训练成本高且缺乏灵活性,尤其是在支持多唤醒词的场景中,需要为每个唤醒词分别构建模型或进行重新训练。对目标唤醒词的支持局限于训练时的模型参数,使得这些系统难以适应快速变化的用户需求。例如,当用户希望添加新的唤醒词或修改现有唤醒词时,系统需要重新标注数据、训练模型并部署新版本,这种方式不仅耗时且复杂,还限制了用户的自主性。

5、在现有技术中,也存在一些基于模板匹配或关键字检测的语音唤醒方法,这些方法试图通过对比目标唤醒词的特征模板与实时语音信号的匹配程度来进行唤醒判断。然而,模板匹配方法的准确性通常较低,尤其是在多样化的用户发音和复杂环境噪声的影响下,其适应性明显不足。此外,模板匹配方法难以扩展,尤其在支持多唤醒词或个性化唤醒词的场景中,随着唤醒词数量的增加,系统性能会显著下降。

6、基于有限状态机的语音处理方法近年来逐渐受到关注。这种方法通过对语音信号的音素序列建模,可以有效描述唤醒词的结构,并通过状态转移对目标音素路径进行解码。然而,传统的有限状态机方法多用于简单的规则匹配场景,缺乏与现代深度学习技术的有效结合,难以应对复杂语音信号中的不确定性。此外,现有的基于有限状态机的解码方法通常对计算资源的依赖较高,难以适配低功耗设备的需求。

7、综上所述,现有的语音唤醒技术存在以下缺陷:其一,现有系统通常需要为每个唤醒词单独训练模型,导致灵活性差且难以快速适应用户需求;其二,传统方法在多唤醒词检测场景中性能有限,无法高效支持多个唤醒词的解码与检测;其三,在资源受限的嵌入式设备上,现有技术难以在保证性能的前提下实现低功耗运行;其四,对于多变的实际使用环境,例如嘈杂环境、远场语音等,现有方法的误唤醒率和漏唤醒率较高,鲁棒性不足。


技术实现思路

1、本发明的一个目的在于提出一种基于有限状态机的自定义语音唤醒词检测方法,本发明结合了transformer网络模型和有限状态机解码的优点,无需为每个唤醒词重新训练神经网络模型,仅通过配置唤醒词内容即可完成对多个唤醒词的支持,从而显著提升了系统的灵活性和扩展性,而且有限状态机的引入使得系统能够对目标唤醒词的音素路径进行高效解码,优化了检测过程的计算资源需求,同时降低了误唤醒率和漏唤醒率,通过高效的特征提取和模型推理,该方法能够在复杂场景下实现鲁棒的语音唤醒功能,满足实际应用对低功耗、高精度和灵活配置的需求。

2、根据本发明实施例的一种基于有限状态机的自定义语音唤醒词检测方法,包括如下步骤:

3、s1、利用互联网上的开源中文语音数据集训练transformer网络模型;

4、s2、对输入的语音信号进行分帧加窗处理,采用512点窗长和256点帧移的参数对语音信号进行分帧,并提取对应的特征;

5、s3、将提取的特征输入到训练好的transformer网络模型中,对每帧特征进行推理,生成每帧语音的拼音类别概率分布,形成帧概率张量;

6、s4、基于目标唤醒词和拼音类别概率分布,配置目标唤醒词内容并通过字典映射获得目标唤醒词对应的声韵母拼音序列,根据所述声韵母拼音序列构建有限状态机解码网络;

7、s5、对帧概率张量进行处理,将帧概率张量中与目标唤醒词相关的音素类别得分保留,将静音符号<sil>单独作为一类保留,将其余类别的得分合并为<gbg>得分,生成新的帧概率张量;

8、s6、将新的帧概率张量输入有限状态机解码网络,运行维特比算法,搜索最优音素路径,并判定最优音素路径是否完成唤醒词对应的音素序列;

9、s7、根据搜索出的最优音素路径,记录每个音素状态的最大得分并计算所有音素状态得分的平均值作为唤醒词得分,并将唤醒词得分与预设门限值进行比较,当唤醒词得分超过预设门限值时,激活唤醒词,否则返回初始状态继续监听。

10、可选的,所述s1具体包括:

11、s11、从互联网上收集开源中文语音数据集,所述开源中文语音数据集包含语音信号及对应的转写文本,通过数据预处理对语音数据进行规范化,所述规范化包括采样率的统一、无效音频的过滤以及格式转换,并将所有语音文件标准化为16k采样率、单通道、16位量化的pcm格式;

12、s12、通过字典将转写文本中的中文汉字逐字映射为声韵母组合,生成对应的声韵母拼音序列,所述声韵母拼音序列包括23个声母和24个韵母,且不考虑声调和儿化现象;

13、s13、定义transformer网络的输出类别为48类,所述输出类别包括23个声母、24个韵母,1个静音符号<sil>,所述静音符号用于标注无声的帧段;

14、s14、设计transformer网络模型的训练目标,以每帧语音信号的特征向量为输入,采用交叉熵损失函数计算训练损失,调整网络参数以最小化损失函数,实现transformer网络模型的训练。

15、可选的,所述s2具体包括:

16、s21、对输入的语音信号进行分帧,每帧的长度为n个采样点,相邻帧之间的重叠部分长度为o,帧长和帧移设置为512和256;

17、s22、对每一帧语音信号施加汉明窗函数:

18、

19、xw(n)=x(n)·w(n);

20、其中,w(n)表示汉明窗函数,n表示帧长,n表示常数,x(n)表示帧语音信号,xw(n)表示加窗后的信号;

21、s23、对加窗后的信号进行短时傅里叶变换,将时域信号转换为频域信号:

22、

23、其中,x(k)表示频域信号,k表示频率分量的索引,j表示虚数单位;

24、s24、计算频谱的功率谱密度:

25、

26、其中,p(k)表示功率谱密度,代表每个频率分量的功率;

27、s25、通过mel滤波器组对功率谱密度进行处理,将线性频率域映射到mel频率域:

28、

29、其中,sm表示第m个mel频带的能量,hm(k)表示滤波器组的权重矩阵,m表示常数;

30、s26、对每个mel频带的能量取对数,得到对数mel谱;

31、s27、对对数mel谱应用离散余弦变换,提取mel频率倒谱系数:

32、

33、其中,c(n)表示第n个倒谱系数;

34、s28、将每帧的特征组合形成特征矩阵,所述特征包括mel频率倒谱系数和对数mel谱。

35、可选的,所述s3具体包括:

36、s31、将提取的特征矩阵输入到训练好的transformer网络模型中,transformer网络模型的输入层接收特征矩阵,通过第一层卷积操作提取局部时频特征;

37、s32、对卷积层的输出进行池化操作,池化方式为最大池化;

38、s33、对池化后的输出应用激活函数,激活函数采用relu函数;

39、s34、经过多层卷积、激活和池化操作后,提取高层时频特征,生成中间特征表示;

40、s35、将中间特征表示输入到全连接层进行分类推理,输出每帧语音属于48个拼音类别的概率值,生成拼音类别概率分布:

41、

42、其中,p(y=c|x)表示输入特征属于类别c的概率,zc表示类别c对应的网络输出值,k表示总类别数,zk表示类别k对应的网络输出值,exp表示指数函数,y表示输入特征;

43、s36、对拼音类别概率分布的所有时间帧的概率值组合成帧概率张量,所述帧概率张量的形状为(t,48),t表示语音帧数,48表示拼音类别数。

44、可选的,所述s4具体包括:

45、s41、配置目标唤醒词内容,通过字典将目标唤醒词的汉字映射为对应的声韵母拼音序列;

46、s42、构建有限状态机的初始状态集合,定义初始状态的映射,允许通过静音符号<sil>和无关音素符号<gbg>自跳转,表示在非目标唤醒词的音素或静音片段时保持当前状态;

47、s43、根据目标唤醒词的声韵母拼音序列依次创建状态节点集合,构建从初始状态到唤醒完成状态的状态转移路径,且在每个状态节点中,根据对应拼音音素允许向下一个状态跳转:

48、

49、其中,qi和qi+1分别表示两个相邻状态,pi表示第i个音素的得分,即概率值;

50、s44、对每个状态节点设置自跳转路径,所述自跳转路径吸收连续帧中相同的音素或者处理短暂静音符号<sil>:

51、

52、其中,qi表示当前状态,pi表示对应音素的得分;

53、s45、对有限状态机中的所有路径进行优化,合并相同或重复路径,对多唤醒词的有限状态机进行状态节点合并,避免冗余节点和路径;

54、s46、生成最终的有限状态机解码网络,所述有限状态机解码网络包含所有唤醒词音素的路径。

55、可选的,所述s5具体包括:

56、s51、将帧概率张量中与目标唤醒词相关的音素类别提取为单独的得分,形成目标音素得分集合,所述得分表示当前帧属于每个类别的可能性;

57、s52、对帧概率张量中的静音符号<sil>的得分进行单独保留,生成静音符号得分集合;

58、s53、将帧概率张量中所有与唤醒词无关的音素类别的得分合并为<gbg>类别得分;

59、s54、将目标音素得分集合、静音符号得分集合和<gbg>类别得分组合为一个新的帧概率张量,并对新的帧概率张量按时间序列顺序排列。

60、可选的,所述s6具体包括:

61、s61、将新的帧概率张量输入有限状态机解码网络,并将状态转移权重定义为帧概率张量中对应的得分;

62、s62、初始化维特比算法的起始状态为有限状态机的初始状态,并定义每个状态的初始路径得分为负无穷,起始状态得分初始化为0;

63、s63、依次遍历每个时间帧,对每一状态计算路径得分:

64、vt(qj)=maxqi∈q[vt-1(qi)+logpij];

65、其中,vt(qj)表示时间帧t状态qj的路径得分,vt-1(qi)表示时间帧t-1状态qi的路径得分,pij表示从状态qi转移到状态qj的得分,q表示有限状态机解码网络的节点集合,max表示最大值;

66、s64、记录路径转移的最佳前驱状态集合:

67、backpointer(qj,t)=argmaxqi∈q[vt-1(qi)+log pij];

68、其中,backpointer(qj,t)表示时间帧t状态qj的最佳前驱状态,qf表示有限状态机的目标结束状态,vt-1(qi)表示时间帧t-1状态qi的路径得分;

69、s65、对所有时间帧的状态路径得分进行迭代更新,直到计算完成最后一个时间帧,记录目标状态的最大路径得分:

70、vt(qf)=maxqi∈q[vt-1(qi)+logpif];

71、其中,vt(qf)表示时间帧t状态qf的路径得分,qf表示有限状态机的目标结束状态,vt-1(qi)表示时间帧t-1状态qi的路径得分;

72、s66、回溯前驱状态集合,通过记录的最优音素路径构建音素序列,确定该路径是否覆盖目标唤醒词的音素序列,若路径覆盖目标唤醒词音素序列,则输出路径的音素序列及路径得分。

73、可选的,所述s7具体包括:

74、s71、根据搜索出的最优音素路径,获取最优音素路径中每个音素状态的最大得分集合;

75、s72、对每个音素的状态得分进行归一化处理,并对归一化后的音素最大得分集合进行加权平均,计算唤醒词的路径得分;

76、s73、对唤醒词的路径得分进行平滑处理,采用滑动窗口机制计算得分的移动平均值;

77、s74、将唤醒词最终得分与预设门限值进行比较,当唤醒词最终得分超过预设门限值时,激活唤醒词,否则返回初始状态继续监听。

78、本发明的有益效果是:

79、首先,借助transformer网络模型与有限状态机的深度结合,本发明无需为每个唤醒词单独训练神经网络模型,只需通过配置唤醒词内容即可适配新的唤醒词。这种设计显著提升了系统的灵活性,用户可以在不重新训练模型的情况下快速添加、删除或修改唤醒词,从而满足实际应用中对动态扩展和定制化的需求。

80、其次,本发明通过对语音信号的特征提取、神经网络推理以及有限状态机解码的优化,提升了系统在复杂环境下的检测精度和鲁棒性。特征提取步骤中,采用mel频率倒谱系数和对数mel谱等特征,充分捕获语音信号的频谱特性,为后续的神经网络推理提供了高质量的输入。transformer网络模型通过自注意力机制对每帧语音进行推理,有效挖掘语音信号中的时序关系与全局特征,生成高精度的音素概率分布。这一设计不仅提高了系统在多语音干扰场景下的误唤醒抑制能力,同时通过轻量化的模型架构,确保了系统在嵌入式设备上的低功耗运行。

81、再次,有限状态机的引入是本发明的重要创新点,它将目标唤醒词的声韵母拼音序列映射为状态转移路径,通过动态解码有效区分目标音素序列与其他干扰音素。有限状态机能够吸收静音符号和无关音素符号,实现对语音信号中无关片段的容错处理,进一步降低了误唤醒的概率。结合维特比算法,系统能够高效地搜索最优音素路径并计算唤醒词的得分,该得分基于音素状态的最大值平均计算而来,与门限值的比较机制有效避免了漏唤醒现象。同时,本发明利用有限状态机的确定化和最小化算法,对多唤醒词路径进行优化合并,大幅减少了解码过程中的冗余路径,提高了解码效率和资源利用率。

82、此外,本发明在复杂场景下表现出优异的鲁棒性,包括噪声环境、远场语音和多说话人场景。通过神经网络的帧概率输出与有限状态机的解码规则相结合,系统能够适应语音信号的多样性,确保高精度的唤醒检测结果。同时,通过引入滑动窗口和动态平滑机制,对唤醒词得分进行后处理,进一步提升了唤醒检测的稳定性。

83、总之,本发明实现了灵活的唤醒词配置、高效的多唤醒词检测、低功耗运行以及高精度和鲁棒的唤醒检测功能,解决了现有技术中灵活性差、计算复杂度高、误唤醒率高以及环境适应性不足的问题,为智能语音交互设备提供了一种高效且实用的语音唤醒解决方案。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1