语音命令词识别方法、系统、终端及介质与流程

文档序号:41064016发布日期:2025-02-25 09:35阅读:144来源:国知局

本技术涉及语音命令词识别,特别是涉及一种语音命令词识别方法、系统、终端及介质。


背景技术:

1、语音识别是一种将人类语音转换成文本或命令的技术,广泛应用于各类终端设备中。语音命令词识别技术是其中一个重要技术分支,专注于识别和理解人类语音中的命令。通过语音命令词识别技术,用户可以方便地使用语音控制家中的各种智能设备,包括智能音箱、智能灯具、智能电视等。由于终端设备的内存资源与计算资源有限,其运行的语音命令词识别系统不仅要满足识别的高准确率,还必须满足占用内存小、计算量低的要求。随着深度学习理论与技术的逐渐完善,基于神经网络模型的语音命令词识别系统凭借其优异性能成为目前主流技术方案。

2、然而,高性能的卷积神经网络模型往往参数量过大,同时又伴随着大量卷积所需的浮点乘加计算,因而难以达到对语音命令词识别系统的轻量化要求。

3、二值化神经网络模型是一种在内存占用以及计算成本方面极具优势的卷积神经网络,其利用二值化方法大幅压缩网络参数量的同时,还可将传统卷积所需的浮点乘加运算简化为同或运算以及计数器运算,显著减少了计算量。二值化神经网络模型极低的参数规模与计算复杂度,可以有效满足语音命令词识别的轻量化需求。但是,二值化方法将不可避免地造成网络中的严重信息损失与训练困难问题,从而不可避免的导致命令词识别准确率明显下降。

4、因此,现有语音命令词识别系统无法在满足内存和计算量的同时达到很高的性能,导致识别率较低以及误报率较高,难以满足使用需求。


技术实现思路

1、鉴于以上所述现有技术的缺点,本技术的目的在于提供一种语音命令词识别方法、系统、终端及介质,用于解决现有语音命令词识别系统无法同时满足小内存和低计算量的需求以及高识别率需求的问题。

2、为实现上述目的及其他相关目的,本技术的第一方面提供一种语音命令词识别方法,所述语音命令词识别方法包括:将获取到的待识别语音裁剪为多个待识别语音段;对每个待识别语音段分别进行对数梅尔频谱特征提取,生成每个待识别语音段的声学特征数据;将各声学特征数据分别输入基于二值时频残差网络训练获得的语音命令词分类模型,生成每个待识别语音段的命令词分类结果;对各待识别语音段的命令词分类结果进行平滑处理,确定所述待识别语音数据中的目标命令词。

3、于本技术的第一方面的一些实施例中,所述二值时频残差网络包括:频域卷积层、批量归一化层、激活函数、多个时域卷积层、全局平均池化层以及全连接层;其中,将声学特征数据输入基于所述二值时频残差网络训练获得的语音命令词分类模型,生成对应的待识别语音段的命令词分类结果的方式包括:通过所述频域卷积层对输入的声学特征数据执行二维卷积操作,提取该声学特征数据中的频域特征,并通过所述批量归一化层以及所述激活函数,生成对应的多通道频域特征数据;通过各时域卷积层提取所述多通道频域特征数据中的时域特征,生成对应的多通道时域特征数据;通过所述全局平均池化层以及所述全连接层,根据输入的所述多通道时域特征数据,生成并输出对应的命令词分类结果。

4、于本技术的第一方面的一些实施例中,每个时域卷积层包括:第一类型二值时频残差块,包括:第一时域特征提取单元、第一变维单元以及第一激活函数;用于通过所述第一时域特征提取单元对输入数据进行时域特征提取,并通过所述第一变维单元对输入数据进行变维,将两个单元的输出数据相加后再通过所述第一激活函数,生成第一多通道时域特征数据;第二类型二值时频残差块,连接所述第一类型二值时频残差块,包括:第二时域特征提取单元以及第二激活函数;通过所述第二时域特征提取单元对输入数据进行时域特征提取,并将输出数据与原输入数据相加后再通过所述第二激活函数,生成第二多通道时域特征数据,以供最终生成待识别语音段的多通道时域特征数据。

5、于本技术的第一方面的一些实施例中,所述第一时域特征提取单元以及所述第二时域特征提取单元包括相同的时域卷积网络结构,该时域网络结构包括:频域求和函数、第一符号函数、第一二值卷积层、批量归一化层、第二符号函数、第二二值卷积层以及频域复制层;其中,所述第一时域特征提取单元以及所述第二时域特征提取单元对输入数据进行时域特征提取的方式包括:通过所述频域求和函数对输入数据执行频域求和操作,生成多通道一维特征数据;通过所述第一符号函数对所述多通道一维特征数据执行二值化操作,生成二值化多通道一维特征数据;通过所述第一二值卷积层对所述二值化多通道一维特征数据执行二值时域卷积操作,并通过所述批量归一化层,生成多通道一维时域特征数据;通过所述第二符号函数对所述多通道一维时域特征数据执行二值化操作,生成二值化多通道一维时域特征数据;通过所述第二二值卷积层以及所述频域复制层对所述二值化多通道一维时域特征数据执行变维操作,生成多通道二维时域特征数据。

6、于本技术的第一方面的一些实施例中,所述第一变维单元包括:符号函数、二值卷积层、批量归一化层以及激活函数,用于对输入数据进行变维,使输入数据与所述第一时域特征提取单元的输出数据维数一致。

7、于本技术的第一方面的一些实施例中,基于二值时频残差网络训练获得所述语音命令词分类模型的方式包括:获取多个预设时间长度的语音训练样本,并对每个语音训练样本分别进行对数梅尔频谱特征提取,生成每个语音训练样本的声学特征样本数据;将构建的二值时频残差网络中的各二值卷积层替换为全精度卷积层,生成对应的时频残差网络,并基于各声学特征样本数据训练该时频残差网络,获得收敛的时频残差网络;根据已收敛的时频残差网络的网络参数,初始化所述二值时频残差网络,并基于各声学特征样本数据训练所述二值时频残差网络;采用线性渐进梯度近似函数计算所述二值时频残差网络的损失函数值,并更新其网络参数,获得收敛的二值时频残差网络,以生成语音命令词分类模型。

8、于本技术的第一方面的一些实施例中,将获取到的待识别语音裁剪为多个待识别语音段的方式包括:根据预设的裁剪窗口的窗长和窗移,按照时间顺序,使用所述裁剪窗口按照所述窗移在所述待识别语音上移动,并将每次移动位于所述裁剪窗口的语音进行裁剪处理,以裁剪出多个待识别语音段。

9、于本技术的第一方面的一些实施例中,对各待识别语音段的命令词分类结果进行平滑处理,确定所述待识别语音数据中的目标命令词的方式包括:根据所述待识别语音对应的时间顺序,将各待识别语音段划分为多个待识别语音段组;分别对每个待识别语音段组中各待识别语音段的命令词分类结果进行累加并取平均值,获得各待识别语音段组的命令词分类结果;根据各待识别语音段组的命令词分类结果,获取其中概率值最大的命令词,并将该命令词与预设的识别阈值进行比较,当该命令词的概率值大于预设的识别阈值时,确定该命令词为待识别语音的目标命令词。

10、于本技术的第一方面的一些实施例中,对待识别语音段进行对数梅尔频谱特征提取,生成该待识别语音段的声学特征数据的方式包括:对待识别语音段执行重采样操作,并对重采样后的语音数据执行分帧加窗操作,生成若干帧语音数据;对每一帧的语音数据分别执行快速傅里叶变换操作,获得每一帧语音数据的线性频谱数据;使用多个梅尔滤波器对各线性频谱数据分别执行梅尔滤波操作,获得每一帧语音数据的梅尔频谱数据;对各梅尔频谱数据分别执行取对数操作,获得每一帧语音数据的对数梅尔频谱数据;将各对数梅尔频谱数据分别执行归一化操作,获得每一帧语音数据的对数梅尔频谱特征数据;基于各对数梅尔频谱特征数据,生成该待识别语音段的声学特征数据;其中,所述声学特征数据为二维特征数组,其高度为执行梅尔滤波操作时使用的梅尔滤波器的数量,宽度为执行分帧加窗操作时对重采样后的语音数据的分帧数量。

11、为实现上述目的及其他相关目的,本技术的第二方面提供一种语音命令词识别系统,所述语音命令词识别系统包括:语音裁剪模块,用于将获取到的待识别语音裁剪为多个待识别语音段;特征提取模块,连接所述语音裁剪模块,用于对每个待识别语音段分别进行对数梅尔频谱特征提取,生成每个待识别语音段的声学特征数据;命令词分类模块,连接所述特征提取模块,用于将各声学特征数据分别输入基于二值时频残差网络训练获得的语音命令词分类模型,生成每个待识别语音段的命令词分类结果;平滑模块,连接所述命令词分类模块,用于对各待识别语音段的命令词分类结果进行平滑处理,确定所述待识别语音数据中的目标命令词。

12、为实现上述目的及其他相关目的,本技术第三方面提供一种语音命令词识别终端,所述语音命令词识别终端包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述各实施例所述语音命令词识别方法。

13、为实现上述目的及其他相关目的,本技术第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音命令词识别方法。

14、如上所述,本技术提供了一种语音命令词识别方法、系统、终端及介质,通过将获取到的待识别语音裁剪为多个待识别语音段,并对每个待识别语音段分别进行对数梅尔频谱特征提取,从而生成多个声学特征数据,以供输入语音命令词分类模型,生成每个待识别语音段的命令词分类结果,在对各命令词分类结果进行平滑处理后,即可确定所述待识别语音数据中的目标命令词。本技术具有以下有益效果:通过基于二值时频残差网络训练获得语音命令词分类模型,不仅大大减少了模型的内存占用和计算成本,还能够全面准确的捕获声学特征数据中的频域信息以及时域信息,避免有效信息的损失,从而极大的提高了命令词的识别准确率。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!