基于轻量级深度学习的语音短指令识别方法及系统

文档序号：29127935发布日期：2022-03-05 00:39阅读：来源：国知局

技术特征：
1.一种基于轻量级深度学习的语音短指令识别方法，其特征在于，包括如下步骤：步骤s1：采集连续不同的短指令数据并进行预处理，得到采样率一致的短指令数据；步骤s2：对采样率一致的多条连续短指令数据进行分段，得到多条短指令片段；步骤s3：根据多条短指令片段得到每条短指令片段的语谱图，根据语谱图得到梅尔语谱图，根据梅尔语谱图得到梅尔倒频谱系数；步骤s4：将梅尔语谱图与梅尔倒频谱系数分别作为卷积神经网络模型的输入并进行训练，得到利用梅尔语谱图作为输入训练得到的第一模型、与利用梅尔倒频谱系数作为输入训练得到的第二模型，并选取第一模型、第二模型中识别准确率较高的模型进行语音短指令识别。2.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，步骤s1中，所述采集连续不同的短指令数据并进行预处理，得到采样率一致的短指令数据的方法为：对连续不同的短指令数据转换为统一格式，并通过audacity软件更改为统一的采样率数值。3.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，步骤s2中，所述对采样率一致的短指令数据进行分段，得到多条短指令片段的方法为：步骤s21、通过人耳对采样率一致的短指令数据进行短指令片段选择；步骤s22、记录每条短指令片段选区的起始和终止采样点数据；步骤s23、根据起始和终止采样点依次截取每条短指令片段，得到多条短指令片段。4.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，步骤s3中，所述根据多条短指令片段得到每条短指令片段的语谱图的方法为：对多条短指令片段中的每条短指令片段进行分帧、加窗后再对每一帧进行短时傅里叶变换，得到功率谱，根据功率谱得到语谱图。5.根据权利要求4所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，所述加窗的窗口为汉明窗，所述汉明窗的大小为40ms、重叠部分为50％。6.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，步骤s3中，所述根据语谱图得到梅尔语谱图的方法为：将语谱图通过梅尔滤波器组进行过滤，得到梅尔语谱图。7.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，步骤s3中，所述根据梅尔语谱图得到梅尔倒频谱系数的方法为：计算梅尔语谱图的对数功率谱的平方，得到对数梅尔幅度谱，对对数梅尔幅度谱进行逆离散傅里叶变换，得到梅尔倒频谱系数。8.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，步骤s4中，所述卷积神经网络模型包括三个vgg块、一个全局平均池化层、一个全连接层、一个概率为0.5的丢弃层和一个softmax回归，每个vgg块由第一部分、第二部分和第三部分组成，所述第一部分、第二部分均包括：一个大小为3*3、填充为1、步长为2的卷积层、一个批量归一化层和一个激活函数为relu的激活层，所述第三部分包括一个2*2的最大池化层和一个概率为0.2的丢弃层。9.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法，其特征在于，步骤s4中，所述选取两种模型识别准确率较高的作为语音短指令识别模型的方法为：通过分
别计算两种模型的精确度或f1度量，选取精确度或f1度量较高的模型作为语音短指令识别模型的方法，所述精确度计算如下：所述f1度量计算如下：所述f1度量计算如下：所述f1度量计算如下：式中，n为测试集数目，tp和fp分别表示测试集中该类所有正例被正确和错误分类的数目，而tn和fn分别表示测试集中该类所有负例被正确和错误分类的数目。10.一种基于轻量级深度学习的语音短指令识别系统，其特征在于，包括：短指令数据采集模块，用于采集连续不同的短指令数据并进行预处理，得到采样率一致的短指令数据；短指令数据分段模块，用于对采样率一致的短指令数据进行分段，得到多条短指令片段；梅尔语谱图及梅尔倒频谱系数获取模块，用于根据多条短指令片段得到每条短指令片段的语谱图，根据语谱图得到梅尔语谱图，根据梅尔语谱图得到梅尔倒频谱系数；识别模型获取模块，用于将梅尔语谱图与梅尔倒频谱系数分别作为卷积神经网络模型的输入并进行训练，得到利用梅尔语谱图作为输入训练得到的第一模型、与利用梅尔倒频谱系数作为输入训练得到的第二模型，并选取第一模型、第二模型中识别准确率较高的模型进行语音短指令识别。

技术总结
本发明涉及一种基于轻量级深度学习模型的语音短指令识别方法及系统。本发明以手机实测的数据为基础，将连续短指令数据手动分段为短指令片段；其次根据分帧、加窗、短时傅里叶变换得到梅尔语谱图，使用梅尔滤波器、取对数后平方、离散余弦变换操作得到梅尔倒频谱系数特征；最后将梅尔语谱图和梅尔倒频谱系数作为特征，使用卷积神经网络进行分类识别。通过本发明的方法，不需要进行降噪等操作便可实现短指令的自动识别。令的自动识别。令的自动识别。

技术研发人员：谢捷朱明英李琦靖胡凯
受保护的技术使用者：江南大学
技术研发日：2021.11.29
技术公布日：2022/3/4

完整全部详细技术资料下载

当前第2页1 2