一种基于深度学习分类组合的语音事件提取方法与流程

文档序号：28599004发布日期：2022-01-22 10:56阅读：来源：国知局

技术特征：
1.一种基于深度学习分类组合的语音事件提取方法，其特征在于，包括如下步骤：步骤s10，对用于训练的语音信号文件进行预处理得到训练语图样本文件以及样本标签，并将训练语图样本文件以及样本标签制作成训练数据集；步骤s20，采用训练数据集训练深度学习卷积神经网络模型；步骤s30，对待预测语音信号文件进行预处理得到包含若干待预测语图样本文件的待预测数据集；步骤s40，将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测分类，得到若干分类结果，并将分类结果拼接为特征向量；步骤s50，对所述特征向量进行连续性处理，得到语音事件的位置信息，然后根据语音事件的位置信息从原始的待预测语音信号文件中提取语音事件。2.根据权利要求1所述的基于深度学习分类组合的语音事件提取方法，其特征在于，步骤s10中对用于训练的语音信号文件进行预处理的方法包括：步骤s11，对用于训练的语音信号文件进行短时傅里叶变换得到训练时频矩阵；步骤s12，将训练时频矩阵映射到图片上生成训练信号语图样本；步骤s13，对训练信号语图样本进行切分处理得到若干训练语图样本文件；步骤s14，根据训练语图样本文件中有无语音事件进行二分类，并根据分类结果制作成样本标签；步骤s15，将训练语图样本文件以及样本标签进行关联映射制作成训练数据集。3.根据权利要求2所述的基于深度学习分类组合的语音事件提取方法，其特征在于，步骤s20中采用训练数据集训练深度学习卷积神经网络模型的处理过程包括：步骤s21，将训练数据集输入深度学习卷积神经网络模型；步骤s22，对输入的训练数据集使用四种尺度的卷积核进行特征提取并标准化，得到第一特征矩阵；步骤s23，对第一特征矩阵进行叠加并池化，对池化结果进行使用256个卷积核进行特征提取，得到第二特征矩阵；步骤s24，对第二特征矩阵使用四种尺度的卷积核进行特征提取并标准化，得到第三特征矩阵；步骤s25，对第三特征矩阵进行叠加并池化，对池化结果进行使用512个卷积核进行特征提取，得到第四特征矩阵；步骤s26，对第四特征矩阵使用四种尺度的卷积核进行特征提取并标准化，得到第五特征矩阵；步骤s27，对第五特征矩阵进行叠加并池化，对池化结果进行使用512个卷积核进行特征提取，得到第六特征矩阵；步骤s28，对第六特征矩阵进行平坦化并全连接到长度为1的特征向量上，并进行非线性处理；步骤s29，对步骤s21～步骤s28的处理过程采用损失函数进行训练，待损失值收敛后停止训练，得到训练好的深度学习卷积神经网络模型。4.根据权利要求3所述的基于深度学习分类组合的语音事件提取方法，其特征在于，步骤s30中对待预测语音信号文件进行预处理的方法包括：
步骤s31，对待预测语音信号文件进行短时傅里叶变换得到待预测时频矩阵；步骤s32，将待预测时频矩阵映射到图片上生成待预测信号语图样本；步骤s33，对待预测信号语图样本进行切分处理得到若干待预测语图样本文件；步骤s34，将若干待预测语图样本文件作为待预测数据集。5.根据权利要求4所述的基于深度学习分类组合的语音事件提取方法，其特征在于，步骤s40中将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测分类的处理过程包括：步骤s41，将待预测数据集输入深度学习卷积神经网络模型；步骤s42，对待预测数据集中的每个待预测语图样本文件使用四种尺度的卷积核进行特征提取并标准化，得到第七特征矩阵；步骤s43，对第七特征矩阵进行叠加并池化，对池化结果进行使用256个卷积核进行特征提取，得到第八特征矩阵；步骤s44，对第八特征矩阵使用四种尺度的卷积核进行特征提取并标准化，得到第九特征矩阵；步骤s45，对第九特征矩阵进行叠加并池化，对池化结果进行使用512个卷积核进行特征提取，得到第十特征矩阵；步骤s46，对第十特征矩阵使用四种尺度的卷积核进行特征提取并标准化，得到第十一特征矩阵；步骤s47，对第十一特征矩阵进行叠加并池化，对池化结果进行使用512个卷积核进行特征提取，得到第十二特征矩阵；步骤s48，对第十二特征矩阵进行平坦化并全连接到长度为1的特征向量上，并进行非线性处理，得到每个待预测语图样本文件的分类结果；步骤s49，将每个待预测语图样本文件得到的分类结果拼接为特征向量。6.根据权利要求5所述的基于深度学习分类组合的语音事件提取方法，其特征在于，步骤s50中对所述特征向量进行连续性处理的方法包括：步骤s51，对特征向量中特征值大于等于分类阈值a的设为1，特征值小于分类阈值a的设为0，处理后得到第一特征处理向量；步骤s52，基于第一特征处理向量中的0和1的变化，使用信号位置判断方法判断出语音事件的初步区域；步骤s53，根据语音事件的初步区域采用断点位置补充方法对第一特征处理向量进行处理，得到第二特征处理向量；步骤s54，根据语音信号的初步区域采用区域连接方法对第二特征处理向量进行处理，得到第三特征处理向量；步骤s55，对第三特征处理向量使用信号位置判断方法判断出语音事件的确定区域。7.根据权利要求6所述的基于深度学习分类组合的语音事件提取方法，其特征在于，每个训练语图样本文件的长度均相等。8.根据权利要求7所述的基于深度学习分类组合的语音事件提取方法，其特征在于，每个待预测语图样本文件的长度均相等。9.根据权利要求8所述的基于深度学习分类组合的语音事件提取方法，其特征在于，每
个训练语图样本文件和待预测语图样本文件的长度均相等。10.根据权利要求9所述的基于深度学习分类组合的语音事件提取方法，其特征在于，若有训练语图样本文件和/或待预测语图样本文件的长度不足则进行补0处理。

技术总结
本发明提供一种基于深度学习分类组合的语音事件提取方法，包括：对用于训练的语音信号文件进行预处理得到训练语图样本文件以及样本标签，并制作成训练数据集；采用训练数据集训练深度学习卷积神经网络模型；对待预测语音信号文件进行预处理得到若干待预测语图样本文件；将若干待预测语图样本文件输入训练好的深度学习卷积神经网络模型进行预测分类，得到若干分类结果，并将分类结果拼接为特征向量；对特征向量进行连续性处理，得到语音事件的位置信息，然后根据语音事件的位置信息从原始的待预测语音信号文件中提取语音事件。本发明使用深度学习二分类处理以及连续性算法，能够在语音信号弱或受干扰时也能有不错的提取效果。效果。效果。

技术研发人员：王珂王圣川景亮李芝权李远绳
受保护的技术使用者：电信科学技术第五研究所有限公司
技术研发日：2021.09.14
技术公布日：2022/1/21

完整全部详细技术资料下载

当前第2页1 2