一种基于深度学习分类组合的语音事件提取方法与流程

文档序号:28599004发布日期:2022-01-22 10:56阅读:88来源:国知局
一种基于深度学习分类组合的语音事件提取方法与流程

1.本发明涉及语音事件提取技术领域,具体而言,涉及一种基于深度学习分类组合的语音事件提取方法。


背景技术:

2.传统的语音事件提取方法与通用的深度学习目标检测的方式在语音清晰、噪声很弱的情况下有较好的效果,但在强噪声、强干扰下、信号衰减等复杂条件下,效果往往差强人意。同时,在语音事件提取中,由于语音的强弱变化或信号的干扰,会直接导致语音事件提取过于碎片化,提取效果并不理想。


技术实现要素:

3.本发明旨在提供一种基于深度学习分类组合的语音事件提取方法,以解决上述存在的技术问题。
4.本发明提供的一种基于深度学习分类组合的语音事件提取方法,包括如下步骤:
5.步骤s10,对用于训练的语音信号文件进行预处理得到训练语图样本文件以及样本标签,并将训练语图样本文件以及样本标签制作成训练数据集;
6.步骤s20,采用训练数据集训练深度学习卷积神经网络模型;
7.步骤s30,对待预测语音信号文件进行预处理得到包含若干待预测语图样本文件的待预测数据集;
8.步骤s40,将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测分类,得到若干分类结果,并将分类结果拼接为特征向量;
9.步骤s50,对所述特征向量进行连续性处理,得到语音事件的位置信息,然后根据语音事件的位置信息从原始的待预测语音信号文件中提取语音事件。
10.进一步的,步骤s10中对用于训练的语音信号文件进行预处理的方法包括:
11.步骤s11,对用于训练的语音信号文件进行短时傅里叶变换得到训练时频矩阵;
12.步骤s12,将训练时频矩阵映射到图片上生成训练信号语图样本;
13.步骤s13,对训练信号语图样本进行切分处理得到若干训练语图样本文件;
14.步骤s14,根据训练语图样本文件中有无语音事件进行二分类,并根据分类结果制作成样本标签;
15.步骤s15,将训练语图样本文件以及样本标签进行关联映射制作成训练数据集。
16.进一步的,步骤s20中采用训练数据集训练深度学习卷积神经网络模型的处理过程包括:
17.步骤s21,将训练数据集输入深度学习卷积神经网络模型;
18.步骤s22,对输入的训练数据集使用四种尺度的卷积核进行特征提取并标准化,得到第一特征矩阵;
19.步骤s23,对第一特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进
行特征提取,得到第二特征矩阵;
20.步骤s24,对第二特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第三特征矩阵;
21.步骤s25,对第三特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第四特征矩阵;
22.步骤s26,对第四特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第五特征矩阵;
23.步骤s27,对第五特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第六特征矩阵;
24.步骤s28,对第六特征矩阵进行平坦化并全连接到长度为1的特征向量上,并进行非线性处理;
25.步骤s29,对步骤s21~步骤s28的处理过程采用损失函数进行训练,待损失值收敛后停止训练,得到训练好的深度学习卷积神经网络模型。
26.进一步的,步骤s30中对待预测语音信号文件进行预处理的方法包括:
27.步骤s31,对待预测语音信号文件进行短时傅里叶变换得到待预测时频矩阵;
28.步骤s32,将待预测时频矩阵映射到图片上生成待预测信号语图样本;
29.步骤s33,对待预测信号语图样本进行切分处理得到若干待预测语图样本文件;
30.步骤s34,将若干待预测语图样本文件作为待预测数据集。
31.进一步的,步骤s40中将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测分类的处理过程包括:
32.步骤s41,将待预测数据集输入深度学习卷积神经网络模型;
33.步骤s42,对待预测数据集中的每个待预测语图样本文件使用四种尺度的卷积核进行特征提取并标准化,得到第七特征矩阵;
34.步骤s43,对第七特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进行特征提取,得到第八特征矩阵;
35.步骤s44,对第八特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第九特征矩阵;
36.步骤s45,对第九特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十特征矩阵;
37.步骤s46,对第十特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第十一特征矩阵;
38.步骤s47,对第十一特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十二特征矩阵;
39.步骤s48,对第十二特征矩阵进行平坦化并全连接到长度为1的特征向量上,并进行非线性处理,得到每个待预测语图样本文件的分类结果;
40.步骤s49,将每个待预测语图样本文件得到的分类结果拼接为特征向量。
41.进一步的,步骤s50中对所述特征向量进行连续性处理的方法包括:
42.步骤s51,对特征向量中特征值大于等于分类阈值a的设为1,特征值小于分类阈值a的设为0,处理后得到第一特征处理向量;
43.步骤s52,基于第一特征处理向量中的0和1的变化,使用信号位置判断方法判断出语音事件的初步区域;
44.步骤s53,根据语音事件的初步区域采用断点位置补充方法对第一特征处理向量进行处理,得到第二特征处理向量;
45.步骤s54,根据语音信号的初步区域采用区域连接方法对第二特征处理向量进行处理,得到第三特征处理向量;
46.步骤s55,对第三特征处理向量使用信号位置判断方法判断出语音事件的确定区域。
47.进一步的,每个训练语图样本文件的长度均相等。
48.进一步的,每个待预测语图样本文件的长度均相等。
49.进一步的,每个训练语图样本文件和待预测语图样本文件的长度均相等。
50.进一步的,若有训练语图样本文件和/或待预测语图样本文件的长度不足则进行补0处理。
51.综上所述,由于采用了上述技术方案,本发明的有益效果是:
52.1、本发明使用的是深度学习二分类的处理方式,通过切分处理并进行深度学习分类预测,其感受野更大、对语音事件更加灵敏、抗噪能力强,即使语音信号较弱也会有不错的效果。并且本发明使用了连续性算法进行处理,该连续性算法不参与训练,能够更好地解决语音事件碎片化的问题,在语音信号受到干扰时,语音事件处于时断时续的状态,该连续性算法能够将这些断断续续的语音事件组合在一起作为一个语音事件进行提取。
53.2、本发明的深度学习卷积神经网络模型结构简单更容易训练,计算量小、耗时较少。
54.3、本发明输入深度学习卷积神经网络模型的语图样本文件尺寸没有经过压缩或者拉伸,保证了语音事件的真实性。
附图说明
55.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
56.图1为本发明实施例的基于深度学习分类组合的语音事件提取方法的总体流程图。
57.图2为本发明实施例的对用于训练的语音信号文件进行预处理的流程图。
58.图3为本发明实施例的深度学习卷积神经网络模型的结构图。
59.图4为本发明实施例的对待预测语音信号文件进行预处理以及预测分类的流程图。
60.图5为本发明实施例的对特征向量进行连续性处理及语音事件提取的流程图。
具体实施方式
61.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
62.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
63.实施例
64.如图1所示,本实施例提出一种基于深度学习分类组合的语音事件提取方法,包括如下步骤:
65.步骤s10,对用于训练的语音信号文件进行预处理得到训练语图样本文件以及样本标签,并将训练语图样本文件以及样本标签制作成训练数据集,如图2所示,具体包括如下子步骤:
66.步骤s11,对用于训练的语音信号文件进行短时傅里叶变换得到训练时频矩阵;
67.步骤s12,将训练时频矩阵映射到图片上生成训练信号语图样本;
68.步骤s13,对训练信号语图样本进行切分处理得到若干训练语图样本文件;每个训练语图样本文件的长度均为w,w为正整数,本实施例取w=512;进一步,对于长度不足w的训练语图样本文件进行补0处理直至长度为w=512;
69.步骤s14,根据训练语图样本文件中有无语音事件进行二分类,并根据分类结果制作成样本标签;
70.步骤s15,将训练语图样本文件以及样本标签进行关联映射制作成训练数据集。
71.步骤s20,采用训练数据集训练深度学习卷积神经网络模型;本实施例构建的深度学习卷积神经网络模型如图3所示,由此步骤s20包括如下子步骤:
72.步骤s21,将训练数据集输入深度学习卷积神经网络模型;训练数据集中的训练语图样本文件的尺寸为256
×
512
×
3;
73.步骤s22,对输入的训练数据集使用64个3
×
3的卷积核进行特征提取并标准化,得到第一特征矩阵;
74.步骤s23,对第一特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进行特征提取,得到第二特征矩阵;
75.步骤s24,对第二特征矩阵使用256个3
×
3的卷积核进行特征提取并标准化,得到第三特征矩阵;
76.步骤s25,对第三特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第四特征矩阵;
77.步骤s26,对第四特征矩阵使用512个3
×
3的卷积核进行特征提取并标准化,得到第五特征矩阵;
78.步骤s27,对第五特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第六特征矩阵;
79.步骤s28,对第六特征矩阵进行平坦化并全连接到长度为1的特征向量上,并进行非线性处理;
80.步骤s29,对步骤s21~步骤s28的处理过程采用损失函数进行训练,待损失值收敛(损失值小于预设阈值即为收敛,预设阈值一般可取0.02)后停止训练,得到训练好的深度学习卷积神经网络模型。其中,损失函数可以选用常用的损失函数,如mae损失函数。该深度学习卷积神经网络模型结构简单更容易训练,计算量小、耗时较少,并且使用的是深度学习二分类的处理方式,通过切分处理并进行深度学习分类预测,其感受野更大、对语音事件更加灵敏、抗噪能力强,即使语音信号较弱也会有不错的效果;另外,输入深度学习卷积神经网络模型的语图样本文件尺寸没有经过压缩或者拉伸,保证了语音事件的真实性。
81.步骤s30,对待预测语音信号文件进行预处理得到若干待预测语图样本文件;步骤s30中的预处理与步骤s10类似,具体包括如下子步骤:
82.步骤s31,对待预测语音信号文件进行短时傅里叶变换得到待预测时频矩阵;
83.步骤s32,将待预测时频矩阵映射到图片上生成待预测信号语图样本;
84.步骤s33,对待预测信号语图样本进行切分处理得到若干待预测语图样本文件;同样地,每个待预测语图样本文件的长度均也为w,w为正整数,w=512;进一步,对于长度不足w的待预测语图样本文件进行补0处理直至长度为w=512;
85.步骤s34,将若干待预测语图样本文件作为待预测数据集。
86.步骤s40,将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测分类,得到若干分类结果,并将分类结果拼接为特征向量;如图4所示,具体包括如下子步骤:
87.步骤s41,将待预测数据集输入深度学习卷积神经网络模型;待预测数据集中的待预测语图样本文件的尺寸为256
×
512
×
3,表示长度为512、高度为256的三通道待预测语图样本文件;
88.步骤s42,每个待预测语图样本文件使用64个3
×
3的卷积核进行特征提取并标准化,得到第七特征矩阵;
89.步骤s43,对第七特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进行特征提取,得到第八特征矩阵;
90.步骤s44,对第八特征矩阵使用256个3
×
3的卷积核进行特征提取并标准化,得到第九特征矩阵;
91.步骤s45,对第九特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十特征矩阵;
92.步骤s46,对第十特征矩阵使用512个3
×
3的卷积核进行特征提取并标准化,得到第十一特征矩阵;
93.步骤s47,对第十一特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十二特征矩阵;
94.步骤s48,对第十二特征矩阵进行平坦化并全连接到长度为1的特征向量上,并进行非线性处理,得到每个待预测语图样本文件的分类结果;
95.步骤s49,将每个待预测语图样本文件得到的分类结果拼接为特征向量。其中,拼接是指按照原切分处理的顺序进行拼接。
96.步骤s50,对所述特征向量进行连续性处理,得到语音事件的位置信息,然后根据语音事件的位置信息从待预测语音信号文件中提取语音事件。如图5所示,具体包括如下子步骤:
97.步骤s51,对特征向量中特征值大于等于分类阈值a的设为1,特征值小于分类阈值a的设为0,处理后得到第一特征处理向量;
98.步骤s52,基于第一特征处理向量中的0和1的变化,使用信号位置判断方法判断出语音事件的初步区域;
99.步骤s53,根据语音事件的初步区域采用断点位置补充方法对第一特征处理向量进行处理,得到第二特征处理向量:对第一特征处理向量中语音事件的初步区域的特征值进行判断,当两个语音事件的初步区域之间的距离小于第一距离阈值k1且两个语音事件的初步区域中的特征值均大于特征值阈值b时,将第一特征处理向量中这两个语音事件的初步区域对应的位置设为1,便得到第二特征处理向量;
100.步骤s54,根据语音信号的初步区域采用区域连接方法对第二特征处理向量进行处理,得到第三特征处理向量:在第二特征处理向量中,当两个相邻的语音事件的初步区域的长度均大于长度阈值j且两块相邻的语音事件的初步区域长度大于j且两个语音事件的初步区域之间的距离小于第二距离阈值k2则连通两个相邻的语音事件的初步区域,得到第三特征处理向量;
101.步骤s55,对第三特征处理向量使用信号位置判断方法判断出语音事件的位置信息,然后根据语音事件的位置信息从原始的待预测语音信号文件中提取语音事件:第三特征处理向量中特征值为1的位置表示有语音事件,特征值为0的位置表示无语音事件,通过特征值为1的位置即可判断出语音事件的开始位置和结束位置,并根据语音事件的开始位置和结束位置即可从原始的待预测语音信号文件中提取语音事件。
102.在传统的深度学习语音识别方法中,因噪声和干扰的影响,往往会导致语音信号有明显的强弱变化,从而在语音事件提取过程中,一个语音事件会被拆分成多个语音事件,从而产生大量的语音事件碎片,使得语音事件提取效果不理想。该步骤s50中使用了连续性算法进行处理,该连续性算法不参与训练,能够更好地解决语音事件碎片化的问题,在语音信号受到干扰时,语音事件处于时断时续的状态,该连续性算法能够将这些断断续续的语音事件组合在一起作为一个语音事件进行提取。
103.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1