一种基于深度学习特征连接分析的语音事件提取方法与流程

文档序号:28598991发布日期:2022-01-22 10:56阅读:146来源:国知局
一种基于深度学习特征连接分析的语音事件提取方法与流程

1.本发明涉及语音事件提取技术领域,具体而言,涉及一种基于深度学习特征连接分析的语音事件提取方法。


背景技术:

2.通用深度学习在做目标检测时需要对目标进行框选标注,而这种标注方式在框选语音的声纹时,会不可避免的附带大量背景噪声信号或干扰信号,而框选的声纹特征可能只占很小部分,这会直接导致检测结果的误检率上升,所以通用的深度学习目标检测方式并不适用于语音目标的检测。


技术实现要素:

3.本发明旨在提供一种基于深度学习特征连接分析的语音事件提取方法,以解决上述存在的技术问题。
4.本发明提供的一种基于深度学习特征连接分析的语音事件提取方法,包括如下步骤:
5.步骤s10,对用于训练的语音信号文件进行预处理得到训练语图样本文件以及样本标签,并将训练语图样本文件以及样本标签制作成训练数据集;
6.步骤s20,采用训练数据集训练深度学习卷积神经网络模型;
7.步骤s30,对待预测语音信号文件进行预处理得到包含若干待预测语图样本文件的待预测数据集;
8.步骤s40,将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测,得到对应若干待预测语图样本文件的预测结果,并将预测结果拼接为一组特征向量;
9.步骤s50,对特征向量进行特征处理,特征向量中的特征值大于设定阈值对应的位置即为语音事件的位置信息,然后根据语音事件的位置信息从原始的待预测语音信号文件中提取语音事件。
10.进一步的,步骤s10中对用于训练的语音信号文件进行预处理的方法包括:
11.步骤s11,对用于训练的语音信号文件进行短时傅里叶变换并进行图像映射得到训练信号语图样本;
12.步骤s12,对训练信号语图样本进行切分处理得到若干训练语图样本文件;
13.步骤s13,对若干训练语图样本文件中的语音事件进行框选标注,将框选的位置映射到一组特征向量上,框内位置对应的特征值置为1,框外位置对应的特征值置为0,由此制作成标签文件;
14.步骤s14将训练语图样本文件以及样本标签进行关联映射制作成训练数据集。
15.进一步的,步骤s20中采用训练数据集训练深度学习卷积神经网络模型的处理过程包括:
16.步骤s21,将训练数据集输入深度学习卷积神经网络模型;
17.步骤s22,对输入的训练数据集使用四种尺度的卷积核进行特征提取并标准化,得到第一特征矩阵;
18.步骤s23,对第一特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进行特征提取,得到第二特征矩阵;
19.步骤s24,对第二特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第三特征矩阵;
20.步骤s25,对第三特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第四特征矩阵;
21.步骤s26,对第四特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第五特征矩阵;
22.步骤s27,对第五特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第六特征矩阵;
23.步骤s28,对第六特征矩阵进行平坦化并全连接到长度为1的特征向量上,并进行非线性处理;
24.步骤s29,对步骤s21~步骤s28的处理过程采用损失函数进行训练,待损失值收敛后停止训练,得到训练好的深度学习卷积神经网络模型。
25.进一步的,步骤s30中对待预测语音信号文件进行预处理的方法包括:
26.步骤s31,对待预测语音信号文件进行进行短时傅里叶变换并进行图像映射得到待预测信号语图样本;
27.步骤s32,对待预测信号语图样本进行切分处理得到若干待预测语图样本文件;
28.步骤s33,将若干待预测语图样本文件作为待预测数据集。
29.进一步的,步骤s40中将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测的处理过程包括:
30.步骤s41,将待预测数据集输入深度学习卷积神经网络模型;
31.步骤s42,对待预测数据集中的每个待预测语图样本文件使用四种尺度的卷积核进行特征提取并标准化,得到第七特征矩阵;
32.步骤s43,对第七特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进行特征提取,得到第八特征矩阵;
33.步骤s44,对第八特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第九特征矩阵;
34.步骤s45,对第九特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十特征矩阵;
35.步骤s46,对第十特征矩阵使用四种尺度的卷积核进行特征提取并标准化,得到第十一特征矩阵;
36.步骤s47,对第十一特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十二特征矩阵;
37.步骤s48,对第十二特征矩阵进行平坦化并全连接到长度为512的特征向量上,并进行非线性处理,得到对应若干待预测语图样本文件的预测结果;
38.步骤s49,将对应若干待预测语图样本文件的预测结果拼接为一组特征向量。
39.进一步的,每个训练语图样本文件的长度均相等。
40.进一步的,每个待预测语图样本文件的长度均相等。
41.进一步的,每个训练语图样本文件和待预测语图样本文件的长度均相等。
42.进一步的,若有训练语图样本文件和/或待预测语图样本文件的长度不足则进行补0处理。
43.综上所述,由于采用了上述技术方案,本发明的有益效果是:
44.1、在传统的语音事件提取中,通过一直接收并播放固定频点的语音信号来进行识别并进行语音事件提取,而语音事件出现的不确定性,且有时出现频点的不确定性,会直接导致错过语音事件。本发明通过深度学习的方式对语音事件进行提取,输入为原始的语音信号文件,能够自动的将语音事件提取出来,其灵敏度高,鲁棒性强,同时能对多个频点进行处理,大大降低了人工的成本。
45.2、在通用的深度学习语音识别方法中对语音信号中语音事件的质量要求较高,在存在噪声和干扰的情况下效果较差,同时因为语种的原因,数据集收集和制作需要耗费大量的人力和事件成本。本发明是基于深度学习卷积神经网络模型对语音信号中的语音事件进行特征提取,只关注语音特征,不关注语音内容,抗噪能力强,灵敏度更高,在语音信号较弱的情况下依然能够进行识别并提取。
46.3、在通用的深度学习语音事件检测方法中,因标注方式为框选标注,其标签也为框的形式,不可避免的会框入大量的背景噪声或干扰信号,这会直接导致检测的误检率上升。本发明是通过深度学习卷积神经网络对信号进行特征提取,用特征向量的方式来表达语音信号,当有语音事件时特征值会趋近于1,当没有语音事件时,特征值会趋近于0。因特征向量长度和信号语图长度相同,所以其精度是像素级的。
附图说明
47.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
48.图1为本发明实施例的基于深度学习特征连接分析的语音事件提取方法的总体流程图。
49.图2为本发明实施例的深度学习卷积神经网络模型的结构图。
50.图3为本发明实施例的对待预测语音信号文件进行语音事件提取的流程图。
具体实施方式
51.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
52.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通
技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.实施例
54.如图1所示,本实施例提出一种基于深度学习特征连接分析的语音事件提取方法,包括如下步骤:
55.步骤s10,对用于训练的语音信号文件进行预处理得到训练语图样本文件以及样本标签,并将训练语图样本文件以及样本标签制作成训练数据集;具体包括如下步骤:
56.步骤s11,对用于训练的语音信号文件进行短时傅里叶变换并进行图像映射得到训练信号语图样本;
57.步骤s12,对训练信号语图样本进行切分处理得到若干训练语图样本文件;本实施例中,每个训练语图样本文件的长度均为w,w为正整数,本实施例取w=512;进一步,对于长度不足w的训练语图样本文件进行补0处理直至长度为w=512;
58.步骤s13,对若干训练语图样本文件中的语音事件进行框选标注,将框选的位置映射到一组特征向量上,框内位置对应的特征值置为1,框外位置对应的特征值置为0,由此制作成标签文件;
59.步骤s14将训练语图样本文件以及样本标签进行关联映射制作成训练数据集。
60.步骤s20,采用训练数据集训练深度学习卷积神经网络模型;所述深度学习卷积神经网络模型的结构如图2所示,该步骤s20具体包括如下步骤:
61.步骤s21,将训练数据集输入深度学习卷积神经网络模型;训练数据集中的训练语图样本文件的尺寸为256
×
512
×
3,表示长度为512、高度为256的三通道训练语图样本文件;
62.步骤s22,对输入的训练数据集使用四种尺度的卷积核(如图2中的block 1
×
1,64;block 3
×
3,64;block 5
×
5,64;block 7
×
7,64)进行特征提取并标准化,得到第一特征矩阵;
63.步骤s23,对第一特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进行特征提取,得到第二特征矩阵;
64.步骤s24,对第二特征矩阵使用四种尺度的卷积核(如图2中的block1
×
1,256;block 3
×
3,256;block 5
×
5,256;block 7
×
7,256)进行特征提取并标准化,得到第三特征矩阵;
65.步骤s25,对第三特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第四特征矩阵;
66.步骤s26,对第四特征矩阵使用四种尺度的卷积核(如图2中的block1
×
1,512;block 3
×
3,512;block 5
×
5,512;block 7
×
7,512)进行特征提取并标准化,得到第五特征矩阵;
67.步骤s27,对第五特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第六特征矩阵;
68.步骤s28,对第六特征矩阵进行平坦化并全连接到长度为1的特征向量上,并进行非线性处理;
69.步骤s29,对步骤s21~步骤s28的处理过程采用损失函数进行训练,待损失值收敛
(损失值小于预设阈值即为收敛,预设阈值一般可取0.02)后停止训练,得到训练好的深度学习卷积神经网络模型。其中,损失函数可以选用常用的损失函数,如mae损失函数。
70.步骤s30,对待预测语音信号文件进行预处理得到包含若干待预测语图样本文件的待预测数据集;步骤s30中的预处理与步骤s10类似,如图3所示,具体包括如下步骤:
71.步骤s31,对待预测语音信号文件进行进行短时傅里叶变换并进行图像映射得到待预测信号语图样本;
72.步骤s32,对待预测信号语图样本进行切分处理得到若干待预测语图样本文件。同样地,每个待预测语图样本文件的长度均也为w,w为正整数,w=512;进一步,对于长度不足w的待预测语图样本文件进行补0处理直至长度为w=512;
73.步骤s33,将若干待预测语图样本文件作为待预测数据集。
74.步骤s40,将待预测数据集输入训练好的深度学习卷积神经网络模型进行预测,得到对应若干待预测语图样本文件的预测结果,并将预测结果拼接为一组特征向量。具体包括如下步骤:
75.步骤s41,将待预测数据集输入深度学习卷积神经网络模型;待预测数据集中的待预测语图样本文件尺寸为尺寸为256
×
512
×
3,表示长度为512、高度为256的三通道待预测语图样本文件;
76.步骤s42,对待预测数据集中的每个待预测语图样本文件使用四种尺度的卷积核(如图2中的block 1
×
1,64;block 3
×
3,64;block 5
×
5,64;block 7
×
7,64)进行特征提取并标准化,得到第七特征矩阵;
77.步骤s43,对第七特征矩阵进行叠加并池化,对池化结果进行使用256个卷积核进行特征提取,得到第八特征矩阵;
78.步骤s44,对第八特征矩阵使用四种尺度的卷积核(如图2中的block1
×
1,256;block 3
×
3,256;block 5
×
5,256;block 7
×
7,256)进行特征提取并标准化,得到第九特征矩阵;
79.步骤s45,对第九特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十特征矩阵;
80.步骤s46,对第十特征矩阵使用四种尺度的卷积核(如图2中的block1
×
1,512;block 3
×
3,512;block 5
×
5,512;block 7
×
7,512)进行特征提取并标准化,得到第十一特征矩阵;
81.步骤s47,对第十一特征矩阵进行叠加并池化,对池化结果进行使用512个卷积核进行特征提取,得到第十二特征矩阵;
82.步骤s48,对第十二特征矩阵进行平坦化并全连接到长度为512的特征向量上,并进行非线性处理,得到对应若干待预测语图样本文件的预测结果;
83.步骤s49,将对应若干待预测语图样本文件的预测结果拼接为一组特征向量。其中,拼接是指按照切分处理的顺序进行拼接。
84.步骤s50,对特征向量进行特征处理,特征向量中的特征值大于设定阈值a(可取a=0.7)对应的位置即为语音事件的位置信息,然后根据语音事件的位置信息从原始的待预测语音信号文件中提取语音事件。
85.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技
术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1