一种基于双注意力和数据增强的哭声检测模型训练方法与流程

文档序号：36665106发布日期：2024-01-14 14:26阅读：29来源：国知局

本发明属于语音信号处理，具体涉及一种基于双注意力和数据增强的哭声检测模型训练方法。

背景技术：

1、在家庭环境中婴儿的监管和陪护所产生的成本越来越高，尤其是人力和时间成本。因此，目前市场上的婴儿智能陪护产品逐步兴起，该类产品在检测到在婴儿因为不舒服或其他原因发出的哭声时，会及时发出警报或发出消息去提示家长，有效降低时间成本和减轻人为看护的负担。

2、在常规哭声检测方法中，主要使用统计方法或语音信号的强弱作为判断依据，然而实际环境复杂，在家庭场景中通常伴有其他声音如电视声和音乐声的出现，若其他声音的信号强度过大，则极其容易被误检测为哭声，这会极大影响产品的检测准率和产品使用的直观感受。

3、近年来人工智能和深度学习技术在快速发展，使用大量哭声数据去训练出哭声检测模型是一个可行方案，但当前若考虑深度学习的方式训练哭声检测模型，存在公开哭声数据集有限，收集较困难的问题，而数据集的缺乏会明显影响模型检测性能。

4、婴儿哭声音频的频谱特点是高频部分比较强，低频部分相对较弱，同时谐波成分较多，而当前哭声检测难点在于实际环境中婴儿哭声与其他噪声混杂在一起，如背景噪声或其他人的声音，这就需要检测模型能够具备较强泛化性，适应噪声环境，同时具备精细化的特征提取能力去有效区分哭声和非哭声的特性。

技术实现思路

1、为克服现有技术存在的缺陷，本发明公开了一种基于双注意力和数据增强的婴儿哭声检测方法。

2、本发明所述用于命令词语音增强的模型训练方法，包括以下步骤:

3、s1.构建原始哭声数据集；

4、s2.对原始哭声数据集的数据进行数据增强；

5、s3.在增强后的数据集中加入非哭声音频作为负样本，构建完整哭声数据集；

6、s4.构建哭声检测模型，提取完整哭声数据集中音频的梅尔倒谱系数特征作为模型输入数据，进行单次迭代训练，直至模型收敛；

7、所述哭声检测模型的单次迭代训练的具体方法为：

8、s41.模型输入数据经过第一一维卷积模块，该卷积模块输入通道为c，输出通道为c/2，f维度大小是[batch_size,c,t] ；

9、其中batch_size、c、t分别为模型输入数据的三个不同维度；

10、第一一维卷积模块输出卷积向量f_conv；

11、s42.将s41得到的卷积向量f_conv进行重排列操作，使维度变换为[batch_size,t,c/2],再送入到第一编码器网络transformer_t中对时间尺度上的通道信息进行加权；加权后的第一特征向量f_t维度被还原为[batch_size,c/2,t]；

12、同时，将卷积向量f_conv进行再次进行重排列操作，使维度变换为[t,batch_size,c/2],再送入到第二编码器网络transformer_b，用于加权各样本之间的通道信息，加权后的第二特征向量f_b维度被还原为[batch_size,c/2,t]；

13、s43.将第一特征向量f_t和第二第一特征向量f_b逐元素对应相加，再输入到第二一维卷积模块处理，该第二一维卷积模块输入通道为c/2，输出通道为c；将特征维度还原为维度大小为[batch_size,c,t]的合成输出向量f_out；

14、s44.将合成特征向量f_out送入到哭声检测模型中由线性层组成的二分类网络中，最终输出s41中所述模型输入数据对应的音频是否属于哭声的概率得分；

15、所述哭声检测模型采用ecapa-tdnn的声纹识别网络架构，但采用两个transformer编码器网络替换统计池化层，两个transformer编码器网络即所述第一编码器网络和第二编码器网络；

16、s5.改变模型输入数据，重复步骤s4，直至模型收敛，得到哭声检测模型。

17、优选的，所述s1原始哭声数据集的构建方法为：采集大量包含哭声的视频、音频并进行预处理，具体为：将视频文件通过需要提取音频并转为wav格式，音频文件也转为wav格式，将其中的多通道数据转为单通道数据，并将所有wav格式音频采样率统一至一个固定频率。

18、优选的，所述s2进行数据增强的具体方法为：

19、s21.以一个固定时间s秒为长度对原始哭声数据集中的音频进行剪切为多条音频，其中不足s秒的数据会使用下一条音频的数据进行补齐，直至剪切后音频总时长达到设置的数据对齐时长：

20、s22.对齐后数据进入数据增强模块，根据数据增强模块参数配置进行数据增强操作，所述数据增强操作包括增加噪声、增加混响、改变音量和改变音速等手段中的任意一种或多种，最后将所有生成的数据进行整合，得到增强后的数据集。

21、优选的，所述s42中的加权具体为：

22、将输入特征向量f输入编码器网络的三个全连接层分别学习；所述三个全连接层的权重分别为q权重wq,k权重wk,v权重wv表示，经过三次线性变换分别得到查询向量q、解锁向量k、数据向量v：

23、q=f⊙wq，k=f⊙wk，v=f⊙wv，其中⊙表示两个向量逐元素相乘；

24、则注意力权重矩阵；

25、其中d表示解锁向量k维度大小，表示最终计算得到的注意力权重矩阵，t表示矩阵转置操作，softmax表示归一化指示函数；

26、两个编码器网络加权后得到的所述注意力权重矩阵wattention分别与s41得到的卷积向量f_conv相乘，相乘结果为所述第一特征向量f_t和第二特征向量f_b。

27、优选的，所述s3中非哭声音频包括电视声、音乐声、猫叫声和儿童歌声。

28、优选的，所述s3中对数据集中全部音频设置标签,哭声音频和非哭声音频标签分别设置为不同标签。

29、本发明改善了现有哭声检测方法容易误检测和训练数据不足影响检测准确率的问题，构建双注意力模块去精准定位和关注输入数据中的重要部分，使模型具备更精细化的特征提取能力，有效提升哭声检测模型性能和检测正确率。

技术特征：

1.一种基于双注意力和数据增强的哭声检测模型训练方法，其特征在于,包括以下步骤:

2.如权利要求1所述的模型训练方法，其特征在于，所述s1原始哭声数据集的构建方法为：采集大量包含哭声的视频、音频并进行预处理，具体为：将视频文件通过需要提取音频并转为wav格式，音频文件也转为wav格式，将其中的多通道数据转为单通道数据，并将所有wav格式音频采样率统一至一个固定频率。

3.如权利要求1所述的模型训练方法，其特征在于，所述s2进行数据增强的具体方法为：

4.如权利要求1所述的模型训练方法，其特征在于，所述s42中的加权具体为：

5.如权利要求1所述的模型训练方法，其特征在于，所述s3中非哭声音频包括电视声、音乐声、猫叫声和儿童歌声。

6.如权利要求1所述的模型训练方法，其特征在于，所述s3中对数据集中全部音频设置标签,哭声音频和非哭声音频标签分别设置为不同标签。

技术总结
本发明公开了一种基于双注意力和数据增强的哭声检测模型训练方法，包括以下步骤:S1.构建原始哭声数据集；S2.对原始哭声数据集的数据进行数据增强；S3.构建完整哭声数据集；S4.构建哭声检测模型，提取完整哭声数据集中音频的梅尔倒谱系数特征作为模型输入数据，进行迭代训练；S5.改变模型输入数据，重复步骤S4，直至模型收敛，得到哭声检测模型。本发明改善了现有哭声检测方法容易误检测和训练数据不足影响检测准确率的问题，有效提升哭声检测模型性能和检测正确率。

技术研发人员：刘鹏
受保护的技术使用者：成都启英泰伦科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘鹏
技术所有人：成都启英泰伦科技有限公司
我是此专利的发明人

上一篇：一种具有多功能的地理信息测绘装置的制作方法
上一篇：一种铁路公路物流运输信息综合管理系统的制作方法