一种声学场景分类的数据增强方法及系统

文档序号：35997044发布日期：2023-11-16 09:14阅读：来源：国知局

技术特征：

1.一种声学场景分类的数据增强方法，其特征在于，包括：

2.根据权利要求1所述的声学场景分类的数据增强方法，其特征在于，采集语音音频样本数据，将所述语音音频样本数据转换为频谱数据，包括：

3.根据权利要求1所述的声学场景分类的数据增强方法，其特征在于，提取所述频谱数据中的时频域特征，基于任意两个不同小批量mini-batch中确定任意两个不同样本对所述时频域特征进行时频掩蔽和倒置时频掩蔽，得到掩蔽后样本，包括：

4.根据权利要求1所述的声学场景分类的数据增强方法，其特征在于，对所述掩蔽后样本进行合并得到混合样本，包括：

5.根据权利要求1所述的声学场景分类的数据增强方法，其特征在于，将所述混合样本的中间隐藏状态，采用基于mini-batch处理的混合物掩蔽方法进行掩蔽得到隐藏状态掩蔽区域，将所述隐藏状态掩蔽区域进行均值混合，得到语音增强数据，包括：

6.根据权利要求5所述的声学场景分类的数据增强方法，其特征在于，所述目标样本初始隐藏状态和所述另一样本隐藏状态均属于由所述时间帧数和所述频率信道数构建的维度空间。

7.一种声学场景分类的数据增强系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述声学场景分类的数据增强方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述声学场景分类的数据增强方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述声学场景分类的数据增强方法。

技术总结
本发明提供一种声学场景分类的数据增强方法及系统，属于语音识别技术领域，包括：将语音音频样本数据转换为频谱数据；提取频谱数据中的时频域特征，基于任意两个不同mini‑batch中确定任意两个不同样本对时频域特征进行时频掩蔽和倒置时频掩蔽，得到掩蔽后样本；对掩蔽后样本中任意两个样本进行合并得到混合样本；将混合样本的中间隐藏状态，基于混合物掩蔽方法进行掩蔽得到隐藏状态掩蔽区域，将隐藏状态掩蔽区域进行均值混合，得到语音增强数据。本发明通过应用时频掩蔽来混合不同的音频数据样本，有效地保持每个音频样本的频谱相关性，还应用于中间隐藏空间增强，使模型提高了泛化能力。

技术研发人员：饶文碧,芦硕,熊盛武,闫垚楠,字云飞
受保护的技术使用者：武汉理工大学
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

当前第2页1 2