一种基于深度学习的会议语音检测方法及系统与流程

文档序号：35661297发布日期：2023-10-06 15:58阅读：28来源：国知局

本发明涉及语音检测领域，特别是一种基于深度学习的会议语音检测方法及系统。

背景技术：

1、在日常办公环境下，越来越多的人在通过开会或者会议对其所遇见的问题进行讨论和解决，在现有技术中，会议人员在会议室或者会议环境中进行开会通常会伴随着利用录音笔或者有录音功能的设备对会议讨论的问题进行录音，然后再通过语音转换设备，转换成文字，进而生成会议纪要和会议记录。但是一般情况中，会议环境讨论的通常是急于解决的事情，容易出现会议人员争执，和需要找寻热点词和热点文章。所以如何根据会议实时讨论的事件或者情况，对这些情况，自动做出一定的决策和搜索，从而更好的帮助会议人员做出解决问题，又能保障在会议过程中对会议争执事件进行辅助调解，提高会议的效率，是现阶段丞待解决的技术问题。

技术实现思路

1、本发明的目的是为了解决上述问题，设计了一种基于深度学习的会议语音检测方法及系统。

2、实现上述目的本发明的技术方案为，进一步，在上述一种基于深度学习的会议语音检测方法中，所述会议语音检测方法包括以下步骤：

3、获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；

4、通过残差网络建立resnet残差网络识别模型，利用maskacc卷积加速滤波器对所述resnet残差网络识别模型中的卷积层进行剪枝，得到初始resnet残差网络识别模型；

5、将所述声学特征语音数据输入至所述初始resnet残差网络识别模型进行训练，得到目标resnet残差网络识别模型；

6、利用所述目标resnet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测；

7、若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词；

8、基于所述目标resnet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

9、若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员。

10、进一步，在上述会议语音检测方法中，所述获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据，包括：

11、获取会议环境中的实时会议语音，通过高通数字滤波算法对所述实时会议语音数据进行预加重处理，得到滤波会议语音数据；

12、将滤波会议语音数据进行分段处理，得到分帧会议语音数据，所述分帧会议语音数据的分段时间为10-30ms；

13、基于汉明窗函数，利用汉明窗函数对所有的分帧会议语音数据依次相乘，得到加窗会议语音数据；

14、利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据，得到频域会议语音数据；

15、基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据，得到梅尔频率会议语音数据；

16、计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱，得到声学特征语音数据。

17、进一步，在上述会议语音检测方法中，所述通过残差网络建立resnet残差网络识别模型，利用maskacc卷积加速滤波器对所述resnet残差网络识别模型中的卷积层进行剪枝，得到初始resnet残差网络识别模型，包括：

18、至少通过34层卷积的残差网络建立resnet残差网络识别模型，利用relu函数作为所述resnet残差网络识别模型的激活函数；

19、利用maskacc卷积加速滤波器对所述resnet残差网络识别模型中的卷积层进行剪枝，得到初始resnet残差网络识别模型；

20、所述初始resnet残差网络识别模型至少包括输入层、输出层、卷积层、池化层、全连接层、输出层。

21、进一步，在上述会议语音检测方法中，所述将所述声学特征语音数据输入至所述初始resnet残差网络识别模型进行训练，得到目标resnet残差网络识别模型，包括：

22、获取声学特征语音数据，将所述声学特征语音数据输入至所述初始resnet残差网络识别模型进行训练；

23、对所述初始resnet残差网络识别模型中的全局平均池化层利用注意力池化层进行替换；

24、利用ohem交叉熵损失函数对所述初始resnet残差网络识别模型的损失函数，得到目标resnet残差网络识别模型。

25、进一步，在上述会议语音检测方法中，所述利用所述目标resnet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测，包括：

26、获取声学特征语音数据，利用目标resnet残差网络识别模型对所述声学特征语音数据进行检测；

27、判断所述声学特征语音数据中是否有敏感词，若所述所述声学特征语音数据包括敏感词，则对敏感词进行判断；

28、所述敏感词信息进行检测还包括获取互联网中的网络热词，对声学特征语音数据中的网络热词进行检测。

29、进一步，在上述会议语音检测方法中，所述若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词，包括：

30、获取声学特征语音数据中的敏感词信息，若所述声学特征语音数据中包括事件敏感词；

31、则将所述声学特征语音数据输入至事件敏感词数据库中进行存储，并生成事件查询指令，根据所述事件查询指令利用python对互联网数据库中包含事件敏感词的图文进行查询；

32、若所述声学特征语音数据中包括人物敏感词，则将所述声学特征语音数据输入至人物敏感词数据库中进行存储；

33、生成人物查询指令，根据所述人物查询指令利用python对互联网数据库中包含人物敏感词的图文进行查询。

34、将所述人物敏感词和所述事件敏感词的图文查询结果传输至对应的会议人员。

35、进一步，在上述会议语音检测方法中，所述基于所述目标resnet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息，包括：

36、获取声学特征语音数据，将所述声学特征语音数据输入至所述目标resnet残差网络识别模型中进行识别，得到音频类别信息；

37、对所述音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

38、若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员；

39、若所述音频类别信息中的争执语音信息所占比例为1-30%，则生成实时监测指令，根据实时监测指令对会议环境进行监测；

40、若所述音频类别信息中的正常语音信息所占比例为60-90%，则将所述声学特征语音数据输入至数据库中进行存储。

41、实现上述目的本发明的技术方案为，进一步，在上述一种基于深度学习的会议语音检测系统中，所述会议语音检测系统，包括：

42、数据处理模块，用于获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；

43、模型建立模块，用于通过残差网络建立resnet残差网络识别模型，利用maskacc卷积加速滤波器对所述resnet残差网络识别模型中的卷积层进行剪枝，得到初始resnet残差网络识别模型；

44、模型训练模块，用于将所述声学特征语音数据输入至所述初始resnet残差网络识别模型进行训练，得到目标resnet残差网络识别模型；

45、敏感词检测模块，用于利用所述目标resnet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测；

46、数据存储模块，用于若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词；

47、语音判断模块，用于基于所述目标resnet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

48、指令传输模块，用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员。

49、进一步，在上述一种基于深度学习的会议语音检测系统中，所述数据处理模块包括以下子模块：

50、获取子模块，用于获取会议环境中的实时会议语音，通过高通数字滤波算法对所述实时会议语音数据进行预加重处理，得到滤波会议语音数据；

51、分帧子模块，用于将滤波会议语音数据进行分段处理，得到分帧会议语音数据，所述分帧会议语音数据的分段时间为10-30ms；

52、加窗子模块，用于基于汉明窗函数，利用汉明窗函数对所有的分帧会议语音数据依次相乘，得到加窗会议语音数据；

53、变换子模块，用于利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据，得到频域会议语音数据；

54、转换子模块，用于基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据，得到梅尔频率会议语音数据；

55、计算子模块，用于计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱，得到声学特征语音数据。

56、进一步，在上述一种基于深度学习的会议语音检测系统中，所述模型建立模块包括以下子模块：

57、识别子模块，用于获取声学特征语音数据，将所述声学特征语音数据输入至所述目标resnet残差网络识别模型中进行识别，得到音频类别信息；

58、判断子模块，用于对所述音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

59、调解子模块，用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员；

60、监测子模块，用于若所述音频类别信息中的争执语音信息所占比例为1-30%，则生成实时监测指令，根据实时监测指令对会议环境进行监测；

61、存储子模块，用于若所述音频类别信息中的正常语音信息所占比例为60-90%，则将所述声学特征语音数据输入至数据库中进行存储。

62、其有益效果在于，通过获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；通过残差网络建立resnet残差网络识别模型，利用maskacc卷积加速滤波器对所述resnet残差网络识别模型中的卷积层进行剪枝，得到初始resnet残差网络识别模型；将所述声学特征语音数据输入至所述初始resnet残差网络识别模型进行训练，得到目标resnet残差网络识别模型；利用所述目标resnet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测；若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词；基于所述目标resnet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集，有利于提升会议效率，对会议中有争执的事件和有争执的人物及时生成矛盾调解指令，将矛盾调解指令传输给会议主持人员或者领导，能及时阻止会议的矛盾争执，提升会议效率的同时也增进同事之间的感情。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘艳梅
技术所有人：深圳市国硕宏电子有限公司
我是此专利的发明人

上一篇：心电数据处理方法、装置、计算机设备与存储介质与流程
上一篇：一种厚膜工艺网带式烧结装置的制作方法