本发明涉及计算机,特别涉及一种音频异常检测方法、装置、设备及可读存储介质。
背景技术:
1、随着远程协作和线上学习的愈加普及,视频会议已经成为了我们生活工作中一个重要的会话工具。然而在实际使用中,视频会议系统遇到音频异常时,一般需要多个会议参与者汇总信息来定位问题。这种方式受限于参与者需具备基本的音频问题定位能力,需要花费较长的时间来定位和解决问题,从而减慢了会议进程,导致音频异常检测的效率较低。
技术实现思路
1、本发明实施例提供了一种音频异常检测方法、装置、设备及可读存储介质,在实际应用中,视频会议系统遇到音频异常时,一般需要多个会议参与者汇总信息来定位问题,从而导致音频异常检测的效率较低。
2、为了解决以上问题,本发明实施例采用以下技术方案:
3、第一方面,本发明实施例提供了一种音频异常检测方法,包括:
4、获取目标场所的图像数据和音频数据,所述目标场所为视频会议场所,且所述图像数据和所述音频数据为所述视频会议场所中的目标设备对应的图像数据和音频数据;
5、基于所述图像数据进行人物动作特征检测,得到第一检测结果,所述第一检测结果用于表示所述目标设备对应的人物是否处于发言状态;
6、基于所述音频数据进行音频检测,得到第二检测结果,所述第二检测结果用于表示所述目标场所是否处于静音状态;
7、基于所述第一检测结果和所述第二检测结果,确定所述目标设备是否存在异常。
8、可选地,所述基于所述图像数据进行人物动作特征检测,得到第一检测结果,包括:
9、基于所述图像数据进行人脸关键点检测,确定所述目标设备对应的人物的嘴部的关键点;
10、基于所述关键点检测嘴部的张合状态,确定所述人物的说话状态;
11、确定所述目标设备对应的人物是否处于发言状态。
12、可选地,所述基于所述音频数据进行音频检测,确定第二检测结果,包括:
13、基于所述音频数据,计算所述音频数据的平均幅值;
14、在所述平均幅值大于等于预设的值的情况下,确定所述目标场所不处于静音状态;
15、在所述平均幅值小于预设的值的情况下,确定所述目标场所处于静音状态。
16、可选地,所述基于所述第一检测结果和所述第二检测结果,确定所述目标设备是否存在异常,包括:
17、基于所述第一检测结果和所述第二检测结果,确定所述目标设备对应的人物是否处于发言状态,以及所述目标场所是否处于静音状态;
18、在所述人物不处于发言状态,且所述目标场所处于静音状态的情况下,确定所述目标设备正常;
19、在所述人物不处于发言状态,且所述目标场所不处于静音状态的情况下,对所述音频数据进行噪声检测,确定所述目标设备是否存在异常;
20、在所述人物处于发言状态,且所述目标场所处于静音状态的情况下,基于所述图像数据计算所述人物与麦克风的距离,确定所述目标设备是否存在异常,所述麦克风为所述目标设备的语音输入端;
21、在所述人物处于发言状态,且所述目标场所不处于静音状态的情况下,基于所述音频数据进行活性检测,确定目标设备是否存在异常。
22、可选地,所述在所述人物不处于发言状态,且所述目标场所不处于静音状态的情况下,对所述音频数据进行噪声检测,确定所述目标设备是否存在异常,包括:
23、在所述人物不处于发言状态,且所述目标场所不处于静音状态的情况下,对所述目标场所进行场景检测,确定所述目标场所的场景;
24、基于所述音频数据进行噪声检测,确定噪声特征;
25、判断所述场景和所述噪声特征是否匹配,确定所述目标设备是否存在异常。
26、可选地,所述在所述人物处于发言状态,且所述目标场所处于静音状态的情况下,基于所述图像数据计算所述人物与麦克风的距离,确定所述目标设备是否存在异常,包括:
27、在所述人物处于发言状态,且所述目标场所处于静音状态的情况下,基于所述图像数据,确定麦克风位置坐标,以及所述人物的嘴部位置坐标;
28、基于所述麦克风位置坐标和所述嘴部位置坐标,计算麦克风与嘴部的距离;
29、在所述距离小于预设距离的情况下,确定所述目标设备存在异常;
30、在所述距离大于等于预设距离的情况下,确定所述目标设备正常。
31、可选地,所述在所述人物处于发言状态,且所述目标场所不处于静音状态的情况下,基于所述音频数据进行活性检测,确定目标设备是否存在异常,包括:
32、在所述人物处于发言状态,且所述目标场所不处于静音状态的情况下,基于所述音频数据进行活性检测,确定所述音频数据中的语音存在概率;
33、在所述语音存在概率大于预设概率值的情况下,确定所述目标设备正常;
34、在所述语音存在概率小于等于预设概率值的情况下,计算麦克风与嘴部的距离,确定所述目标设备是否存在异常。
35、第二方面,本发明实施例提供了一种音频异常检测装置,所述装置包括:
36、获取模块,用于获取目标场所的图像数据和音频数据,所述目标场所为视频会议场所,且所述图像数据和所述音频数据为所述视频会议场所中的目标设备对应的图像数据和音频数据;
37、第一检测模块,用于基于所述图像数据进行人物动作特征检测,得到第一检测结果,所述第一检测结果用于表示所述目标设备对应的人物是否处于发言状态;
38、第二检测模块,用于基于所述音频数据进行音频检测,得到第二检测结果,所述第二检测结果用于表示所述目标场所是否处于静音状态;
39、确定模块,用于基于所述第一检测结果和所述第二检测结果,确定所述目标设备是否存在异常。
40、第三方面,本发明实施例提供了一种音频异常检测设备,所述设备包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;
41、所述处理器,用于读取存储器中的程序实现如第一方面所述的方法中的步骤。
42、第四方面,本发明实施例提供了一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如第一方面所述的方法中的步骤。
43、在本发明实施例中,所述音频异常检测方法可以通过对视频会议场所的图像数据和音频数据分别进行检测,确定目标设备对应的人物是否处于发言状态,以及目标场所是否处于静音状态,从而综合分析所述目标设备是否存在异常,定位出音频异常的具体原因,结合图像数据提供具体的解决方法,使得音频异常检测的效率较高。
1.一种音频异常检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像数据进行人物动作特征检测,得到第一检测结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述音频数据进行音频检测,确定第二检测结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一检测结果和所述第二检测结果,确定所述目标设备是否存在异常,包括:
5.根据权利要求4所述的方法,其特征在于,所述在所述人物不处于发言状态,且所述目标场所不处于静音状态的情况下,对所述音频数据进行噪声检测,确定所述目标设备是否存在异常,包括:
6.根据权利要求4所述的方法,其特征在于,所述在所述人物处于发言状态,且所述目标场所处于静音状态的情况下,基于所述图像数据计算所述人物与麦克风的距离,确定所述目标设备是否存在异常,包括:
7.根据权利要求4所述的方法,其特征在于,所述在所述人物处于发言状态,且所述目标场所不处于静音状态的情况下,基于所述音频数据进行活性检测,确定目标设备是否存在异常,包括:
8.一种音频异常检测装置,其特征在于,所述装置包括:
9.一种音频异常检测设备,所述设备包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,
10.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法中的步骤。