音频异常检测方法、装置、电子设备及存储介质与流程

文档序号:32820232发布日期:2023-01-04 05:22阅读:52来源:国知局
音频异常检测方法、装置、电子设备及存储介质与流程

1.本发明涉及数据处理技术领域,具体而言,涉及一种音频异常检测方法、装置、电子设备及存储介质。


背景技术:

2.在现有的音频异常检测任务中,主要是检测可疑活动,如车辆碰撞、叫喊或枪声检测等,用于提高安防系统的可靠性或监测设备状态。与图像文本不同,搭建音频实验环境的条件更加苛刻,对音频的标注成本更高,因此很少直接通过音频对人的异常状态进行检测。
3.目前已有的研究主要集中于通过单个音频进行情绪识别,音频数据集由专业演员通过情绪引导、回忆场景、环境改变等方式构建,并由专家进行数据标注。此类数据集主要存在以下两个问题:无法保证情绪的真实性,以及每个个体之间存在差异性。此外,人工标注音频数据需要大量的时间和人力,如何在大量未标记音频数据中找出异常音频,目前暂无研究。


技术实现要素:

4.为了解决上述技术问题,本技术实施例提供了一种音频异常检测方法、装置、电子设备及存储介质。
5.第一方面,本技术实施例提供了一种音频异常检测方法,所述方法包括:基于变分网络和生成网络构建初始检测模型;基于初始打卡音频数据生成音频特征张量;将所述音频特征张量输入所述初始检测模型,通过所述初始检测模型输出第一随机变量和第二随机变量;根据优化函数对所述初始检测模型进行训练,得到修正检测模型;将所述第一随机变量和所述第二随机变量输入所述修正检测模型,生成所述音频特征张量对应的重构张量;对所述重构张量进行异常评估计算,得到所述音频特征张量对应的异常分数;若所述异常分数大于或等于异常阈值,则确定所述初始打卡音频数据存在异常。
6.在一实施方式中,所述基于初始打卡音频数据生成音频特征张量的步骤,包括:获取n1个初始打卡音频数据;对各所述初始打卡音频数据进行预处理,得到n1个修正打卡音频数据;将各所述修正打卡音频数据转换为对应的n2个特征数据,并将n2个所述特征数据拼接为特征向量;将n1个所述特征向量拼接为音频特征张量。
7.在一实施方式中,所述对多个所述初始打卡音频数据进行预处理的步骤,包括:去除各所述初始打卡音频数据的底噪,得到降噪打卡音频数据;按照预设频率对所述降噪打卡音频数据进行采样。
8.在一实施方式中,所述初始检测模型包括:预设卷积层、预设反卷积层、门控循环层、线性变换层和全连接层;所述变分网络由预设卷积层、预设反卷积层和门控循环层构成;所述生成网络由预设反卷积层、门控循环层、线性变换层和全连接层构成。
9.在一实施方式中,所述根据优化函数对所述初始检测模型进行训练的步骤,包括:所述优化函数为:其中,表示训练损失,表示所述音频特征张量的数学期望,表示所述生成网络对所述音频特征张量的后验概率,表示所述变分网络对所述音频特征张量的后验概率,表示kl散度,为常数,θ为所述生成网络的层参数,
ϕ
为所述变分网络的层参数;通过随机梯度变分估计和重参数化对θ和
ϕ
进行调整,根据调整后的θ和
ϕ
计算;当小于损失阈值时,保存调整后的θ和
ϕ

10.所述生成所述音频特征张量对应的重构张量的步骤,包括:通过所述线性变换层对所述第一随机变量进行映射,得到映射结果;将所述第二随机变量输入所述预设反卷积层,得到反卷积结果;将所述映射结果和所述反卷积结果进行连接,得到连接结果;通过所述全连接层对所述连接结果进行解码,得到所述重构张量。
11.在一实施方式中,所述对所述重构张量进行异常评估计算,得到所述音频特征张量对应的异常分数,的步骤,包括:对所述重构张量进行采样,得到l个重构样本;对l个所述重构样本进行蒙特卡洛积分,得到重构概率;取所述重构概率的相反数,得到所述音频特征张量对应的异常分数。
12.第二方面,本技术实施例提供了一种音频异常检测装置,所述音频异常检测装置包括:构建模块,用于基于变分网络和生成网络构建初始检测模型;第一生成模块,用于基于初始打卡音频数据生成音频特征张量;输入模块,用于将所述音频特征张量输入所述初始检测模型,通过所述初始检测模型输出第一随机变量和第二随机变量;训练模块,用于根据优化函数对所述初始检测模型进行训练,得到修正检测模型;第二生成模块,用于将所述第一随机变量和所述第二随机变量输入所述修正检测模型,生成所述音频特征张量对应的重构张量;计算模块,用于对所述重构张量进行异常评估计算,得到所述音频特征张量对应的异常分数;确定模块,用于若所述异常分数大于或等于异常阈值,则确定所述初始打卡音频数据存在异常。
13.第三方面,本技术实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的音频异常检测方法。
14.第四方面,本技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的音频异常检测方法。
15.上述本技术提供的音频异常检测方法,采用变分自编码器构建了初始检测模型;对初始打卡音频数据进行处理,生成音频特征张量;将所述音频特征张量输入所述初始检测模型,通过所述初始检测模型输出第一随机变量和第二随机变量;根据优化函数对所述初始检测模型进行训练,得到修正检测模型;将所述第一随机变量和所述第二随机变量输入所述修正检测模型,生成所述音频特征张量对应的重构张量;对所述重构张量进行异常评估计算,得到所述音频特征张量对应的异常分数;若所述异常分数大于或等于异常阈值,则确定所述初始打卡音频数据存在异常。本技术实施例对时间和空间数据进行联合编码,首次对相同目标连续打卡音频进行异常检测,可用于监测人员每日状态、机器运行状态等,及时预警,帮助企业、机关单位等进行更好地管理。
附图说明
16.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对本技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
17.图1示出了本技术实施例提供的音频异常检测方法的一流程示意图;图2示出了本技术实施例提供的初始检测模型的一结构示意图;图3示出了本技术实施例提供的一维特征向量的一示意图;图4示出了本技术实施例提供的七日打卡音频特征张量的一示意图;图5示出了本技术实施例提供的时间序列的另一示意图;图6示出了本技术实施例提供的音频异常检测装置的一结构示意图。
18.图标:210-变分网络,220-生成网络;510-时间序列上基频特征异常,520-时间序列上静音段百分比特征异常,530-时间序列上多特征异常;600-音频异常检测装置,610-构建模块,620-第一生成模块,630-输入模块,640-训练模块,650-第二生成模块,660-计算模块,670-确定模块。
具体实施方式
19.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。
20.通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
21.在下文中,可在本技术的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
22.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
23.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本技术的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本技术的各种实施例中被清楚地限定。
24.实施例1本公开实施例提供了一种音频异常检测方法。
25.具体的,请参见图1,所述音频异常检测方法包括:步骤s110,基于变分网络210和生成网络220构建初始检测模型;在一实施方式中,请参见图2,所述初始检测模型包括:预设卷积层conv1d、预设反卷积层deconv1d、门控循环层gru、线性变换层linear和全连接层dense;所述变分网络由预设卷积层conv1d、预设反卷积层deconv1d和门控循环层gru构成;所述生成网络由预设反卷积层conv1d、门控循环层gru、线性变换层linear和全连接层dense构成。其中变分网络为210,生成网络为220,为便于描述,后续的所有公式采用英文表达。
26.步骤s120,基于初始打卡音频数据生成音频特征张量;在一实施方式中,所述基于初始打卡音频数据生成音频特征张量的步骤,包括:获取n1个初始打卡音频数据;在一实施方式中,通过打卡机收集每日音频打卡数据作为初始打卡音频数据,打卡机内提前设置两个问题,每个问题后预留15s的回答时间,打卡人员在打卡机提问后回答问题,打卡机采集回答者的音频,共得到30s每人每天的打卡音频数据。在一实施方式中,可以连续采集一周的初始打卡音频数据,此刻n1为7。
27.对各所述初始打卡音频数据进行预处理,得到n1个修正打卡音频数据;在一实施方式中,所述对多个所述初始打卡音频数据进行预处理的步骤,包括:去除各所述初始打卡音频数据的底噪,得到降噪打卡音频数据;按照预设频率对所述降噪打卡音频数据进行采样。
28.在一实施方式中,音频降噪是通过滤波器将音频底噪去除。音频降采样是将音频采样率固定为16khz,方便后续计算处理。
29.将各所述修正打卡音频数据转换为对应的n2个特征数据,并将n2个所述特征数据拼接为特征向量;将n1个所述特征向量拼接为音频特征张量。
30.在一实施方式中,如图3所示,图3示出了本技术实施例提供的一维特征向量的一示意图。其中,n2个特征数据包括1个基频、1个静音段百分比、1个平均能量值、40个梅尔光谱、13个梅尔倒谱、12个一阶梅尔倒谱;拼接得到的特征向量为长度为68 的一维特征向量,即此时n2等于68。
31.将同一个人的每日打卡音频特征向量进行拼接,得到音频特征张量,用表示,, 表示特征维度,t表示时间长度,。为了便于描述,此处的字母会延用到后文。在一实施方式中,如图4所示,图4示出了将同一个人连续七天的一维特征向量进行拼接,得到的七日打卡音频特征张量的一示意图。
32.步骤s130,将所述音频特征张量输入所述初始检测模型,通过所述初始检测模型输出第一随机变量和第二随机变量;在本实施方式中,采用变分自编码器对初始检测模型进行构建和训练。变分网络可表示为,为输入的音频张量,为变分网络的层参数,、为随机隐变量,用来学习特征之间依赖信息嵌入,用来学习特征之间时序嵌入。由输入经过预设卷积层得到,请参见公式1:,其中k表示卷积运算之后的长度,由卷积核的个数和滑窗步长大小决定。将通过反卷积层恢复至原来的大小,为后续解码做准备。
33.步骤s140,根据优化函数对所述初始检测模型进行训练,得到修正检测模型;本技术实施例通过优化证据下界elbo的方式训练模型,在一实施方式中,所述根据优化函数对所述初始检测模型进行训练的步骤,包括:所述优化函数请参见公式2:将公式2展开,得到其中,表示训练损失,表示所述音频特征张量的数学期望,表示所述生成网络对所述音频特征张量的后验概率,表示所述变分网络对所述音频特征张量的后验概率,表示kl散度,为常数,θ为所述生成网络的层参数,
ϕ
为所述变分网络的层参数;通过随机梯度变分和重参数化对θ和
ϕ
进行调整,根据调整后的θ和
ϕ
计算;当小于损失阈值时,保存调整后的θ和
ϕ

34.其中,kl散度用来描述两个概率分布的差异,此处作为正则项,作用是让变分分布具有一定的随机性。优化目标希望变分分布和后验分布尽可能相同,且通过、重建的概率更大,因此可以采用随机梯度变分估计(sgvb)和重参数化对参数θ和
ϕ
进行优化,使得损失最小。
35.具体地,可以先从中采样若干个点,并对这些点通过蒙特卡洛积分,但是采样得到的数据是离散的,换言之,采样得到的数据是不可导的,
后续也无法反向梯度优化,这时可以引入重参数化技巧,引入形式已知的参数,来使采样可导。
36.步骤s150,将所述第一随机变量和所述第二随机变量输入所述修正检测模型,生成所述音频特征张量对应的重构张量;所述生成所述音频特征张量对应的重构张量的步骤,包括:通过所述线性变换层对所述第一随机变量进行映射,得到映射结果;将所述第二随机变量输入所述预设反卷积层,得到反卷积结果;将所述映射结果和所述反卷积结果进行连接,得到连接结果;通过所述全连接层对所述连接结果进行解码,得到所述重构张量。
37.如图2所示,输入的音频张量经由预设卷积层得到第二随机变量,因为在特征数据中可能会包含异常数据,在训练自编码器的过程中易出现过拟合。因此,为了防止模型对异常数据的过拟合,需要对第二随机变量进行滑动平均处理,以消除异常特征点。将异常特征点消除后,输入门控循环层gru进行编码,得到第一随机变量,第一随机变量学习的是特征之间的依赖信息嵌入,长度与输入一致,请参见公式3:,其中为的维度,由门控循环层gru的输出层维度决定。
38.生成网络可表示为,为生成网络层参数,输入为第一随机变量和第二随机变量,通过对第一随机变量进行映射,得到映射结果;将第二随机变量输入预设反卷积层,得到反卷积结果;将所述映射结果和所述反卷积结果通过连接函数(concat函数)进行连接,得到连接结果;通过全连接层对连接后的结果,即特征之间的依赖信息嵌入和时序嵌入共同解码,生成原始音频的重构张量,大小与原始输入一致,请参见公式4:,步骤s160,对所述重构张量进行异常评估计算,得到所述音频特征张量对应的异常分数;所述对所述重构张量进行异常评估计算的步骤,包括:对所述重构张量进行采样,得到l个重构样本;对l个所述重构样本进行蒙特卡洛积分,得到重构概率;取所述重构概率的相反数,得到所述音频特征张量对应的异常分数。具体地,请参见公式5:其中,为所述异常分数,异常分数的意义为重构张量的异常值数学期望,表示对l个重构样本进行蒙特卡洛积分,其中是从中采样得到。)代表第l个重
构样本的概率。
39.在异常检测时,将重构概率作为异常指标。假设输入为,为观测数据,为缺失数据,假设服从观测数据的分布,即可以从分布中对进行采样,在给定的情况下重构观测值以获得缺失值,满足观测数据的正常模式,即接近。令重构数据为,重构概率可以通过取个样本进行蒙特卡洛积分来计算,异常分数则是对重构概率取相反数,计算公式如上述公式5。
40.步骤s170,若所述异常分数大于或等于异常阈值,则确定所述初始打卡音频数据存在异常。设置异常阈值,当计算异常分数大于阈值时,提示初始打卡音频数据为异常。
41.请参见图4和图5,在一具体实施例中,采集了10名志愿者连续7天的打卡音频数据,图4为一名存在异常的志愿者连续7天的打卡音频处理结果对应的空间序列,图3为该志愿者对应的时间序列上的一维特征向量。将连续7天的打卡数据转换为音频特征张量,然后在时间序列和空间序列上进行异常监测,模型能够监测出时间序列上明显异常的数据,并且能够监测到同一天音频中特征之间的异常,第一天的基频(图5中的510)和第六天的静音段百分比(图5中的520)的数据趋势与平时数据特征之间的趋势相反,如第四天特征(图5中的530)明显异常于前三天的数据。第四天打卡后,修正检测模型及时预警,在对该志愿者访谈后了解到,由于睡眠影响,在打卡时出现了厌烦抵触心理,进行心理辅导后,后续打卡数据恢复了正常。
42.本实施例提供的音频异常检测方法,结合变分自编码器,对时间和空间数据进行联合编码,首次对相同目标连续打卡音频进行异常检测,可用于监测人员每日状态、机器运行状态等,及时预警,帮助企业、机关单位等进行更好地管理。
43.实施例2此外,本公开实施例提供了一种音频异常检测装置。
44.具体的,如图6所示,音频异常检测装置600包括:构建模块610,用于基于变分网络和生成网络构建初始检测模型;第一生成模块620,用于基于初始打卡音频数据生成音频特征张量;输入模块630,用于将所述音频特征张量输入所述初始检测模型,通过所述初始检测模型输出第一随机变量和第二随机变量;训练模块640,用于根据优化函数对所述初始检测模型进行训练,得到修正检测模型;第二生成模块650,用于将所述第一随机变量和所述第二随机变量输入所述修正检测模型,生成所述音频特征张量对应的重构张量;计算模块660,用于对所述重构张量进行异常评估计算,得到所述音频特征张量对应的异常分数;确定模块670,用于若所述异常分数大于或等于异常阈值,则确定所述初始打卡音频数据存在异常。
45.本实施例提供的音频异常检测装置600可以实现实施例1所提供的音频异常检测
方法,为避免重复,在此不再赘述。
46.本实施例提供的音频异常检测装置,结合变分自编码器,对时间和空间数据进行联合编码,首次对相同目标连续打卡音频进行异常检测,可用于监测人员每日状态、机器运行状态等,及时预警,帮助企业、机关单位等进行更好地管理。
47.实施例3此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的音频异常检测方法。
48.本发明实施例提供的电子设备,可以执行上述方法实施例中的音频异常检测装置可以执行的步骤,不再赘述。
49.本实施例提供的电子设备,结合变分自编码器,对时间和空间数据进行联合编码,首次对相同目标连续打卡音频进行异常检测,可用于监测人员每日状态、机器运行状态等,及时预警,帮助企业、机关单位等进行更好地管理。
50.实施例4本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的音频异常检测方法。
51.在本实施例中,计算机可读存储介质可以为只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
52.本实施例提供的计算机可读存储介质可以实现实施例1所提供的音频异常检测方法,为避免重复,在此不再赘述。
53.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
54.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
55.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1