声学事件检测方法、装置、电子设备和存储介质与流程

文档序号：31122338发布日期：2022-08-13 01:49阅读：191来源：国知局

1.本技术实施例涉及计算机技术领域，尤其涉及声学事件检测方法、装置、电子设备和存储介质。

背景技术：

2.随着人工智能与深度神经网络的快速发展以及相关技术应用的兴起，智能语音技术已逐渐被应用到人们的日常生活中，包括自动语音识别、语音增强，声学事件分类和检测，说话人识别，语音唤醒，网络视频的应用需求也越来越多。其中，声学事件分类和检测技术是模仿人类辨识声学事件的能力，利用音频信号处理和深度学习技术完成对声学事件的分类与识别，如人的说话声、交通工具的声音、和动物叫声等。
3.声学事件检测(aed)是检测在音频中是否发生某些声音事件的任务。aed可用于许多领域，在智能家居中用声学检测实现对家居的语音控制；无人驾驶，协助系统判断当前车辆所处的环境情况；异常声音检测可协助工厂智能化监测机器的运行状态，对异常机器及时做出提醒，大大减少人工监测成本；生物声学事件检测(bed)是一种自动检测和识别各种各样的动物(哺乳类，鸟，等)叫声的技术，可协助生物研究工作者对生物进行监测，为后续的研究提供有利条件。
4.在许多文献提出的关于声音事件检测的方法中，都需要大量精确标签的数据训练模型。然而在现实生活中，对于生物声学事件检测任务来说，收集大量标签过的训练数据是很困难的，尤其是稀有动物，比如老虎、朱鹮、仙鹤等。

技术实现要素：

5.本技术实施例提出了声学事件检测方法、装置、电子设备和存储介质。
6.第一方面，本技术的一些实施例提供了一种声学事件检测方法，该方法包括：获取待检测音频；将待检测音频分割为待检测片段；通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果。
7.在一些实施例中，负例原型经由以下步骤生成：通过预先训练的特征提取网络确定正样本片段与负样本片段的高维映射；通过正样本片段的高维映射计算正例原型；计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离；根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段；通过保留的负样本片段的高维映射计算负例原型。
8.在一些实施例中，根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段，包括：计算第二预设数目个正样本片段的高维映射与正例原型的第二平均距离；根据第一平均距离与第二平均距离确定距离阈值；保留负样本片段中高维映射与正例原型的距离大于距离阈值的负样本片段。
9.在一些实施例中，计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离，包括：通过高斯函数拟合第一预设数目个负样本片段的高维映射与正例原型的距离分布；根据分布的均值确定第一平均距离。
10.在一些实施例中，通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射，包括通过预先训练的至少两种特征提取网络分别确定待检测音频中各个待检测片段的高维映射；以及基于计算出的相似度输出声学事件检测结果，包括：基于至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果；融合备选检测结果得到声学事件检测结果。
11.在一些实施例中，融合备选检测结果得到声学事件检测结果，包括：通过交并比计算确定备选检测结果中重叠的部分；根据重叠的部分得到声学事件检测结果。
12.在一些实施例中，根据重叠的部分得到声学事件检测结果，包括：选择至少两种特征提取网络中判断准确度高的特征提取网络对应的备选检测结果；计算重叠的部分中选择的备选检测结果的声学事件的平均后验概率；筛选出除重叠的部分外的备选检测结果中声学事件的平均后验概率大于平均后验概率的备选检测结果；合并筛选出的备选检测结果与重叠的部分得到声学事件检测结果。
13.在一些实施例中，通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射，包括：提取待检测音频中各个待检测片段的梅尔特征；将提取的梅尔特征在每个通道上进行能量标准化，得到特征提取网络的输入。
14.在一些实施例中，至少两种特征提取网络，包括：采用元学习的训练方式训练得到的原型网络，原型网络选择卷积神经网络作为网络结构。
15.在一些实施例中，至少两种特征提取网络，包括：使用迁移学习方法将训练得到的网络作为第2版模型的特征提取模块。
16.第二方面，本技术的一些实施例提供了一种声学事件检测装置，该装置包括：获取单元，被配置成获取待检测音频；分割单元，被配置成将待检测音频分割为待检测片段；确定单元，被配置成通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算单元，被配置成计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；输出单元，被配置成基于计算出的相似度输出声学事件检测结果。
17.在一些实施例中，装置还包括负例原型生成单元，负例原型生成单元被配置成：通过预先训练的特征提取网络确定正样本片段与负样本片段的高维映射；通过正样本片段的高维映射计算正例原型；计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离；根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段；通过保留的负样本片段的高维映射计算负例原型。
18.在一些实施例中，负例原型生成单元，进一步被配置成：计算第二预设数目个正样本片段的高维映射与正例原型的第二平均距离；根据第一平均距离与第二平均距离确定距离阈值；保留负样本片段中高维映射与正例原型的距离大于距离阈值的负样本片段。
19.在一些实施例中，负例原型生成单元，进一步被配置成：通过高斯函数拟合第一预设数目个负样本片段的高维映射与正例原型的距离分布；根据分布的均值确定第一平均距离。
20.在一些实施例中，确定单元，进一步被配置成通过预先训练的至少两种特征提取网络分别确定待检测音频中各个待检测片段的高维映射；以及输出单元，进一步被配置成：基于至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果；融合备选检测结果得到声学事件检测结果。
21.在一些实施例中，输出单元，进一步被配置成：通过交并比计算确定备选检测结果中重叠的部分；根据重叠的部分得到声学事件检测结果。
22.在一些实施例中，输出单元，进一步被配置成：选择至少两种特征提取网络中判断准确度高的特征提取网络对应的备选检测结果；计算重叠的部分中选择的备选检测结果的声学事件的平均后验概率；筛选出除重叠的部分外的备选检测结果中声学事件的平均后验概率大于平均后验概率的备选检测结果；合并筛选出的备选检测结果与重叠的部分得到声学事件检测结果。
23.在一些实施例中，确定单元，进一步被配置成：提取待检测音频中各个待检测片段的梅尔特征；将提取的梅尔特征在每个通道上进行能量标准化，得到特征提取网络的输入。
24.在一些实施例中，至少两种特征提取网络，包括：采用元学习的训练方式训练得到的原型网络，原型网络选择卷积神经网络作为网络结构。
25.在一些实施例中，至少两种特征提取网络，包括：使用迁移学习方法将训练得到的网络作为第2版模型的特征提取模块。
26.第三方面，本技术的一些实施例提供了一种设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现如第一方面上述的方法。
27.第四方面，本技术的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面上述的方法。
28.本技术实施例提供的声学事件检测方法、装置、电子设备和存储介质，通过获取待检测音频；将待检测音频分割为待检测片段；通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果，提供了一种基于正、负例原型的声学事件检测机制，实现了少样本情况下的声学事件检测。
附图说明
29.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
30.图1是本技术的一些可以应用于其中的示例性系统架构图；
31.图2是根据本技术的声学事件检测方法的一个实施例的流程图；
32.图3是根据本技术的声学事件检测方法的一个实施例中声学特征提取的一个示意图；
33.图4是根据本技术的声学事件检测方法的一个实施例中声学事件检测过程的一个示意图；
34.图5是根据本技术的声学事件检测装置的一个实施例的结构示意图；
35.图6是适于用来实现本技术的一些实施例的服务器或终端的计算机系统的结构示意图。
具体实施方式
36.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
37.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
38.图1示出了可以应用本技术的声学事件检测方法或声学事件检测装置的实施例的示例性系统架构100。
39.如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
40.用户可以使用终端设备101、102、103通过网络104与服务器105 交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用，例如声纹确认类应用、智能音箱类应用、物联网类应用、搜索类应用等。
41.终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能音箱、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。
42.服务器105可以是提供各种服务的服务器，例如对终端设备101、 102、103上安装的应用提供支持的后台服务器，服务器105可以获取待检测音频；将待检测音频分割为待检测片段；通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果。
43.需要说明的是，本技术实施例所提供的声学事件检测方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，声学事件检测装置可以设置于服务器105中，也可以设置于终端设备 101、102、103中。
44.需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
45.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
46.继续参考图2，示出了根据本技术的声学事件检测方法的一个实施例的流程200。该声学事件检测方法，包括以下步骤：
47.步骤201，获取待检测音频。
48.在本实施例中，声学事件检测方法执行主体(例如图1所示的服务器或终端)可以首先获取待检测音频，待检测音频即待对其进行声学事件检测的音频。
49.步骤202，将待检测音频分割为待检测片段。
50.在本实施例中，上述执行主体可以将待检测音频分割为待检测片段，具体的分割间隔可以根据实际需要确定。此外，还可以对待检测音频进行预处理，预处理可以包括预加重、分帧、加窗、端点检测即特征提取等操作，具体的预处理方式可以根据实际需要进行选择。
51.步骤203，通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射。
52.在本实施例中，上述执行主体可以通过预先训练的特征提取网络确定步骤201中得到的待检测音频中各个待检测片段的高维映射。特征提取网络可以包括各种卷积神经网络以及各种成熟模型的特征提取模块，此外，特征提取网络的数量可以根据实际需要进行选择。
53.在本实施例的一些可选实现方式中，通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射，包括：提取待检测音频中各个待检测片段的梅尔特征；将提取的梅尔特征在每个通道上进行能量标准化(pcen)，得到特征提取网络的输入。通过能量标准化可以减少背景噪声。上述执行主体可以对数据的每一帧进行傅里叶变换，然后将此时的频域特征通过一组梅尔频率滤波器将能量值进行叠加得到梅尔声谱图，而后，针对将每一通道进行能量归一化。作为示例，可以先对音频进行下采样操作，采样率为22050hz,分别设置帧长为1024采样点帧移为256个采样点，三角滤波器的个数设置为128个，使用汉明窗进行加窗得到梅尔谱，最后再对梅尔谱的每个通道进行能量归一化。
54.在本实施例的一些可选实现方式中，至少两种特征提取网络，包括：采用元学习的训练方式训练得到的原型网络，原型网络选择卷积神经网络作为网络结构，卷积神经网络可以由若干个卷积模块组成。作为示例，可以选择由4层简单的卷积模块组成的卷积神经网络(cnn4)作为网络结构，cnn4可以由4个卷积块(conv block)构成，每个卷积块包括一层卷积核为3
×
3的二维卷积(cnn layer)，一次批正则化(batchnormalization layer)，一次线性修正激活单元(relu layer)和一次下采样 (max pooling layer)。通过此模型可以将每个输入样本映射到高维空间得到高维特征向量。在训练阶段，可以使用训练集的所有正样本数据，以元学习的方式使用交叉熵为损失函数训练模型，使模型学习区分事物能力。
55.在本实现方式中，参考图3，训练时可以对训练集中的训练数据提取声学特征，例如，通过梅尔(mel)滤波器组提取梅尔频谱，将提取的梅尔特征在每个通道上进行能量标准化(pcen)减少背景噪声。而后可以将标准化处理过的声学特征作为网络结构的输入，经过学习即可用于检测生物声学事件。原型网络可以采用元学习的训练方式，在元训练中训练样本被分为一个个小任务(episode)，每个任务中都包含了一次学习和一次验证的过程对应的数据集被分别命名为支持集(support set)和查询集 (query set)，他们可以以“n-way k-shot”的方式随机组成，其中n代表本组内有n类样本，k表示每类样本分别有k个。两个集合的样本类别相同但样本不同。其中每个任务(episode)都可以使用交叉熵作为损失函数,经过n次迭代训练获得最终的原型网络(pn)。
56.在本实施例的一些可选实现方式中，至少两种特征提取网络，包括：使用迁移学习
方法将训练得到的网络(wav2vec2.0)作为第2版模型的特征提取模块。wav2vec2.0中的特征提取器部分是一种高质量声学特征提取器，特征提取器由七层cnn构成。作为示例，可以首先提取一整条音频的高维特征表示(输入的声学特征为原始音频，采样率为16000hz，帧移为个320采样点)，其次再对不同数据集合(正样本集合，负样本集合，待检测音频片段)中的所需数据进行提取并进行分段处理获得相应数据的高维映射。使用迁移学习，可以将已经通过大量无标签数据自监督训练的模型迁移到声学事件检测中用于提取声音的高维特征，节省了大量的模型训练时间。
57.步骤204，计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度。
58.在本实施例中，上述执行主体可以计算步骤203中得到的各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度。使用度量学习可以通过与一正一负原型样本进行对比的方式来检测和区分目标和其他声音事件。对不同数据集合(正样本集合，负样本集合，待检测音频片段)中的数据可以进行提取并根据实际需要设置分段间隔进行分段处理。作为示例，对于训练集，可以按照标签提取正样本声音片段，并按照0.05s的帧移将声音片段分成0.2s的时间段。负样本集则是对一整条音频进行分段所获得的样本。对于待检测段，若规定在检测时使用前五个带标记的声音事件做正样本，第五个正样本之后的所有帧即为待检测音频，可以将待检测音频按照和正负样本一样的方式分段得到待检测片段集合。
59.在本实施例的一些可选实现方式中，负例原型经由以下步骤生成：通过预先训练的特征提取网络确定正样本片段与负样本片段的高维映射；通过正样本片段的高维映射计算正例原型；计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离；根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段；通过保留的负样本片段的高维映射计算负例原型。仅保留负样本片段中不易与正样本片段混淆的负样本片段，加入负样本筛选的功能，可以解决在音频中正样本分布密集的情况下随机采取的负样本造成系统崩溃的问题。
60.在检测时，可以将每条检测音频中随机选取的初始负样本和给定的正样本用训练好的特征提取网络，例如卷积神经网络映射到高维空间中，而后可以计算正例原型作为正样本的代表，并计算多个初始负样本与正例原型的距离，可以用高斯拟合或其他拟合方法此距离分布，或者直接进行计算。最后，根据此分布的均值结合新的声音事件在该卷积神经网络的聚类程度得出的阈值选择符合条件的负样本，以此获得高质量的负例原型用于后续的相似度计算。
61.作为示例，若规定每条检测音频选择前五个标签的声音事件作为正样本，可以从这五个正样本中随机选取5个(m＝5)0.2s的片段用于支持集，构造正例原型。此外，还可以从每条音频中的负样本特征集合中随机抽取650个(j＝650)样本作为初始负样本集。而后，可以使用特征提取网络进行高维映射，其中，原型网络对应的高维映射维度可以为1
×
1024，wav2vec2.0特征提取模块所对应的声学特征输出可以为10
×
512维度。需要注意的是，为了简便计算可以将wav2vec2.0 提取的高维声学特征在时间维度进行平均，对应1
×
512维度。接着，再根据其对应的负例选取方法选出具有代表性的负样本。最后，根据负例原型的计算公式计算出最终的负例原型。
62.在本实施例的一些可选实现方式中，根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段，包括：计算第二预设数目个正样本片段的高维映射与正例原型的第二平均距离；根据第一平均距离与第二平均距离确定距离阈值；保留负样本片段中高维映射与正例原型的距离大于距离阈值的负样本片段。
63.在本实施例的一些可选实现方式中，计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离，包括：通过高斯函数拟合第一预设数目个负样本片段的高维映射与正例原型的距离分布；根据分布的均值确定第一平均距离。
64.作为示例，在少样本情境下，首先可以使用仅有的m个正样本，通过以下公式计算对应的正例原型p
+
：
[0065][0066]
其中，为输入模型的正样本的声学特征，f(
·
)为提取高维特征向量的网络模型。
[0067]
而后，可以随机选取j个0.2s长的样本作为负样本集，通过以下公式分别计算j个负样本与正例原型的距离：
[0068][0069]
其中，d(
·
)表示欧式距离计算公式，j表示负样本的个数。如果用距离的大小衡量样本的相似程度。则di的值越小表明该随机选择的负样本与正样本很相似，反之越不相似。经分析，距离集合d＝{di，i＝1...j}的分布近似一维高斯，因此可以使用高斯拟合对应的分布，并根据此分布为选取高质量负样本提供基础保证。基于剔除负样本集合中与正样本易混淆样本的思想，可以通过以下公式保留负样本片段中高维映射与正例原型的距离大于距离阈值的负样本片段
[0070][0071]
其中，为第一平均距离，即j个负样本片段与正例原型的平均距离，反应随机选取的负样本片段与正例原型相似度的平均水平，可以通过以下公式计算
[0072][0073]
为第二平均距离，即m个正样本与正例原型的平均距离，反应声音事件在此高维空间中的聚类好坏程度，低则表明在该高维空间中正样本聚类密集，可以通过以下公式计算
[0074][0075]
在考虑正样本聚类好坏程度的同时，剔除初始负样本集合中与正样本易混淆的样本，综合认为在正样本片段分布密集的音频片段中，距离小于此平均水平的为与正样本易混淆样本。
[0076]
最后，可以根据保留的h(h《j)个高质量负样本片段，通过以下公式计算负例原型p-：
[0077][0078]
其中，h是保留的负样本片段的个数，可以是一个变量，即每条音频对应不一样的h。
[0079]
步骤205，基于计算出的相似度输出声学事件检测结果。
[0080]
在本实施例中，上述执行主体可以基于步骤204中计算出的相似度输出声学事件检测结果。对于待检测段，若规定在检测时使用前五个带标记的声音事件做正样本，第五个正样本之后的所有帧即为待检测音频，以特征提取网络采用pn网络为例，声学事件检测过程可以参考图4。首先，可以提取整段音频的能量标准化(pcen)声学特征。其次，可以分别从正样本负样本对应的域中随机抽取m个长为0.2s的正样本片段和 j个长为0.2s的负样本片段。以及需检测段音频的所有音频(切割为0.2s 的片段，帧移为0.05s)。而后，再计算正例原型，并通过基于样本距离分布的负例选取方法(nr)负样本选择方法选出具有代表性的h个负样本，并计算负例原型。最后，可以通过以下公式计算待检测片段的后验概率以确定声学事件检测结果：
[0081][0082]
其中，是待检测样本中的第i个样本，i的个数由检测音频的时长决定。需要注意的是，wav2vec2.0模型的特征提取器已经是经过训练的且是一个高质量的声学特征器，因此在这里可以直接用这个特征提取器代替pn的输出用于检测。
[0083]
在本实施例的一些可选实现方式中，通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射，包括通过预先训练的至少两种特征提取网络分别确定待检测音频中各个待检测片段的高维映射；以及基于计算出的相似度输出声学事件检测结果，包括：基于至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果；融合备选检测结果得到声学事件检测结果。使用系统融合的方法可以解决不同方式采样的声学特征经过分段后样本无法一一对应进行得分融合的问题，提高模型整体性能。
[0084]
在本实施例的一些可选实现方式中，融合备选检测结果得到声学事件检测结果，包括：通过交并比(iou)计算确定备选检测结果中重叠的部分；根据重叠的部分得到声学事件检测结果。
[0085]
在本实施例的一些可选实现方式中，根据重叠的部分得到声学事件检测结果，包括：选择至少两种特征提取网络中判断准确度高的特征提取网络对应的备选检测结果；计算重叠的部分中选择的备选检测结果的声学事件的平均后验概率；筛选出除重叠的部分外的备选检测结果中声学事件的平均后验概率大于平均后验概率的备选检测结果；合并筛选出的备选检测结果与重叠的部分得到声学事件检测结果。使用交并比计算至少两个特征提取网络同时预测到的内容，可以确保预测准确度。计算其第一步相交部分的声音事件平均概率，并使用此概率进一步对剩下的声音事件进行筛选，这样的融合方式在保障基础检测性能的条件下能够抓取的两个模型的互补性进而提升检测效果。
[0086]
以至少两个特征提取网络为pn网络和wav2vec2.0的特征提取模块为例，由于的特
征提取器是由不同的声学特征和训练方式获得的高维映射网络，因此这两个网络在检测相同的音频时具有一定的差异和互补性。又由于不同的声学特征提取方式和特定的特征切割方式，使得两个系统切割后的样本数不同，不能一一对应进行得分融合。
[0087]
可以基于交并比的融合方法对两个网络的检测结果进行融合。第一步可以使用交并比计算备选检测结果中重叠的部分，并保存重叠的部分 (即iou》0部分)到overlap集合。第二步，可以选择两个网络中判断准确度(precision)高的网络对应的备选检测结果，计算该网络中第一步中保存的声音事件的平均后验概率，可以通过以下公式使用此平均后验概率进一步对本网络剩下的声音事件(即iou《0部分)进行筛选：
[0088][0089]
其中，分别代表两个模型iou《0部分的预测结果，q
overlap
为两个模型预测结果iou》0的部分。最后将第二步筛选出的声音事件与第一步overlap集合中的声音事件结合作为最终的融合结果。这样的融合方式在保障基础检测性能的条件下能够抓取到两个模型的互补性进而再次提升检测效果。
[0090]
本技术实施例获取到的音频数据集可以来自声音场景分类和声音事件检测挑战赛(detection and classification of acoustic scenes andevents，dcase)，例如，可以选用dcase2021中少样本生物声学事件检测任务(few-shot bioacoutic event detection)的音频数据集。
[0091]
该数据集包括开发集(development dataset)和评估集(evaluation set)。其中开发集由训练集(training set)和验证集(validation set)组成，训练集包含了19类动物的叫声共11条音频共包含14小时20分钟4686 个声音事件，验证集有4类动物叫声共8条音频共包含5个小时310 个声音事件。由于官方没有给出评估集(evaluation set)的答案，因此可以自行合成8条与评估集合相似的评估集(test_s)。
[0092]
本技术的上述实施例提供的方法可以使用基于事件的f1得分 (event_based_f1)进行度量，使用iou的概念，用真实声音事件发生的起始段与模型预测到的声音事件起始段的交并比来判断模型预测性能，其中交并比高于30％则认为该系统判断出该声音事件。值得注意的是评估指标会忽略文件中包含前五个阳性(正样本)事件的部分，并从每个文件的第五个正样本事件结束时间之后进行预测。此外，在提供的真实的标签文件中包含少量标记为unk(uknow)的模糊或未知标签。该评估指标在评估期间单独处理这些问题，以避免惩罚性能优于人工注释器的算法。
[0093]
f1得分(f1-measure)是统计学中用来衡量分类模型精确度的一种指标。它同时兼顾了分类模型的精确率(precision)和召回率(recall)。 f1得分可以看作是模型精确率和召回率的加权平均，它的最大值为1，最小值为0，其计算公式为：
[0094][0095]
预测出来的声音事件经过后处理(只保存高于标签文件中时间最短的正样本的60％长度的样本)，后保存与标签答案交并比大于30％的部分。即可根据测试结果计算模型的f1得分。
[0096]
若基于dcase2021 task5数据集展开研究，可以分析特征提取网络为pn网络和
wav2vec2.0的特征提取模块的声音检测方法，分别在正样本分布稀疏数据集(validation set)和正样本分布密集数据集(test_s) 中，使用随机选取(rs)和基于样本距离分布的负例选取方法(nr)两种选取负例方法模型的检测性能。由于官方没有公开测试集的标签答案，所以可以自行合成与公开测试集相似的测试集test_s用于评估发明内容的有效性。
[0097]
本技术的上述实施例提供的方法，对于正样本分布密集(test_s) 的情况下nr可以大大改善两个系统的性能。尤其是pn网络，当负样本随机选取(rs)时构造的负例原型使系统检测性能面临崩溃的局面 (f1_measure＝00.00％)，然而使用nr方法可以使模型性能(f1-measure) 达到45.04％。也可以清晰的看出由大量数据训练过的模型wav2vec2.0 的特征提取器在正样本密集时nr的负例选取方法较rs系统的检测性能提升了26.47％(f1-measure)，且效果优与pn模型。以此说明本发明所提出的方法对改善检测性能有明显的作用。
[0098]
本技术的上述实施例提供的方法通过获取待检测音频；将待检测音频分割为待检测片段；通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果，提供了一种基于正、负例原型的声学事件检测机制，实现了少样本情况下的声学事件检测。
[0099]
进一步参考图5，作为对上述各图所示方法的实现，本技术提供了一种声学事件检测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0100]
如图5所示，本实施例的声学事件检测装置500包括：获取单元 501、分割单元502、确定单元503、计算单元504和输出单元505。其中，获取单元，被配置成获取待检测音频；分割单元，被配置成将待检测音频分割为待检测片段；确定单元，被配置成通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算单元，被配置成计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；输出单元，被配置成基于计算出的相似度输出声学事件检测结果。
[0101]
在本实施例中，声学事件检测装置500的获取单元501、分割单元502、确定单元503、计算单元504和输出单元505的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205。
[0102]
在本实施例的一些可选实现方式中，装置还包括负例原型生成单元，负例原型生成单元被配置成：通过预先训练的特征提取网络确定正样本片段与负样本片段的高维映射；通过正样本片段的高维映射计算正例原型；计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离；根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段；通过保留的负样本片段的高维映射计算负例原型。
[0103]
在本实施例的一些可选实现方式中，负例原型生成单元，进一步被配置成：计算第二预设数目个正样本片段的高维映射与正例原型的第二平均距离；根据第一平均距离与第二平均距离确定距离阈值；保留负样本片段中高维映射与正例原型的距离大于距离阈值的负样本片段。
[0104]
在本实施例的一些可选实现方式中，负例原型生成单元，进一步被配置成：通过高斯函数拟合第一预设数目个负样本片段的高维映射与正例原型的距离分布；根据分布的均
值确定第一平均距离。
[0105]
在本实施例的一些可选实现方式中，确定单元，进一步被配置成通过预先训练的至少两种特征提取网络分别确定待检测音频中各个待检测片段的高维映射；以及输出单元，进一步被配置成：基于至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果；融合备选检测结果得到声学事件检测结果。
[0106]
在本实施例的一些可选实现方式中，输出单元，进一步被配置成：通过交并比计算确定备选检测结果中重叠的部分；根据重叠的部分得到声学事件检测结果。
[0107]
在本实施例的一些可选实现方式中，输出单元，进一步被配置成：选择至少两种特征提取网络中判断准确度高的特征提取网络对应的备选检测结果；计算重叠的部分中选择的备选检测结果的声学事件的平均后验概率；筛选出除重叠的部分外的备选检测结果中声学事件的平均后验概率大于平均后验概率的备选检测结果；合并筛选出的备选检测结果与重叠的部分得到声学事件检测结果。
[0108]
在本实施例的一些可选实现方式中，确定单元，进一步被配置成：提取待检测音频中各个待检测片段的梅尔特征；将提取的梅尔特征在每个通道上进行能量标准化，得到特征提取网络的输入。
[0109]
在本实施例的一些可选实现方式中，至少两种特征提取网络，包括：采用元学习的训练方式训练得到的原型网络，原型网络选择卷积神经网络作为网络结构。
[0110]
在本实施例的一些可选实现方式中，至少两种特征提取网络，包括：使用迁移学习方法将训练得到的网络作为第2版模型的特征提取模块。
[0111]
本技术的上述实施例提供的装置，通过获取待检测音频；将待检测音频分割为待检测片段；通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果，提供了一种基于正、负例原型的声学事件检测机制，实现了少样本情况下的声学事件检测。
[0112]
下面参考图6，其示出了适于用来实现本技术实施例的服务器或终端的计算机系统600的结构示意图。图6示出的服务器或终端仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0113]
如图6所示，计算机系统600包括中央处理单元(cpu)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608 加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中，还存储有系统600操作所需的各种程序和数据。cpu 601、rom 602以及ram 603通过总线604彼此相连。输入 /输出(i/o)接口605也连接至总线604。
[0114]
以下部件可以连接至i/o接口605：包括诸如键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如 lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609 经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至 i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0115]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601 执行时，执行本技术的方法中限定的上述功能。需要说明的是，本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0116]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如c语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0117]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0118]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包
括获取单元、分割单元、确定单元、计算单元和输出单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“被配置成获取待检测音频的单元”。
[0119]
作为另一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取待检测音频；将待检测音频分割为待检测片段；通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果。
[0120]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龙艳花吴潇潇许东星
技术所有人：云知声（上海）智能科技有限公司
我是此专利的发明人

上一篇：一种可重构航天器模块单元构型布局设计方法与流程
上一篇：数据处理方法、装置、设备及存储介质与流程