一种声学场景分类方法、系统、装置及存储介质与流程

文档序号:33458198发布日期:2023-03-15 03:00阅读:43来源:国知局
一种声学场景分类方法、系统、装置及存储介质与流程

1.本技术涉及计算机技术领域,尤其是一种声学场景分类方法、系统、装置及存储介质。


背景技术:

2.传统的声学场景分类技术往往需要大量的有标签数据进行模型训练,而在实际应用中,这些有标签的声学场景训练数据很难大量获取,导致利用小样本数据训练出的模型往往无法达到理想的声学场景分类效果。此外,训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源,大大提高了新任务的训练成本。


技术实现要素:

3.本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
4.为此,本发明实施例提供一种声学场景分类方法、系统、装置及存储介质,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。
5.为了达到上述技术目的,本发明实施例所采取的技术方案包括:
6.一方面,本发明实施例提供了一种声学场景分类方法,包括以下步骤:
7.对声学场景声音进行数据增强处理,得到声学场景声音序列;
8.采用预训练的声音分类大模型对所述声学场景声音序列进行特征提取,得到第一嵌入向量;
9.采用深度卷积神经网络对所述第一嵌入向量进行分类训练,得到第一模型;
10.采用所述第一模型对所述声学场景声音进行分类,生成声学场景分类结果。
11.本发明实施例的一种声学场景分类方法,通过对声学场景声音进行数据增强处理,采用预训练的声音分类大模型对数据增强处理得到的声学场景声音序列进行特征提取,获取第一嵌入向量,并接入深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型,进而采用第一模型对声学场景声音进行分类,生成声学场景分类结果,无需依赖大量的有标签数据进行模型训练,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。
12.另外,根据本发明上述实施例的一种声学场景分类方法,还可以具有以下附加的技术特征:
13.进一步地,本发明实施例的一种声学场景分类方法中,所述采用深度卷积神经网络对所述第一嵌入向量进行分类训练,得到第一模型,包括:
14.对所述第一嵌入向量进行深层特征提取,得到第二嵌入向量;
15.搭建模型网络,根据所述第二嵌入向量进行模型迭代训练,生成所述第一模型。
16.进一步地,在本发明的一个实施例中,所述搭建模型网络,根据所述第二嵌入向量进行模型迭代训练,生成所述第一模型,包括:
17.初始化模型训练的迭代次数;
18.根据所述第二嵌入向量生成训练集和测试集;
19.根据所述模型网络和所述训练集进行模型训练,生成第二模型,并使所述迭代次数加一;
20.确认所述迭代次数达到第一阈值,或者损失函数达到第二阈值,采用所述测试集对所述第二模型进行验证,生成验证结果;
21.判断所述验证结果是否达到预设的模型性能指标;
22.若是,将所述第二模型作为所述第一模型并输出;
23.若否,对所述模型网络的超参数进行调整,并返回所述根据所述模型网络和所述训练集进行模型训练,生成第二模型,并使所述迭代次数加一这一步骤。
24.进一步地,在本发明的一个实施例中,所述搭建模型网络,根据所述第二嵌入向量进行模型迭代训练,生成所述第一模型,还包括:
25.确认所述迭代次数未达到所述第一阈值,并且损失函数未达到所述第二阈值,对所述模型网络的超参数进行调整,并返回所述根据所述模型网络和所述训练集进行模型训练,生成第二模型,并使所述迭代次数加一这一步骤。
26.另一方面,本发明实施例提出了一种声学场景分类系统,包括:
27.第一模块,用于对声学场景声音进行数据增强处理,得到声学场景声音序列;
28.第二模块,用于采用预训练的声音分类大模型对所述声学场景声音序列进行特征提取,得到第一嵌入向量;
29.第三模块,用于采用深度卷积神经网络对所述第一嵌入向量进行分类训练,得到第一模型;
30.第四模块,用于采用所述第一模型对所述声学场景声音进行分类,生成声学场景分类结果。
31.进一步地,在本发明的一个实施例中,所述第三模块包括:
32.特征提取模块,用于对所述第一嵌入向量进行深层特征提取,得到第二嵌入向量;
33.模型训练模块,用于搭建模型网络,根据所述第二嵌入向量进行模型迭代训练,生成所述第一模型。
34.进一步地,在本发明的一个实施例中,所述模型训练模块包括:
35.初始化模块,用于初始化模型训练的迭代次数;
36.数据集生成模块,用于根据所述第二嵌入向量生成训练集和测试集;
37.第二模型生成模块,用于根据所述模型网络和所述训练集进行模型训练,生成第二模型,并使所述迭代次数加一;
38.第一确认模块,用于确认所述迭代次数达到第一阈值,或者损失函数达到第二阈值,采用所述测试集对所述第二模型进行验证,生成验证结果;
39.判断模块,用于判断所述验证结果是否达到预设的模型性能指标;若是,将所述第二模型作为所述第一模型并输出;若否,对所述模型网络的超参数进行调整,并返回所述第二模型生成模块。
40.进一步地,在本发明的一个实施例中,所述模型训练模块还包括:
41.第二确认模块,用于确认所述迭代次数未达到所述第一阈值,并且损失函数未达到所述第二阈值,对所述模型网络的超参数进行调整,并返回所述第二模型生成模块。
42.另一方面,本发明实施例提供了一种声学场景分类装置,包括:
43.至少一个处理器;
44.至少一个存储器,用于存储至少一个程序;
45.当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现所述的一种声学场景分类方法。
46.另一方面,本发明实施例提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于实现所述的一种声学场景分类方法。
47.本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到:
48.本发明实施例通过对声学场景声音进行数据增强处理,采用预训练的声音分类大模型对数据增强处理得到的声学场景声音序列进行特征提取,获取第一嵌入向量,并接入深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型,进而采用第一模型对声学场景声音进行分类,生成声学场景分类结果,无需依赖大量的有标签数据进行模型训练,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。
附图说明
49.为了更清楚地说明本技术实施例或者现有技术中的技术方案,下面对本技术实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本技术的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
50.图1为本发明一种声学场景分类方法具体实施例的流程示意图;
51.图2为本发明一种声学场景分类系统具体实施例的结构示意图;
52.图3为本发明一种声学场景分类装置具体实施例的结构示意图;
53.图4为本发明实施例中一种声学场景分类方法的算法实现示意图。
具体实施方式
54.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能理解为对本技术的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
55.本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
56.在本发明中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地
和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
57.首先,对本技术实施例中涉及的相关技术术语进行介绍说明:
58.深度学习:
59.深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
60.迁移学习:
61.迁移学习是一种机器学习的方法,指的是一个预训练的模型被重新用在另一个任务中。给定源域和目标域,以及各自的学习任务,迁移学习的目的事获取源域及其学习任务中的知识,以帮助提升目标域中的预测函数的学习,即从源域中迁移标注数据或者知识结构、完成或改进目标域或任务的学习效果。迁移学习用已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有数据的学习问题,从根本上放宽了传统机器学习的基本假设,从而能够将适用于大数据的模型迁移到小数据上,发现问题的共性,将通用的模型迁移到个性化的数据上,实现个性化迁移。
62.语音处理:
63.语音处理是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理语音任务,并达到人与计算机之间能进行有效通讯。语音处理主要应用于语音分类、噪声检测、语音识别等方面。
64.声音大模型:
65.声音大模型是一种基于海量语音数据训练的深度网络,能够对各种音频数据进行特征提取以及类别的预测。
66.深度卷积神经网络(deepcnn):
67.深度卷积神经网络,由多层卷积神经网络构成,比较有代表性的深度卷积神经网络有vgg和resnet等。
68.数据增强(data augmentation):
69.数据增强是一种通过利用算法来扩展训练数据的技术。人工智能三要素之一为数据,但获取大量数据成本高,但数据又是提高模型精度和泛化效果的重要因素。当数据量不足时,模型很容易过拟合,精度也无法继续提升,因此数据增强技术应运而生:利用算法,自动增强训练数据。
70.声学场景分类(acoustic sence classifier,asc):
71.声学场景分类通常作为音频处理的前端部分,包括室内场景、户外场景识别,公共场所、办公室场景识别等。同时也有着众多的应用场景,如穿戴设备、医疗保健设备、监控设备、自动驾驶,以及其他需要对周围环境进行感知的器件。
72.传统的声学场景分类技术往往需要大量的有标签数据进行模型训练,而在实际应用中,这些有标签的声学场景训练数据很难大量获取,导致利用小样本数据训练出的模型往往无法达到理想的声学场景分类效果。此外,训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源,大大提高了新任务的训练成本。为此,本发明提出了一
种声学场景分类方法、系统、装置及存储介质,通过对声学场景声音进行数据增强处理,采用预训练的声音分类大模型对数据增强处理得到的声学场景声音序列进行特征提取,获取第一嵌入向量,并接入深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型,进而采用第一模型对声学场景声音进行分类,生成声学场景分类结果,无需依赖大量的有标签数据进行模型训练,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。
73.下面参照附图详细描述根据本发明实施例提出的一种声学场景分类方法、系统、装置及存储介质,首先将参照附图描述根据本发明实施例提出的一种声学场景分类方法。
74.参照图1,本发明实施例中提供一种声学场景分类方法,本发明实施例中的一种声学场景分类方法,可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例中的一种声学场景分类方法主要包括以下步骤:
75.s101、对声学场景声音进行数据增强处理,得到声学场景声音序列;
76.可以理解的是,在样本数据不足的情况下训练得到的模型精度较低。本发明实施例通过对输入的声学场景声音进行数据增强处理,提升小样本数据下训练得到的模型的精度。
77.具体地,在本发明的实施例中,对声学场景声音的数据增强处理包括:
78.移动正音高:数据集中每个音频信号的音高都增加一个正因子+2。
79.移动负音高:在提高可用的声音剪辑的音调后,使变形后的数据集的音调降低一个负因子-2。
80.静音修剪:修剪音频剪辑的静音部分,只保留包含声音的部分。
81.快速拉伸时间:将数据集的每个声音剪辑的时间瞬间拉伸到1倍。
82.缓慢拉伸时间:其中的时间拉伸系数用于使录音速度减慢0.70倍。
83.添加白噪声:声音剪辑受到白噪声的影响,其值为+0.05*wn。
84.端点检测:根据端点检测结果,去除部分语音片段。
85.消除静音:消除声音中的静音部分。
86.s102、采用预训练的声音分类大模型对声学场景声音序列进行特征提取,得到第一嵌入向量;
87.具体地,在本发明的实施例中,采用预训练的声音分类大模型yamnet对声学场景声音序列进行特征提取,得到每个声学场景声音序列对应的声音特征,即第一嵌入向量。
88.本发明实施例基于预训练的声音分类大模型的迁移学习,提升了后续基于小样本数据的深度卷积神经网络的分类训练效果。
89.s103、采用深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型;
90.具体地,在本发明的实施例中,采用deepcnn对步骤s102提取出的第一嵌入向量进行深一步特征提取及分类训练,以获得每个声音的深层嵌入特征以更准确地表示当前声音数据,深度嵌入特征最后经过deepcnn中的全连接层,进入softmax分类器实现声学场景分
类,进而实现声学场景分类模型(第一模型)的训练、评估和输出。
91.s103可以进一步划分为以下步骤s1031-s1032:
92.步骤s1031、对第一嵌入向量进行深层特征提取,得到第二嵌入向量;
93.步骤s1032、搭建模型网络,根据第二嵌入向量进行模型迭代训练,生成第一模型。
94.具体地,在本发明的实施例中,步骤s1032包括以下步骤:
95.1)初始化模型训练的迭代次数;
96.2)根据第二嵌入向量生成训练集和测试集;
97.3)根据模型网络和所述训练集进行模型训练,生成第二模型,并使迭代次数加一;
98.4)确认迭代次数达到第一阈值,或者损失函数达到第二阈值,采用测试集对第二模型进行验证,生成验证结果;
99.5)判断验证结果是否达到预设的模型性能指标;
100.6)若是,将第二模型作为第一模型并输出;
101.7)若否,对模型网络的超参数进行调整,并返回步骤3)。
102.在本发明的实施例中,确认迭代次数未达到第一阈值,并且损失函数未达到第二阈值,对模型网络的超参数进行调整,并返回步骤3)。
103.其中,第一阈值和第二阈值为预设的阈值。
104.s104、采用第一模型对声学场景声音进行分类,生成声学场景分类结果。
105.具体地,在本发明的实施例中,采用步骤s103训练得到的第一模型对声学场景声音进行分类,生成声学场景分类结果。
106.本发明实施例步骤s101-s104所述的一种声学场景分类方法的算法实现如图4所示。
107.结合步骤s101-s104所述的一种声学场景分类方法可知,本发明通过对声学场景声音进行数据增强处理,采用预训练的声音分类大模型对数据增强处理得到的声学场景声音序列进行特征提取,获取第一嵌入向量,并接入深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型,进而采用第一模型对声学场景声音进行分类,生成声学场景分类结果,无需依赖大量的有标签数据进行模型训练,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。
108.图2是本技术一个实施例的一种声学场景分类系统结构示意图。
109.所述系统具体包括:
110.第一模块201,用于对声学场景声音进行数据增强处理,得到声学场景声音序列;
111.第二模块202,用于采用预训练的声音分类大模型对所述声学场景声音序列进行特征提取,得到第一嵌入向量;
112.第三模块203,用于采用深度卷积神经网络对所述第一嵌入向量进行分类训练,得到第一模型;
113.第四模块204,用于采用所述第一模型对所述声学场景声音进行分类,生成声学场景分类结果。
114.进一步地,在本发明的一个实施例中,所述第三模块包括:
115.特征提取模块,用于对所述第一嵌入向量进行深层特征提取,得到第二嵌入向量;
116.模型训练模块,用于搭建模型网络,根据所述第二嵌入向量进行模型迭代训练,生
成所述第一模型。
117.进一步地,在本发明的一个实施例中,所述模型训练模块包括:
118.初始化模块,用于初始化模型训练的迭代次数;
119.数据集生成模块,用于根据所述第二嵌入向量生成训练集和测试集;
120.第二模型生成模块,用于根据所述模型网络和所述训练集进行模型训练,生成第二模型,并使所述迭代次数加一;
121.第一确认模块,用于确认所述迭代次数达到第一阈值,或者损失函数达到第二阈值,采用所述测试集对所述第二模型进行验证,生成验证结果;
122.判断模块,用于判断所述验证结果是否达到预设的模型性能指标;若是,将所述第二模型作为所述第一模型并输出;若否,对所述模型网络的超参数进行调整,并返回所述第二模型生成模块。
123.进一步地,在本发明的一个实施例中,所述模型训练模块还包括:
124.第二确认模块,用于确认所述迭代次数未达到所述第一阈值,并且损失函数未达到所述第二阈值,对所述模型网络的超参数进行调整,并返回所述第二模型生成模块。
125.可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
126.参照图3,本技术实施例提供了一种声学场景分类装置,包括:
127.至少一个处理器301;
128.至少一个存储器302,用于存储至少一个程序;
129.当所述至少一个程序被所述至少一个处理器301执行时,使得所述至少一个处理器301实现步骤s101-s104所述的一种声学场景分类方法。
130.同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
131.在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本技术的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
132.此外,虽然在功能性模块的背景下描述了本技术,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本技术的范围,本技术的范围由所附权利要求书及其等同
方案的全部范围来决定。
133.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
134.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行程序的定序列表,可以具体实现在任何计算机可读介质中,以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用,或结合这些程序执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。
135.计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
136.应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
137.在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
138.尽管已经示出和描述了本技术的实施方式,本领域的普通技术人员可以理解:在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本技术的范围由权利要求及其等同物限定。
139.以上是对本技术的较佳实施进行了具体说明,但本技术并不限于所述实施例,熟悉本领域的技术人员在不违背本技术精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1