一种基于稀疏编码的音频场景识别方法与流程

文档序号：13166613阅读：334来源：国知局

本发明属于网络信息安全、多媒体检索技术领域，特别涉及一种基于稀疏编码的音频场景识别方法。

背景技术：

音频场景识别，是在最高层次的语义上的应用。它的应用范围也很广泛，可以通过音频场景层次上对音频信号的处理，使音频信号处理变得更加智能。场景层次的音频信号处理主要作用体现在：音频场景识别对于来自于互联网的海量数据信息，可以提供一个基于音频内容的索引和检索，对于现代的网络搜索引擎来说，无论是技术还是应用上均有良好的补充和完善；音频场景识别在数字图书馆、多媒体网站等一些含有海量的音频信息的数据资料库中，可以智能的分类和管理这些信息数据；音频场景识别在监控领域中，可以实时的对电梯、停车场等公共场所进行突发状况的监测和预警；音频场景识别在可以为信息智能化的决策系统提供基于音频的信息支持，在如无人驾驶和智能家居领域中，音频场景识别都有着重要的作用。

为了进行音频场景识别，需要将音频信号映射到一个字典集上进行分析：x＝d*a中，用x表示原始音频信号(列向量)，d为得到的字典(dictionary)，a即为在字典d上原始音频信号x的表达。为了得到a，比较流行的方法有傅立叶变换、小波变换、pca等，这些方法得到的字典都是预先设定好的，手动设定一个好的字典是非常困难的，并且其复杂度和几何特性在表征不同信号时变化很大，而且对字典中“基”(basis)要求太苛刻，它们必须是正交的，虽然此限制可以简化问题，但同时限制了解决问题的灵活性。

技术实现要素：

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于稀疏编码的音频场景识别方法。

本发明的技术方案是，一种基于稀疏编码的音频场景识别方法，该方法包括如下步骤：

(1)原子库生成；对目标场景的训练音频信号样本进行训练，得到一个目标场景的原子库d1，对于目标集外的训练音频信号样本进行训练，得到一个集外的原子库d2；原子库d1中的原子，是具有目标场景特点的；而集外原子库d2中的原子，则不具有目标场景的特点；

将音频信号定义为x＝[x1,x2,…,xn]，其中音频信号的特征为m维，λ为正则化参数，原子库d有k列，每列都是一个原子，其中m和k的大小远小于n，且满足原子库的冗余性和过完备，即m小于k；信号在过完备冗余原子库上的分解具有稀疏性；

由样本x训练得到的原子库d，对于每一个样本中的音频信号，进行稀疏表示；对于样本x在d上分解的系数设为α＝[α1,α2,…,αn]，原子库的学习，就是建立一个样本在稀疏表示时，能够使用最少的原子进行表示的原子库,如下式：

(2)对待测的音频信号，将音频信号在原子库d上进行分解，得到一个稀疏的系数α；

根据这个系数中不为零的项，找到这些项在原子库中对应的原子，统计这些原子的类别标签，其中对应目标场景的音频信号统计值为集外音频信号统计值为k1为目标场景的原子库d1的原子数，k2为集外的原子库d2的原子数；

(3)比较统计值rt和ro的大小，较大的统计值对应的场景即为识别结果。

本发明的有益效果在于：本发明使用稀疏分解的理论，提取出了一种音频信号的稀疏特征，这种特征具有长时的性质，在音频场景识别方面具有良好的效果。

附图说明

图1为基于稀疏编码的音频场景识别框架

具体实施方式

下面，结合附图对于本发明进行如下详细说明：

本发明的方法包括如下步骤；

一是原子库生成。要对目标场景的训练音频信号样本，训练得到一个目标场景的原子库d1，对于目标集外的训练音频信号样本，训练得到一个集外的原子库d2。原子库d1中的原子，是具有目标场景特点的；而集外原子库d2中的原子，则不具有目标场景的特点。学习原子库的方法，是在样本的音频数据库上，通过自适应算法学习一个原子库，可以使学习得到的原子库是适应数据的。将音频信号定义为x＝[x1,x2,…,xn]，其中音频信号的特征为m维，λ为正则化参数，原子库d有k列，每列都是一个原子。其中m和k的大小远小于n。而且满足原子库的冗余性和过完备，即m小于k。信号在过完备冗余原子库上的分解具有稀疏性。由样本x训练得到的原子库d，对于每一个样本中的音频信号，都可以稀疏表示。对于样本x在d上分解的系数设为α＝[α1,α2,…,αn]，原子库的学习，就是建立一个样本在稀疏表示时，可以使用最少的原子进行表示的原子库,如下式：

二是对待测的音频信号，将音频信号在原子库d上进行分解，得到一个稀疏的系数α。根据这个系数中不为零的项，找到这些项在原子库中对应的原子，统计这些原子的类别标签。其中对应目标场景的音频信号统计值为集外音频信号统计值为其中，k1为目标场景的原子库d1的原子数，k2为集外的原子库d2的原子数。

三是比较统计值rt和ro的大小，大的那个统计值对应的场景即为模型的识别结果。

求解音频信号的稀疏编码，就是要从原子库中，选择对信号的表示较好的原子，并且在这些原子选择尽量少的个数来表示信号。这就是对信号的稀疏分解，而解决这个问题最简单的方法就是mp(matchingpursuit)算法。

所述仅是本发明的具体实例，任何基于本发明方法基础的等效变换，均属于本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐杰;陈训逊;王博;王东安;包秀国
技术所有人：国家计算机网络与信息安全管理中心
我是此专利的发明人