基于声音识别的监控方法、装置及系统与流程

文档序号:13317509阅读:492来源:国知局

本发明涉及信号处理、语音识别和模式识别技术领域,特别涉及一种基于声音识别的监控方法、装置及系统。



背景技术:

在公共场合中多采用传统的视频监控手段,视频监控相对有效的防范了一些违法犯罪活动。但是视频监控存在以下两个缺点:由于监控人员的疏忽,会错过监控画面捕捉到的不安全事件;由于视频画面的二维性,画面很容易被干扰物所阻挡。虽然在案件发生以后,可以采集案发现场的监控视频,帮助调查取证。但如果错过了最佳的营救时间则会导致案件的恶化。所以传统的视频监控系统很难及时有效的发现一些暴力事件或者是恐怖袭击。

其次,声音监控中对声音的分类不能简单的对振幅或者其他特征进行分类,需要结合监控场景实际情况对声音不同的特征进行分类,以使声音监控真正的应用到生活当中。

所以设计一款突破传统监控障碍的新型智能化监控系统迫在眉睫。在视频监控的基础上添加三种类型声音监控来辅助,会极大的提高监控效率,减少悲剧的发生,对现实生活具有重要意义。



技术实现要素:

本发明的目的在于提供一种基于声音识别的监控方法、装置及系统,以解决现有的视频监控功能单一,监控效率较低的问题。

为实现上述目的,本发明提供了一种基于声音识别的监控方法,包括以下步骤:

s1:进行预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;

s2:采集现场声音,对采集的声音进行与所述若干种特定声音对应的特征提取;

s3:将提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;

s4:根据所述分类结果判断是否需要报警。

较佳地,所述特定声音包括非语音的异常声音、带情感的语音以及敏感词语音,相应地,所述步骤s2中提取特征时,提取的特征分别为:针对异常声音监控的非语音声音特征;针对人群情绪监控的人群语音情感特征;以及针对人群话语所带敏感词汇监控而提取的语音转文字所需的特征。

较佳地,当提取非语音声音特征时,采用基于d-esmd的异常声音特征提取方法,具体包括以下步骤:

①定t分布随机噪声的次数k;

②采集现场的声音信号s,并将t分布随机噪声添加至所述声音信号s中,得到加噪信号si,其中,i为加噪信号的个数;

③对所述加噪信号si利用对称中点插值的esmd的方法进行分解,得到模态分量

④计算所述模态分量的排列熵值h,并通过现场试验确定阈值;

⑤若所述排列熵值h大于所述阈值,则所述模态分量为有用信号模态分量,进入步骤⑥,否则所述模态分量为噪声;

⑥将作为输入信号,重复③~⑤,直到分解得到的n阶的模态分量为噪声为止,其中,n为为正整数;

⑦如果i<k,则令i=i+1,重复②~⑥,直到i=k为止,得到所有的模态分量,并求其总体平均值将总体平均值作为分解信号的最终模态分量;

⑧计算各阶模态分量相对于原始的声音信号s的能量比,并组合成特征向量进行归一化处理,作为原始信号的特征向量。

较佳地,当提取人群语音情感特征时,采用基于语音情感识别的特征提取方法,具体为:使用国际语音情感挑战赛中使用的特征集进行特征向量的表示。

较佳地,当提取语音转文字所需特征时,采用基于gammatone的语音特征提取方法,具体包括以下步骤:

①集的现场的声音信号为x(n),对其进行预加重,设预加重系数为α,预加重之后的声音信号为y(n)=x(n)-α*x(n-1),其中,n为现场采集的声音信号的个数;

②对预加重之后的声音信号y(n)进行分帧,帧长为n个采样点,其中,n为2的正整数次幂;;

③对预加重之后的声音信号y(n)加汉明窗,加窗后的语音信号s(n)表示为s(n)=y(n)*w(n),其中,w(n)为汉明窗;

④对加窗后的语音信号s(n)进行快速傅里叶变换,得到频域信号x(k)=fft(s(n),n);

⑤对频域信号x(k)取模的平方得到能量谱,然后用gammatone滤波器组进行滤波处理,得到信号h(k)=fft(h(n),n);

⑥对每个gammatone滤波器的输出进行对数压缩;

⑦将对数压缩的信号进行离散余弦变换,得到gflcc(gammatonefrequencylogcepstrumcoeffient);

⑧将经过离散余弦变换得到的特征进行升半正弦倒谱提升,得到最后的特征。

较佳地,所述非语音的异常声音包括监控场景中的枪声、爆炸声、撞击声、尖叫声中的一种或多种;所述带情感的语音包括具有开心、正常、平静、热闹、愤怒、生气中的一种情感的语音;所述敏感词语音包括出现救命、杀人、打人中一种或多种危险词汇。

较佳地,当所述分类结果为所述非语音的异常声音时,则所述步骤s4中判断出对应的现场事件为枪击事件、撞击事件、爆炸事件、突发危险事件中的一种或多种,并进行报警提示;

当所述分类结果为带情感的语音时,则所述步骤s4中判断出对应的人群情感出现愤怒、生气的特征时进行报警提示;

当所述分类结果为敏感词语音时,则所述步骤s4中根据所识别到的敏感词进行报警提示。

较佳地,所述步骤s1具体包括:使用模糊最小二乘支持向量机的算法对从若干种特定声音中所提取到的特征值进行学习、建立所述声音模型与分类;则所述步骤s3进一步包括,将现场采集到的声音信号的特征与所述声音模型一一对应以进行匹配分类;

其中,所述步骤s4中的根据所述分类结果判断输出结果为需要报警的结果与不需要报警的结果。

本发明还提供了一种基于声音识别的监控装置,包括:

拾音器,用于采集声音信号;

模型训练模块,用于预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;

特征提取模块,用于将现场采集的声音信号进行与若干种特定声音对应的特征提取;

匹配分类模块,将所述特征提取模块提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;

报警模块,根据所述分类结果判断是否需要报警。

本发明还提供了一种基于声音识别的监控系统,包括一个或多个如上所述的基于声音识别的监控装置。

本发明具有以下有益效果:

可以有效弥补传统视频监控的不足,声音配合视频能更好的对复杂环境进行实时的监控。本发明的技术方案配合视频监控在一定程度上能够提高预防和打击犯罪活动的效率,确保监控系统对不安全事件监控的主动性和及时性。

附图说明

图1为本发明优选实施例基于声音识别的监控方法流程示意图;

图2为本发明优选实施例基于声音识别的监控装置结构示意图;

图3为本发明优选实施例声音特征提取模块架构图;

图4为本发明优选实施例模型建立模块装置结构示意图;

图5为本发明优选实施例模型建立模块架构图;

图6为本发明优选实施例匹配分类模块架构图。

具体实施方式

以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述和讨论,显然,这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。

为了便于对本发明实施例的理解,下面将结合附图以具体实施例为例作进一步的解释说明,且各个实施例不构成对本发明实施例的限定。

如图1所示,本实施例提供的基于声音识别的监控方法,包括以下步骤:

s1:进行预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;

s2:采集现场声音,对采集的声音进行与所述若干种特定声音对应的特征提取;

s3:将提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;

s4:根据所述分类结果判断是否需要报警。

其中,特定声音包括非语音的异常声音、带情感的语音以及敏感词语音,相应地,所述步骤s2中提取特征时,提取的特征分别为:针对异常声音监控的非语音声音特征;针对人群情绪监控的人群语音情感特征;以及针对人群话语所带敏感词汇监控而提取的语音转文字所需的特征。

下面结合附图2-6所示,对本发明方法做进一步说明如下:

参考图2-5,本实施例的声音监控方法中主要包括以下流程:声音采集、声音特征的提取、模型建立、模型与现场声音特征的匹配分类、报警提示的类型。其中,监控包括对三种类型的声音的监控,分别为:异常声音监控、人群的语音情感监控、将人群的语音转文字进行监控。

异常声音监控是对监控场景中枪声、爆炸声、撞击声、尖叫声等不应该出现的声音的监控,则对应提取的特征为非语音声音特征。

人群的语音情感监控是对监控场景中人群的说话声中的语音情感进行监控,情感包括开心、正常、平静、热闹、愤怒、生气等人类所具有的情感,其中对有危险的情感进行报警提示,如愤怒、生气等,则对应提取的特征为人群语音情感特征。

人群语音转文字监控是将监控场景中的人群语音转换为文字,进而对文字进行监控。如出现救命、杀人、打人等危险词汇,则对应提取的特征为语音转文字所需的敏感词的特征,此时,监控系统做出报警提示。

因此,非语音的异常声音包括监控场景中的枪声、爆炸声、撞击声、尖叫声中的一种或多种;带情感的语音包括具有开心、正常、平静、热闹、愤怒、生气中的一种情感的语音;敏感词语音包括出现救命、杀人、打人中一种或多种危险词汇。那么步骤s1中,采集声音作为训练声音时,需要人为的加入被监控的声音:如采集异常声音作为训练声音时,需要人为的制造枪击声、爆炸声等,也需要人为的制造其他安全状态下的声音,进行录音、特征提取、模型训练;语音情感监控中,需要在该场所中制造带有各类情感的语音,进行录取、特征提取、模型训练;语音转文字监控中,需要在该场所制造带有报警提示词汇(如救命、打人等)的语音,也需要结合相应场所特征录入不被报警提示词汇的声音,进行录取、特征提取、模型训练。

参考图3,为本发明声音特征提取模块架构图:

基于三种监控类型,本发明建模时,对声音特征的提取需要分为三类:

针对异常声音监控:基于d-esmd的异常声音特征提取;

针对人群情绪监控:基于语音情感识别的特征提取;

针对语音转文字监控:基于gammatone的语音特征提取。

参考图4,为本发明模型建立模块装置结构示意图:

首先,根据监控场景情况,人为的选择声音作为训练声音;

拾音器采集到训练声音,并将声音信号传输给特征提取模块;

特征提取模块对训练声音的特征进行特征提取,并将特征值传输给训练模块;

训练模块利用模糊最小二乘向量机算法对特征值进行训练,并输出备用的三种类型的训练模型,以备匹配分类模块调用。

具体地,步骤s1中,当提取非语音声音特征时,采用基于d-esmd的异常声音特征提取方法,具体包括以下步骤:

②定t分布随机噪声的次数k;

②采集现场的声音信号s,并将t分布随机噪声添加至所述声音信号s中,得到加噪信号si,其中,i为加噪信号的个数,为1,2,3……等中的任意值;

③对所述加噪信号si利用对称中点插值的esmd的方法进行分解,得到模态分量

④计算所述模态分量的排列熵值h,并通过现场试验确定阈值;

⑤若所述排列熵值h大于所述阈值,则所述模态分量为有用信号模态分量,进入步骤⑥,否则所述模态分量为噪声;

⑥将作为输入信号,重复③~⑤,直到分解得到的第n阶的模态分量为噪声为止,其中,n为正整数;

⑦如果i<k,则令i=i+1,重复②~⑥,直到i=k为止,得到所有的模态分量,并求其总体平均值将总体平均值作为分解信号的最终模态分量;

⑧计算各阶模态分量相对于原始的声音信号s的能量比,并组合成特征向量进行归一化处理,作为原始信号的特征向量。

其中,对原始的声音信号加入t分布噪声进行降噪,其原理为:

设采集到的声音信号为x(t),真实声音信号为x(t),噪声为n(t);

对x(t)进行分解,得到模态分量m(t)和分解余项r(t);

m(t)包含真实信号分量m(t)和噪声c(t);

原始信号数学表达式:

原始信号加t噪声:

将上述k个公式累加:

当k~∞时,

由上述的数学公式看出,加入t分布噪声和采用esmd分解信号降低了噪声影响。

其中,对称中心插值的esmd包括:

求加噪信号si的所有极大值点xmax与极小值点xmin;

连接所有相邻的极大值点和极小值点,求其中点xmean=(xmax+xmin)/2;

求相邻中点的对称中点xm,对xm进行插值。

其中,排列熵值的计算包括:

对模态分量m进行延迟重构,得到如下序列:

其中,i为时间延迟,m为重构维数;

对所有的重构分量y(i)中m个元素进行升序排列,将所有重构分量的排列方式汇总,计算每种排列方式出现的概率p1,p2,…,pi,则排列熵为:

其中,模态能量计算如下:

步骤s1中,当提取人群语音情感特征时,采用基于语音情感识别的特征提取方法,具体为:使用国际语音情感挑战赛中使用的特征集进行特征向量的表示,具体为:

参考下表一,本实施例中所使用的特征集包括16个低层描述符(low-leveldescriptors,llds),并通过12个类函数的统计量作用于该16个低层描述符,即可进行人群语音情感的特征向量的表示。

表一:国际语音情感挑战赛中使用的特征集

步骤s1中,当提取语音转文字所需特征时,采用基于gammatone的语音特征提取方法,具体包括以下步骤:

①集的现场的声音信号为x(n),对其进行预加重,设预加重系数为α,预加重之后的声音信号为y(n)=x(n)-α*x(n-1),其中,n为现场采集的声音信号的个数,为1,2,3……中的任意一值;

②对预加重之后的声音信号y(n)进行分帧,帧长为n个采样点,其中,这里的n为256,在其他优选实施例中n可设为2的任意整数次幂的值;

③对预加重之后的声音信号y(n)加汉明窗,加窗后的语音信号s(n)表示为s(n)=y(n)*w(n),其中,w(n)为汉明窗,汉明窗w(n)具体为:

④对加窗后的语音信号s(n)进行快速傅里叶变换,得到频域信号x(k)=fft(s(n),n);

⑤对频域信号x(k)取模的平方得到能量谱,然后用gammatone滤波器组进行滤波处理,得到信号h(k)=fft(h(n),n),其中,gammatone滤波器的表达式为:

g(t)=tn-1exp(3πbt)cos(2πfit),t≥0,

∫i是中心频率,b=1.109*(24.7+0.108∫i);

⑥对每个gammatone滤波器的输出进行对数压缩,压缩表达式为:

p为滤波器个数;

⑦将对数压缩的信号进行离散余弦变换,得到gflcc(gammatonefrequencylogcepstrumcoeffient),表达式如下:

m为gflcc特征的维数;

⑧将经过离散余弦变换得到的特征进行升半正弦倒谱提升,得到最后的特征,如式所示:

c=c*ω(i)。

参考图5,在进行模型训练时,对需要被报警的声音以及实际监控区域的正常声音通过特征提取模块进行提取,然后进入训练模块进行训练,得到训练模型。

则实际监控中,具体对监控场所的声音进行实时的监控,为了提高声音类型的分类结果,采用了模糊最小二乘向量机算法,此算法会对每一个样本都唯一地归于某一个类别。所以在模型训练时需要对场景中可能出现的声音或者需要监控的声音进行人为的制造并采集;对于场景中异常声音的监控,需要采集的声音,如步伐声、拍打声、汽车行驶声、枪声、爆炸声、撞击声、尖叫声等监控场所中可能出现的声音,其中需要报警提示的为枪声、爆炸声、撞击声、尖叫声等不应该出现的声音;对于监控场所中人群情感的监控,需要采集带情感色彩的声音,如带有开心、伤心、平静、热闹、愤怒、生气等情感的声音,其中对带有危险情感的声音进行报警提示;对于监控场所中人群说话中所带词汇的监控,需要采集场所内可能出现词汇的声音,如吃饭、逛街、学习、游戏、救命、杀人、打人等词汇的声音,其中需要报警提示的为救命、杀人、打人等危险词汇的声音;人为制造需要被报警和不被报警的声音;利用特征提取模块对声音进行特征提取,并将特征值传输给训练模块;训练模块使用模糊最小二乘向量机算法对特征值进行训练,输出训练模型。

参考图6,本实施例对三种类型的声音进行监控,则对声音的特征提取为三种类型。在三种类型的声音特征基础上建立三种类型的声音模型,分别为:异常声音模型、语音情感模型、语音文字模型;将三种声音特征与三种声音模型进行匹配分类;分类算法为模糊最小二乘支持向量机算法;匹配分类后输出三种分类结果。

当步骤s3的分类结果为非语音的异常声音时,则步骤s4中判断出对应的现场事件为枪击事件、撞击事件、爆炸事件、突发危险事件中的一种或多种,并进行报警提示;当分类结果为带情感的语音时,则所述步骤s4中判断出对应的人群情感出现愤怒、生气的特征时进行报警提示;当分类结果为敏感词语音时,则所述步骤s4中根据所识别到的敏感词进行报警提示。

具体应用时,报警模块得到分类结果时,三种分类结果互不影响,如:异常声音检测为危险声音,则结果一报警,结果二和结果三可能没有检测到危险,则不报警;监控人员可以根据报警装置发出的警报类型作出相应的行动;如发生异常声音报警则发生事件相对严重,如枪击事件、爆炸事件,则监控人员可以报警和呼叫救护车;如发生语音情感报警则多为人群纠纷,监控人员可以呼叫同事前去调解或者选择性的报警和呼叫救护车;如发生语音转文字报警则为打人、救命等事件,则监控人员可以报警和呼叫救护车。

则步骤s1提取特征后,还进一步包括:使用模糊最小二乘支持向量机的算法对从若干种特定声音中所提取到的特征值进行学习、建立所述声音模型与分类;则所述步骤s3进一步包括,将现场采集到的声音信号的特征与所述声音模型一一对应以进行匹配分类,将模型与场采集声音的特征匹配分类也采用模糊最小二乘向量机;其中,所述步骤s4中的根据所述分类结果判断输出结果为需要报警的结果与不需要报警的结果。

优选的实施例中,由于本实施例的声音模型的建立需要分为三类,则本实施例中的报警提示设定如下:

第一类是非语音声音特征的模型建立,即对场景中异常声音进行监控,如步伐声、拍打声、汽车行驶声、枪声、爆炸声、撞击声、尖叫声等监控场所中可能出现的声音进行建立模型,其中需要报警提示的为枪声、爆炸声、撞击声、尖叫声等不应该出现的声音;

第二类是人群的语音情感特征的模型建立,即对监控场景中人群说话声中的情感进行监控,情感包括开心、正常、平静、热闹、愤怒、生气等人类所具有的情感,其中对有危险的情感进行报警提示,如愤怒、生气等;

第三类是人群语音转文字时所需特征的模型建立,即对监控场景内人群说话中所带词汇的监控,如吃饭、逛街、学习、游戏、救命、杀人、打人等监控场所中可能出现的词汇的声音特征建立模型,其中需要报警提示的为救命、杀人、打人等不应该出现的词汇。

这里采用的模糊最小二乘向量机在传统的支持向量机基础上做了进一步改进,使得每一个样本都归于某一个类别;

引入模糊隶属度si,则优化问题为:

其中,xi为m维输入向量,yi为样本类标,i为样本数,w为超平面wxi+b=0的法矢量,b为超平面偏值,c为惩罚参数,ξi为松弛因子表示xi到超平面wxi+b=0的距离;

对于第i类样本对第j类样本的最优决策面函数为:

dij(x)=(wt)ij+b,

模糊隶属度函数定义为:

第i类样本的模糊隶属度函数为:

样本数据x被划分为类别:

本实施例还提供了一种基于声音识别的监控装置,参考图2所示,该装置包括:

拾音器,用于采集声音信号;

模型训练模块,用于预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型,其硬件组成包括微处理器、集成电路、可编程门电路等,可以对声音的三类特征进行模型的建立;

特征提取模块,用于将现场采集的声音信号进行与若干种特定声音对应的特征提取,其硬件组成包括微处理器、集成电路、可编程门电路等,可以根据需求提取声音的三类特征;

匹配分类模块,将所述特征提取模块提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果,其硬件组成包括微处理器、集成电路、可编程门电路等,可以根据模型与特征的类型一一对应进行匹配分类;

报警模块,根据所述分类结果判断是否需要报警,及进一步地进行报警提示。报警提示分别为异常声音报警、语音情感报警、危险词汇报警。对于异常声音报警,如果检测到步伐声、拍打声、汽车行驶声等符合场景中的声音则不报警,如果检测到枪声、爆炸声、撞击声、尖叫声等不安全声音则报警;对于语音情感报警,如果检测到开心、热闹等正常安全情绪则不报警,如果检测到生气、愤怒等不安全情绪则报警;对于语音转文字报警,如果检测到吃饭、逛街、学习、游戏等正常词汇则不报警,如果检测到救命、杀人、打人等不安全词汇则报警。

此外,本实施例还提供了一种基于声音识别的监控系统,包括一个或多个如上所述的基于声音识别的监控装置,或者具有多个拾音器,获得多路信号,以供监控装置的其它模块分别进行声音信号处理。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何本领域的技术人员在本发明揭露的技术范围内,对本发明所做的变形或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述的权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1