音频处理装置以及音频处理方法与流程

文档序号:11521429阅读:234来源:国知局
音频处理装置以及音频处理方法与流程

所公开的信息涉及一种音频处理装置以及一种音频处理方法。



背景技术:

作为用于消除或减少在音频、视频图像等的信号中包含的噪声的信号处理技术,噪声降低(noisereduction,nr)技术是已知的。一种传统的音频nr技术是被称为频谱减法的方法,该方法通过将作为去除对象的、音频的频率分量减去与各个频率分量的增益相对应的量来将去除对象声音去除。作为nr技术的基本技术,频谱减法是众所周知的。

一种通过应用这种技术而开发的nr技术是噪声学习nr。噪声学习nr通过使用自相关或自适应滤波器来自动学习背景声音或持续发生的音频的频率区域和减量(subtractionamount),并且去除其频率分量。

例如,日本特开2009-49885号公报中讨论的技术,通过使用自相关函数来计算输入声音中包含的频率特性,并且确定输入声音是音频(语音)还是周围噪声。然后,日本特开2009-49885号公报中讨论的技术计算周围噪声的平均值作为平均噪声,并且从输入声音中减去平均噪声,从而去除周围噪声分量。

根据日本特开2009-49885号公报中讨论的技术,从输入声音的频率特性的计算至周围噪声分量的去除的速度(即,噪声学习速度)是恒定的,而与周围噪声无关。然而,周围噪声可能依据一天的时间段等而改变。因此,采用日本特开2009-49885号公报中讨论的技术,无法在周围噪声(噪声环境)的水平依据一天的时间段而改变的环境下实现周围噪声的精确去除。



技术实现要素:

在本发明中,即使在从音频中去除噪声时噪声环境改变,音频处理装置也能够精确地实施噪声去除。

根据本发明的一方面,一种音频处理装置包括:噪声分量提取单元,其被构造为进行,用于从由与摄像装置相对应的声音拾取装置拾取的声音数据中提取噪声分量的噪声分量提取处理;去除单元,其被构造为从声音数据中去除噪声分量;以及检测单元,其被构造为从由摄像装置拍摄的图像中检测摄像对象的状况,其中,噪声分量提取单元进行,用于使噪声分量提取处理适应由声音拾取装置拾取的声音数据的学习处理,并且其中,噪声分量提取单元根据由检测单元检测到的摄像对象的状况,改变在学习处理中使噪声分量提取处理适应声音数据的速度。

通过以下参照附图对示例性实施例的描述,本发明的其他特征将变得清楚。

附图说明

图1是根据第一实施例的异常监视系统的功能框图。

图2是根据第一实施例的在交通现场的背景噪声的音频波形图。

图3是例示根据第一实施例的用于检测交通状况的方法的图。

图4是例示由根据第一实施例的异常监视系统进行的噪声去除过程的流程图。

图5是根据第二实施例的异常监视系统的功能框图。

图6是例示根据第二实施例的各个类型的背景噪声的频谱的频谱图。

图7是例示由根据第二实施例的异常监视系统进行的噪声去除过程的流程图。

图8(由图8a和图8b组成)是例示由根据第三实施例的异常监视系统进行的噪声去除过程的流程图。

图9是例示异常监视系统的硬件构造的框图。

具体实施例

在以下描述中,将参照附图详细描述实施例。下面将描述的实施例仅仅是作为如何实现它们的一个示例,并且将依据应用信息的装置的构造和各种条件而任意地变型或改变。因此,所公开的信息绝不限于以下实施例。

当噪声学习速度恒定而无关周围噪声时,在周围噪声(噪声环境)的水平依据一天的时间段等而改变的环境下,无法精确地去除周围噪声。例如,在噪声环境频繁改变的一天的时间段期间,噪声学习可能在一些情况下不能跟随噪声环境的改变,从而导致不能完全去除噪声,除非加快学习速度。另一方面,在噪声环境不改变这么多的一天的时间段期间,不必须加快学习速度。例如,减慢学习速度能够降低除了背景噪声以外的必要的音频可能被无意地学习和去除的可能性。在实施例中,将鉴于这一点来描述能够以高精度实施噪声去除的噪声去除装置。此外,还将描述包括这种噪声去除装置的监视系统。

换句话说,能够以以下方式来定义各个实施例中的学习速度。具体而言,学习速度意指用于从由声音拾取装置拾取的声音数据中提取噪声分量的自适应滤波器的滤波器系数适应当前声音数据的速度。此外,用于学习噪声的处理也可以被称为噪声剖析(noiseprofiling)。

<异常监视系统的概述>

将参照图1至图4描述包括根据第一实施例的噪声去除装置的异常监视系统。噪声去除装置是通过噪声去除来处理音频的装置,因此能够被称为音频处理装置。

首先,将参照图1中所示的异常监视系统100的框图(功能构造图),来描述异常监视系统100的功能构造。

根据本实施例的异常监视系统100是监视在摄像现场(预定摄像范围)的交通状况的异常(交通异常)的系统。异常监视系统100连接到外部的监控监视器装置50。如果在摄像现场发生了碰撞声、玻璃破碎声或爆炸声等,则异常监视系统100检测这种冲击声音等作为异常声音(特定声音),并且向监控监视器装置50发出事件通知(向监控监视器装置50通知异常声音的发生)。在各个实施例中,假设噪声是除作为检测对象的声音(在各个实施例中为异常声音)以外的背景声音。在以下描述中,背景声音也可以被称为背景噪声。

异常监视系统100是监视可能发生背景噪声的交通状况的系统,因此包括用于去除持续发生的背景噪声的机构(噪声去除功能或噪声去除装置)以允许以更高的精度来检测异常声音。

异常监视系统100包括音频输入装置1、视频输入装置2、通信单元3以及信息处理单元4。异常监视系统100经由通信单元3连接到监控监视器装置50。音频输入装置1获取摄像现场的音频,并且将该音频输入到信息处理单元4。音频输入装置1例如是诸如麦克风等的声音拾取装置。视频输入装置2例如是能够拍摄(摄像)运动图像的照相机装置。视频输入装置2对预定摄像范围进行摄像,并且生成视频数据。能够从视频数据获取摄像范围的状况(在本实施例中为交通状况)。音频输入装置1是与拍摄视频数据的摄像装置相对应的声音拾取装置。该声音拾取装置不一定必须配设在摄像装置内部,并且可以配设在摄像装置外部。此外,声音拾取装置不一定必须是仅拾取在朝向由摄像装置摄像的摄像范围的方向上的声音的装置。例如,声音拾取装置可以是通过使用具有宽方向性的麦克风来拾取摄像装置周围(包括朝向摄像范围的方向)的声音的装置。所公开的信息还能够应用到这样的用途:系统从由声音拾取装置拾取的声音中检测诸如尖叫声等的异常声音,并且使摄像装置指向该异常声音。

信息处理单元4包括视频信息处理单元5、音频信息处理单元6、异常声音检测处理单元7、计时器单元8以及事件通知单元9。由视频信息处理单元5和音频信息处理单元6实施噪声去除功能,由此包括在根据本实施例的异常监视系统100中的噪声去除装置包括视频信息处理单元5和音频信息处理单元6。

视频信息处理单元5接收视频输入装置2的输出信号(来自视频输入装置2的输入视频图像)和计时器单元8的输出信号,对输入视频图像进行视频处理,并且将处理后的信号(视频图像)发送到音频信息处理单元6。

音频信息处理单元6接收音频输入装置1的输出信号(来自音频输入装置1的输入音频)和视频信息处理单元5的输出信号,并且对输入音频实施噪声去除处理。经受噪声去除的音频(音频信息处理单元6的输出信号)被发送到异常声音检测处理单元7。

异常声音检测处理单元7接收音频信息处理单元6的输出信号,并且检测和处理异常声音。由该处理生成的信号被发送到事件通知单元9。

计时器单元8确定视频信息处理单元5检测视频图像的频率,并且向视频信息处理单元5通知检测到的频率。

事件通知单元9接收异常声音检测处理单元7的输出信号,生成通知事件,并且将该通知事件发送到通信单元3。通信单元3将从事件通知单元9接收的通知事件发送到监控监视器装置50。

监控监视器装置50包括显示单元、报警发出单元等。监控监视器装置50在从通信单元3接收到通知事件时,通过使用字符和图像在显示单元上显示异常声音的检测。此时,监控监视器装置50可以发出警报声音。<视频信息处理单元>

视频信息处理单元5包括视频输入单元10和交通状况检测单元11。视频输入单元10接收从视频输入装置2供给的输入视频图像,并且保持接收到的输入视频图像。交通状况检测单元11从视频输入单元10接收该输入视频图像,并且从该输入视频图像检测当前交通状况。更具体地,交通状况检测单元11基于从视频输入单元10输入的视频图像,检测在视频输入装置2的视频图像中显示的汽车(车辆)的数量、各个汽车通过的速度以及每单位时间汽车通过的频率。然后,交通状况检测单元11根据汽车的数量、各个汽车通过的速度以及汽车通过的频率的组合来确定(检测)交通状况,并且将该交通状况输出到音频信息处理单元6(更具体地,输出到下面将描述的学习速度确定单元12)。

采用使用模板匹配等的对象检测方法来从视频输入装置2的视频图像中检测汽车。能够通过该对象检测方法来检测(获取)视频图像中的汽车的数量。此外,采用使用所谓的通过检测等的检测方法作为用于获取各个汽车通过的速度和汽车通过的频率的方法。模板匹配和经过检测是已知的技术,因此这里将省略其详细描述。

<背景噪声>

图2例示了在摄像现场的背景噪声的音频波形图(音频波形p10)的示例。图2中的纵轴和横轴分别表示振幅(其单位为db(分贝))和时间(其单位为小时)。音频波形p10表示在24小时期间背景噪声如何改变。在本实施例中,音频波形p10被分割成7个段p1至p7。段p1表示从0:00至2:30的时间段期间的背景噪声。段p2表示从2:30至5:30的时间段期间的背景噪声。段p3表示从5:30至8:30的时间段期间的背景噪声。段p4表示从8:30至10:30的时间段期间的背景噪声。段p5表示从10:30至14:30的时间段期间的背景噪声。段p6表示从14:30至20:30的时间段期间的背景噪声。段p7表示从20:30至24:00的时间段期间的背景噪声。

如图2中所示,摄像现场的背景噪声由于例如在该现场的交通量的改变,依据一天的时间段,可能如同在段p4中大幅改变,并且可能如同在段p2中几乎不改变。换句话说,背景噪声在摄像现场如何改变依据一天的时间段而不同。

<交通状况的检测>

图3例示了对车辆频繁通过的道路进行摄像的示例,作为交通状况检测的示例。该道路是针对各个方向具有一条车道的道路。视频图像q10是从视频信息处理单元5的视频输入单元10输入到交通状况检测单元11的视频图像。通过线q5设置在视频图像q10中与道路相交的方向上。然后,交通状况检测单元11通过从视频图像q10中分别检测如同截面视频图像q2和截面视频图像q4的汽车q1和汽车q3,并对其数量进行计数,来检测汽车的数量。中心线q6设置在道路上。汽车q1是从图3中的左侧向右侧行驶的汽车,而汽车q3是从右侧向左侧行驶的汽车。车行道和人行道由线q7和q8彼此分开。通过线q5是在视频输入装置2的照相机画面上的预设线。

当汽车(即,汽车q1和q3)的截面视频图像q2和q4通过通过线q5时,交通状况检测单元11测量汽车q1和q3中的各个通过的速度,并且使通过汽车的数量递增作为汽车的通过检测。

图3例示了表示在某个时间t的交通状况的视频图像q10。在实践中,视频图像q10是运动图像,并且在视频图像q10中行驶的截面视频图像q2和q4随着时间推移而从视频图像q10消失,并且在此之后不同的汽车开始出现在(进入)视频图像q10中。如果在这样的运动图像(视频图像q10)中,摄像现场保持处于5辆或更多辆汽车以20km/h或更低的通过速度行驶15分钟或更长时间的状态,则交通状况检测单元11确定交通状况处于交通堵塞中,并输出检测结果“交通堵塞中”。在本实施例中,即使在仅在一个车道上存在交通堵塞时,交通状况检测单元11也确定交通状况处于交通堵塞中(输出检测结果“交通堵塞中”)。

如果在未归类为“交通堵塞中”的状态下每15分钟通过的汽车的数量为125辆或更多,则交通状况检测单元11确定该交通状况是具有高交通量的状态,并且输出检测结果“高交通量”。在其他情况下,交通状况检测单元11确定交通状况正常,并且输出检测结果“正常”。由交通状况检测单元11输出的检测结果(交通状况的检测结果)被发送到学习速度确定单元12。

学习速度确定单元12基于从交通状况检测单元11接收的交通状况的检测结果来识别视频图像中的汽车的交通状况的改变,并且确定(设置)最佳噪声学习速度。在本实施例中,学习速度确定单元12将3个速度“高”、“中”和“低”中的一个设置为最佳噪声学习速度。换句话说,学习速度确定单元12基于从交通状况检测单元11接收的交通状况的检测结果,选择(设置)3个级别的学习速度“高”、“中”和“低”中的一个。级别“高”是高速的缩写,“中”是中速的缩写,“低”是低速的缩写。在本实施例中,假设“中”被设置为学习速度的初始设置。

如果交通状况改变,则学习速度确定单元12确定周围噪声环境大幅改变,并且将学习速度设置为“高”(将学习速度从“中”改变为“高”)。学习速度确定单元12以这种方式设置学习速度,以通过提升学习速度允许学习速度跟随噪声环境的改变。

如果在学习速度被设置为“高”的情况下交通状况针对预定时间段没有改变,则学习速度确定单元12确定噪声环境的改变消退,并且将学习速度降低到“中”(将学习速度设置回初始设置)以防止过度的噪声学习。

如果在学习速度被设置为“中”的情况下交通状况针对预定时间段没有改变,则学习速度确定单元12确定摄像现场处于噪声环境几乎不改变的静止状态,并且将学习速度降低到“低”。学习速度确定单元12以这种方式设置学习速度,以尽可能地防止除噪声以外的音频被学习。

可以配设噪声学习执行/不执行确定单元,代替将噪声学习速度设置为3个级别(高速、中速和低速)中的任一个的学习速度确定单元12。噪声学习执行/不执行确定单元根据交通状况的改变仅确定(改变)是否实施噪声学习。

<音频信息处理单元>

如图1中所示,音频信息处理单元6包括学习速度确定单元12、音频输入单元13、音频分支单元14、噪声去除单元15以及噪声学习单元16。

学习速度确定单元12基于从交通状况检测单元11输入的交通状况来确定噪声学习速度。

音频输入单元13接收音频输入装置1的输出信号。换句话说,音频输入单元13从音频输入装置1接收音频数据。音频输入单元13的输出信号被发送到音频分支单元14。

音频分支单元14将从音频输入单元13输入的音频数据分割成完全相同的两个音频数据。在两个音频数据之间,在增益和特性方面没有差异,并且也没有劣化。音频分支单元14将两个音频数据中的一个发送到噪声学习单元16,并且将两个音频数据中的另一个发送到噪声去除单元15。

噪声去除单元15从音频分支单元14输入的音频数据中去除从噪声学习单元16输入的噪声分量。更具体地,噪声去除单元15通过使用从噪声学习单元16接收的频率分量和减量,对从音频分支单元14接收的音频数据进行噪声去除处理。在本实施例中,噪声去除单元15采用频谱减法方法作为用于噪声去除的算法。在噪声去除中采用的频谱减法方法是已知技术,因此这里将省略其详细描述。噪声去除单元15将经受噪声去除的音频数据发送到异常声音检测处理单元7。

噪声学习单元16通过对音频实施噪声学习来推导噪声分量。更具体地,噪声学习单元16根据从音频分支单元14接收的音频数据将背景噪声和持续发生的声音定义为噪声,学习其分量(噪声分量),并且生成(推导)噪声去除时的频率分量和减量。噪声学习单元16将噪声去除时的频率分量和减量发送到噪声去除单元15。

当根据本实施例的噪声学习单元16进行噪声学习处理时,首先,噪声学习单元16分析音频中的频率分量。噪声学习单元16缓冲从音频分支单元14输入的音频数据,在按每5秒依次分割音频数据的同时实施离散傅立叶变换,并且计算在该分割的音频中包含的频率分量和增益(频谱)。

接下来,噪声学习单元16学习持续发生的音频的频率分量。噪声学习单元16通过针对计算出的各频率中的各个设置自适应滤波器,针对它们中的各个依次输入增益值以逐渐达到收敛,并且计算持续发生的音频的频率分量的增益值,从而确定噪声去除时的频率分量和减量。

此时,基于从学习速度确定单元12供给的表示噪声学习速度的信息(高速、中速或低速),来确定增益值的收敛速度。

为了更详细地描述,改变学习速度意味着例如改变各个自适应滤波器的系数的值以改变收敛速度。

在本实施例中,针对频谱中的各个频率设置自适应滤波器,从而能够针对各个频率设置学习速度。

例如,利用设置为windowsize=256的窗口大小进行快速傅立叶变换(fft)处理,引导设置128个自适应滤波器。

例如,如果100赫兹(hz)的声音被以50db连续输入,并且被控制为在10秒内收敛到1db,则首先以输入声音减小到1/5的方式来设置自适应滤波器的增益,然后逐渐收敛以使输入声音在10秒后减小到1/50。在此之后,例如,当输入声音消失(减小到0db)时,增益从使输入声音减小到1/50的增益逐渐收敛到不衰减输入声音的增益。

通过使用该自适应滤波器的输出结果减去对应频率(在本示例中为100hz)的值,从而采用如同本实施例的学习型噪声去除处理,结果是100hz的声音逐渐消逝,并且通过从中减去与50db相对应的声音而在10秒后最终变得听不见。以这种方式,改变收敛速度(适应自适应滤波器的速度)使速度加速或减慢,直到噪声被去除并变得听不见为止。自适应滤波器是已知的技术,因此这里将省略其进一步的描述。

当噪声去除单元15将经受噪声去除的音频数据发送到异常声音检测处理单元7时,异常声音检测处理单元7分析该音频数据,并且检测(确定)在该音频数据中是否存在诸如碰撞声、玻璃碎裂声以及爆炸声等的异常声音。如果检测到异常声音,则异常声音检测处理单元7向事件通知单元9通知检测到异常声音(确定结果)(发出表示检测到异常声音的通知)。

图1中所示的各个功能块被作为计算机程序存储在下面将要描述的存储单元中(诸如只读存储器(rom)104(图9)),并且由中央处理单元(cpu)102(图9)执行。图1中所示的功能块的至少一部分可以由硬件来实现。在图1中所示的功能块的一部分由硬件来实现的情况下,这能够通过例如使用预定的编译器从而根据用于实现各个步骤的程序在现场可编程门阵列(fpga)上自动生成专用电路来实现。作为选择,可以以这样的方式来构造本实施例:通过以与fpga类似的方式形成门阵列电路,来将图1中所示的功能块的一部分实现为硬件。作为选择,可以以这样的方式来构造本实施例:通过专用集成电路(asic)来实现图1中所示的功能块的一部分。

<用于确定噪声学习速度的处理和噪声去除处理>

接下来,将参照图4中所示的流程图来描述由图1中所示的异常监视系统100进行的噪声去除处理的过程。异常监视系统100中包括的cpu102执行存储在rom104等中的程序,由此来处理图4中所示的流程图。

在本实施例中,基于从视频输入装置2输入的视频图像来确定当前交通状况,并且根据该确定(即,根据当前交通状况)针对从音频输入装置1输入的音频数据改变噪声学习速度(学习处理的学习速度)。当音频数据从音频输入装置1被输入到音频信息处理单元6时,开始图4中所示的流程图。

当异常监视系统100启动时,音频数据从音频输入装置1被输入到音频信息处理单元6。然后,在步骤s1中,异常监视系统100进行初始化处理。更具体地,学习速度确定单元12将要从学习速度确定单元12输出的噪声学习速度设置为“中”作为其初始设置。

在步骤s2中,视频输入单元10保持(存储)从视频输入装置2输入的视频信息(视频数据)。

在步骤s3中,交通状况检测单元11分析从视频输入单元10输入的视频信息,并且获取视频图像中的汽车的数量、各个汽车通过的速度以及汽车通过的频率,从而检测交通状况。

在步骤s4中,学习速度确定单元12基于来自交通状况检测单元11的检测结果(交通状况)确定交通状况的改变。

例如,如果存在交通状况的改变,例如从“正常”到“交通堵塞中”的改变以及从“高交通量”到“正常”的改变,则学习速度确定单元12确定交通状况改变(在步骤s4中为“是”),并且处理进行到步骤s8。如果学习速度确定单元12在步骤s4中确定交通状况没有改变(在步骤s4中为“否”),则处理进行到步骤s5。

在步骤s5中,学习速度确定单元12确定学习速度的当前设置是否为“高”。如果学习速度的当前设置为“高”(在步骤s5中为“是”),则处理进行到步骤s6。如果学习速度的当前设置是除此以外的设置(在步骤s5中为“否”),则处理进行到步骤s7。

在步骤s6中,学习速度确定单元12确定在异常监视系统100保持处于以设置为“高”的学习速度实施背景噪声的学习的状态的情况下是否经过了预定时间段。如果经过了预定时间段(在步骤s6中为“是”),则处理进行到步骤s9。如果尚未经过预定时间段(在步骤s6中为“否”),则处理进行到步骤s8。在处理从步骤s6进行到步骤s9的情况下(在步骤s6中为“是”),在本实施例中,如果上述的交通状况针对预定时间段没有改变,则将上述学习速度从“高”降低到“中”。

在步骤s7中,学习速度确定单元12确定摄像现场是否保持处于交通状况针对预定时间段没有改变的状态。如果摄像现场保持处于交通状况针对预定时间段没有改变的状态(在步骤s7中为“是”),则处理进行到步骤s10。如果摄像现场不保持处于交通状况针对预定时间段没有改变的状态(在步骤s7中为“否”),则处理进行到步骤s9。在处理从步骤s7进行到步骤s10的情况下(在步骤s7中为“是”),在本实施例中,如果上述的交通状况针对预定时间段没有改变,则将上述学习速度从“中”降低到“低”。如果交通状况针对预定时间段没有改变,则学习速度的这种改变可以说是减慢当前学习速度的改变。

在步骤s8中,学习速度确定单元12将噪声学习速度设置为“高”(将噪声学习速度从“中”改变为“高”)。换句话说,在本实施例中,如果交通状况改变,则提升学习速度。

在步骤s9中,学习速度确定单元12将噪声学习速度设置为“中”。

在步骤s10中,学习速度确定单元12将噪声学习速度设置为“低”。在步骤s8、s9或s10之后,处理进行到步骤s11。

在步骤s11中,计时器单元8设置交通状况检测单元11下一次检测交通状况的定时(即,超时时段)。超时时段例如是100毫秒。

在步骤s12中,音频分支单元14将从音频输入单元13输入的音频数据分割成完全相同的两个音频数据。这两个音频数据是在增益和特性方面没有差异并且没有劣化的音频数据。然后,音频分支单元14将音频数据中的一个发送到噪声学习单元16,并且将音频数据中的另一个发送到噪声去除单元15。

在步骤s13中,噪声学习单元16对从音频分支单元14输入的音频数据进行噪声学习处理。通过噪声学习处理,噪声学习单元16确定(获取)噪声的频率分量和减量。

在步骤s14中,噪声去除单元15基于从噪声学习单元16输入的噪声的频率分量和减量,对从音频分支单元14输入的音频数据进行噪声去除处理。然后,噪声去除单元15将噪声去除后的音频数据(从中去除了噪声分量之后的音频数据)发送到异常声音检测处理单元7。

在步骤s15中,异常声音检测处理单元7确定(检测)在从噪声去除单元15输入的音频数据(从中去除了噪声分量之后的音频数据)中是否包含异常声音数据。如果异常声音检测处理单元7在该音频数据中检测到异常声音,则异常声音检测处理单元7向事件通知单元9通知检测到异常声音。事件通知单元9经由通信单元3向监控监视器装置50发出(发送)表示异常声音的检测的通知(异常声音的发生)。换句话说,如果确定在从中去除了噪声分量之后的音频数据中包含异常声音,则事件通知单元9将该确定结果发送到作为监视装置的监控监视器装置50。

在步骤s16中,异常监视系统100确定音频是否被输入到音频输入单元13。如果音频被输入(在步骤s16中为“是”),则处理进行到步骤s11。如果音频没有被输入(在步骤s16中为“否”),则处理进行到步骤s17。

在步骤s17中,异常监视系统100确定未例示的异常监视系统on/off开关是否被操作为断开。如果该开关被操作为断开(在步骤s17中为“是”),则停止从音频输入装置1到音频输入单元13的音频的输入,并且结束图4中所示的流程图。如果开关没有被操作为断开(在步骤s17中为“否”),则处理进行到步骤s18。

在步骤s18中,异常监视系统100确定计时器单元8是否表示超时(是否经过了超时时段)。如果计时器单元8表示超时(在步骤s18中为“是”),则处理进行到步骤s2。如果计时器单元8没有表示超时(在步骤s18中为“否”),则处理进行到步骤s16。

通过该处理,异常监视系统100中包括的噪声去除装置能够根据从视频数据获取的交通状况(关于摄像现场车拥堵的状况),实施背景噪声的最佳学习(学习处理)。特别地,在本实施例中,如果交通状况改变,则噪声去除装置将整个噪声学习(学习处理)的学习速度从“中”改变为“高”。如果交通状况改变,则噪声去除装置提升学习速度,从而允许学习速度跟随噪声环境的改变。因此,根据本实施例的噪声去除装置,能够以提高的精度实施噪声去除,允许正确地检测异常声音。此外,包括这种噪声去除装置的异常监视系统100能够正确地监视异常。

根据本实施例的异常监视系统100还能够用于以下用途。

例如,监视室外交通中的异常声音的异常监视系统可以从照相机(摄像装置)的视频图像确定当前天气状况,并且根据天气状况的改变来改变噪声学习速度和/或确定(改变)是否实施噪声学习(噪声学习的执行或省略)。换句话说,例如当学习速度改变时使用的摄像范围中的状况可以是从照相机的视频数据获取的天气状况(诸如关于风、温度、云量、水分、压力等的大气的状态)。

作为选择,监视商店中的异常声音的异常监视系统可以确定从视频数据获取的、关于商店拥挤着人的程度的状况,并且根据关于商店拥挤着人的程度的状况的改变来改变噪声学习速度和/或确定是否实施噪声学习。换句话说,例如当学习速度改变时使用的摄像范围中的状况可以是从照相机的视频数据获取的、关于商店包含人的程度或度的状况。

在本实施例中,假设异常监视系统100包括音频输入装置1、视频输入装置2和监控监视器装置50,但是可以以这样的方式来构造:音频输入装置1、视频输入装置2和监控监视器装置50不包括在异常监视系统100的部件中。

此外,在上述实施例中,学习速度被设置为“中”作为步骤s1中的初始设置,但是学习速度可以被设置为除“中”以外的速度作为初始设置。

在第一实施例中,如果交通状况改变,则整个噪声学习(学习处理)的学习速度从“中”改变为“高”。实施例不限于这样的实施例。例如,可以根据背景噪声中包含的频率分量来改变如何改变学习速度。将描述这种实施例,作为第二实施例。

将参照图5至图7描述根据第二实施例的异常监视系统。根据第二实施例的异常监视系统100b是通过关注如下事实而构造的实施例:在交通现场的背景噪声中包含的频率分量依据交通状况而不同。在第二实施例中,基于噪声中包含的频率分量来实施根据交通状况的最佳噪声学习(学习处理)。

图5例示了异常监视系统100b的功能块的构造图。

类似于根据第一实施例的异常监视系统100,根据第二实施例的异常监视系统100b是监视摄像现场的交通状况的异常的系统。如果在摄像现场发生了碰撞声等,则异常监视系统100b将该声音检测为异常声音,并且向监控监视器装置50发出事件通知。如图5中所示,异常监视系统100b包括噪声学习单元16b,代替根据第一实施例的噪声学习单元16。噪声学习单元16b的功能与噪声学习单元16的功能不同。此外,异常监视系统100b包括学习模式确定单元12b,代替根据第一实施例的学习速度确定单元12。第二实施例在其他功能构造方面类似于第一实施例。在以下描述中,将集中在与第一实施例的不同之处来描述第二实施例。

图6例示了各个类型的背景噪声的频谱。图6中所示的曲线图中的纵轴和横轴分别代表增益(频谱)(其单位为db)和频率(其单位为hz)。如频谱图r10中所表示的,交通现场的背景噪声包含依据其交通状况而不同的频率分量。换句话说,背景噪声的波形依据交通状况而不同。因此,应当根据交通状况以最佳方式进行噪声学习。在本实施例中,假设背景噪声是发动机声r1、通过声r2和环境声r3中的任一者。换句话说,假设背景噪声的波形是3种类型的波形(r1、r2和r3)中的任一种。发动机声r1是在交通堵塞期间大量发生的背景噪声。通过声r2是当交通量高时发生的背景噪声。环境声r3是正常时间的背景噪声。

与环境声r3相比,发动机声r1包含大量的约50至75hz的低频(由图6中的r4表示),并且通过声r2包含大量的约150至175hz的频率(由图6中的r5表示)。

异常监视系统100b的学习模式确定单元12b基于从交通状况检测单元11接收的视频图像中的汽车的交通状况(道路的拥堵状况),来设置(选择)最佳的噪声学习模式。在本实施例中,学习模式确定单元12b在交通状况为“正常”的情况下,将学习模式设置为“正常学习”,在交通状况为“交通堵塞中”的情况下,将学习模式设置为“交通堵塞声学习”。此外,如果交通状况是“高交通量”,则学习模式确定单元12b将学习模式设置为“通过声学习”。学习模式确定单元12b将所设置的噪声学习模式发送到噪声学习单元16b。

噪声学习单元16b根据从音频分支单元14接收的音频数据将背景噪声和持续发生的声音定义为噪声,学习其分量,并且生成噪声去除时的频率分量和减量。噪声学习单元16b将噪声去除时的频率分量和减量发送到噪声去除单元15。

由噪声学习单元16b采用的噪声学习方法类似于根据第一实施例的噪声学习单元16的噪声学习方法。此外,根据第二实施例的用于学习持续发生的音频的频率分量的方法也类似于第一实施例的方法。与第一实施例的不同之处在于:根据第二实施例的噪声学习单元16b基于从学习模式确定单元12b给出的学习模式来确定针对各个频率的增益值的收敛速度。

如果学习模式是“正常学习”,则学习模式确定单元12b针对所有频率设置收敛速度,以便以正常速度收敛。此外,如果学习模式是“正常学习”,则学习模式确定单元12b设置相同的收敛速度作为针对各个频率的收敛速度。如果学习模式是“交通堵塞声学习”,则由于如由图6中的r4所表示的,背景噪声包含大量的约50至约75hz的频率,所以学习模式确定单元12b将针对该频带的自适应滤波器的增益的收敛速度设置为比正常速度高的速度。换句话说,在本实施例中,噪声去除装置不改变整个噪声学习的学习速度,而是仅改变噪声学习的一部分的学习速度。更具体地,噪声去除装置基于噪声分量的频率来改变学习处理的学习速度。

另一方面,如果学习模式是“通过声学习”,则由于如由图6中的r5所表示的,背景噪声包含大量的约150至约175hz的频率,所以学习模式确定单元12b将针对该频带的自适应滤波器的增益的收敛速度设置为高速。

以这种方式,在第二实施例中,针对特定频带的自适应滤波器的收敛速度根据学习模式而改变。

第二实施例不仅可以包括改变针对特定频带的自适应滤波器的收敛速度,还可以包括使针对不包含大噪声或通过声的噪声分量的频带的收敛无效。

接下来,将参照图7中所示的流程图来描述由图5中所示的异常监视系统100b进行的噪声去除处理。在本实施例中,基于从视频输入装置2输入的视频图像来确定当前交通状况,并且根据该确定来针对各个频率改变噪声学习速度。当音频数据从音频输入装置1被输入到音频信息处理单元6时,开始图7中所示的流程图。

当异常监视系统100b启动时,音频数据从音频输入装置1输入到音频信息处理单元6。然后,在步骤s21中,异常监视系统100b进行初始化处理。更具体地,学习模式确定单元12b将要从学习模式确定单元12b输出的学习模式设置为“正常学习”作为其初始设置。

步骤s22类似于根据第一实施例的步骤s2。此外,步骤s23也类似于根据第一实施例的步骤s3。

在步骤s24中,学习模式确定单元12b基于来自交通状况检测单元11的检测结果(交通状况),确定交通状况是否是“交通堵塞中”。如果学习模式确定单元12b确定交通状况是“交通堵塞中”(在步骤s24中为“是”),则处理进行到步骤s26。如果不是(在步骤s24中为“否”),则处理进行到步骤s25。

在步骤s25中,学习模式确定单元12b确定由交通状况检测单元11检测到的交通状况是否是“高交通量”。如果检测到的交通状况是“高交通量”(在步骤s25中为“是”),则处理进行到步骤s27。如果不是(在步骤s25中为“否”),则处理进行到步骤s28。

在步骤s26中,学习模式确定单元12b将噪声学习模式设置为“交通堵塞声学习”。换句话说,在本实施例中,如果交通状况是“交通堵塞中”(在步骤s24中为“是”),则将学习模式从作为初始设置的“正常学习”改变为“交通堵塞声学习”。

在步骤s27中,学习模式确定单元12b将噪声学习模式设置为“通过声学习”。换句话说,在本实施例中,如果交通状况是“高交通量”(在步骤s25中为“是”),则将学习模式从作为初始设置的“正常学习”改变为“通过声学习”。

在步骤s28中,学习模式确定单元12b将噪声学习模式设置为“正常学习”。在步骤s26、s27或s28之后,处理进行到步骤s29。

步骤s29至s36分别类似于根据第一实施例的步骤s11至s18(图4)。

通过该处理,根据第二实施例的异常监视系统100b能够根据交通状况来实施背景噪声的最佳学习,从而提高噪声去除的精度,允许正确地检测异常声音。特别地,在第二实施例中,基于噪声分量的频率来改变学习速度,由此能够精巧地实施噪声去除。

此外,根据本实施例的异常监视系统100b能够用于以下用途。

例如,监视室外交通中的异常声音的异常监视系统可以从照相机的视频图像确定当前天气状况,并且根据天气状况来针对各个频率改变噪声学习速度和/或确定(改变)是否实施学习。

作为选择,监视商店中的异常声音的异常监视系统可以确定从视频数据获取的、关于商店拥挤着人的程度的状况,并且根据关于商店拥挤着人的程度的状况(其中的改变)来针对各个频率改变噪声学习速度和/或确定是否实施学习。

在第二实施例中,关注背景噪声中包含的频率分量,根据交通状况来选择(改变)噪声学习模式。本实施例不限于这样的实施例。例如,可以选择(改变)学习模式,以便在周围噪声环境大幅改变的情况下,允许学习速度跟随噪声环境的改变。将描述这种实施例,作为第三实施例。

将参照图5、图6和图8来描述根据第三实施例的异常监视系统。根据第三实施例的异常监视系统的功能构造图类似于第二实施例(图5)的功能构造图。然而,根据第三实施例的噪声学习单元16b和学习模式确定单元12b的各功能与第二实施例的不同。此外,假设准备5个模式作为可选择(可设置)的学习模式。更具体地,在第三实施例中可设置的学习模式是“交通堵塞声学习”、“通过声学习”、“正常学习”、“高”以及“不学习”。

如果学习模式是“高”,则学习模式确定单元12b将所有频率的收敛速度设置为高速。如果学习模式是“不学习”,则学习模式确定单元12b设置学习模式以避免实施噪声学习。如果学习模式是“交通堵塞声学习”、“通过声学习”或“正常学习”,则噪声学习单元16b实施具有与在第二实施例的描述中描述的“交通堵塞声学习”、“通过声学习”和“正常学习”相同的内容的学习。在以下描述中,将集中在与第二实施例的不同之处来描述第三实施例。

根据第三实施例的学习模式确定单元12b基于从交通状况检测单元11接收的视频图像中的汽车的交通状况的改变,来设置(选择)最佳噪声学习模式。更具体地,学习模式确定单元12b在交通状况改变为“正常”的情况下,将学习模式设置为“高”,并且在交通状况改变为“交通堵塞中”的情况下,将学习模式设置为“交通堵塞声学习”。另一方面,如果交通状况改变为“高交通量”,则学习模式确定单元12b将学习模式设置为“通过声学习”。由于以下原因,以这种方式来改变设置。如果在设置了学习模式之后交通状况改变,则本实施例被构造为确定(假设)周围噪声环境大幅改变,并且设置学习模式以便允许学习速度跟随噪声环境的改变。交通状况的改变例如是从“高交通量”到“正常”的改变,或从“正常”到“交通堵塞中”的改变。

在本实施例中,如果在学习模式设置为“高”、“交通堵塞声学习”或“通过声学习”的情况下交通状况针对预定时间段没有改变,则确定噪声环境的改变消退,并且学习模式确定单元12b将学习模式设置回“正常学习”以防止过度的噪声学习。

此外,如果在学习模式设置为“正常学习”的情况下交通状况针对预定时间段没有改变,则确定摄像现场处于噪声环境几乎不改变的静止状态,并且学习模式确定单元12b将学习模式设置为“不学习”,以便防止除噪声以外的音频被无意地学习。

噪声学习单元16b根据音频分支单元14接收的音频数据将背景噪声和持续发生的声音定义为噪声,学习其分量,并且生成噪声去除时的频率分量和减量。噪声学习单元16将噪声去除时的频率分量和减量发送到噪声去除单元15。

噪声学习方法类似于第二实施例的噪声学习方法。用于学习持续发生的音频的频率分量的方法也类似于第二实施例的方法。然后,类似于第二实施例,基于从学习模式确定单元12b给出的学习模式,针对各个频率确定增益值的收敛速度。

接下来,将参照图8(由图8a和图8b组成)中所示的流程图来描述由根据本实施例的异常监视系统进行的噪声去除过程。在本实施例中,基于从视频输入装置2输入的视频图像来确定当前交通状况,并且根据该确定来实施最佳噪声学习。当音频数据从音频输入装置1被输入到音频信息处理单元6时,开始图8中所示的流程图。

步骤s41至s43分别类似于根据第二实施例的步骤s21至s23。

在步骤s44中,学习模式确定单元12b基于来自交通状况检测单元11的检测结果(交通状况)来确定交通状况是否改变。例如,如果交通状况从“正常”改变为“交通堵塞中”,或者从“高交通量”改变为“正常”,则学习模式确定单元12b确定交通状况改变(在步骤s44中为“是”),然后处理进行到步骤s47。如果学习模式确定单元12b确定交通状况没有改变(在步骤s44中为“否”),则处理进行到步骤s45。

在步骤s45中,学习模式确定单元12b确定学习模式的当前设置是否是“正常学习”或“不学习”。如果学习模式确定单元12b确定学习模式的当前设置是“正常学习”或“不学习”(在步骤s45中为“是”),则处理进行到步骤s49。如果学习模式确定单元12b确定学习模式的当前设置是除此以外的设置(在步骤s45中为“否”),则处理进行到步骤s46。

在步骤s46中,学习模式确定单元12b确定异常监视系统是否保持处于针对预定时间段实施背景噪声的学习的状态(在维持该状态的情况下是否经过了预定时间段)。如果学习模式确定单元12b确定经过了预定时间段(在步骤s46中为“是”),则处理进行到步骤s53。如果尚未经过预定时间段(在步骤s46中为“否”),则处理进行到步骤s47。

在步骤s47中,学习模式确定单元12b基于来自交通状况检测单元11的检测结果(交通状况),确定交通状况是否是“交通堵塞中”。如果学习模式确定单元12b确定交通状况是“交通堵塞中”(在步骤s47中为“是”),则处理进行到步骤s50。如果不是(在步骤s47中为“否”),则处理进行到步骤s48。

在步骤s48中,学习模式确定单元12b基于来自交通状况检测单元11的检测结果(交通状况),确定交通状况是否是“高交通量”。如果学习模式确定单元12b确定交通状况是“高交通量”(在步骤s48中为“是”),则处理进行到步骤s51。如果不是(在步骤s48中为“否”),则处理进行到步骤s52。

在步骤s49中,学习模式确定单元12b确定摄像现场是否保持处于交通状况针对预定时间段没有改变的状态。换句话说,学习模式确定单元12b确定道路状况是否针对预定时间段没有改变。如果摄像现场保持处于道路状况针对预定时间段没有改变的状态(在步骤s49中为“是”),则处理进行到步骤s54。如果不是(在步骤s49中为“否”),则处理进行到步骤s53。

在步骤s50中,学习模式确定单元12b将噪声学习模式设置为“交通堵塞声学习”。换句话说,在本实施例中,如果交通状况改变为“交通堵塞中”(在步骤s47中为“是”),则将学习模式从作为初始设置的“正常学习”改变为“交通堵塞声学习”。

在步骤s51中,学习模式确定单元12b将噪声学习模式设置为“通过声学习”。换句话说,在本实施例中,如果交通状况改变为“高交通量”(在步骤s48中为“是”),则将学习模式从作为初始设置的“正常学习”改变为“通过声学习”。

在步骤s52中,学习模式确定单元12b将噪声学习模式设置为“高”。换句话说,在本实施例中,如果交通状况改变为除“交通堵塞中”和“高交通量”以外的状况(在步骤s47中为“否”以及在步骤s48中为“否”),则将学习模式从作为初始设置的“正常学习”改变为“高”。

在步骤s53中,学习模式确定单元12b将噪声学习模式设置为“正常学习”。

在步骤s54中,学习模式确定单元12b将要从学习模式确定单元12b输出的噪声学习模式设置为“不学习”。在步骤s50、s51、s52、s53或s54之后,处理进行到步骤s55。

步骤s55至s62分别类似于根据第二实施例的步骤s29至s36(图7)。

通过该处理,异常监视系统能够根据交通状况(道路的拥堵状况)来实施背景噪声的最佳学习,从而提高噪声去除的精度,并且允许正确地检测异常噪声。

此外,根据本实施例的异常监视系统也能够用于以下用途。

例如,监视室外交通中的异常声音的异常监视系统可以从照相机的视频图像确定当前天气状况,并且根据天气状况的改变来针对整个噪声学习或针对各个频率改变学习速度和/或确定(改变)是否实施噪声学习。

作为选择,监视商店中的异常声音的异常监视系统可以确定从视频数据获取的、关于商店拥挤着人的程度,并且根据关于商店拥挤着人的程度的状况的改变来针对整个噪声学习或针对各个频率改变学习速度和/或确定(改变)是否实施噪声学习。

<异常监视系统的硬件构造>

图9例示异常监视系统100的硬件构造的示例。如图9中所示,异常监视系统100包括摄像装置101、cpu102、随机存取存储器(ram)103、rom104、存储介质105、显示单元106、操作单元107、通信单元108、声音拾取装置109以及天线108a。

摄像装置101包括光学系统(透镜、快门和光圈)和图像传感器。光学系统在适当的定时以适当的光量在图像传感器上形成被摄体的光图像。图像传感器将经由光学系统接收的光图像转换成图像(视频图像)。摄像装置101例如是安装在道路一侧的照相机,并且对道路上的预定摄像范围进行摄像,以生成在该预定摄像范围内行驶的车辆的视频数据。摄像装置101对应于图1中所示的视频输入装置2。

cpu102根据输入信号和程序,实施各种计算并且控制异常监视系统100中包括的各个单元。更具体地,cpu102负责摄像控制、学习控制、显示控制、存储控制、通信控制等。图1中所示的功能块是由cpu102实现的功能的图示。

ram103存储临时数据,并且用于cpu102的工作。rom104存储用于执行图1中所示的各个功能单元的程序,以及各种设置信息。

存储介质105存储视频数据等。存储介质105例如是可附装/可拆卸的存储卡,并且允许在被附装到个人计算机(pc)等的同时从中读出数据。异常监视系统100包括用于访问存储介质105的单元,并且能够从存储介质105读取数据以及将数据写入存储介质105。

显示单元106例如显示用于交互操作的视频图像和字符。然而,异常监视系统100不一定必须包括显示单元106。

操作单元107被用来接收用户的操作。操作单元107包括例如按钮、杆和触摸面板。操作单元107包括异常监视系统on/off开关。

通信单元108经由无线局域网(lan)与监控监视器装置50通信(实施无线通信或有线通信)。在通信是无线通信的情况下,通信单元108使用天线108a。

声音拾取装置109是拾取外部声音的单元(例如,麦克风)。更具体地,声音拾取装置109拾取伴随由摄像装置101进行的摄像的音频。声音拾取装置109拾取在预定摄像范围中和预定摄像范围周围的声音,并且生成音频数据。所生成的音频数据被存储在存储介质105中。声音拾取装置109对应于图1中所示的音频输入装置1。

关于由异常监视系统100进行的控制,单个硬件设备可以进行它,或者在多个硬件设备之间对处理进行分割时,多个硬件设备可以用作进行异常监视系统100中的处理的单元。

异常监视系统100可以不配备有摄像装置101。在这种情况下,异常监视系统100(更具体地,视频输入单元10)从外部摄像装置接收视频图像。

此外,异常监视系统100可以不配备有通信单元108。在这种情况下,异常监视系统100(更具体地,事件通知单元9)经由例如有线连接直接连接到监控监视器装置50。

异常监视系统100可以不配备有声音拾取装置109。在这种情况下,异常监视系统100(更具体地,音频输入单元13)从外部声音拾取装置获取音频数据。

在第一实施例至第三实施例中,已经描述了包括噪声去除装置的异常监视系统,但是噪声去除装置也能够包括在其他系统中。

其他实施例

还能够通过如下的处理来实现实施例:经由网络或存储介质向系统或装置提供能够实现上述实施例的一个或更多个功能的程序,并且使该系统或装置的计算机中的一个或更多个处理器读出并执行程序。程序是计算机程序。此外,还能够通过使用能够实现一个或更多个功能的电路(例如,asic)来实现实施例。

此外,可以由噪声去除装置、对预定摄像范围进行摄像并生成视频数据的摄像装置以及拾取伴随上述视频数据的音频并生成音频数据的声音拾取装置,来形成音频处理系统。

根据上述的各实施例,即使在从音频中去除噪声时噪声环境改变,也能够精确地实施噪声去除。

其他实施例

还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如,一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如,专用集成电路(asic))的系统或装置的计算机,来实现本发明的实施例,并且,可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法,来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如,中央处理单元(cpu)、微处理单元(mpu)),并且可以包括分开的计算机或分开的处理器的网络,以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(ram)、只读存储器(rom)、分布式计算系统的存储器、光盘(诸如压缩光盘(cd)、数字通用光盘(dvd)或蓝光光盘(bd)tm)、闪存装置以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(cpu)、微处理单元(mpu)读出并执行程序的方法。

虽然参照示例性实施例对本发明进行了描述,但是应当理解,本发明不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释,以使其涵盖所有这些变型例以及等同的结构和功能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1