一种基于语音识别技术的智能视频监控方法

文档序号：2823997阅读：484来源：国知局

专利名称：一种基于语音识别技术的智能视频监控方法
技术领域：
本发明属于安防监控领域，尤其涉及了一种基于语音识别技术的智能视频监控方法。
背景技术：
自9.11事件以后，如何对国家重要安全部门和敏感的公共场合进行全天候、自动、实时的监控，已成为世界各国高度重视的一个问题。在这样的背景下，安防监控技术得到了广泛的应用和发展。在中国，安防监控行业应用市场每年保持20%左右的增长速度，日益增长的监控行业足可以体现出国家对安防监控的重视。视频监控一直被当作一种有效的监控手段而广泛应用于安防领域，即通过联网的方式分散放置摄像机进行场景记录监控，并集中显示，监控人员可以实时了解各个监控场景发生的事件，监控人员可根据监控画面中当事人的行为判断出其意图，遇到突发事件可迅速采取措施。目前的视频监控系统中监控人员起着至关重要的作用，监控人员通过人眼检测实时监控每路视频。有关研究表明即使是专业操作人员只要连续专注于多个监控屏幕超过20分钟，监控人员的注意力都会降低至不能满足监控要求的水平。经过长时间的工作，人员易疲劳、漏报现象多等问题会逐渐显现出来，大大降低视频监控的监督作用，现有监控系统通常的做法是将摄像机的输出结果记录下来，当事故发生之后，保安人员才通过记录的结果观察发生的事实，但往往为时已晚。另一方面，视频监控通常只针对视频信息进行处理，仅依靠视频信息并不能完全准确的反应出监控场景的实地情况，仍具有一定的局限性受到视角的限制，对于摄像头监控范围以外区域发生的事情，视频监控则无能为力；此外，受到光照、天气的影响，尤其是夜间，视频监控作用会急剧下降。人眼检测的弊端和视频监控系统自身的缺陷制约着监控系统性能的发挥，降低了监控效率，往往会导致一些突发事件的遗漏，甚至造成不可挽回的损失。而目前我们希望的监控系统应能够每天连续24小时的实时智能监视，当异常情况发生时，系统能向保卫人员准确及时地发出警报，从而避免事故的发生，同时也希望减少人力、物力和财力的投入。语言作为人类最重要的交流工具，它自然方便、准确高效。在发生争吵、打架、呼救等情况时，所包含的语音信息尤为丰富，以此为据，用语音识别技术处理某些监控场景中的语音数据也可当作一种重要的安防监控手段。特别是近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来十年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。作为智能计算机研究的主导方向和人机语音通信的技术关键，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术的研究突破，其对计算机的发展和社会生活的重要性日益凸现出来。

发明内容
为了解决视频监控存在的问题，本发明提供一种安防监控新方法，在现有的视频监控技术上引入了语音识别技术，利用音频信息和视频信息相对独立处理，充分发挥各自的优势，进行监控手段相互补充，构建具有主动预警、监控画面智能切换功能的新型安防监控系统。从而使监控系统在具备“视觉”功能的基础上拥有一定的“听觉”功能，解决了仅依靠视频信息监控的局限性。本发明采用语音识别技术处理监控场景中的语音数据，对其中敏感词汇进行预警，实现监控系统主动预警，并由预警信号触发监控画面自动切换，解决了因工作时间长导致的监控人员疲劳、漏报现象多等问题，提升了视频监控的效率，使视频监控系统性能更好的发挥。上述新型安防监控系统是在数字视频监控系统基础上加入了语音处理识别模块以及预警判别模块，由于采用音频和视频相对独立处理，因而便于原有视频监控设备进行升级和更新。系统工作之前，针对需要监控场景中所使用敏感词汇集中建立语音模版库，语音库内容可根据不同的监控场景选择不同的词汇。例如，针对发生争吵、打架、呼救等情况中所使用的“救命”、“救人”、“来人啊”、“打架了”等。系统工作时，每路监控场景的视频信息和语音信息分别用两个通道采集。对视频信息进行编码并转换格式，将处理后的视频数据通过专网或局域网送至监控室显示并且保存；语音信息送往语音处理识别模块进行语音识别。之后，预警判别模块会对监控场景中语音数据识别结果进行辨别，排除无关语音信息的干扰，对已建立的语音模版库中包含的敏感词汇进行预警，并发出一个预警控制信号。用预警控制信号来触发画面切换装置，主监控屏幕画面将根据发出的预警控制信号来源进行场景画面间的切换。由此达到主动预警以及监控画面智能切换的功能。本发明采用的技术方案包括如下6个循环步骤
1.监控系统工作以前先建立语音模板库，针对监控场景中出现的敏感词汇集中建立语音模版库，需要录音人数在几十人左右，采集多位男声和女声的语音样本作为训练数据，内容可根据不同的监控场景选择不同的词汇，例如可针对发生争吵、打架、呼救等情况中所用使用的“救命”、“救人”、“来人啊”、“打架了”等标志性词作为录制内容。录音分阶段进行，训练语料内容基本为孤立词和短句子。语音模版库先由每个录音者的语音样本数据分别训练，得到多个参考模板，每个参考模板是多个词汇的隐马尔可夫模型(hidden Markov model, HMM)集合，建立的HMM模型不仅包括初始状态概率、状态转移概率矩阵、观测概率矩阵三个参数，还包括状态转移次数、状态输出矢量数和状态数目共6个参数，最后通过模型合并重估的方法将多个参考模板合并成一个，完成建库；
2.系统开始工作，利用声音采集装置和摄像装置分别采集监控场景的视频信息和语音信息；
3.对视频信号进行编码并进行格式转换，将处理后的视频数据通过专网或局域网送至监控室显示并且保存，语音信息则送往音频处理识别模块经过一系列处理后进行语音识别，处理顺序为采样、量化、分帧、加窗、预加重、端点检测、提取语音特征、倒谱均减(cepstral mean subtraction, CMS)、语音识另ij ；
4. 将语音识别的结果送到预警判别模块进行判别，本设计的判别算法使用基于反词模型的拒识方法，对每个关键词模型都训练相应的反词模型，反词模型主要用其它与关键词极易混淆的语音数据训练而成，反词模型具有和关键词模型相同的结构，针对场景中出现的、语音库中未包括的正常语音信息会予以排除，对监控场景中出现的、并在语音库中包含的敏感词汇则由预警模块产生预警控制信号并报警，实现主动预警功能；
5.预警控制信号触发画面切换装置，主监控屏幕画面切换为与发出预警控制信号相匹配的监控画面以供监控人员分析，实现监控画面智能切换功能；
6.完成一次检测后，重复步骤2到5，进行下一次检测。本发明的有益效果是利用音频信息的主动预警功能弥补了监控设备视角范围限制以及视频监控受到光照、天气等自然环境的影响。预警控制信号实现的监控画面智能切换功能解决了人眼检测存在的问题，避免了监控人员长时间专注多个屏幕而导致注意力下降，不易出现事故，大大提高监控效率，使得视频监控更加准确、智能、人性化，同时也减少雇佣大批监视人员所需要的人力、物力和财力的投入。

图1为基于语音识别技术的智能视频监控系统构成示意图。图2为图1所示的语音处理识别模块原理框图。图3为图2所示的预处理特征提取模块原理框图。图4为监控系统中语音通道工作流程图。图5、图6为采用本发明监控方法一种应用示意图。图1为本发明所提供的基于语音识别技术的智能视频监控系统构成示意图。监控系统的一路架构由监控由摄像装置(101)、视频信号编码模块(102)，监控画面显示器 (103)，声音采集装置(104)、语音处理识别模块(105)、预警判别模块(106)、预警指示装置(107)组成。此外，各路的场景信息的传送还需要局域网或专网(301)进行传送，公共场景显示使用主监控屏幕(401)以及换面切换装置(501)。图2为本发明监控系统语音通道核心处理部分语音处理识别模块(105)的架构图，语音处理识别模块(105)结构包括两大部分语音库录入和模式识别。语音库录入包括以下几个模块，训练数据(1051)、预处理特征提取(1052)、参考模版训练(1053)、参考模版(1054)；模式识别部分包括预处理特征提取(1056)、模版匹配(1057)以及语音识别(1058)，其中预处理特征提取(1052)与预处理特征提取(1056)功能完全相同。图3为图2所示的预处理特征提取原理框图，语音数据依次经过以下处理采样(IO52A)、量化(IO52B)、分帧(IO52C)、加窗(IO52D)、预加重(1052E)、端点检测 (1052F)、特征提取(1052G)、倒谱均减(1052H)。下面结合附图对本发明所提供的视频监控方法的实施方式做进一步说明。
具体实施例方式系统工作前需要事先建立语音模板库，建库工作流程如图2中语音库录入部分所示。考虑到本发明实用场合，不能使用说话人自适应的方法(此方法每次使用前都需要使用者进行训练，且训练好以后只能供训练者使用)达到非特定人识别的目的，所以必须采集大量人的语音样本作为训练数据，需要录音人数在几十人左右，分别采集多位男声和女声的语音样本作为训练数据(1051)，训练数据(1051)的内容可根据监控场景中的突发事件所含的敏感词汇来制定。例如可针对发生争吵、打架、呼救等情况中所用使用的“救命”、“救人”、“来人啊”、“打架了”等标志性词作为录制内容。录音分 3 5个阶段进行，训练语料内容基本为孤立词和短句子。分阶段录音是由于语音的动态范围很大，不同说话人的语音，甚至是同一说话人在不同时间和场合的语音都有很大的不同，所以库中应该尽量包含多样的语音信息，从而保持高的识别率。在每个阶段中，每个词每人录5 10次。如图3所示，预处理特征提取(1052)对训练数据如下处理，采样(1052A)、量化(1052B)、分帧(1052C)、加窗(1052D)、预加重(1052E)、端点检测(1052F)、特征提取(1052G)、倒谱均减(1052H)处理。首先将训练数据(1051)进行采样(1052A)和量化(1052B)，数字化以后的语音信号实际上是一个时变信号，但其在IOms 30ms短时间内是平稳的，为了得到短时的语音信号，要对语音信号进行加窗(1052D)操作，窗函数平滑的在语音信号上滑动，将语音信号分成帧。分帧(1052C)可以连续，也可以采用交叠分段的方法，交叠部分称为帧移，帧移一般选为窗长的1/2，窗函数选择汉明窗(hamming)，即
权利要求
1.一种基于语音识别技术的智能视频监控方法其特征在于将语音识别技术作为辅助的视频监控手段引入到视频监控中，视频信号和音频信号进行独立处理，用语音识别技术处理监控场景中的语音数据，对其中敏感词汇进行预警，来实现监控系统主动预警，并由预警信号触发监控画面自动切换，从而可以使监控系统具备主动预警、监控画面智能切换功能，包括如下6个循环步骤(1)事先建立语音模板库，针对监控场景中出现的敏感词汇集中建立语音模版库，需要录音人数在几十人左右，采集多个男声和女声的语音样本作为训练数据，训练数据的内容可根据不同的监控场景选择不同的词汇，训练数据录制分阶段进行，训练语料内容基本为孤立词和短句子；(2)建库完毕后，系统开始工作，利用声音采集装置和摄像装置分别采集监控场景的视频信息和语音信息；(3)对视频信号进行编码并进行格式转换，将处理后的视频数据通过专网或局域网送至监控室显示并且保存，语音信息则送往语音处理识别模块经过一系列处理后进行语音识别；(4)将语音识别的结果送到预警判别模块进行判别，针对场景中出现的、语音库中未包括的正常语音信息会予以排除，对监控场景中出现的、并在语音库中包含的敏感词汇则由预警模块产生预警控制信号并报警，实现主动预警功能；(5)预警控制信号触发画面切换装置，主监控屏幕画面切换为与发出预警控制信号相匹配的监控画面以供监控人员分析，实现监控画面智能切换功能；(6)完成以上检测后，重复步骤(2)到(5)，进行下一次检测。
2.如权利要求1所述的监控方法，其特征在于语音模版库是开放式的，其中的敏感词汇内容可根据监控需要进行制定，分阶段录音是针对语音的动态范围很大，保证库中尽量包含多样的语音信息，保持高的语音识别率；语音模版库先由每个录音者的语音样本数据分别训练，得到多个参考模板，每个参考模版是多个词汇的隐马尔科夫模型 (hidden Markov model, HMM)集合，最后通过模型合并重估的方法将多个参考模板合并成一个，完成建库，既减少了新增数据的训练运算量又达到非特定人识别的目的。
3.如权利要求1所述的监控方法，其特征在于建立的HMM模型不仅包括初始状态概率、状态转移概率矩阵、观测概率矩阵三个参数，还包括状态转移次数、状态输出矢量数和状态数目共6个参数，其中后三个参数是为了应用模型合并重估方法而设置的。
4.如权利要求1所述的监控方法，其特征在于语音处理识别模块中对监控场景中的语音信息处理顺序为采样、量化、分帧、加窗、预加重、端点检测、提取语音特征、倒谱均减(cepstral mean subtraction, CMS)后进行语音识别，语音特征提取使用倒谱均减的方法进行处理克服了传输设备线路不同而导致的信道畸变对语音识别的影响，在此使用倒谱均减的方法解决数据训练环境与实际使用环境中信道的不匹配导致识别率下降的影响。
5.如权利要求1所述的监控方法，其特征在于所述预警判别模块采用基于反词模型的拒识方法对语音识别结果进行判别，实际系统中需对每个关键词HMM模型都训练相应的反词模型，反词模型主要用其它与关键词极易混淆的语音数据训练而成，反词模型具有和关键词HMM模型相同的结构，如相同的状态数目和每个状态的混合数。
6.如权利要求1所述的监控方法，其特征在于主动预警功能针对监控场景中出现的、并在语音库中包含的敏感词汇进行预警，而对场景中出现的、语音库中未包括的正常语音信息会予以排除，当监控场景发生事故时，当事人通过语音信息可以直接对监控中心工作人员发出预警。
7.如权利要求1所述的监控方法，其特征在于预警判别模块判别某语音段为库中敏感词汇后会驱动预警指示装置报警，同时发出预警控制信号触发画面切换装置，主监控屏幕画面切换为与发出预警控制信号相匹配的监控画面，实现监控画面智能切换功能。
全文摘要
本发明涉及一种基于语音识别技术的智能视频监控方法，该方法将语音识别技术作为辅助的监控手段引入到视频监控系统中，使监控系统在具备“视觉”功能的基础上拥有一定的“听觉”功能，构建了具有主动预警、监控画面智能切换等功能的视频监控系统。该方法事先建立敏感词汇库，而后采用语音识别技术处理监控场景中的语音数据，检测该语音数据中是否包含敏感词汇，若存在敏感词汇则发出语音告警信号和监控画面切换信号，画面切换装置根据画面切换信号自动切换监控画面，从而解决了依靠人眼检测导致的监控人员易疲劳、漏报现象多等问题，克服了仅依靠视频信息监控的局限性，提升了视频监控的效率，使得视频监控更加准确、智能、人性化。
文档编号G10L15/00GK102014278SQ20101059819
公开日2011年4月13日申请日期2010年12月21日优先权日2010年12月21日
发明者孙大飞, 高勇, 黄永华申请人:四川大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高勇;孙大飞;黄永华
技术所有人：四川大学
我是此专利的发明人

上一篇：音效处理装置、多音源音效应用系统以及方法
上一篇：电子系统及其嵌入式设备和中转设备的制作方法