一种音视频联动的监控装置及音视频联动方法与流程

文档序号：11776316阅读：491来源：国知局

本发明涉及一种音视频联动的监控装置及音视频联动方法。

背景技术：

在安保、安防，采访等领域，各类视频监控或视频采集系统已经得到广泛应用。依托各类视频监控或视频采集系统，可以对远距离视频中相关人员进行准确拍摄，通过远距离语音采集装置可以对远距离视频中相关人员进行音频采集，但在音频采集内容难以和视频采集系统采集内容匹配，尤其是视频采集系统进行转动变焦的过程中。

技术实现要素：

本发明要解决的技术问题是，提供一种音频采集内容和视频采集系统采集内容匹配的音视频联动的监控装置和音视频联动方法。

本发明的技术解决方案是，提供一种具有以下结构的音视频联动的监控装置，包括摄像组件、远程集音组件及音视频联动模块，所述的摄像组件输出变倍信号，所述的远程集音组件内指向性处理模块输出语音增强信号至音视频联动模块，所述的音视频联动模块根据摄像组件输出的变倍信号改变输出语音增强信号的音量大小，所述的摄像组件与集音装置同步运动。

优选的，还包括云台，所述的云台包括云台编解码模块，云台编解码模块读取云台转动产生的云台转动信号以及接收变倍信号并发送至音视频联动模块，所述的音视频联动模块根据变倍信号改变输出的语音增强信号的音量大小。

优选的，所述的音视频联动模块为编程放大器模块，编程放大器模块接收语音增强信号和摄像组件变焦后发出的变倍信号，根据变倍信号编程放大器模块改变语音增强信号音量大小并输出。

优选的，所述的远程集音组件包括若干阵列式排布的拾音单元、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块；拾音单元包括反射面以及设置在反射面中心位置的多个传声器组件，每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端，每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端，麦克风阵列处理模块的输出端接入指向性处理模块的输出端。

优选的，所述的远程集音组件包括两个拾音单元，所述的拾音单元沿一直线依次排布且之间设有间距，还包括单通道降噪处理模块、指向性处理模块，所述的单通道降噪处理模块接收两个拾音单元信号处理后再将信号传递至指向性处理模块，所述的指向性处理模块接收两路单通道降噪处理模块信号并输出语音增强信号。

采用以上结构后，本发明的音视频联动的监控装置，与现有技术相比，具有以下优点：集音装置结构紧凑便于整合至视频监控设备内，可以很方便的将集音装置整合到监控装置内，两者固定连接实现联动，能在远距离拍摄时进行远距离语音采集，并通过音视频联动模块识别摄像组件输出的变倍信号，通过变倍信号改变输出语音增强信号的音量大小，实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放，避免了不同距离下输出音量忽大忽小。

本发明的另一技术解决方案是，提供一种音视频联动方法，包括摄像组件、远程集音组件及音视频联动模块，所述的远程集音组件包括指向性处理模块，

(1)、指向性处理模块输出语音增强信号至音视频联动模块；

(2)、所述的音视频联动模块根据摄像组件输出的变倍信号改变输出语音增强信号的音量大小。

优选的，所述的远程集音组件包括若干阵列设置的拾音单元、麦克风阵列处理模块以及指向性处理模块；所述的步骤2还包括下述步骤：音视频联动模块接收摄像机变倍信号并发送调节信号至指向性处理模块，指向性处理模块接收调节信号并改变波束方向参数，指向性处理模块根据改变后波束方向参数输出语音增强信号。

优选的，根据变倍信号和波束方向参数形成音视频同步放缩参数映射表，指向性处理模块根据摄像机变倍信号和音视频同步放缩参数映射表输出语音增强信号。

采用以上方法后，本发明的监控装置，与现有技术相比，具有以下优点：能在远距离拍摄时进行远距离语音采集，并通过音视频联动模块识别摄像组件输出的变倍信号，通过变倍信号改变输出语音增强信号的音量大小，实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放，避免了不同距离下输出音量忽大忽小。

附图说明

图1是本发明的音视频联动的监控装置的结构示意图一。

图2是本发明的音视频联动的监控装置的结构示意图二。

图3是本发明的音视频联动的监控装置的结构示意图三。

图中所示：1、摄像组件；2、拾音单元；3、云台。

具体实施方式

下面结合附图1、附图2和附图3以及具体实施例对本发明作进一步说明。

本发明的技术解决方案是，提供一种具有以下结构的音视频联动的监控装置，包括摄像组件1、远程集音组件及音视频联动模块，所述的摄像组件1输出变倍信号，所述的远程集音组件内指向性处理模块输出语音增强信号至音视频联动模块，所述的音视频联动模块根据摄像组件1输出的变倍信号改变输出语音增强信号的音量大小，所述的摄像组件1与集音装置同步运动，集音装置结构紧凑便于整合至视频监控设备内，可以很方便的将集音装置整合到监控装置内，两者固定连接实现联动，能在远距离拍摄时进行远距离语音采集，并通过音视频联动模块识别摄像组件1输出的变倍信号，通过变倍信号改变输出语音增强信号的音量大小，实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放，避免了不同距离下输出音量忽大忽小。所述的音视频联动模块为编程放大器模块，编程放大器模块接收语音增强信号和摄像组件1变焦后发出的变倍信号，根据变倍信号编程放大器模块改变语音增强信号音量大小并输出。

音视频联动的监控装置还包括云台3，所述的云台3包括云台3编解码模块，云台3编解码模块读取云台3转动产生的云台3转动信号以及接收变倍信号并发送至音视频联动模块，所述的音视频联动模块根据变倍信号改变输出的语音增强信号的音量大小，即变倍信号可以发送至音视频联动模块或发送至云台3编解码模块，处理方式更加多样话，另外通过云台3接收云台3转动信号以及接收变倍信号实现视频和音频同步定位功能，即在操作时，操作者在捕捉目标对象的时候，直接用鼠标或触摸方式框选目标所在区域，监视画面自动聚焦到目标对象上，对目标对象图像放大缩小的同时，目标对象的语音也同步放缩。另外，设置有云台3的时候变倍信号也可以直接发送至音视频联动模块。

所述的远程集音组件包括若干阵列式排布的拾音单元2、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块；拾音单元2包括反射面以及设置在反射面中心位置的多个传声器组件，每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端，每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端，麦克风阵列处理模块的输出端接入指向性处理模块的输出端，通过多个阵列式排布麦克风组件实现拾音，由于麦克风组件直接有单一反射面和单一拾音单元2组成，结构紧凑，并通过多个单通道降噪处理模块、阵列处理模块以及指向性处理模块实现声音信号的处理，单通道降噪处理模块能有效去除噪声并减少噪声对阵列效果的影响，阵列处理模块能将多个信号进行整合增益，最后通过指向性处理模块形成心型或高心型或超心型拾音模型，得到了清晰的语音输出。

单通道降噪处理模块设计不同统计特性噪声所对应的滤波模型，以达到针对多种类型的噪声分别建模、分别予以消除的目标。由于针对性强且可以达到较强的降噪效果，由于先进行降噪再进行阵列增益，能大大提高阵列的准确性，使增益效果更佳，并最后通过人耳的听感知特性的计算机听觉场景分析技术建立心型或高心型或超心型拾音模型输出，使声音的指向型达到最优。单通道降噪处理模块进行噪声消除的方法如下，利用端点检测的结果对噪声的频谱进行估计，频域维纳滤波系数通过mel滤波器组转化为mel域的维纳滤波系数，接着采用melidct得到滤波器的时域冲激响应，最终使用卷积得到增强后的时域语音信号用于后端的模型匹配。

所述的采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型的方法如下:

(1)、指向性处理模块对获取阵列增强输出信号和残留噪声经过模拟人耳频率分解特性的gammatone滤波器组进行多子带滤波，得到多子带时域信号。

(2)、对所有子带信号进行加窗分帧，得到时频单元序列，计算可得阵列增强输出信号与残留噪声时频单元的能量；

(3)、将阵列增强输出信号与残留噪声时频单元的能量对比平滑后，作为线索，得到二值掩蔽模板；

(4)、将掩蔽模板作用于阵列输出的混合信号，提取出目标语音占优的时频单元，最终构建心形或超心型拾音模式，实现语音增强。

采用以上述建立拾音模型的方法后，进行加窗分帧，即可以得到可以处理的单元，根据单元能量得到的可以有效需求需要的时频单元，即能得到与目标语音更接近的时频单元，最后建立的拾音模式与目标语音更加接近。

所述的远程集音组件包括两个拾音单元2，所述的拾音单元2沿一直线依次排布且之间设有间距，还包括单通道降噪处理模块、指向性处理模块，所述的单通道降噪处理模块接收两个拾音单元2信号处理后再将信号传递至指向性处理模块，所述的指向性处理模块接收两路单通道降噪处理模块信号并输出语音增强信号，通过2个麦克风组件实现指向性拾音，由于仅有两个麦克风和模块组成，结构紧凑便于整合至视频监控设备内，所述的单通道降噪处理模块接收拾音单元2信号处理后发送至指向性处理模块，单通道降噪处理模块设计不同统计特性噪声所对应的滤波模型，以达到针对多种类型的噪声分别建模、分别予以消除的目标。由于针对性强且可以达到较强的降噪效果，且由于先进行降噪再进行延时相减，能大大提高波束信号的准确性，并结合降噪后的语音原始信号使最后的语音增加信号达到最优，通过指向性处理模块实现声音信号的处理，指向性处理模块接收两路存在不同时差的原始语音信号进行延时相减形成波束信号，根据波束信号的强弱得到语音方向信号并传递指向性处理模块，指向性处理模块根据语音方向信号对原始语音信号中特定方向之外的原始语音信号进行衰减，得到特定方向的语音增加信号，最后得到了清晰的语音输出。还可以通过进行加权测量得到纯噪声段，并针对该纯噪声段进行更小的加权，能得到特定方向的语音增强信号，具体方法如下：

(1)对两路语音信号进行多子带滤波，分帧加窗处理，由此得到两路语音信号的时频表达。某一时间帧的某个频带的信号称为一个时频单元；

(2)计算两路语音信号对应t-f单元之间的iid值；

(3)根据各个t-f单元的iid值，设定其加权掩蔽值。根据各子带的iid值进行语音活动检测；

(4)结合语音激活检测结果，对上步初步生成的掩蔽值纯噪声段直接赋予较小的加权掩蔽值；

(5)对于采集后方的语音信号进行掩蔽值处理，最后经过重建合成心形或超心形拾音模式，得到特定方向的语音增强信号。

本发明的另一技术解决方案是，提供一种音视频联动方法，包括摄像组件1、远程集音组件及音视频联动模块，所述的远程集音组件包括指向性处理模块，

(1)、指向性处理模块输出语音增强信号至音视频联动模块；

(2)、所述的音视频联动模块根据摄像组件1输出的变倍信号改变输出语音增强信号的音量大小。

通过变倍信号改变输出语音增强信号的音量大小，实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放，避免了不同距离下输出音量忽大忽小。所述的音视频联动模块为编程放大器模块，编程放大器模块接收语音增强信号和摄像组件1变焦后发出的变倍信号，根据变倍信号编程放大器模块改变语音增强信号音量大小并输出。

所述的远程集音组件包括若干阵列式排布的拾音单元2、麦克风阵列处理模块以及指向性处理模块；所述的步骤2还包括下述步骤：音视频联动模块接收摄像机变倍信号并发送调节信号至指向性处理模块，指向性处理模块接收调节信号并改变波束方向参数，指向性处理模块根据改变后波束方向参数输出语音增强信号。音视频联动模块根据摄像机变倍信号确定要采集声源的空间信息参数形成调节信号，发送调节信号至指向性处理模块，指向性处理模块根据检测到的空间信息参数确定对应的波束形成参数以及相应的拾音模型，即通过音视频联动模块先检测声源的空间信息参数，根据预设数据或实时计算得到较为合适的波束形成参数以及相应的拾音模型，能准确将视频和音频进行对应输出，且大大减少了运算过程并使集音效果更佳。

根据变倍信号和波束方向参数形成音视频同步放缩参数映射表，指向性处理模块根据摄像机变倍信号和音视频同步放缩参数映射表输出语音增强信号，通过预先进行实验和计算得到不同摄像机变倍信号下准确的拾音模型，再根据拾音模型确定波束方向参数，将变倍信号和波束方向参数形成音视频同步放缩参数映射表使指向性处理模块能直接根据摄像机变倍信号输出语音增强信号，大大减少了语音输出与视频输出之间的延迟，减少可计算量。

所述的云台3包括云台3编解码模块，云台3编解码模块读取云台3转动产生的云台3转动信号以及接收变倍信号并发送至音视频联动模块，所述的音视频联动模块根据变倍信号改变输出的语音增强信号的音量大小，即变倍信号可以发送至音视频联动模块或发送至云台3编解码模块，处理方式更加多样话，另外通过云台3接收云台3转动信号以及接收变倍信号实现视频和音频同步定位功能，即在操作时，操作者在捕捉目标对象的时候，直接用鼠标或触摸方式框选目标所在区域，监视画面自动聚焦到目标对象上，对目标对象图像放大缩小的同时，目标对象的语音也同步放缩。另外，设置有云台3的时候变倍信号也可以直接发送至音视频联动模块。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱云海;徐伟明
技术所有人：宁波桑德纳电子科技有限公司
我是此专利的发明人

上一篇：一种基于声音特征的相似度分析方法与流程
上一篇：一种语音识别中的主动式本机音频消除方法与流程