一种声像联合定位的远距离语音采集装置的制作方法

文档序号:12724058阅读:386来源:国知局
一种声像联合定位的远距离语音采集装置的制作方法

本发明涉及一种语音采集装置,尤其是涉及一种声像联合定位的远距离语音采集装置。



背景技术:

在安保、安防等领域,各类视频监控系统已经得到广泛应用。依托各类视频监控系统,可以对远距离视频中相关人员进行确认、甄别。在利用视频监控系统进行远距离嫌疑人确认、甄别时如能通过远距离语音采集利用语言、对话信息,将可大大影响了工作效率。但在实际环境背景噪声条件下进行远距离语音采集仍具有极高难度。

由于环境噪声的存在,远距离语音采集时必须利用采集装置的高指向性来保证采集的远距离语音质量。目前的远距离语音采集装置主要采用干涉管结构的枪式麦克风形成高指向性。

如中国专利ZL 2010101269089公开一种拾音装置,其包括:容置体、第一压电元件、第二压电元件及电路单元,该容置体具有拾音口,该第压电元件设置于容置体内,以感测高频声波的振动而转换输出信号,该第二压电元件设置于容置体内,以感测低频声波的振动而转换输出信号,该电路单元电连接于第一压电元件及第二压电元件,以接收第一压电元件及第二压电元件的信号,并进行处理产生声音信号;因此,具有较好的感测灵敏度及较宽广的音频,可提升音质。

中国专利ZL2010591158.2公开了一种视频定位的长距离拾音装置,通过在以摄像机为中心的圆周安装2个内置指向麦克风的声聚焦结构桶体形成高指向性,结合桶体侧壁外安装2个拾取环境噪声的全向麦克风获取参考噪声,声聚焦结构桶体随摄像头转动,操作人员根据视频图像内容进行视频定位后该装置只获取与摄像头同方向的语音信号,并利用数字信号处理器进行自适应降噪处理。

但由于上述形成高指向性的远距离语音采集装置均只能在装置正前方形成固定的高指向性波束,在实际使用中需通过装置的转动来对准运动的远距离说话人目标,增加了额外的机械机械随动控制成本;同时,考虑到视频监控对远距离目标具有较大视场,从远距离视频图像中随可通过对焦看到人像,但往往无法直接鉴别、发现说话动作,导致视频摄像头和远距离拾音装置进行机械移动对准目 标说话人时存在不易同步的问题,也将造成监控系统设计使用上的不方便。

麦克风阵列由多个麦克风按照一定拓扑结构组成,可通过波束成形算法对不同方向上的信号形成不同响应,也即阵列的空间指向特性,使阵列麦克风具有声源定位和跟踪、语音提取和分离以及去噪等功能,从而提高在复杂背景下的语音信号质量,弥补孤立麦克风无法获取和利用空间信息的缺陷,并可避免采用机械转动装置来对准目标说话人。

中国专利ZL 2013102011025公开一种远距离语音识别中的模型域补偿新方法,该方法针对麦克风阵列在室内远距离语音采集和识别中的困难提出模拟室内的混响声学环境,并通过输入的室内空间尺寸生成不同位置的房间冲击响应序列,从而在模型域进行室内远距离语音的补偿提高采集和识别处理性能。

但对于安保、安防等领域的室外场景远距离语音采集场合,所需进行语音采集的说话人对象距离远大于室内应用场景,且存在严重的环境噪声。此时,单纯依靠麦克风阵列算法很难获得说话人方向从而进行语音增强和采集。



技术实现要素:

针对远距离、噪声背景下语音采集的难点,结合视频摄像头、麦克风阵列进行声像联合确定目标说话人,从而解决单纯使用摄像头、高指向性麦克风或麦克风阵列存在的目标说话人确定困难、需机械转动装置等问题,本发明提出结合监控摄像头、麦克风阵列波束成形技术的一种语音采集装置进行声像联合确定目标说话人定位,从而改善环境噪声条件下室外远距离语音增强采集的性能。

一种声像联合定位的远距离语音采集装置,包括以下模块,

监控摄像头:用于采集远距离视频图像;

麦克风阵列:用于语音信号多通道采集、前置处理和模数转换;

波束扫描模块,其输入端连接麦克风阵列输出端:用于进行波束扫描,获取远距离语音和噪声的方向分布信息;

声像联合处理模块,其输入端分别连接监控摄像头与波束扫描模块的输出端:用于将监控摄像头传输的图像信息、波束扫描模块获取的语音和噪声方向信息经坐标转换后送入设有的声像联合监控显示屏进行声像联合定位显示;

声像联合监控显示屏,其输入端连接声像联合处理模块输出端:用于接收声像联合成像处理模块送来的声像联合信息并进行屏幕显示。

目标选定模块:用于监控操作人员根据声像联合监控显示屏上的图像、声音联合信息选定目标说话人。

波束对准模块,其输入端分别连接目标选定模块与麦克风阵列的输出端:根据目标选定模块选定的目标说话人对于方向进行麦克风阵列波束对准。

语音采集模块,其输入端连接波束对准模块的输出端:对波束对准模块的语音信息进行采集。

所述麦克风阵列包括增强模块,所述麦克风阵列各通道语音信号输出端经增强模块分别连接波束扫描模块与波束对准模块,所述增强模块用于增强麦克风阵列的语音信息。

所述增强模块包括前置放大电路与模数转换器。

所述麦克风阵列包括反射罩:用于安装在麦克风上进行语音信号聚焦;

所述目标选定模块设有鼠标输入端,操作人员通过观察声像联合监控显示屏通过鼠标输入端选定目标说话人,目标选定模块经坐标转换后输出目标说话人的方向信息至波束对准模块。

使用所述声像联合定位的远距离语音采集装置的步骤如下:

一个初始化步骤:各模块参数初始化设置;

一个视频采集步骤:监控摄像头采集远距离视频图像;

一个波束扫描步骤:麦克风阵列对远距离语音和信号进行方向扫描,获取方向分布信息;

一个声像联合处理步骤:将波束扫描结果进行坐标转换后合并加入视频图像,形成声像联合视频图像。

一个声像联合显示步骤:声像联合显示屏将声像联合处理结果进行显示;

一个目标选定步骤:操作人员在声像联合显示屏上结合图像、声音信息利用鼠标选定目标说话人,并通过坐标转换输出目标说话的方向信息;

一个波束对准步骤:将选定的目标说话人方向输入麦克风阵列进行波束对准;

一个语音采集步骤:对麦克风阵列波束对准信号进行采集。

附图说明

图1为本发明实施例的结构组成框图;

图2为本发明实施例的麦克风反射罩示意图;

图3为本发明实施例的5元麦克风阵列及其与微处理器连接电路图;

图4为本发明实施例的波束扫描原理示意图;

图5为本发明实施例的摄像头与微处理器连接电路图。

具体实施方式

为了使本发明的技术内容、特征、优点更加明显易懂,以下实施例将结合附图对本发明作进一步的说明。

所述声像联合定位的阵列式远距离语音采集装置实施例中麦克风阵列由5个等间距排列的麦克风(m0,m1,…,m4)组成麦克风线列阵,阵列中各麦克风安装有图2所示反射罩,反射罩的反射面与中轴线成45度,反射罩材料为不锈钢以适应本发明装置的室外安装使用,本实施例中为了聚焦远距离语音,设置发射罩直径d0=40cm。麦克风阵列获得的语音信号利用波束扫描算法进行波束扫描获取远距离语音和噪声的方向分布信息。

麦克风阵列由麦克风及硬件电路组成,其中麦克风阵列由体积小、结构简单、电声性能好的全向麦克风m0,…,m4,NJM2100运算放大器芯片构成的前置放大电路及MAX118模数转换芯片构成(如图3所示),在本实施例中,为了采集远距离语音,设置麦克风间距d=40cm。

波束扫描模块、声像联合处理模块、波束对准与增强模块、目标选定模块等组成模块均属于数字信号处理模块,在本实施例中采用ARM9 S3C2440微处理器进行软件编程实现。

麦克风阵列与微处理器的连接方式为:麦克风阵列中5个麦克风输出信号经过图2所示运算放大器构成的2级前置放大电路放大后输入多通道模数转换芯片MAX118,S3C2440微处理器通过IO口GPB2,3,4控制MAX118的输入通道端A1、A2、A3,通过定时器输出脚TOUT0、TOUT1控制MAX118的读出/写入端口WR、RD进行采样频率16ksps的模数转换,通过数据线DATA0至DATA7进行8bit模数转换结果到S3C2440微处理器的传送。

所述声像联合定位的阵列式远距离语音采集装置实施例中多通道语音信号模数转换进入微处理器后,以软件编程形式运行的各数字信号处理模块间的数据、控制流连接方式如图3所示,具体说明如下:

波束扫描模块通过对麦克风阵列各通道信号时延进行逐次时延调整后叠加以获得不同的波束对应的波束成形信号。波束扫描原理结合图3具体说明如下:在本发明实施例中,以5元麦克风线阵所在水平线为X轴,以5元麦克风线阵中间的麦克风m2位置为坐标原点建立定位坐标系,线阵各阵元间距为d。以本实施例线阵的中心阵元麦克风m2作为基准进行波束扫描:即,m2接收的语音信号不作时延补偿,线阵中其余通道麦克风接收的语音信号xi进行如下时延补偿计算后得到x’i(如图4所示):

x′i(k,j)=xi(k′);

其中i为线阵中各通道的编号;取波束扫描间隔为1.25度,则对麦克风线阵前方180度范围进行扫描需扫描144次,左右各扫描72次,即j=0,±1,±2,±3,...±72代表波束扫描序号;θj为每次时延调整后形成的扫描波束,C为空气中的声速(本实施例中取340m/s),fs为麦克风阵列语音信号的采样频率(单位为Hz,在本实施例中取16000Hz),round()代表取整运算。则逐次时延补偿后对各通道语音信号x’i进行叠加即可实现正、负90度范围(本实施例中对麦克风线阵前方180度范围进行波束扫描)的波束扫描,在计算窗长L内(本实施例中L=800)对接收的含噪语音进行波束扫描可获得包含远距离语音声源、噪声源方向的正、负90度范围波束信息E(θj),j=0,±1,±2,±3,...±7。

监控摄像头视频采集:由于监控摄像头视频采集为本领域通用技术,本发明实施例中不对这部分展开具体描述,本实施例采用本领域通用的带有0V9650芯片的CMOS摄像头进行远距离视频采集,摄像头采集的视频图像通过本领域通用的USB接口输入S3C2440微处理器进行声像联合处理。

声像联合处理:声像联合处理步骤对分别由麦克风阵列和摄像头获取的波束 扫描结果和视频图像进行声学联合处理,在S3C2440微处理器中将波束扫描获得的波束信息根据摄像头视场进行坐标变换。本实施例中OV9650摄像头为定焦摄像头(视频图像格式设置为640×320,帧率15fps)。本实施例采用OV9650摄像头监控的距离60米远的固定场所,以摄像头中轴线为中心,测量得到OV9650摄像头视场中60米距离处作为监控目标的固定场所对应的水平角度为±45度。则进行如下坐标转换将波束扫描结果转换为声像联合处理中摄像头视场范围内对应的波束数据:

具体地,通过声像联合处理后显示屏以红色高亮曲线在640×320视频图像显示的最下角显示坐标转换后图像信息中对应角度的声能量波束情况,监控操作人员可以方便地根据图像和声能量波束的联合处理显示选定需要采集的是说话人的语音。经过声像处理坐标变换后,将获得的摄像头视场范围内对应的波束数据利用本领域通用的内插算法计算得到320点波束曲线,并叠加在摄像头获取图像数据中将320点波束曲线以红色高亮曲线表示。

声像联合显示:将声像处理后的摄像头叠加波束曲线数据送入本领域通用的监控显示屏中,则可保证本实施例中OV9650摄像头视场内60米距离处场所对应的±45度水平范围内噪声、信号能量分布情况直观地以红色高亮曲线的方式叠加显示在640×320显示屏上。

目标选定:操作人员通过直接观察640×320监控图像,可以同时看到监控图像中60米距离处人员图像以及对应视场内的语音、噪声能量波束,特别在视场内有多人,多车辆或其他噪声源时,操作人员可以方便地根据视频图像和声音波束曲线联合确定目标说话人,并利用鼠标进行目标说话人的确定。鼠标确定目标说话人后,利用本领域通用技术,可以将屏幕上鼠标确定点的水平坐标位置z转换为对应的目标角度θt。转换具体原理为:

波束对准与增强:在本实施例中,通过声像联合定位确定远距离目标说话人方向后,将麦克风阵列各通道信号按照目标角度θt计算相应的各通道时延值进 行补齐,对补齐后的各通道信号加权叠加,得到对准目标说话人的波束形成输出信号,从而获取远距离增强语音;

语音采集:利用本领域通用技术对波束对准和增强后的远距离语音进行采集,并保持在设定的存储介质中。

以上所述仅为本发明的优选实施例,并不用于限制本发明。本发明公开的声像联合定位的阵列式远距离语音采集装置最大的特点在于结合反射罩麦克风阵列提供的噪声语音方向信息与监控摄像头提供的目标视频图像联合定位获取远距离目标说话人,克服了传统方法在远距离、存在环境噪声条件下不易确定目标说话人的缺点,特别是通过声像联合定位确定目标说话人方向后,结合反射罩和麦克风阵列语音增强算法可进一步抑制环境噪声的影响,改善远距离语音采集性能。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1