视频传感系统三维空间高清语音采集子系统的制作方法

文档序号:7820213阅读:144来源:国知局
专利名称:视频传感系统三维空间高清语音采集子系统的制作方法
技术领域
视频传感系统三维空间高清语音采集子系统
背景技术
本实用新型涉及的是一种视频传感系统三维空间高清语音采集子系统,属于安全监控系统,智能交通系统,高清视频会议系统,高清医疗视频诊断设备,远程教育系统等应用技术技术领域。
背景技术
目前在普通的监控摄像机、视频会议系统、医疗设备中,其音频一般都采用单一麦克风来采集语音信号。其原理如图1所示。传统视频传感系统中的语言采用模块基本上有 4部分组成1.音频信号采集前端一般采用单一个麦克风来完成。麦克风将语音信号转化成模拟信号,经过功放接入系统中。2.模拟数字转换A/D模块将音频信号采集前端传来的模拟信号转换为数字信号,然后传输给音频前处理模块。3.音频前处理主要是对输入的数字信号在数字域中对输入信号进行降噪等处理。4.音频压缩是将经过处理后的语音信号按要求的格式进行压缩,比如MP3。然后输入到音视频处理器进行存储和传输。在传统的视频传感系统中,音频采集子系统存在两个严重的问题首先,由于采用单一信号输入设备,所以系统要求麦克风尽量靠近语音源,以获得质量较好的信号。但在实际应用中,很难要求使用者说话是靠近麦克风。比如,用于监控的摄像机,往往安置在较高的位置或是隐藏起来, 被监控对象很难接近摄像机。这样没有良好的数据源,音频采集前端就无法获得高质的信号。其次,某些应用场合有众多的音频信号,如室外,展览大厅等。对于传统的音频信号采集系统是无法识别目的信号源,只能机械地将所有信号采集进来,进行压缩。这样获得的语音信号非常嘈杂,很难获得主题语音对象的信号,不能满足任意情况下音频采集系统都能得到最佳的语音效果。
发明内容本实用新型提出的是一种视频传感系统三维空间高清语音采集子系统,其目的旨在克服现有技术所存在的缺陷,解决视频传感系统中的音频质量问题。利用麦克风阵列实现了高清语音的采集,在三维空间中有针对性地选择目标声源进行放大和处理。对于噪声、 回响、等其它非目标声音进行抑制和消除。麦克风阵列是一组位置邻近排列有序的麦克风, 麦克风阵列利用声波到不同麦克风的时间差而获得更好的方向性。本实用新型的技术解决方案其特征包括麦克风阵列、麦克风可编程增益放大器、 模数转换模块(A/D)、音频前处理、三维空间语音处理系统、音视频信号处理器、音频解压缩和标准音频输出接口,其中每个麦克风的输出与麦克风可编程增益放大器的输入相接,麦克风可编程增益放大器的信号输出端与模数转换模块(A/D)的输入端相接,模数转换模块 (A/D)的输出端与音频前处理的输入端相接,音频前处理的输出端与三维空间高清语音处理系统输入端相接,三维空间高清语音处理系统输出端与音视频信号处理器的输入接口相接,音视频信号处理器的输出接口与音频解压缩的输入接口相接,音频解压缩的输出接口与标准音频输入接口相接。本实用新型的优点采用了麦克风阵列,通过多个麦克风对周围环境声源的采集。对目标信号源进行识别。经过确认的信号源,麦克风阵列中有专用麦克风对它进行信号采集。降低声音回响。实现语音放大控制自整定,可以对宽频段语音信号进行处理。三维空间高清语音采集系统采用多个麦克风。增加了对不同频段的声音采集能力,质量和效果最佳。

附图1是传统视频传感系统中的语音采集子系统结构示意图。附图2是视频传感系统三维空间高清语音采集子系统结构图。附图3是三维空间语音处理系统的结构示意图。
具体实施方式
对照附图2,其结构包括麦克风阵列、麦克风可编程增益放大器、模数转换模块 (A/D)、音频前处理、三维空间语音处理系统、音视频信号处理器、音频解压缩和标准音频输出接口,其中每个麦克风的输出与麦克风可编程增益放大器的输入相接,麦克风可编程增益放大器的信号输出端与模数转换模块(A/D)的输入端相接,模数转换模块(A/D)的输出端与音频前处理的输入端相接,音频前处理的输出端与三维空间高清语音处理系统输入端相接,三维空间高清语音处理系统输出端与音视频信号处理器的输入接口相接,音视频信号处理器的输出接口与音频解压缩的输入接口相接,音频解压缩的输出接口与标准音频输入接口相接。三维空间高清语音采集系统是在视觉传感系统中利用麦克风阵列实现了高清语音的采集。它可以在三维空间中有针对性地选择目标声源进行放大和处理。对于噪声、回响、等其它非目标声音进行抑制和消除。麦克风阵列是一组位置邻近排列有序的麦克风。 和传统单一的麦克风相比,麦克风阵列利用声波到不同麦克风的时间差而获得更好的方向性。三维空间高清语音采集系统主要实现了三个关键技术1.波束的形成,利用麦克风阵列中不同麦克风输入的信号,麦克风阵列可以等用于一个高度定向的麦克风,会形成一个高度定向的语音扑捉波束。麦克风阵列的波束可以被控指向目标声源的方向。麦克风阵列的搜索引擎可以实时地对目标声源进行搜索并将它的扑捉波束定位在当前的位置。这种高方向性的麦克风阵列在很大程度上减少了周围环境的噪声和回响信号的进入。2.阵列的方向性,由于麦克风阵列输出的噪声和回响要比单一麦克风输出要小得多,所以对固定噪声的抑制也比单一的麦克风要好。比如一个1000Hz的麦克风阵列语音扑捉波束方向典型的模式。这种模式远优于一个高价位、高质量、超单项的麦克风的效果。在语音采集过程中, 麦克风阵列控制软件对目标声源进行搜索,并将扑捉波束定位在目标声源的方向。如果目标声源发生移动,扑捉波束会跟踪声源。这种机制等同于两个高方向性的麦克风。一个麦克风用来不停扫描三维空间来测试各个语音信号的输入。另外一个是语音扑捉麦克风,它定向于最高音质的声源,这就是目标声源。3.恒定波束宽,正常语音采集工作频宽是200Hz 到7000Hz。波长波动有35倍。这样很难找到一个频宽恒定的麦克风或麦克风阵列来满足上面整个的工作频带。但幸运的是,在典型的办公环境中,绝大部分的噪声都在频率比较低的部分,一般低于750Hz。而回响也存在于低频段,对于高于4000Hz的频段几乎不存在。这样一个线性的麦克风阵列会提供300Hz到5000Hz的恒定波束频宽,基本满足的语音采集的工作频段。采用多个麦克风组成麦克风阵列,可以自动地、有效地识别目标语音源,并可以动态地锁定、跟踪该声源。在视觉传感系统中我们采用了4个麦克风组合而成的陈列。通过对每个麦克风的前置放大、模数转换(A/D)、音频前处理的实时控制,系统最终得到高清的语音信号。这种实时控制是由三维空间语音处理系统来完成。对照附图3,三维空间语音处理系统的结构包括麦克风可编程增益放大器、模数转换模块、高清语音控制器和标准音频输出接口,其中麦克风可编程增益放大器的信号输出端通过A/D模数转换模块与高清语音控制器中的数字滤波器信号输入端相接,高清语音控制器中的参数可编程IIR滤波器信号输出端和标准音频输出接口相接。高清语音控制器的结构包括数字滤波器、5波段均衡器、中央处理器、可编程高通滤波器、自动增益控制器、参数可编程HR滤波器,其中数字滤波器的信号输出端与5波段均衡器的信号输入端相接,5波段均衡器的第一信号输出端与自动增益控制器的第一信号输入端相接,5波段均衡器的第二信号输出端与可编程高通滤波器的第一信号输入端相接, 中央处理器的第一信号输出端与可编程高通滤波器的第二信号输入端相接,中央处理器的第二信号输出端与自动增益控制器的第二信号输入端相接,中央处理器的第三信号输出端与参数可编程HR滤波器的第一信号输入端相接,可编程高通滤波器的信号输出端与参数可编程HR滤波器的第二信号输入端相接。1.)麦克风可编程增益放大器麦克风可编程增益放大器包括可编程麦克风增益放大器和固定增益放大器。通过自动增益控制器的作用,麦克风可编程增益放大器保持输出到模数转换模块的模拟语音信号恒定。2.)模数转换模块模数转换控制模块采用多比特高阶信号采样架构。它支持这种采用频率,从标准语音采样频率为8ks/s到高清晰语音信号的采样频率,4^s/s。3.)高清语音控制器高清语音控制器有6个模块组成■数字滤波器采用Sigma-Delta结构的数字抽取、插值滤波器可以在采样频率8ks/s到48ks/s 之间输出高清晰的语音数字信号。它可以对特种噪声进行抑制,比如室外环境的风噪声等。■ 5波段均衡器采用动态音量均衡器调节个别波段的音量相对大小,使语音听起来更有3D效果。 5波段均衡器通过对不同频率的声音O0Hz-16KHz)通过中心截止频率对信号进行_12dB到 +12dB的增益或抑制。通过均衡器的语音信号清晰,悦耳、不单薄。■可编程高通滤波器■高通滤波器可以通过高频信号。其衰减幅度比普通滤波器的截止频率低。各频率的衰减量可编程。本系统的高通滤波器支持两种模式截止频率在3. 7Hz的一阶UR滤波器和截止频率可编程的二阶高通滤波器。参数可编程HR滤波器UR滤波器用来消除指定频率语音信号中的窄带噪声,不如50Hz-60Hz的噪声干扰。HR滤波器有不同的中心频率和带宽设定。这些设定都是通过可编程的参数设定来完成。[0027]■自动增益控制器自动增益控制器根据被放大后的输入信号对可编程麦克风增益放大器进行实时控制。自动增益控制器中含有一个数字峰值检测器,时间对输入信号和设定好的阈值进行比较。■中央处理器中央处理器根据各个模块的输出和系统的预设定,实时地对各个模块、参数进行调节。4.)标准音频输出高清语音控制器采用标准的语音输出界面。其输出数据的协议可编程。可以支持 I2S, DSP Mode, MSB-First L,和MSB-First R等。它可以运行在主模式或从模式下。
权利要求1.视频传感系统三维空间高清语音采集子系统,其特征包括麦克风阵列、麦克风可编程增益放大器、模数转换模块A/D、音频前处理、三维空间语音处理系统、音视频信号处理器、音频解压缩和标准音频输出接口,其中每个麦克风的输出与麦克风可编程增益放大器的输入相接,麦克风可编程增益放大器的信号输出端与模数转换模块A/D的输入端相接, 模数转换模块A/D的输出端与音频前处理的输入端相接,音频前处理的输出端与三维空间高清语音处理系统输入端相接,三维空间高清语音处理系统输出端与音视频信号处理器的输入接口相接,音视频信号处理器的输出接口与音频解压缩的输入接口相接,音频解压缩的输出接口与标准音频输入接口相接。
2.根据权利要求1所述的视频传感系统三维空间高清语音采集子系统,其特征是三维空间语音处理系统的结构包括麦克风可编程增益放大器、模数转换模块、高清语音控制器和标准音频输出接口,其中麦克风可编程增益放大器的信号输出端通过A/D模数转换模块与高清语音控制器中的数字滤波器信号输入端相接,高清语音控制器中的参数可编程IIR 滤波器信号输出端和标准音频输出接口相接。
3.根据权利要求2所述的视频传感系统三维空间高清语音采集子系统,其特征是高清语音控制器的结构包括数字滤波器、5波段均衡器、中央处理器、可编程高通滤波器、自动增益控制器、参数可编程IIR滤波器,其中数字滤波器的信号输出端与5波段均衡器的信号输入端相接,5波段均衡器的第一信号输出端与自动增益控制器的第一信号输入端相接,5 波段均衡器的第二信号输出端与可编程高通滤波器的第一信号输入端相接,中央处理器的第一信号输出端与可编程高通滤波器的第二信号输入端相接,中央处理器的第二信号输出端与自动增益控制器的第二信号输入端相接,中央处理器的第三信号输出端与参数可编程 IIR滤波器的第一信号输入端相接,可编程高通滤波器的信号输出端与参数可编程HR滤波器的第二信号输入端相接。
专利摘要本实用新型是视频传感系统三维空间高清语音采集子系统,其结构是每个麦克风的输出与麦克风可编程增益放大器的输入相接,麦克风可编程增益放大器的信号输出端通过模数转换模块(A/D)的输入相接,模数转换模块(A/D)的输出与音频前处理的输入相接,音频前处理的输出与三维空间高清语音处理系统输入端相接,三维空间高清语音处理系统输出端与音视频信号处理器的输入接口相接,音视频信号处理器的输出接口与音频解压缩的输入接口相接,音频解压缩的输出接口与标准音频输入接口相接。优点采用麦克风阵列对周围环境声源的采集、识别、确认,降低声音回响。实现语音放大控制自整定,对宽频段语音信号进行处理。质量和效果最佳。
文档编号H04R1/20GK202068548SQ20112001243
公开日2011年12月7日 申请日期2011年1月17日 优先权日2011年1月17日
发明者方汝松, 王兴国, 穆科明 申请人:方汝松, 王兴国, 穆科明
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1