基于矩形麦克风阵列的语音信号增强系统的制作方法

文档序号：11434074阅读：272来源：国知局

本发明涉及信号增强和噪声消除，具体涉及一种基于矩形麦克风阵列的语音信号增强系统，属于语音技术、信号处理技术领域。

背景技术：

随着智能语音识别技术的发展，语音信号需要进行实时、准确的采集，对麦克风的语音还原度要求越来越高。由于语音环境的复杂性，单麦克风采集到的语音往往会衰减较大，并伴随着很多干扰。基于麦克风阵列的语音采集方法可以实现准确的信号采集，并增强语音信号的信噪比。麦克风阵列用于语音采集，就是将多个麦克风按照一定的几何结构布放，利用不同麦克风的空间信息，对各个麦克风采集到的信号联合处理，从而增强特定方向的信号，并抑制其他方向的干扰，即波束形成处理。

将麦克风阵列用于实际的语音信号增强系统中，需要综合考虑以下几个方面的问题。第一，多阵元信号流向问题。阵列系统代表着多阵元，对应的硬件资源需求较大，必须平衡好体积和性能之间的关系。第二，ad采集同步问题。麦克风输出的是模拟信号，需要通过ad转换成数字信号处理，那么多个麦克风同时转换时必须保证各个阵元间的时间同步，否则会引起信号失配，降低语音可懂度。第三，语音输出方式。经过处理后的语音固然可以以数字形式保存，但并不直观，进一步的音频处理可以直接播放处理后的语音信号，实现实时的微弱语音采集和放大，在工程上具有更强的实用性。

目前，国内的麦克风阵列处理尚处于发展阶段，主要的工作集中在各种阵列处理算法和语音处理的结合上，研究重点放在室内和近距离场景，信噪比相对而言比较高。实际的采集一般是用其他采集设备连接麦克风阵列，将数据采回后再做其他处理。这种方式受采集设备的限制较大，因此使用场景十分有限。近年来，也出现了一些比较成熟的基于麦克风阵列的采集处理系统，这些系统由于阵元数和阵型的限制，往往只能作用于比较近的距离，对衰减较大的语音信号没有还原能力，无法满足多方面的需求。

技术实现要素：

本发明的目的在于针对现有技术的不足，提供一种基于矩形麦克风阵列的语音信号增强系统，是一种多通道阵列语音增强的解决方案，该系统可以提高接收语音信号的信噪比，以实现微弱语音信号的增强，从而提高可识别度。

本发明的基于矩形麦克风阵列的语音信号增强系统，该系统包括n通道麦克风面阵、主控电路、信号调理电路、a/d采集电路、音频放大电路；

所述的n通道麦克风面阵采用矩形阵列，各麦克风之间同向布放，用于接收外界信号，实现将声信号转换为电信号；

信号调理电路，用于将麦克风面阵获得的电信号进行放大和滤波，并传输给a/d采集电路，将信号调理电路输出的模拟信号转化为数字信号并进行串并转换后输入到主控电路，主控电路用于将输入信号传输至网络传输模块，同时对输入信号求取数据均值，发送至音频放大电路；此外，主控电路还用于配置系统的工作参数以控制a/d采集电路的工作模式与同步模式，所述的主控电路采用zynq7系列芯片实现。

上述技术方案中，所述的n通道麦克风面阵通常选用8行8列等间距布放的矩形阵列，各麦克风之间间距0.05m。

所述的信号调理电路采用ad8667运放芯片实现，具有放大、滤波和差分输出的功能，其中通过电阻的调节可以实现10倍放大；通过两块ad8667运放芯片实现285hz-3687hz的滤波，其通带衰减为-3db，阻带衰减为-30db；输出运放将模拟信号差分输出，提高输出的稳定性。

所述的a/d采集电路采用两块ads1601芯片实现80通道的ad采集。其中每块ads1601芯片将信号串并转换后变为并行的40路16bit数据，需要拆分为16+16+8的形式，依次进行数字滤波处理，先处理完的会存入寄存器，等待所有的40通道处理完再输出。

对所述的40路16bit数据进行数字滤波处理后，将2个16bit的数据拼接为一个32bit数据，并将其转化为无符号数分时发送。

本发明的有益效果为：

(1)本发明提供了一种多通道阵列语音增强的解决方案。麦克风阵列的阵型可以选用8行8列等间距布放的矩形阵列，各麦克风之间同向布放，保证波束指向一致性。通过多阵元接收数据的联合处理，抑制其他方向的干扰，增强语音信号的信噪比，最终实现语音信号的还原。64阵元提供了较大的阵增益，大大拓展了该系统的适用性，可作用于室外远距离微弱信号的增强。

(2)本发明给出了一种软核加硬核的系统开发方式，主控电路采用zynq7系列芯片，即arm+fpga的架构，在麦克风处理系统中具有很强大的灵活性。fpga负责实现数据的同步和传输，而arm核本身是一个操作系统平台，可以进行发出各种指令并植入算法。在本发明中，可以采用arm核来发送命令，协调整个系统工作；主要的数据传输和波束形成处理都在fpga中完成。

(3)本发明的输出有两种形式。一是各通道麦克风采集的信号以数字形式通过千兆以太网传输出去，二是直接输出处理后的音频信号。前者可以用于进一步的研究工作，而处理后的音频信号可连接音频设备获取直观的语音增强效果。

附图说明

图1是本发明的语音信号增强系统处理流程图；

图2是主控电路的硬件资源图；

图3是主控程序的任务流程图；

图4是主控电路发送写命令的过程示意图；

图5是写命令时序图；

图6是主控电路通过千兆以太网通信的处理流程图；

图7是主控电路对信号求取数据均值后输出的处理流程图；

图8是图7相应的硬件框图；

图9是a/d采集电路的硬件资源图；

图10是a/d采集电路的硬件流程图；

图11是a/d采集电路中同步和串并转换过程；

图12是a/d采集电路中分时发送过程；

图13是音频放大电路与主控电路ddc模块信号匹配过程。

具体实施方式

下面结合具体实例对本发明技术方案进行详细阐述。

本发明系统的主要目的是实现多通道数据的采集和处理，并整合为音频输出。

该系统主要包括n通道麦克风面阵、主控电路、信号调理电路、a/d采集电路、音频放大电路；n通道麦克风面阵和信号调理采集电路实现声电信号转换、信号放大滤波和模数转换功能，通过这一系列的前置处理，可以将声信号转化为数字信号输入到主控电路处理。主控电路除了对输入信号进行处理外，还负责控制配置系统的工作参数，控制采集电路的工作模式与同步模式。后续的音频放大和千兆以太网则分别输出直接可听的语音信号和各通道采集的数字原始信号。该系统可以提高接收语音信号的信噪比，以实现微弱语音信号的增强，从而提高可识别度。

主控电路

主控电路是整个系统的核心，它控制着整个电路的工作参数和运行流程。电路以一块xilinx的zynq7系列芯片为核心，，拥有由两颗cortextm-a9核组成的处理核心部分(processsystem,ps)，以及一颗xilinx7系列fpga核心所构成的可编程逻辑部分(programmablelogic,pl)。该系列芯片中，arm拥有相对于市面上其他处理器更强大的计算速度，fpga拥有完全可编程能力。fpga的可编程能力，配合开发板上引出的i/o口，能够适合多种应用场景。图2是主控电路的硬件资源图。其中arm的片上内存是256kb，fpga的内存是560kb。

主控电路软件设计

主控模块负责控制与协调系统其它各功能模块的运作，这些控制与协调任务即由主控程序实现。由于各功能模块都是同时工作的，主控程序采用多任务模式，每个任务同一个或多个模块相关联，实现相应的控制的功能，再通过不同任务间的交互与同步实现整个系统的协调工作。

主控电路设计成三个任务模式：同步任务，传输任务，处理任务。图3给出了主控程序三个任务流程与其它功能模块、部件之间，以及三个任务流程之间的关系。

主控电路硬件设计

对应上述的三个任务，主控电路硬件模块主要实现了以下三个方面的内容。

第一，通过主控电路发出指令，控制采集处理电路的运行和同步。如图4所示。

ps发送写命令，通过axi总线传递给comport口，再通过i/o接口控制下层电路进行采集的操作。目前ps的命令模式有两种，一种是开始写，以02为标志；另一种是写关闭，以04为标志。

pl接收到02指令后，对后续的数据头进行匹配，检测到匹配头a011后，发出同步信号sync和采集开始信号g_start，数据在一个wren的写使能控制下写入fifo中。电路时序图如图5。

第二，采集模块开始工作后，数据流被采集模块存储，此时主控电路发出指令，将数据通过dma(directmemoryaccess,直接内存存取)移入ps。ps再将arm内存中的数据通过千兆以太网储存到外部设备中，以便后续处理。其一般的处理过程如图6所示。

在pl采集的数据达到一定的长度后，pl给ps发出中断指令，中断指令由prog_full这个信号来判断。prog_full判断fifo存储中的数据是否大于256个，如果大于256个，则拉高电平，系统检测到prog_full上升沿后产生irq中断，否则拉低电平。ps响应中断，经由dma将pl的数据搬运到ps中。之所以选用dma，是因为pl只是硬件逻辑，本身没有地址这一概念；而ps是用内存地址进行数据管理。通过dma，可以实现无延迟的内存地址搬移，且处理速度快。这样pl发出中断指令到ps接收数据的时间可以忽略不计，不会影响pl的处理效率。将数据读入ps处理模块后，数据通过千兆以太网送出。

除了上述arm核的数据输出之外，利用fpga中的组合逻辑也可以实现数据处理。采集模块工作之后，数据流进入组合逻辑处理，再通过数模转换变为模拟信号输出，处理过程如图7所示。

数据流为n通道的ad采集到的信号，通过fifo将数据传输到处理模块。目前采用的处理方法是n通道对应数据相加求和，再求取平均来实现0度方向上的波束形成处理。ddc模块实现的是数字信号加长处理的功能，目的是为了匹配音频放大的输入信号。实现流程图如图8。

外围接口电路

外围接口电路主要包括信号调理电路、信号采集电路和音频放大电路，主要是配合主控电路进行数据采集和模拟信号转音频输出。

首先，远处的语音信号由麦克风阵列的n个阵元接收到，各阵元将声信号转化为模拟电信号输入到信号调理电路中。信号调理电路对n个通道的模拟电信号进行放大、滤波，再差分输出至ad采集模块。ad模块由一块spartan3系列fpga芯片负责与各adc通信，数字带通滤波，以及与主控电路通信。而最后的音频放大电路接收ddc输出的模拟信号，并转换为音频信号输出。下面依次介绍各个模块。

麦克风阵列和信号调理电路

目前采用的麦克风阵列是8x8的面阵，各阵元之间以0.05m均匀分布，能够提供较大的阵增益，显著增强微弱信号。麦克风内置音频放大电路，工作电压+12v，工作电流约17ma，在各种环境下的表现都较为稳定。

信号调理电路主要由adi公司的ad8667运放和一些电阻电容组成，实现了放大、滤波和差分输出的功能。

其中通过电阻的调节可以实现10倍放大；而带通滤波器通过两块ad8667运放实现了285hz-3687hz的滤波，其通带衰减为-3db，阻带衰减为-30db；输出运放将模拟信号差分输出，提高输出的稳定性。

ad采集电路

ad采集电路将差分语音模拟信号转化为数字信号，并在主控电路的控制下，进行进一步的数字带通滤波。其硬件框图如图9所示，实际系统中，采用了两套相同的该系统，以实现最多80通道的ad采集。根据该系统，详细的硬件流程图如图10。

ad采集芯片ads1601将采集到的模拟信号转换为数字信号，以串行形式将40路信号发给后续模块，即40位的1bit数据串行发送给串并转换模块。ad采集芯片的采样率为48khz。

串并转换模块在工作时，先利用一个同步信号使各路信号在同一个时间点开始取样，由于ad采集输出的是串行信号，40路的串行信号需要转化为并行，因此在每个时钟上升沿，都将40位1bit数据同时存入40个寄存器中，直至各个寄存器都存完16bit的数据。实际的同步和采集如图11所示。根据上述分析，串并转换模块的实际时钟周期为48k×16。

经过串并转换，信号变为并行的40路16bit数据，输入至数字滤波模块。数字滤波器的实现受制于实际的硬件电路，主要表现在两个方面。一是输入通道数的限制，数字滤波器的最大处理能力是16个通道，因此40通道需要拆分为16+16+8的形式，依次进行处理。先处理完的会存入寄存器，等待所有的40通道处理完再输出。二是滤波范围的限制，由于片上资源有限，不可能设计过高的滤波器阶数，因此无法精确实现语音信号频率300-3400hz的带通滤波，只能实现3400hz的低通滤波。

处理完毕的40路16bit信号经由分时模块发送。出于发送效率的考虑，将2个16bit的数据拼接为一个32bit数据，并将其转化为无符号数输出。分时发送和转换过程见图12。

最后，32bit的信号经由comport口变为每byte输出。每个采集模块的数据率为48k×40×16bit＝30.72mbps，整个系统的数据率为30.72m×2＝61.44mbps。

ddc和音频放大模块

音频放大电路以一块32bit立体声语音dac芯片es9018为核心，可以实现双通道语音信号的数模转换，模拟滤波与放大，其输出可直接接耳机或喇叭等设备。音频放大电路本身自带dac芯片，不需要额外进行数模转换，但是其输入信号具有一定的要求，因此主控模块中的ddc模块实际上是为了满足音频电路的输入要求而设计的数据转换模块。

两个模块之间的匹配过程如图13所示。

首先，主控电路中的ddc模块给出clk时钟和lrck时钟，lrck时钟的信号1对应左声道，信号0对应右声道。那么ddc模块的输入32bit信号din就根据lrck时钟信号分别划分为两个16bit信号din[31:16]和din[15:0]。但是音频放大模块需求的d信号输入必须是对应单声道的32bit数据，因此分别在din[31:16]和din[15:0]后填16位0即可实现转换。转换后的d信号依次输入音频放大电路中的dac模块，输出模拟信号以供耳机或者喇叭播放。

采用上述的系统，可以实现如下几点：

(1)本发明实现了约50m距离，背景噪声约60db情况下的语音信号还原。

(2)本发明通过以太网接口，将最多80通道的数据准确的传输到后端的pc机上，以供后续处理。

(3)本发明实现了处理结果直接可听的输出方式，通过音频输出口连接音频设备可以实时播放输出语音。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡玥;潘翔
技术所有人：浙江大学
我是此专利的发明人

上一篇：一种用于教学和考评的学生演唱演奏评分系统的制造方法与工艺
上一篇：一种衣柜挂杆的制造方法与工艺