一种语音增强的系统的制作方法

文档序号:2823894阅读:361来源:国知局
专利名称:一种语音增强的系统的制作方法
技术领域
本发明涉及语音增强技术领域,特别是涉及一种语音增强的系统。
背景技术
语音增强技术应用于噪声环境下的语音通信,可以提高通话质量;应用于人机对话,可以提高识别正确率。在人们的日常生活的各种噪声环境下,人们往往更希望获取经过降噪处理后的语音信息。语音增强的方法按通道个数可以分为单麦克语音增强与麦克风阵列增强技术。传统的单麦克语音增强技术如谱减法、维纳滤波等方法,都是先估计噪声幅值或能量,再将其从带噪语音中减去。对于平稳噪声如白噪声,可以达到一定的效果, 然而对于诸如非目标人说话的噪声、音乐噪声等非平稳噪声则可能造成较严重的语音损伤。传统的多麦克语音增强技术是波速形成技术,包括延时相加、延时相减等固定波束,以及广义旁瓣消除等自适应波束。贝尔实验室研发了一种具有自适应特性的差分麦克风阵列 (Gary W. Elko, Anh-Tho Nguyen Pong,A simple adaptive first-orderdifferential microphone, In :proc.1995Workshop on Applications of SignalProcessing to Audio and Acoustics,72-169),此类方法通过自适应调整空间滤波的参数,对位于零陷方向的不同类型的噪声均有一定的去噪效果但仍存在例如声源定位、对于来自与主声源相近的角度方向的噪声抑制效果差等问题。此外还有多子带的处理技术,如华为公司申请的一个专利 (200410034505. 6) “一种语音增强方法”。该方法采用的是多子带处理技术,虽然也能取得一定的去噪效果,但由于其仍是基于对子带信噪比的估计,因而也无法广泛适用于各种噪声类型。因此,目前需要本领域技术人员迫切解决的一个技术问题就是如何能够创新地提出一种语音增强的方法或者是系统,以满足各类噪声环境下的语音增强需求。

发明内容
本发明所要解决的技术问题是提供一种语音增强的系统,用以满足各类噪声环境下的语音增强需求,在实现较好去噪效果的同时保证较高的语音质量。为了解决上述问题,本发明公开了一种语音增强的系统,所述系统包括语音采集模块,包括两路麦克,其中一路麦克置于目标声源的近端;另一路麦克置于目标声源的远端;所述采集模块用于采集两路语音信号;双麦克语音增强模块,用于对采集的两路语音信号进行处理,以获取增强后的目标声源语音信号;所述双麦克语音增强模块包括以下子模块波束形成子模块,用于获得目标声源语音的参考信号;零陷波束形成子模块,用于获得环境噪声的参考信号;外围分析子模块,用于通过模拟声音进入人耳的过程,将两路语音进行分频及对语音信号进行变换;特征提取子模块,用于提取分频后两路语音信号的延时差和能量差信息;
生成掩蔽子模块,根据提取的延时差和能量差信息获得不同时频区域对应的掩蔽值;掩蔽值平滑子模块,用于对提取的掩蔽值进行平滑处理;语音信号重建子模块,用于对由波束形成模块得到的参考信号进行掩蔽值处理, 并合成增强后的语音信号作为输出。优选的,所述语音采集模块还包括以下子模块滤波子模块,用于对两路麦克采集的语音信号进行带通滤波;放大子模块,用于将滤波后的语音信号进行放大;A/D转换子模块,用于将放大后的语音信号转换为数字信号。优选的,所述双麦克语音增强模块还包括以下子模块语音激活检测子模块,用于检测纯环境噪声语音段。优选的,所述外围分析子模块包括以下单元内耳耳蜗模拟单元,用于将语音信号进行gammatone滤波分频,获取两路信号在 128个不同子频带的语音信号;内耳非线性神经传导模拟单元,用于将每个频率通道的子带信号进行非线性变换;中耳模拟单元,用于通过对每个通道的gammatone滤波器的增益按照等响度曲线进行调整。与现有技术相比,本发明具有以下优点本发明通过特定的双麦克结构,模拟人耳的听觉场景分析能力来实现语音增强, 具有与噪声类型无关的特点,可广泛应用于各类噪声环境下的语音增强,利用计算听觉场景分析的原理,将目标语音从背景噪声中进行分离,从而实现去噪,从而实现了与噪声的具体类型、各种噪声源的个数、目标声源与噪声源的空间拓扑结构无关,在实现较好去噪效果的同时保证较高的语音质量。


图1是本发明具体实施方式
中所述的人耳基本结构的示意图;图2是本发明具体实施方式
中所述的外围分析的基本原理与人耳工作机理的对照示意图;图3是本发明实施例所述的一种语音增强的系统结构图;图4是本发明实施例所述的语音采集中麦克风阵列分布的结构示意图;图5是本发明实施例所述的语音信号采集部分结构框图;图6是本发明实施例所述的双麦克语音增强算法部分总体示意图;图7是本发明实施例所述的双麦克VAD模块原理示意;图8是本发明实施例所述的Meddis模型原理示意图;图9是本发明实施例所述的信号重建原理示意图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。近年来,基于听觉场景分析的语音处理技术的研究日趋活跃。听觉场景分析 (Auditory Scene Analysis)是指人类的听觉系统能够从复杂的混合声音中选择并跟踪某一说话人的声音,这一现象首先由Cherry发现,并称之为“鸡尾酒会效应”。听觉场景分析的概念首先是由著名心理听觉学家Albert Bregman在其专著《计算场景分析》中提出。听觉系统利用声音的各种特性(时域、频域、空间位置等),通过自下而上(分解)和自上而下 (学习)的双向信息交流,对现实世界的混合声音进行分解,使各成分归属于各自的物理声源。此后,人们尝试用计算机模拟人的这种听觉特性,产生了计算听觉场景分析 (Computational Auditory Scene Analysis,CASA)方法。既然是模拟人的一种生理机能, 因此,这里对人耳的生理结构及声音进入人耳、引起神经冲动并由听神经传导、人脑的处理机能做一些介绍并用计算机算法的形式模拟实现。人耳的基本结构的示意图如图1所示,主要包括外耳、中耳、内耳。其中,外耳包括外耳道和鼓膜,鼓膜是中耳的门户。声音经鼓膜传到中耳,中耳主要由锥骨、镫骨、钻骨三块听小骨组成,其对声音的传播起到一个类似于杠杆的放大作用。内耳里最重要的器官是耳蜗,当声音引起内耳的卵圆窗振动后,这种振动通过耳蜗内的淋巴液的流动传递。而耳蜗内有细小的毛细胞把淋巴液流动转化为生物电信号产生神经冲动,最后由神经把信息送往大脑进一步处理。模拟声音由空间路径进行传播以及人的外耳部分对声音的影响我们用的是 HRTF (Head Related Transfer Function),这个头相关传输函数是通过一个人头模型采集声音信号,再计算出来的一个传输函数。由于中耳的模拟是与内耳的工作相关的,我们先介绍内耳。内耳的第一个过程是进行耳蜗滤波,将声音分解到不同的频带上。例如,可以采用1 个滤波器组成的非均勻的 gammatone滤波器组,由于各个频带是依据人耳的听觉特性进行划分的,gammatone滤波器组体现了人耳的听觉特性信息。而中耳的工作可以对于各个频率通道按照等响度曲线对gammatone滤波器的增益进行调整来进行模拟。内耳的另一个过程就是产生神经冲动的过程,这是一个非线性变换的过程。可以采用Meddis模型进行模拟。以上模拟人耳的三个过程我们称为外围分析,外围分析的基本原理与人耳工作机理的示意图如图2所示。实施例参照图3,示出了本发明的一种语音增强的系统结构图,所述系统具体包括语音采集模块301,包括两路麦克,其中一路麦克置于目标声源的近端;另一路麦克置于目标声源的远端;所述采集模块用于采集两路语音信号;本发明提出的语音增强技术采用两路麦克风,因而属于麦克风阵列语音增强技术的一种。语音采集部分的麦克风阵列分布结构如图4所示。其中一路麦克置于目标声源的近端,另一路麦克置于目标说话人的远端。
优选的,所述语音采集模块301还包括以下子模块滤波子模块3011,用于对两路麦克采集的语音信号进行带通滤波;放大子模块3012,用于将滤波后的语音信号进行放大;A/D转换子模块3013,用于将放大后的语音信号转换为数字信号。两个麦克采集两路语音信号,所采集的两路语音信号首先经过滤波和放大处理, 再通过A/D变换得到语音数字信号,以备进一步处理。语音信号采集部分的结构框图如图 5所示。近端麦克风主要是采集的目标声源语音信号但混杂有环境噪声。为使最后的处理效果更好,先是使用直接采集到的两路语音信号进行波束形成计算,形成主瓣方向对准目标声源的一个波束,以抑制掉一部分环境噪声。远端麦克风主要是采集的环境噪声的参考信号,但混杂有目标声源语音信号。为使最后的处理效果更好,使用直接采集到的两路语音信号进行零陷波束形成计算,形成零瓣方向对准目标声源的一个波束,以抑制掉一部分目标声源信号。双麦克语音增强模块302,用于对采集的两路语音信号进行处理,以获取增强后的目标声源语音信号;所述双麦克语音增强模块302包括以下子模块波束形成子模块3021,用于获得目标声源语音的参考信号;零陷波束形成子模块3022,用于获得环境噪声的参考信号;波束形成子模块3021与零陷波束形成子模块3022的原理相似,大致如下
对于位置c处的声源发出的语音信号由采集电路采集到的两路信号X1 (η)与& (η) 的频域表达为Xi (k) (i = 1,2)如式(13)所示Xi (k) = Di (k, c) Ai (k) Ui (k,c) S (k) i = 1,2 (13)其中,c = {x, y,ζ}是直角系中声源的坐标,Pi = Ixi, Yi, zj是第i个麦克在直角坐标系中的坐标,S(k)是声源信号,Di(k,c)是表示声音在空间中传播时幅度与相位的变化,其表达式如式(14)所示
权利要求
1.一种语音增强的系统,其特征在于,所述系统包括语音采集模块,包括两路麦克,其中一路麦克置于目标声源的近端;另一路麦克置于目标声源的远端;所述采集模块用于采集两路语音信号;双麦克语音增强模块,用于对采集的两路语音信号进行处理,以获取增强后的目标声源语音信号;所述双麦克语音增强模块包括以下子模块 波束形成子模块,用于获得目标声源语音的参考信号; 零陷波束形成子模块,用于获得环境噪声的参考信号;外围分析子模块,用于通过模拟声音进入人耳的过程,将两路语音进行分频及对语音信号进行变换;特征提取子模块,用于提取分频后两路语音信号的延时差和能量差信息; 生成掩蔽子模块,根据提取的延时差和能量差信息获得不同时频区域对应的掩蔽值; 掩蔽值平滑子模块,用于对提取的掩蔽值进行平滑处理;语音信号重建子模块,用于对由波束形成模块得到的参考信号进行掩蔽值处理,并合成增强后的语音信号作为输出。
2.根据权利要求1所述的系统,其特征在于,所述语音采集模块还包括以下子模块 滤波子模块,用于对两路麦克采集的语音信号进行带通滤波;放大子模块,用于将滤波后的语音信号进行放大;A/D转换子模块,用于将放大后的语音信号转换为数字信号。
3.根据权利要求1所述的系统,其特征在于,所述双麦克语音增强模块还包括以下子模块语音激活检测子模块,用于检测纯环境噪声语音段。
4.根据权利要求1所述的系统,其特征在于,所述外围分析子模块包括以下单元 内耳耳蜗模拟单元,用于将语音信号进行gammatone滤波分频,获取两路信号在1 个不同子频带的语音信号;内耳非线性神经传导模拟单元,用于将每个频率通道的子带信号进行非线性变换; 中耳模拟单元,用于通过对每个通道的gammatone滤波器的增益按照等响度曲线进行调整。
全文摘要
本发明提供了一种语音增强的系统,通过特定的双麦克结构,模拟人耳的听觉场景分析能力来实现语音增强,具有与噪声类型无关的特点,可广泛应用于各类噪声环境下的语音增强,利用计算听觉场景分析的原理,将目标语音从背景噪声中进行分离,从而实现去噪,从而实现了与噪声的具体类型、各种噪声源的个数、目标声源与噪声源的空间拓扑结构无关,在实现较好去噪效果的同时保证较高的语音质量。
文档编号G10L19/00GK102456351SQ20101051529
公开日2012年5月16日 申请日期2010年10月14日 优先权日2010年10月14日
发明者杨华中, 梁维谦, 胡奎, 蒋毅, 陈卓 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1