基于人耳听觉特性的语音识别预处理方法

文档序号:9845035阅读:424来源:国知局
基于人耳听觉特性的语音识别预处理方法
【技术领域】
[0001] 本发明涉及语音识别领域,特别是一种具有人耳听觉特性的预处理方法。
【背景技术】
[0002] 随着人类社会的进步,人们对机器的人机交互性能要求越来越高。语言是人类所 特有的功能之一,如果让机器也具备和人类语言沟通的能力,那么机器就和人类建立了一 条自然、易懂、方便的沟通桥梁。这样人们就很容易操控机器,达到更和谐自然的人机交互 效果,要实现这样的目标最关键的技术就是语音识别技术。
[0003] 在安静环境下,语音识别准确度和鲁棒性已经达到实用水平,然而生活中噪声无 处不在,噪声使得语音训练模型和测试语音之间的失配导致识别率的下降。因此,在噪声环 境下,研究信噪比高的预处理过程消除噪声干扰具有非常好的研究价值。语音信号的预处 理效果对整个语音识别系统的性能产生强大影响,它将带噪声的语音信号处理成较为纯净 的语音,减轻了特征提取和模式匹配的负担。传统的预处理抗噪算法有谱减法、语音增强 等。谱减法对背景噪声去除有很好的效果,但只消除了语音信号的高斯白噪声。语音增强对 输入的语音信号进行增强,由于实际环境中噪声繁多,种类复杂,很难找到一种适应性能强 并且准确度高的语音增强方法,因此,语音增强方法的预处理鲁棒性能差。综上所述,传统 预处理方法在噪声环境下不能得到高信噪比语音信号,从而影响整个语音识别系统的识别 率。
[0004] 复杂的噪声环境下的语音识别类似于鸡尾酒会效应,在该环境中进行语音识别需 要经过语音分离预处理。目前基于工程的的主要方法是波束成型技术以及频谱屏蔽,这些 尝试已经达到其极限但其性能仍然难以与人脑听觉系统相比。人耳听觉系统具有很好的抗 噪性能,人们对人耳听觉系统的研究已经取得了长足进步。在严酷的条件下,包括有噪声或 者是信道发生变化时,人耳听觉系统的性能明显优于机器语音识别,语音识别系统的抗噪 性能远不及人耳听觉系统的优良,因此人们开启了模仿人耳听觉系统的功能来提高语音识 别系统的抗噪性能的旅程。受生物学启发,本文提出了一种基于人耳听觉特性的语音分离 的预处理方法,分离后能够得到信噪比更高的语音信号,该识别系统具有更高的识别率和 更好的鲁棒性。

【发明内容】

[0005] 针对以下现有的不足,提出了一种可以在复杂噪声环境下大幅度提高语音信号的 信噪比的基于人耳听觉特性的语音识别预处理方法。。本发明的技术方案如下:一种基于人 耳听觉特性的语音识别预处理方法,其包括以下步骤:
[0006] 101、采用模拟人耳听觉系统获取语音信号;
[0007] 102、对步骤101得到的含噪声的语音信号,采用基于人耳听觉特性的语音分离方 法进行语音分离;
[0008] 103、采用语音定位获取目标语音信号;
[0009] 104、对获取的目标语音信号再进行其他预处理,完成语音识别。
[0010] 进一步的,步骤102采用基于人耳听觉特性的语音分离方法进行语音分离具体包 括:2-1)经过耳蜗基底膜模型进行频谱分析;2-2)再通过上橄榄核模型进行语音信息提取; 2-3)最后在下丘脑细胞模型中完成语音分离。
[0011] 进一步的,所述步骤2-1)经过耳蜗基底膜模型进行频谱分析具体为;选择具有人 耳听觉特性的Ga_atone滤波器组对语音信号进行频率分解;
[0012] 进一步的,所述Gammatone滤波器组频率的选择范围从20Hz-4KHz分别对左、右耳 混叠信号按时间帧进行频率分解;耳蜗基底膜模型将语音信号按照滤波器个数进行传递。
[0013] 进一步的,所述步骤2-2)通过上橄榄核模型进行语音信息提取具体为;
[0014] 耳蜗基底膜处理语音信号后分成多个通道传递给上橄榄复合体进行语音信号的 双耳时间差ITD和D双耳水平差IL定位信息的提取,ITD的计算公式如下:
[0015]
[0016] 式中:
[0017] (r)一一左耳和右耳的语音信号的互相关,可由下式计算:
[0018]
[0019]式中:
[0020] 一一左耳和右耳语音信号互功率谱
[0021] ILD的计算公式如下:
[0022]
[0023]
[0024] 式中:
[0025] 4,--左耳和右耳的ILD值;Ω i--子带i的频率范围(ΙΚΗζ~4KHz)Wi (ω )--滤波器权重;S( ω )--声源功率谱。
[0026]进一步的,当信号为20Hz到1000Hz低频语音信号时,重合神经元模型只有来自上 橄榄内侧的语音特征输入;1000Hz到4KHz语音信号时,上橄榄外侧和上橄榄内侧的语音特 征都输入重合神经元;高于4KHz语音信号时,重合神经元只有上橄榄外侧语音特征的输入。 [0027]进一步的,步骤104对获取的目标语音信号再进行其他预处理包括预加重、分帧加 窗、双门限端点检测。
[0028]本发明的优点及有益效果如下:
[0029]本发针对传统语音识别预处理模型抗噪性能差的问题,提出了具有人耳听觉特性 的语音识别预处理方法,并详细阐述了整个模型的构建过程,包括基于人耳听觉特性的语 音分离、目标语音信号的确立、端点检测等其他预处理过程。基于人耳听觉特性的预处理的 抗噪性能远好于传统的语音增强预处理模型的抗噪性能,基于人耳听觉特性的预处理具有 良好的抗噪性能。
【附图说明】
[0030] 图1是本发明提供优选实施例基于人耳听觉特性的语音识别预处理方法流程图;
[0031] 图2为Gammatone滤波器组多频率分解图;
[0032] 图3为脑下丘的Onset Cell模型;
[0033]图4为通用突触模型结构图;
[0034]图5为声源方位坐标系。
【具体实施方式】
[0035] 以下结合附图,对本发明作进一步说明:
[0036] 如图1所示,针对噪声环境下传统语音识别预处理过程不能得到高信噪比的语音 信号带来的识别率下降问题,本文结合人耳听觉特性,提出一种基于人耳的听觉选择能力 即"鸡尾酒会效应"的语音分离技术应用到语音识别预处理过程。含噪声的语音信号经过耳 蜗基底膜模型进行频谱分析,再通过上橄榄核模型进行语音信息提取,最后在下丘脑细胞 模型中完成语音分离。分离得到更纯净的语音后再进一步进行目标语音信号的确立。
[0037] 如图1所示,为本发明提出的基于人耳听觉特性的语音识别预处理系统框图,基于 人耳听觉特性的语音识别预处理方法包括基于人耳听觉特性的语音分离、目标语音信号的 确立和其他预处理三个部分。基于人耳听觉特性的语音分离包括耳蜗基底膜模型、语音信 息提取和脑下丘细胞模型。耳蜗基底膜模型将语音信号划分成多个通道,通过上橄榄模型 提取语音特征,并在脑下丘细胞模型中完成语音分离。分离后再通过语音定位来确立目标 语音信号,从而得到信噪比更高的语音信号。最后经过预加重、分帧加窗、端点检测等其他 预处理完成整个语音识别预处理模型构建。
[0038]如图2所示,为本发明中Gammatone滤波器组多频率分解图。人耳耳蜗基底膜是听 觉中枢实现语音分离的重要环节:语音信号由于频率的不同,基底膜不同位置产生不同的 振动,从而起到分解语音信号的作用。因此本文选择具有人耳听觉特性的Ga_atone滤波器 组对语音信号进行频率分解。频率的选择范
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1