基于人耳听觉特性的语音识别预处理方法_2

文档序号：9845035阅读：来源：国知局

围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解。耳蜗基底膜模型将语音信号分成多个(滤波器个数)通道传递，从而便于语音信号在系统模型中的分离。
[0039]如图3所示，为本发明中的脑下丘的Onset Cell模型。细胞处于active时，模型将处于通用突触模型的神经元状态。细胞处于inactive时，细胞模型空置。当输入一个抑制性的信号或者释放一个脉冲时模型将处于inactive。当模型在一段持续时间内没有抑制性的信号输入且有ITD和ILD信号输入时处于active状态。
[0040] 如图4所示，为本发明中通用突触模型结构图，通用突触模型有以下关系式成立：
[0041]
[0042]
[0043]
[0044]
[0045] 式中：
[0046] p(t)--神经发放率
[0047] c(t)--裂隙中递质数量
[0048] k(t)--渗透率
[0049] stim(t)一一输入语音信号的短时幅度
[0050] w(t)--再生库递质数量
[0051 ] q(t)--Onset神经细胞递质的数量
[0052]通用突触模型的相关参数如表1，表中参数大写对应公式小写(除开A，B):
[0053] 表1通用突触模型的相关参数
[0054]
[0055] 发放率p(t)和ITD、ILD的关系式如下：
[0056] ΔΤΧΤ(?, j)+ALXL(i, j)=201gp(t)
[0057] 式中：
[0058] Δ Τ、Δ L一一分别表示声音延迟影响等级和声音方位影响等级
[0059] T(i，j)、L(i，j)--分别是第i频率通道、第j时间帧的ITD值、ILD值
[0060] 计算出所有通道的发放率P(t)，并由下式计算出C(t)。
[0061]
[0062] 然后计算出q(t)和x(t):
[0063] q(t)=y[l_q(t_l)]dt-lc(t_l)dt-c(t)-c(t_l)+q(t_l)
[0064] x(t)=[c(t)-c(t~l)/dt+lc(t)+r(t)]/q(t)
[0065] x(t)为初步得到的分离语音信号，x(t)通过迭代重构就可以恢复出原始语音信号。
[0066] 如图5所示，为本发明中声源方位坐标系，以插孔麦克风输入位置为原点，建立三维坐标系。假设声源和双麦克风在一个平面上，则：
[0067]
[0068] 式中：
[0069] di,d2一一声源到麦克风距离
[0070] Ei,E2一一麦克风接收的语音信号的能量
[0071] 设(Xl，yi)为第i个麦克风的位置坐标，声源坐标位置为(Xs，y s)。则有：
[0072] Ei[ (xi-xs)2+(yi-ys)2] =E2[ (x2-xs)2+(y2-ys)2]
[0073] 再根据时间差ITD的值τ12得出：
[0074]
[0075] 根据以上两式可以算出声源在麦克风同一平面的坐标，即得出声源位置在环绕两麦克风组成直线一周的位置上。
[0076] 由于目标声源坐标通常在插孔麦克风（即声源方位坐标系原点）附近，则可以假设目标声源在方圆一定范围内，此处假设为到原点距离小于〇.〇5m。则将实际声源通过坐标转换可以粗略判断出目标声源，从而得到目标语音信号。
[0077] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。
【主权项】
1. 一种基于人耳听觉特性的语音识别预处理方法，其特征在于，包括以下步骤： 101、采用模拟人耳听觉系统获取含噪声的语音信号； 102、对步骤101得到的含噪声的语音信号，采用基于人耳听觉特性的语音分离方法进行语音分离； 103、采用语音定位获取目标语音信号； 104、对获取的目标语音信号再进行其他预处理，完成语音识别。2. 根据权利要求1所述的基于人耳听觉特性的语音识别预处理方法，其特征在于，步骤 102采用基于人耳听觉特性的语音分离方法进行语音分离具体包括:2-1)经过耳蜗基底膜模型进行频谱分析;2-2)再通过上橄榄核模型进行语音信息提取;2-3)最后在下丘脑细胞丰旲型中完成语首分尚。3. 根据权利要求2所述的基于人耳听觉特性的语音识别预处理方法，其特征在于，所述步骤2-1)经过耳蜗基底膜模型进行频谱分析具体为;选择具有人耳听觉特性的Gammatone 滤波器组对语音信号进行频率分解。4. 根据权利要求3所述的基于人耳听觉特性的语音识别预处理方法，其特征在于，所述 Gammatone滤波器组频率的选择范围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解;耳蜗基底膜模型将语音信号按照滤波器个数进行传递。5. 根据权利要求2所述的基于人耳听觉特性的语音识别预处理方法，其特征在于，所述步骤2-2)通过上橄榄核模型进行语音信息提取具体为；耳蜗基底膜处理语音信号后分成多个通道传递给上橄榄复合体进行语音信号的双耳时间差ITD和双耳水平差ILD定位信息的提取，ITD的计算公式如下：式中：R"(r)一一左耳和右耳的语音信号的互相关，可由下式计算：式中： (ff)) 左耳和右耳语首?目号互功率谱 ILD的计算公式如下：式中：八、Λ--左耳和右耳的ILD值；Ω!--子带i的频率范围（ΙΚΗζ~4KHz)Wi( ω )--滤波器权重;S( ω ) -一声源功率谱。6. 根据权利要求5所述的基于人耳听觉特性的语音识别预处理方法，其特征在于，当信号为20Hz到1000Hz低频语音信号时，重合神经元模型只有来自上橄榄内侧的语音特征输入；1000Hz到4KHz语音信号时，上橄榄外侧和上橄榄内侧的语音特征都输入重合神经元;高于4KHz语音信号时，重合神经元只有上橄榄外侧语音特征的输入。7.根据权利要求5所述的基于人耳听觉特性的语音识别预处理方法，其特征在于，步骤 104对获取的目标语音信号再进行其他预处理包括预加重、分帧加窗、双门限端点检测。
【专利摘要】本发明请求保护一种基于人耳听觉特性的语音识别预处理方法，涉及语音识别领域，它采用具有人耳听觉特性的预处理方法，具有较强的扩展性，在噪声环境下，相比于传统抗噪方法，该方法具有更好的抗噪效果，该语音识别系统具有更好的鲁棒性。含噪声的语音信号经过耳蜗基底膜模型进行频谱分析，再通过上橄榄核模型进行语音信息提取，最后在下丘脑细胞模型中完成语音分离。分离得到更纯净的语音后，通过语音定位确立目标语音信号，从而从噪声环境中分离出待识别语音信号。
【IPC分类】G10L15/20, G10L21/0232, G10L15/06, G10L21/0272, G10L15/02, G10L15/16
【公开号】CN105609099
【申请号】CN201510991556
【发明人】张毅, 徐晓东, 萧红, 罗久飞, 黄超, 苏祖强
【申请人】重庆邮电大学
【公开日】2016年5月25日
【申请日】2015年12月25日

完整全部详细技术资料下载

当前第2页1 2