一种基于计算听觉场景分析的单通道语音盲分离方法

文档序号：2826183阅读：488来源：国知局

一种基于计算听觉场景分析的单通道语音盲分离方法
【专利摘要】本发明涉及一种基于计算听觉场景分析的单通道语音盲分离方法，所述方法包括如下步骤：步骤一、对输入的混叠语音进行前端处理；步骤二、对经过步骤一处理的混叠语音进行听觉特征提取；步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割；步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组；步骤五、对经过步骤四处理的混叠语音进行目标语音重构。本发明在噪声存在的情况下，可以很好地解决单通道混叠语音分离问题，分离的语音可以应用于语音识别的前端，在人工智能、语音通信，声音信号增强领域都将有着广阔的应用前景。
【专利说明】一种基于计算听觉场景分析的单通道语音盲分离方法
【技术领域】
[0001]本发明涉及一种基于计算听觉场景分析的单通道语音盲分离方法，属于语音信号处理领域。
【背景技术】
[0002]语音信号处理是近年来信号处理中最引人注目的研究領域之一，在语音信号处理领域，ー个重要的问题是如何从未知信号随机混合得到的混叠语音中分离出原始语音，混叠语音分离在噪声消除、语音合成、语音通信等方面有重要的研究意义和实用价值。由于混叠语音在时域和频域的重叠性，常用的语音增强方法难以实现语音分离。目前，混叠语音分离最常采用的方法是盲源分离方法即独立分量分析方法，但独立分量分析方法有一些假设条件，例如要求观测信号的个数大于或等于源信号的个数、假定没有噪声等，这些条件限制了盲源分离的应用，因此，盲源分离不能应用于源信号个数大于观测信号个数的单通道混叠语音分离问题，尤其是在噪声存在的情况下，盲源分离方法应用于混叠语音分离效果明显恶化。
[0003]人工智能领域的发展需要新一代计算机的人机接ロ能自如地用语言和人类交流。语音和人类的听觉系统是密切相关的，在研究语音信号本身的特性及其处理方法的同吋，研究人类听觉系统感知语音信息的机理将能进ー步促进语音信号处理的研究。事实上，人类听觉系统对语音信号的感知能力大大地超过了目前的信号处理水平，由于人的听觉系统是ー个很强大的音频信号处理器，特别是在强噪声干扰下，人类能有选择地听取所需的内容，能够从杂乱的声音信号中分辨并跟踪其感兴趣的某一路目标信号，感知其相关信息，即所谓的“鸡尾酒会效应”。利用听觉感知的研究成果建立模型，并用计算机来实现它，使听觉场景分析应用到机器智能中，让机器具有智能的听觉，这就是计算听觉场景分析。用计算听觉场景分析方法进行混叠语音信号分离，不仅符合人的感知特性，而且不受盲源分离方法的那些假设条件限制。计算听觉场景分析从心理模型的角度，把听觉组织过程看作是ー个具有层次性的加工过程，丰富了听觉组织的理论，听觉场景分析还用生态学的观点来分析听觉组织过程，从而增加了理论的外部效应，使之更加易于实际应用。计算听觉场景分析由于其不需要假设信号的统计特性和单通道条件下的可实现性，所以特别适合应用于噪声存在时的单通道混叠语音分离问题。

【发明内容】

[0004]本发明的目的是克服现有技术的缺点，解决如何从存在噪声的单通道混叠语音中分离出目标语音的方法，提出一种基于能量和谐波特性的计算听觉场景分析单通道混叠语音分离方法。
[0005]本发明提出一种基于计算听觉场景分析的单通道语音盲分离方法，其特征在于:
[0006]所述方法包括如下步骤:
[0007]步骤一、对输入的混叠语音进行前端处理；[0008]步骤二、对经过步骤ー处理的混叠语音进行听觉特征提取；
[0009]步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割；
[0010]步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组；
[0011]步骤五、对经过步骤四处理的混叠语音进行目标语音重构。
[0012]进ー步地，步骤一中:所述前端处理是将输入的混合时域信号转化成相应的时频域表示形式；根据人耳的感知机理，将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波，该滤波器的中心频率按照等距宽(Equivalent RectangularBandwidth,ERB)在80~5kHz之间准对数分布；将时频分解后的姆一个Gammatone滤波器的输出送入Meddis内耳毛细胞模型；得到神经发放率；然后，在时域上对每个毛细胞的输出以帧长20ms，50%重叠为帧移进行分帧处理；将输入的混合语音信号分解成为一系列时频单元，即T-F単元；同时，为了高频部分的特征提取和听觉重组，对毛细胞输出进行半波整流和低通滤波，从而得到每个通道的包络特征。
[0013]进ー步地，步骤二中:经过前端处理过程，混合语音信号在时域和频域上被分解成一系列的T-F単元，在每个T-F単元中，计算下列特征函数:自相关函数(Ah)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE)，式(4)、式
(5)、式(6)、式(7、式⑶为其计算公式:
【权利要求】
1.一种基于计算听觉场景分析的单通道语音盲分离方法，其特征在于: 所述方法包括如下步骤: 步骤一、对输入的混叠语音进行前端处理；步骤二、对经过步骤ー处理的混叠语音进行听觉特征提取；步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割；步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组；步骤五、对经过步骤四处理的混叠语音进行目标语音重构。
2.如权利要求1所述的ー种基于计算听觉场景分析的单通道语音盲分离方法，其特征在于: 步骤一中:所述前端处理是将输入的混合时域信号转化成相应的时频域表示形式；根据人耳的感知机理，将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波，该滤波器的中心频率按照等距宽(Equivalent Rectangular Bandwidth, ERB)在80~5kHz之间准对数分布；将时频分解后的姆ー个Gammatone滤波器的输出送入Meddis内耳毛细胞模型；得到神经发放率；然后，在时域上对每个毛细胞的输出以帧长20mS，50%重叠为帧移进行分帧处理；将输入的混合语音信号分解成为一系列时频单元，即T-F単元；同时，为了高频部分的特征提取和听觉重组，对毛细胞输出进行半波整流和低通滤波，从而得到每个通道的包络特征。
3.如权利要求1或2所述的ー种基于计算听觉场景分析的单通道语音盲分离方法，其特征在于: 步骤二中:经过前端处理过程，混合语音信号在时域和频域上被分解成一系列的T-F単元，在每个T-F単元中，计算下列特征函数:自相关函数(AH)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE)，式(4)、式(5)、式(6)、式(7、式(8)为其计算公式:

4.如权利要求3所述的ー种基于计算听觉场景分析的单通道语音盲分离方法，其特征在于: 步骤三中:根据听觉特征提取的提取特征，混合语音信号经过听觉前端处理后的那些T-F単元，合并成对应的听觉片段；在时频域中，属于某一个声源的连续T-F単元的片段区域，定义为段，它是介于时频単元和语音听觉流的中间表示； (1)类型"1"听觉片段对于频率信道上的两个相邻T-F単元u(c，m)，u(c+l, m)，如果其相邻信道互相关(CH)满足式(9)，则将这两个T-F単元都标记为"1"；

5.如权利要求4所述的ー种基于计算听觉场景分析的单通道语音盲分离方法，其特征在于: 步骤四中:将上ー阶段来自同一个声源的那些听觉片段分别重组到对应的目标语音流和干扰噪声流中，从而实现目标语音分离； (I)T-F单元标记对于类型"1"听觉片段中的T-F単元，利用该T-F単元的自相关函数和目标语音基音频率来刻画谐波关系，即周期性准则；如果片段"1"中的时频单元u(c，m)满足:AH\c,m,P\m)) >Q

6.如权利要求5所述的ー种基于计算听觉场景分析的单通道语音盲分离方法，其特征在于: 步骤五中:利用二值模和Gammatone滤波器结构来合成目标语音信号的时域波形图，从而实现语音信号的分离；目标语音重构的具体步骤如下: (1)各个Ga_atone滤波器信道的输出信号先进行时间反转，并将其结果再次送入Gammatone 滤波器； (2)由于滤波器频率信道间存在相位延迟，需要将上ー阶段每个滤波输出的信号再一次时间反转，来消除滤波器本身的时延； (3)利用每帧20ms，帧移10ms的分帧原则，采用升余弦函数作为窗函数，对各个滤波信道的输出信号分帧处理； (4)以ニ值模为权值，即权值1和0，在频率轴上对T-F单元滤波响应进行加权求和，其输出结果即为重构后的目标语音信号。
【文档编号】G10L21/0272GK103456312SQ201310384413
【公开日】2013年12月18日申请日期:2013年8月29日优先权日:2013年8月29日
【发明者】李鸿燕, 贾海蓉, 张雪英, 任光龙, 屈俊玲申请人:太原理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李鸿燕;贾海蓉;张雪英;任光龙;屈俊玲
技术所有人：太原理工大学
我是此专利的发明人

上一篇：演奏信息处理装置、演奏信息处理方法
上一篇：一种基于流形的语音情感识别方法