一种基于Gabor时频分析的耳语增强方法

文档序号：2818965阅读：362来源：国知局

专利名称：一种基于Gabor时频分析的耳语增强方法
技术领域：
本发明涉及一种耳语增强方法，属于多媒体信号处理技术领域。
背景技术：
耳语音增强的目的在于从被噪声污染的耳语音中尽可能提取纯净的耳语音。耳语音增强技术在语音识别，音频编码及人机交互接口等应用领域都起着重要作用。当前的耳语音增强研究主要集中在如何更准确的估计噪声谱，研究者们提出了很多改进方法且取得了一定的效果。然而，这些变换域语音增强方法在计算频谱时均采用短时傅里叶变换，而有关基于其他联合时频分析方法的语音增强算法的报道并不多见。耳语音信号本质上是非平稳信号，Gabor联合时频分析是处理非平稳信号的重要方法之一。为此，我们提出一种基于实值离散Gabor变换(RDGT)的联合时频域耳语音增强算法，RDGT中采用的高斯窗函数具有时宽带宽积最小的特性，相比其他窗函数能更好的描述信号的局部时频特征，对耳语音信号分析更加细腻，从而更好的分离耳语音和噪声谱。算法中RDGT正变换和反变换分别采用的两个窗函数满足双正交关系，使得重建信号与原信号误差更小。另外，在RDGT中，可以根据过抽样率参数控制频谱的粗细程度。为了评价算法的有效性及其增强性能，我们将此算法与其他经典算法进行了算法复杂性比较，并且在不同的噪声环境和不同原始信噪比条件下分别进行语音增强实验，实验同时采用客观评价与主观评价相结合的方式来衡量算法的性能。实验结果表明联合时频域增强算法相比传统频域方法在多种噪声背景下都获得了较好的语音增强性能。

发明内容
本发明的所要解决的技术问题是提供一种耳语音增强技术。本发明为实现上述发明目的采用如下技术方案所述的基于Gabor时频分析的耳语音增强步骤如下第I步利用Gabor时频分析理论和方法提取耳语音对数谱幅度，设带噪耳语音信号为y (n) = X (n) +d(n)，其中x (n)和d(n)分别代表纯净的耳语音和噪声信号，且纯净语音和噪声不相关。SY1XnunhX1Xm,]!)和口“!!!,]!)分别代表y(k),x(n)和d(n)的实值离散Gabor变换系数，则具体的实值离散Gabor变换式(以y(k)为例)可表不为
L-IYr(m，n) - $}(々)/(々—fna)cas(2mkIN)(I)
k=0其相应的逆变换为
_M-IW-Iy{k) - ^ ^ 7r (m, n)g(k - ma)cas{2mk i N)(2)
w=0 w=0其中a为时移长度，L代表耳语音信号的长度，M为频域抽样点数，N为时域抽样点数，cas(t) = cos (t)+sin (t), y (k)是综合窗g(k)的双正交分析窗函数,且两者满足如下双正交关系
上_1L
权利要求
1 一种基于Gabor时频分析的耳语增强方法，其特征在于，步骤如下第I步，利用Gabor时频分析理论和方法提取耳语音对数谱幅度设带噪耳语音信号为y(n) = x(n)+d(n)，其中x(n)和d(n)分别代表纯净的耳语音和噪声信号，且纯净耳语音和噪声不相关和D1Xm, n)分别代表y (k)、x (n)和d (n)的实值离散Gabor变换系数，则y (k)具体的实值离散Gabor变换式可表示为L-I
全文摘要
本发明提供一种基于Gabor时频分析的耳语增强方法，包括如下步骤第1步利用Gabor时频分析理论和方法提取耳语音对数谱幅度，第2步，基于无语音概率的耳语音噪声谱估计，第3步，获取纯净耳语音的功率谱，并求增强后的耳语音信号；本发明基于Gabor变换下的耳语音功率谱根据抽样率的不同有着多样的时频分析细腻度，从而可以根据不同的语音类型采用不同的抽样率，使算法普适性更强。
文档编号G10L21/02GK102737643SQ201110092780
公开日2012年10月17日申请日期2011年4月14日优先权日2011年4月14日
发明者余华, 周健, 张毅锋, 王开, 赵力, 邹采荣, 金赟申请人:东南大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵力;周健;邹采荣;王开;金赟;张毅锋;余华
技术所有人：东南大学
我是此专利的发明人

上一篇：复杂背景噪声中的语音激活检测方法
上一篇：一种面向工尺谱乐谱的midi文件结构与产生装置的制作方法