鲁棒性活动语音检测方法

文档序号:2835911阅读:372来源:国知局
专利名称:鲁棒性活动语音检测方法
技术领域
本发明涉及一种鲁棒性活动语音检测方法,具体涉及提高编码效率和信道利用率的活动语音检测方法,属于音频信号处理领域。
背景技术
活动语音检测方法是利用语音信号与噪音信号在共性信息方面的差异,自动识别语音段和非语音段的技术。活动语音检测是音频信号处理领域的一个重要技术,特别是在带宽有限而语音流量很大的即时通信领域,活动语音检测技术可以在不影响通信质量的情况下,去除语音流中的静音部分,进而有效地提高通信中的高编码效率和信道利用率。虽然活动语音检测技术已经取得了有效的进展,但是至今仍有一些重要问题尚未很好的解决, 特别是在低信噪比非平稳噪音条件下,活动语音检测技术的性能有待进一步的提高。目前, 绝大部分检测方法基于i^ourier变换(傅立叶变换)提取的频域音频特征,但该类型音频特征对噪音(特别是非平稳噪音)缺乏鲁棒性,而该缺陷是影响活动语音检测技术性能提高的根本因素。为了进一步提高活动语音检测技术的性能,有必要研究并采用对噪音鲁棒的变换技术,并在此基础上设计新的检测方法。

发明内容
本发明目的是为了解决现有的活动语音检测方法是基于傅立叶变换提取的频域音频特征,但该类型音频特征对噪音(特别是非平稳噪音)缺乏鲁棒性,进而影响活动语音检测技术性能的问题,提供了一种鲁棒性活动语音检测方法。本发明所述鲁棒性活动语音检测方法,该方法包括以下步骤步骤一采样大量的历史语音数据,并根据所述历史语音数据训练出一个语音字典集Ψ e RLxd,其中R表示是实数空间,L和D是大于0的自然数,分别表示某一空间维度;步骤二 根据步骤一获取的语音字典集Ψ,对输入的语音信号S = {Sl,S2,..., sN} e Rlxn进行稀疏分解,提取语音的稀疏系数C= {C1,C2,...,CN} GRdxn;其中N是自然数,表示某一空间维度;步骤三根据步骤二获取的稀疏系数C重构被稀疏分解的语音信号步骤四获取步骤三所述重构的语音信号5的时域能量序列E = Ie1, e2,..., eN} e R ;步骤五设计一个短时窗W1,以所述短时窗W1与时域能量序列E进行滑动卷积运算,将每次计算的结果STMEn作为某一特定帧\的得分yn ;其中η = 1,. . .,N,W1的长度取值范围为[2+1,2X10+1];步骤六设计一个长时窗W2,以所述长时窗W2与时域能量序列E进行滑动卷积运算,将每次计算的结果LTMEn作为某一特定帧&的判决阈值β η ;其中W2的长度取值范围为 [1000,1000X10],in < 6000,取 η 作为长度值;
步骤七判断是否有yn > β n公式成立,判断结果为是,则确定输入的语音信号S 为语音,判断结果为否,则确定输入的语音信号S为非语音,进而完成对活动语音的检测。本发明的优点本发明的语音检测方式能在低信噪比非平稳噪音干扰条件下,高效地辨别音频序列中语音和非语音片段。


图1是本发明方法的流程图。
具体实施例方式具体实施方式
一下面结合图1说明本实施方式,本实施方式所述鲁棒性活动语音检测方法,该方法包括以下步骤步骤一采样大量的历史语音数据,并根据所述历史语音数据训练出一个语音字典集Ψ e RLxd,其中R表示是实数空间,L和D是大于0的自然数,分别表示某一空间维度;步骤二 根据步骤一获取的语音字典集Ψ,对输入的语音信号S = {Sl,S2,..., sN} e Rlxn进行稀疏分解,提取语音的稀疏系数C= {C1,C2,...,CN} GRdxn;其中N是自然数,表示某一空间维度;步骤三根据步骤二获取的稀疏系数C重构被稀疏分解的语音信号 S = S2,...,SnWRlxn ;步骤四获取步骤三所述重构的语音信号S的时域能量序列E = Ie1, e2,..., eN} e R ;步骤五设计一个短时窗W1,以所述短时窗W1与时域能量序列E进行滑动卷积运算,将每次计算的结果STMEn作为某一特定帧\的得分yn ;其中η = 1,. . .,N,W1的长度取值范围为[2+1,2X10+1];步骤六设计一个长时窗W2,以所述长时窗W2与时域能量序列E进行滑动卷积运算,将每次计算的结果LTMEn作为某一特定帧^的判决阈值β η ;其中W2的长度取值范围为 [1000,1000X10],in < 6000,取 η 作为长度值;步骤七判断是否有yn > β η公式成立,判断结果为是,则确定输入的语音信号S 为语音,判断结果为否,则确定输入的语音信号S为非语音,进而完成对活动语音的检测。
具体实施方式
二 本实施方式对实施方式一作进一步说明,步骤一的语音字典集的训练过程步骤11 以cosine函数初始化语音字典集Wtl e Rixd,其中L等于语音帧的长度, D是大于L的一个整数;步骤12 训练语音字典集,训练过程采集的大量的历史语音数据来自于现有字典集,训练步骤是循环更新下述三个步骤步骤a、根据现有字典集的大量的历史语音数据,采用SVD算法计算语音的稀疏系数C:
权利要求
1.鲁棒性活动语音检测方法,其特征在于,该方法包括以下步骤步骤一采样大量的历史语音数据,并根据所述历史语音数据训练出一个语音字典集 Ψ e RLxd,其中R表示是实数空间,L和D是大于0的自然数,分别表示某一空间维度;步骤二根据步骤一获取的语音字典集Ψ,对输入的语音信号S= {Sl,s2,..., SN} e RLxn进行稀疏分解,提取语音的稀疏系数C= {C1,C2,...,CN} eRDXN;其中N是自然数,表示某一空间维度;
2.根据权利要求1所述的鲁棒性活动语音检测方法,其特征在于,步骤一的语音字典集的训练过程步骤11 以cosine函数初始化语音字典集Wtl e铲XD,其中L等于语音帧的长度,D是大于L的一个整数;步骤12 训练语音字典集,训练过程采集的大量的历史语音数据来自于现有字典集, 训练步骤是循环更新下述三个步骤步骤a、根据现有字典集的大量的历史语音数据,采用SVD算法计算语音的稀疏系数
3.根据权利要求1所述的鲁棒性活动语音检测方法,其特征在于,步骤二中语音的稀疏系数C按下述公式从步骤一获取的语音字典集中提取出来
4.根据权利要求1所述的鲁棒性活动语音检测方法,其特征在于,步骤三中按下述公式重构被稀疏分解的语音信号S
5.根据权利要求1所述的鲁棒性活动语音检测方法,其特征在于,步骤五所述的短时窗W1的获取过程为设计一个短时窗为
6.根据权利要求1所述的鲁棒性活动语音检测方法,其特征在于,步骤五所述的短时窗W1的获取过程为设计一个短时窗为
7.根据权利要求5或6所述的鲁棒性活动语音检测方法,其特征在于,短时窗W1的长度为7。
8.根据权利要求1所述的鲁棒性活动语音检测方法,其特征在于,步骤六所述的长时窗W2的获取过程为设计一个长时窗为
9.根据权利要求8所述的鲁棒性活动语音检测方法,其特征在于,长时窗W2的长度为 6000。
全文摘要
鲁棒性活动语音检测方法,属于音频信号处理领域。本发明为了解决现有的活动语音检测方法是基于傅立叶变换提取的频域音频特征,但该类型音频特征对噪音缺乏鲁棒性的问题。本发明方法包括一采样大量的历史语音数据,训练出语音字典集;二根据所述语音字典集对输入的语音信号进行稀疏分解,提取语音的稀疏系数C;三根据所述稀疏系数C重构被稀疏分解的语音信号四获取所述重构的语音信号的时域能量序列E;五设计一个短时窗W1,计算得分yn;六设计一个长时窗W2,计算判决阈值βn;七判断是否有yn>βn公式成立,是,则确定输入的语音信号S为语音,否,则确定输入的语音信号S为非语音,进而完成对活动语音的检测。
文档编号G10L15/20GK102332264SQ20111028188
公开日2012年1月25日 申请日期2011年9月21日 优先权日2011年9月21日
发明者游大涛, 韩纪庆 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1