一种语音信号频域盲解卷积方法

文档序号：2829058阅读：1024来源：国知局

专利名称：一种语音信号频域盲解卷积方法
技术领域：
本发明属于多媒体信息处理中语音信号提取与识别领域，具体涉及ー种语音信号频域盲解卷积方法，可应用于人机交互场景中提高交互识别率。
背景技术：
自动语音识别技术经过60余年的发展，在无噪声或无干扰环境下，识别率已经超过95%。但是在实际应用环境中尤其是两个或多个说话人同时说话时，语音识别率骤然下降，这极大的限制了该技术在人机交互(Human-Machine Interaction, HMI)中的应用。人类的听觉系统能在嘈杂的环境中获取自己感兴趣的信息，而处于人机交互环境下的机器人很难拥有此能力。盲信号分离就是在原始信号和传输通道均未知的情况下仅由接收传感器得到的混合信号来估计原始信号的ー种技木。
HMI环境下的盲分离属于盲解卷范畴，对于卷积混合信号或者真实环境下混合语音信号，学术界主要有两种方法对其进行解卷积，一种是时域盲解卷，另ー种是频域盲解卷。时域盲解卷主要是基于ICA概念将线性瞬时混合情况下的标量混合矩阵扩展为卷积混合情况下的滤波器混合矩阵，并对目标函数和迭代算法做一定的修正。频域盲解卷算法的基本思想是利用短时傅里叶变换将时域卷积混合信号变换为频域瞬时混合信号，再利用较为成熟的瞬时混合盲分离算法对频域混合信号进行分离，即在频域里每ー个频点利用瞬时混合的盲分离算法进行分离，解决输出信号的次序不确定以及信号幅度不确定之后再通过逆傅里叶变换得到分离后的时域信号。时域盲解卷的劣势在于计算量太大，尤其是当混合滤波器较为复杂时，求解滤波器的每ー阶都要依靠其余阶的求解。例如Chan提出的对角常数化分离矩阵算法，混合滤波器为5阶以下时，算法能快速的分离混合信号，而当滤波器的阶数为6阶以上时，分离速度明显下降且分离效果变差。而频域算法在每个频率点分离相互独立，混合滤波器阶数对计算量影响较时域算法小很多。国内外现有盲解卷积方法并不多，现有方法在以下方面存在不足I)大多数算法是在一定限定条件下得到的，分离效果不理想，分离后信号交叉干扰较大，稳健性不高。2)在真实环境人机交互过程中，识别正确率不高。3)现有算法捜索速度慢，实时性较差，并不能很好的应用于实时人机交互场景。

发明内容
本发明针对上述现有技术所存在的不足，公开了ー种语音信号频域盲解卷积方法，该方法通过将时域卷积混合信号变换到频域进行盲分离，分离效果较好，可应用于语音识别领域。本发明解决技术问题采用如下技术方案语音信号频域盲解卷积方法，其特征在于将时域卷积混合的语音信号变换到频域进行盲分离，具体包括以下步骤I)对原始音频文件的自适应分帧，当采样频率为16KHz时，帧长取16ms，帧移取2ms ；2)对单帧数据进行傅里叶变换，将卷积混合信号模型转变为线性混合模型；卷积混合模型可以表示为x(/) = H s(/) ( 表示卷积)(I)信号的短时傅里叶变换可以表示为
权利要求
1.一种语音信号频域盲解卷积方法，其特征在于将时域卷积混合的语音信号变换到频域进行盲分离，具体包括以下步骤1)对原始音频文件的自适应分帧，当采样频率为16KHz时，帧长取16ms，帧移取2ms； 2)对单帧数据进行傅里叶变换，将卷积混合信号模型转变为线性混合模型；卷积混合模型可以表示为
全文摘要
本发明公开了一种语音信号频域盲解卷积方法，将时域卷积混合的语音信号变换到频域进行盲分离，根据语音信号的短时平稳性，将时域卷积混合信号通过加窗傅里叶变换转变成频域线性瞬时混合模型，在频域中滤波、白化等预处理后，采用不同时延下相关矩阵近似联合对角化的方法实现分段语音信号盲分离，在解决了信号盲分离的模糊性问题后，经过傅立叶逆变换在时域中进行分段分离信号重组。本发明对2×2实录混合语音信号具有良好的分离效果，并能有效地提高存在他人说话干扰环境下人机交互系统的语音信号识别正确率。
文档编号G10L15/18GK102760435SQ201210227840
公开日2012年10月31日申请日期2012年7月3日优先权日2012年7月3日
发明者丁志中, 戴礼荣, 陈小平, 黄玉雷申请人:合肥工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁志中;黄玉雷;戴礼荣;陈小平
技术所有人：合肥工业大学
我是此专利的发明人

上一篇：一种基于lpc及rbf神经网络的声音转换的方法
上一篇：一种基于张量子空间分析的说话人识别方法及其装置的制作方法