一种基于分数阶傅立叶变换的单声道混叠语音分离方法

文档序号：2822472阅读：297来源：国知局

专利名称：一种基于分数阶傅立叶变换的单声道混叠语音分离方法
技术领域：
本发明涉及一种利用分数阶傅立叶变换进行单声道混叠语音分离的方法，属于音频信号处理技术领域。
背景技术：
在语音和听觉信号处理领域中，有一个重要的问题是如何从混叠语音信号中分离出人们感兴趣的语音。混叠语音分离在语音通信、声学目标检测、声音信号增强等方面都有重要的理论意义和使用价值，但由于构成混叠语音的各个源语音信号在时域和频域上完全重叠，常用的语音增强方法难以将人们所感兴趣的语音(称为目标语音)从干扰语音中分 1 出来。分数阶傅立叶变换(Fractional Fourier Transform, FrFT)对于分析某些非平稳信号具有十分优良的特性，成为一种近年来引起信号处理界广泛关注的工具。作为非平稳信号的语音，FrFT或者类似的变换在语音信号处理中的应用目前主要集中在以下几个方面语音分析，可以给出比传统的傅立叶变换方法更高的时频分辨率；基音估计，可以给出比传统方法更精确的基音估计；语音增强；语音识别；以及说话人识别等。在混叠语音分离方面的研究，主要分为听觉场景分析(Auditory Scene Analysis,ASA)和盲源分离(Blind Source Separation,BSS)两类。听觉场景分析的研究有两种方法一种是从人的听觉生理及心理特性出发，研究人在声音识别过程中的规律，即听觉场景分析；另一种是利用对人听觉感知的研究成果建立模型，对模型进行数学分析并用计算机来实现它，这是计算听觉场景分析(Computational Auditory Scene Analysis, CASA)所要研究的内容。盲源分离是指在源信号、传输通道特性未知的情况下，仅由观测信号和源信号的一些先验知识(如概率密度)来估计出源信号各个分量的过程。盲源分离的独立分量分析方法首先是由P. Comon提出，它是基于神经网络和统计学的基础发展起来的一种技术，是一个十分活跃的前沿领域。现有的混叠语音分离方法主要存在以下不足(1)听觉场景分析和计算听觉场景分析的研究还处于起步阶段。特别是在计算听觉场景分析研究中，所建立的模型只能用于验证听觉场景分析研究中的一些不够明了的理论，即人脑处理听觉信号的机制。针对盲源分离方法的研究非常活跃，但对这个问题还没有得到很好的解决，其涉及到多通道卷积混叠系统和盲反卷积系统的稳定性及相位不确定性问题，尤其是当源的数目未知时盲反卷积问题以及带噪声的情况。(2)混叠语音的基频分离提取是听觉场景分析中实现混叠语音分离的关键，但现有的混叠语音基频分离提取方法只考虑浊音与浊音的混叠，不考虑清音与浊音的混叠。这是因为在语音信号的清音帧中，激励信号是无周期性的，因此估计清音帧的基频并没有实际意义。不仅如此，清音帧估计出来的基频通常随机性强，不具有连续性，而从混叠语音中分离提取出的基频是以基频的连续性来判断其归属，所以，清音帧估计出的基频会影响基音归属判断，进而影响基频的平滑处理效果。

发明内容
本发明的目的是为克服现有技术的缺陷，解决如何从单声道混叠语音信号中分离出目标语音的问题，提出一种新的基于分数阶傅立叶变换的单声道混叠语音分离方法。本发明所采用的技术方案如下一种基于分数阶傅立叶变换的单声道混叠语音分离方法，包括以下步骤步骤一、对混叠语音信号进行预处理，去除其静音段信号，找出浊音帧。首先，对混叠语音信号进行端点检测，去除其静音段信号，把剩余的混叠段信号作为处理对象。然后，对剩余混叠段信号进行分帧处理，并进行清浊音判断，标出浊音帧。步骤二、基于分数阶傅立叶变换，对经步骤一处理后的浊音帧信号进行基音检测，分离出混叠语音的基音轨迹，也就是每个源信号的基频，过程如下首先，根据每帧信号的连续性计算出FrFT的阶数。然后，对浊音帧信号重新进行 FrFT变换，求得谐波积谱，再用动态规划方法提取出其中一个人的基频，即一个源信号的基频。当搜出一个人的基频之后，在谐波积谱中减去此人的基频和谐波所对应的谱成分，然后再使用一次动态规划，即可得到另一个人的基频，，即另一个源信号的基频；重复上述过程，即可得到每个源信号的基频。步骤三、由于语音信号能够用一组正弦信号的叠加表示，因此，根据经步骤二得到的各条基频，结合语音信号的正弦模型来合成语音，从而得到分离后的各个语音信号。本发明的积极效果和优点在于1.使用本发明方法，可有效的分离并提取出多个混叠语音的基频，从而实现混叠语音的有效分离。2.采用基于FrFT代替传统的FFT (短时傅立叶变换)来提取基音频率，减少了谐波频谱的延展。3.由于每帧信号都有其固有的调制频率，使用FrFT可以选择合适的阶数使其符合信号固有的调频率，从而得到更为准确的原始信号的基频。本发明尤其适用于分离含有两个人语音的单声道混叠语音。

图1为本发明方法的实现流程框图。图2为本发明方法中的基于分数阶傅立叶变换的混叠语音基音检测流程图。
具体实施例方式下面结合附图对本发明的优选实施方式作进一步说明。一种基于分数阶傅立叶变换的单声道混叠语音分离方法，其实现流程如图1所示，包括以下步骤步骤一、对混叠语音信号进行预处理，去除其静音段信号，找出浊音帧。
首先，对混叠语音信号进行端点检测，去除其静音段信号，把剩余的混叠段信号作为处理对象。端点检测可采用短时能量和过零率相结合的方法。然后，对剩余混叠段信号进行分帧处理，分帧时的帧长为20ms，帧移为10ms。此时，进行清浊音判断，并标出浊音帧。混叠语音信号的清浊音判断与单个语音的判断稍有不同，两个混叠语音的清浊情况有3种双浊音、一清一浊、双清音。混叠语音的清浊音判断分为两步先判断两个混叠信号是否为双清音，若是，判断结束，若不是，再判断两混叠信号是一清一浊还是双浊音。对于一清一浊，只对浊音帧进行后续处理，不处理清音帧。对于双清音信号，同样不对其进行处理。步骤二、采用基于分数阶傅立叶变换方式，对经步骤一处理后的浊音帧进行基音检测，分离出混叠语音的基音轨迹，也就是分离出每个源信号的基频。其实现流程如图2所7J\ ο首先，根据每帧信号的连续性，计算出FrFT的阶数。考虑到目的是求解语音信号的基频，而且是用帧问连续的特性来搜索基频，FrFT的阶数α ,与前后两帧的基频密切相关，因此用下式表示
权利要求
1.一种基于分数阶傅立叶变换的单声道混叠语音分离方法，其特征在于包括以下步骤步骤一、对混叠语音信号进行预处理，去除其静音段信号，找出浊音帧；步骤二、基于分数阶傅立叶变换，对经步骤一处理后的浊音帧信号进行基音检测，分离出混叠语音的基音轨迹，也就是每个源信号的基频，过程如下首先，根据每帧信号的连续性计算出FrFT的阶数，然后，对浊音帧信号重新进行FrFT 变换，求得谐波积谱，再用动态规划方法提取出其中一个人的基频，即一个源信号的基频；当搜出一个人的基频之后，在谐波积谱中减去此人的基频和谐波所对应的谱成分，然后再使用一次动态规划，可得到另一个人的基频，即另一个源信号的基频；重复上述过程，即可得到每个源信号的基频；步骤三、根据经步骤二得到的各条基频，结合语音信号的正弦模型来合成语音，从而得到分离后的各个语音信号。
2.如权利要求1所述的一种基于分数阶傅立叶变换的单声道混叠语音分离方法，其特征在于，所述步骤一中，当去除静音段信号后，对剩余混叠段信号进行分帧处理的方法如下分帧时的帧长为20ms，帧移为10ms，此时，进行清浊音判断，并标出浊音帧；混叠语音的清浊音判断分为两步先判断两个混叠信号是否为双清音，若是，判断结束，若不是，再判断两混叠信号是一清一浊还是双浊音；对于一清一浊，只对浊音帧进行后续处理，不处理清音帧；对于双清音信号，同样不对其进行处理。
3.如权利要求1或2所述的一种基于分数阶傅立叶变换的单声道混叠语音分离方法，其特征在于，在步骤二中，当计算FrFT的阶数时，FrFT的阶数α ,与前后两帧的基频用下式表不
4.如权利要求1或2所述的一种基于分数阶傅立叶变换的单声道混叠语音分离方法，其特征在于，当计算出FrFT的阶数后，对经步骤一处理后得到的浊音帧信号重新进行FrFT 变换，求得谐波积谱，再用动态规划方法提取出其中一条基音轨迹，也就是基频，其具体过程如下(1)对浊音帧信号x(n)，采用下式进行N点的分数阶傅立叶变换，得到其幅度谱Χ(α，k)
全文摘要
本发明涉及一种基于分数阶傅立叶变换的单声道混叠语音分离方法，属于音频信号处理技术领域。首先对混叠语音信号进行预处理，去除其静音段信号，找出浊音帧。然后，基于分数阶傅立叶变换，浊音帧信号进行基音检测，分离出混叠语音的基频，最后各条基频结合语音信号的正弦模型来合成语音，从而得到分离后的各个语音信号。本发明可有效的分离并提取出多个混叠语音的基频，最终实现混叠语音的有效分离；采用基于FrFT代替传统的FFT来提取基音频率，减少了谐波频谱的延展，得到更为准确的原始信号的基频。本发明尤其适用于分离含有两个人语音的单声道混叠语音。
文档编号G10L11/00GK102054480SQ20091023590
公开日2011年5月11日申请日期2009年10月29日优先权日2009年10月29日
发明者匡镜明, 茹婷婷, 谢湘申请人:北京理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：茹婷婷;谢湘;匡镜明
技术所有人：北京理工大学
我是此专利的发明人

上一篇：一种基于tda域的自适应窗切换方法
上一篇：一种具有共振吸声结构的微穿孔板的制作方法