一种语音信号的压缩感知重构方法与流程

文档序号:18877728发布日期:2019-10-15 18:19阅读:261来源:国知局
一种语音信号的压缩感知重构方法与流程
本发明涉及一种语音信号的压缩感知重构方法,属于语音信号压缩感知
技术领域

背景技术
:传统方法中对语音信号的处理都是基于奈奎斯特采样定理的,定理指出采样频率必须大于信号最高频率的两倍,否则在接收端将不能很好的恢复原信号,该定理给出了采样频率与信号频谱分布之间的关系,是任何信号精确重构的充分条件,但不一定是必要条件。如何根据语音信号的特殊性,对语音信号重新建模以获得更少的采样但又不影响语音的重构质量,是当前语音信号处理领域中的研究热点。2004年由Donoho与Candes等人提出的压缩感知理论是基于信号在某个域的稀疏性建立的线性、非自适应采样的新理论,该理论表明具有稀疏性的压缩感知技术能获得较经典奈奎斯特采样定理更好的压缩性能,信号的稀疏性或可压缩性是实现压缩重构的必要条件之一。语音压缩感知(CompressedSensing,CS)理论跳出了传统采样的思维模式,不再要求采样率必须高于信号最高频率的两倍。该理论具体包括两个环节,通过观测将满足稀疏特性的信号从高阶矩阵线性投影为低阶,通过重构算法重构出原信号。在此过程中,采样和压缩同时进行,大大减少了采样的复杂度。现阶段压缩感知理论已被广泛应用到语音信号处理的各个方面,比如,语音增强和声源分离等,同时该理论在地质勘探、气象预测、司法、军事等领域有着广泛的应用。语音压缩感知理论主要包括选取稀疏基、设计观测矩阵和选择重构算法三部分。其中,重构算法是压缩感知最重要的环节,也是本发明研究的重点,因为它直接影响着重构信号的质量。目前,重构算法主要分为三类:基于范数最小化的贪婪算法,如正交匹配追踪(OrthogonalMatchingPursuit,OMP)算法;基于范数最小化的凸优化算法,如基追踪(BasisPursuit,BP)法;以及它们的组合算法。贪婪算法主要思想是每次迭代时得到的不是精确解,而是选择迭代点的局部最优解逼近原始信号。凸优化算法是把范数的求解问题转换成求解范数,从而解决范数的NP难题。上述两种算法具有如下特征,贪婪算法计算简单、重构效果好,但大部分贪婪算法要求信号的稀疏度是已知的,在实际中比较难以满足。凸优化算法信号重构率高,所需的观测点少,但计算复杂度高,计算速度比较慢。而本发明能够很好地解决上面的问题。技术实现要素:本发明目的在于针对现有技术的不足,提出一种基于平滑(SmoothL0)范数的语音信号压缩重构方法,该方法克服了现有语音信号压缩重构技术的不足,与传统的语音信号重构方法比较,本发明SL0算法在重构前,不需要知道该语音信号的稀疏度,而且具有计算量小、匹配度高、重构时间少等优点。为了达成上述目的,本发明使用新的平滑L0范数进行语音信号的重构。本发明解决其技术问题所采取的技术方案是:一种语音信号的压缩感知重构方法,该方法包括如下步骤:步骤1:给定一段.wav格式的语音,采样之后得到时域语音信号x,选取高斯观测矩阵,求得观测向量y,选取离散余弦(discretecosinetransformation,DCT)稀疏基对原语音信号进行稀疏表示,具体包括:步骤1-1:对一段时域语音信号进行数字化采样,考虑到语音信号的短时平稳特性,对采样后的数字信号进行加窗、分帧,帧长取30ms;步骤1-2:根据压缩感知理论的指导以及考虑到语音信号的固有特性,固定观测矩阵为高斯观测矩阵,得到每一帧语音信号的观测信号;步骤1-3:根据压缩感知对信号稀疏性的要求,对每一帧信号进行离散余弦变换,得到信号在离散余弦变换域的表示;步骤2:本发明采用SL0算法重构原信号,该算法的核心在于选取合适的平滑函数,该步骤将通过实验选择合适的平滑函数,利用梯度投影和最速下降法求解最小范数,具体包括:步骤2-1:传统的高斯平滑函数表示为考虑到语音信号自身的特点,结合实验,在平滑函数的形式和参数上给出了改进,改进后的平滑函数表示为步骤2-2:分别利用传统的OMP算法、基于高斯平滑函数以及基于本发明提出的改进的平滑函数的SL0算法分别重构语音信号;步骤3:对上述三种重构方法恢复出的整段语音作出评价;分别采用传统的OMP算法、基于高斯平滑函数的SL0重构算法以及基于本发明提出的新的平滑函数的SL0重构算法进行实验,并从重构时间、重构质量两个方面分析方法的优劣,其中,重构质量评估主要从主观、客观两个方面展开。有益效果:1、本发明提出的基于平滑(SmoothL0)范数的语音信号压缩重构,具有一定的理论和实践价值,该方法重构前不需要知道该语音信号的稀疏度。2、本发明相比于传统的语音信号重构方法,提出的平滑L0算法采用了最速下降法和梯度投影算法,因此具有计算量小、匹配度高以及重构时间少等优点。附图说明图1是本发明整体的系统框图。图2是一帧信号各个时期的波形。图3是方差为0.1时,两种函数对比图。图4是平均帧信噪比随压缩比的变化情况。图5是MOS随压缩比的变化情况。具体实施方式本发明提供了一种语音信号的压缩感知重构方法,现结合图1给出的压缩感知一般的流程,以及实验中的实验中间结果对本发明的实现过程以及创新之处做详细论述:步骤1:获得观测信号并求解稀疏解1.本发明是从中国科学院自动化研究所汉语语音库中选取的一段时长为1s的男性语音“大规模集成电路”,此信号的采样频率为16kHz,每帧信号取256个采样点;2.选取高斯观测矩阵进行观测,该矩阵的形式如下:构造一个大小为M×N的矩阵Ψ,其中M是得到观测信号的维数,N是原信号的维数,当Ψ中的每一个元素独立的服从均值为0,方差为1/M的高斯分布时,观测信号可以表示为y=Ψx;3.根据压缩感知理论,必须对原语音信号x进行稀疏表示,本发明采用离散余弦变换基对时域信号进行稀疏表示,用Φ表示离散余弦基矩阵,则x=Φα,其中α是向量x在基Φ下的坐标。经过上述处理后,观测信号可以表示如下:其中,被称为压缩矩阵。把上述方程作为已知条件,根据观测值重构出α,从而求解出原始语音信号x就是接下来的主要任务。步骤2:重构原信号α1.新的重构方法的提出1-A.新方法的理论分析上面的分析指出,由于M<N,所以式(1)是一个欠定方程,具有无穷多个解。常见的求解该方程的方法有很多,正交匹配追踪算法,基追踪算法等。考虑到上述方法计算比较复杂,而且对信号的先验知识要求较高,本发明提出了一直基于平滑L0范数的重构方法。该方法的核心思想是用一个平滑的连续函数逼近稀疏向量α=[α1,α2,…,αi,…,αn]T的范数,使得范数最小的解就是所求的最优解。其中,稀疏向量α的范数就是向量α中的非零系数。定义函数:那么,稀疏向量α的范数可以表示成:由式(3)可以看出稀疏向量α的范数的不连续性是由不连续函数g引起的。如果用一个近似函数g的平滑连续函数来代替函数g,那么就可以得到范数的平滑估计。SL0算法中的关键问题是平滑连续函数的选取,如果一个连续函数满足式(4)的形式:那么此函数可以作为平滑函数来近似逼近范数。因为,根据公式(4)结合公式(2)可以得到:定义函数那么有:所以,稀疏向量α的范数可以表示为式(7)的形式。此时式(1)的求解模型可以转化成式(8)形式的求解模型。其中,参数σ的大小决定了逼近的程度。当σ=0时,||α||0=n-Fσ(α),此时式(8)的解就是求解模型式(1)的解。然而,实际中无法使得σ取值到0,因此只能选择一个递减的序列σ1,σ2,σ3,…,求解每一个σi值对应的目标函数的最优解,直到σ足够小为止。1-B.平滑函数的选择由上面的推导得知平滑函数的选择直接影响到重构的性能,因此该算法的核心内容是平滑函数的选择,常见的平滑函数是高斯平滑函数,如式(9):它是一个均值为0,方差为σ的高斯分布,显然满足式(4)。本发明为了充分考虑语音信号在DCT域的分布特性,通过数次的实验验证,在平滑函数的形式以及参数上做出了重大改进,提出了一种新的平滑函数,如式(10):为了说明两种平滑函数的差异,图2给出了在方差σ=0.1时两种函数的曲线,可以看出,本文提出的新的平滑函数比标准高斯函数更“陡峭”,从而在理论上证明了相对于高斯平滑函数,新的平滑函数逼近范数的效果更好。2.基于改进SL0算法重构原信号α根据上面的讨论给出使用改进SL0算法重构原信号的具体步骤如下:2-A.设置初始值,重构信号余量初始值r0=0,平滑函数初始参数σ=1;2-B.求-Fσ的搜索方向d;2-C.使用修正的牛顿算法更新重构信号α=α+μd;2-D.使用梯度投影算法得到α=α-ΦT(ΦΦT)-1(Φα-y),计算余量r=y-Φα;2-E.得到最优近似值2-F.对求得的α进行离散余弦反变换,得到重构语音信号的时域表示。图3给出了选取的一帧信号在实验的各个阶段的波形图。步骤3:基于新的重构算法的语音信号重构效果评估在MATLAB中,本发明使用了tic、toc函数对重构的时间进行了计算。经计算:在相同环境下,基于本发明提出的平滑函数的SL0算法重构时间为3.2690s,基于标准高斯函数的SL0算法重构时间为3.5128s,传统的OMP算法重构时间为11.6543s。可以看出,SL0算法大大降低了语音重构的时间,而且改进的SL0算法具有更快的计算速度。在评估语音重构质量方面,本发明从客观和主观两个方面入手。在客观方面,将压缩比分别设置为0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8和0.9,求出不同压缩比下的平均帧信噪比(Averageframesignaltonoiseratio,AFSNR)。在主观方面,本发明对在不同压缩比情况下重构的语音信号,进行平均意见得分(MeanOpinionScore,MOS)评估。为了描述方便,本发明把使用标准的高斯函数的SL0算法称为GSL0(SmoothedL0AlgorithmBasedonGaussianFunction),把使用本文提出的连续函数作为平滑函数的SL0算法称为NSL0(SmoothedL0AlgorithmBasedonNewFunction)。1.A客观分析客观上,本发明使用平均帧信噪比来衡量重构效果。在不同压缩比(M/N)下,根据式(11)求解平均帧信噪比:其中,xk是原语音信号的第k帧,是xk的重构信号,P是语音的总帧数,实验数据记录在表1和图4中。表1采用不同算法重构后的平均帧信噪比(dB)M/N0.10.20.30.40.50.60.70.80.9NSL02.12837.989215.835921.135027.522330.096732.402137.066442.2681GSL02.01397.860714.720220.962425.348628.808331.665735.783140.4368OMP0.35407.270213.952218.352221.845024.308126.379528.946631.0045从表1和图4中看出,随着压缩比的增加,不论使用哪种重构方法,语音的AFSNR都会跟着增加。但是,在相同的压缩比下,基于NSL0算法重构的语音信号的AFSNR要高于基于GSL0算法的,但相差并不是很大。但是,不论是基于NSL0算法还是基于GSL0算法,重构后的语音信号的AFSNR都要明显高于传统的OMP重构模型。因此可以说明,相比传统的OMP算法,本文提出的基于SL0的语音压缩重构算法可以明显提高语音重构的质量。1.B主观分析在主观方面,采用PESQ(Perceptualevaluationofspeechquality)测试语音的质量,实验得到的PESQMOS记录在表2和图5中。PESQMOS是最直观反映语音质量的技术指标,根据ITUP.862规范定义,取值范围为0(最差)~5(最好)。表2采用不同算法重构的MOSM/N0.10.20.30.40.50.60.70.80.9NSL00.5641.5392.3023.3543.8444.1204.2114.2694.294GSL00.5361.5352.3013.2943.7874.1044.2084.2754.290OMP0.3861.2111.9832.7463.2403.2963.5313.6893.725从表2和图5中看出,随着压缩比增加,MOS也会跟着增加。但是,在相同的压缩比下,基于NSL0算法的语音重构信号的MOS和基于GSL0算法的相差无几,但是都要高于基于传统OMP算法的。因此,本文所提出的基于SL0重构模型的MOS要高于传统的OMP重构模型,在主观方面,基于SL0算法重构的语音具有较好的听觉感受。以上实验结果表明:与传统的OMP重构算法进行比较,本文所采用的基于改进平滑函数的SL0重构方法可以显著提高语音信号的重构质量、减少重构时间。并且,在某些特定的环境下,基于改进平滑函数的SL0重构模型的平均帧信噪比要高于使用标准高斯函数的SL0重构模型。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1