声信号带宽扩展的制作方法

文档序号:2835326阅读:616来源:国知局
专利名称:声信号带宽扩展的制作方法
背景技术
和现有技术本发明一般地涉及解码声信号的可闻声音质量的改善。更具体地说,本发明涉及一种如权利要求1前序部分所述的根据窄带声信号产生宽带声信号的方法和一种如权利要求24前序部分所述的信号解码器。本发明还涉及如权利要求22所述的接收机程序和如权利要求23所述的计算机可读媒体。
如今的公用交换电话网(PSTN)一般对其传输的任何语音或其它声信号进行低通滤波。所述低通(或者,实际上是带通)滤波特性是由网络有限的信道带宽引起的,所述信道带宽范围一般在0.3千赫兹至3.4千赫兹之间。人们通常会觉得这种带通滤波声信号的声音质量较差。例如,经常有报道说重建的语音信号听起来声音减弱和/或远离听者。
但是,固定和移动技术以及视频会议领域的趋势是朝着改善接收端重建的声源信号质量的方向发展。这种趋势反映客户期望所述系统提供与如今PSTN所能提供的相比大大接近声源信号的声音质量。
当然,满足这种期望的一种方法是使声源信号的频带加宽,从而向接收者传送包含在声源信号中的更多的信息。例如,如果将0-8千赫兹的声信号(采样率为16千赫兹)传输给接收者,则会更好地保持人类语音信号的自然性,这种自然性在标准电话呼叫中损失掉了。但是,让每个信道的带宽增加一倍要么使传输容量低于原容量的一半,要么使运营商付出巨大成本以便极大地扩充传输资源。所以,从商业的观点来看,这种解决方案并不诱人。
相反,在接收端根据已通过PSTN的窄带信号恢复正规PSTN信道的带宽之外的宽带频率分量,这是一种非常吸引人的备选方案。恢复的宽带频率分量既可处于低于窄带(例如在0.1-0.3千赫兹范围内)的低频段又可处于高于窄带(例如在3.4-8.0千赫兹范围内)的高频段中。
尽管语音信号中的主要能量的频谱分布在0千赫兹和4千赫兹之间,但相当多的能量亦分布在从4千赫兹到8千赫兹的频带中。人类听力的频率分辨率随频率升高而迅速下降。因此在4千赫兹和8千赫兹之间的频率分量需要较少数据量来足够精确地建模。
扩展窄带声信号的带宽并获得感觉得到的令人满意的结果,这是可能的,因为假定信号是由例如人类扬声器的物理信号源产生的。因此,给定窄带的特定形状,则存在对有关宽带形状的信号属性的约束,即仅有窄带形状(narrow band shape)和宽带形状(wide bandshape)的某些组合是可能的。
但是,根据特定的窄带信号对宽带信号建模完全不是一件简单的事情。利用高于当前窄带频谱的高频段来扩展声信号带宽的现有方法基本包括两个不同部分,即根据与窄带有关的信息来估计高频段谱包络,以及从窄带激励中恢复高频段的激励。
所有已知的方法均采用某种方法对高频段包络和各种描述窄带信号的特征之间的相关性进行建模。例如,可以利用高斯混合模型(GMM)、隐式马尔可夫模型(hidden Markov model)或向量量化(VQ)来完成这种建模。接着,如果已从窄带信号中获得所述特征,则根据选定的高频段谱包络的相关性模型获得最小均方误差(MMSE)估计。一般情况下,所述特征包括谱包络、谱时间变化和浊化程度(degree of voicing)。
窄带激励用于恢复相应的高频段激励。这可以通过对窄带激励进行简单的上采样、之后无需进行任何低通滤波而得以实现。这又得到在原始激励的频带上限附近的窄带激励的谱折叠版本(spectral-folded version)。或者,高频段激励的恢复可以包含以其它方式用于语音编码的技术,例如多带激励(MBE)。后者在对激励建模时利用了基频和浊化程度。
不管如何获得高频段激励,将估计得到的高频段谱包络用于获得所恢复的高频段激励的期望的形状。其结果又形成高频段声信号估计的基础。随后对该信号进行高通滤波之后使其与窄带声信号的经上采样和低通滤波的版本相加,以形成宽带声信号估计。
通常,带宽扩展方案基于20毫秒帧逐帧进行工作,其中,相邻帧之间有一定程度的重叠。重叠用于减少连续帧之间的任何不希望的过渡效应。
不幸的是,上述方法均有一个共同的不好特性,即它们均在扩展的宽带声信号中引入了非自然信号(artefact)。而且,往往这些非自然信号如此令人讨厌并使感知可闻声音质量下降,以致人们一般宁愿要原始的窄带声信号而不要如此加以扩展的宽带声信号。
发明概述因此,本发明的目的是提供一种针对窄带声信号的改进的带宽扩展解决方案,该方法减轻了以上问题并因此产生可闻声音质量明显增强了的宽带声信号。以上指出的与已知解决方案相关的问题一般认为其原因在于对宽带能量(高频段中的主要成分)的过估计。
根据本发明的一个方面,通过根据前述窄带声信号产生宽带声信号的方法来达到所述目的,所述方法的特征在于,根据相应的置信度来分配有关特定宽带频率分量的参数值。
根据本发明的最佳实施例,如果所述置信度表示较高确定度,则允许将较高参数值分配给频率分量。相反,如果所述置信度表示较低确定度,则只允许将较低参数值分配给频率分量。
根据本发明的一个实施例,所述参数直接表示一个或多个宽带频率分量的信号能量。但是,根据本发明的备选实施例,所述参数仅间接反映信号能量。即所述参数表示宽带声信号的频带上限,于是高参数值对应于具有较大带宽的宽带声信号,而低参数值对应于具有较窄带宽的宽带声信号。
根据本发明的另一方面,所述目的通过一种可直接装入计算机内存中的计算机程序来达成,所述计算机程序包括当所述程序在所述计算机上运行时执行上述段落所述方法的软件。
根据本发明的另一方面,所述目的通过一种计算机可读媒体来达成,所述计算机可读媒体上记录有程序,其中,所述程序用于使计算机执行倒数第二段所述方法。
根据本发明的又一方面,所述目的通过一种根据前面所述的窄带声信号产生宽带声信号的信号解码器来达成,其特征在于,设置所述信号解码器是为了根据相应置信度分配有关特定宽带频率分量的参数。
根据本发明的最佳实施例,在所述置信度表示较高确定度时,所述解码器允许将较高参数值分配给频率分量,而在所述置信度表示较低确定度时,则它只允许将较低参数值分配给所述频率分量。
与之前已知的解决方案相比,所提出的解决方案明显减少了在将窄带声信号扩展成宽带表示时引入的非自然信号数量。所以,人耳感觉到的声音质量大大改善。这正是所希望的结果,因为可闻声音质量被视为未来电信应用成功的关键因素。
附图简述现将通过最佳实施例并参照附图来详细描述本发明,所述实施例作为示例公开。


图1显示根据本发明的通用信号解码器的框图,图2例示语音信号形式的典型声源信号的频谱,图3例示在已经通过窄带信道后图2中声源信号的频谱,图4例示根据本发明在已经扩展为宽带声信号后对应于图3中频谱的声源信号的频谱,
图5显示根据本发明的实施例的信号解码器的框图,图6说明根据本发明的实施例的窄带帧格式,图7显示根据本发明的实施例的特征提取单元的一部分的框图,图8显示根据本发明的实施例的不对称代价函数(cost function)曲线,它抑制对高频段和窄频带之间能量比的过估计,图9通过流程图说明根据本发明的概括的方法。
本发明最佳实施例的说明图1显示根据本发明的通用信号解码器的框图,该信号解码器旨在根据接收的窄带信号aNB产生宽带声信号aWB,使得宽带声信号aWB感觉上尽可能类似于估计的声源信号。这里假定声源信号a源的频谱为A源,此频谱至少与宽带声信号aWB的带宽WWB一样宽,并且宽带声信号aWB具有比通过带宽为WNB的窄带信道传送的窄带声信号aNB的频谱ANB宽的频谱AWB。这些关系图示于图2-4中。而且,带宽WWB可以进一步划分成低频段WLB和相应的高频段WHB,其中低频段WLB包括低于窄带信道的频带下限fNI的最低频段下限fWI和频带下限fNI之间的频率分量,而高频段WHB包括高于于窄带信道的频带上限fNu的最高频段上限fWu和频带上限fNu之间的频率分量。
所建议的信号解码器包括特征提取单元101、激励扩展单元105、上采样器102、宽带包络估计器104、宽带滤波器106、低通滤波器103、高通滤波器107和加法器108。特征提取单元101的功能将在以下段落中描述,而其余单元102-108将参照图5所示的本发明的实施例来加以描述。
信号解码器通过(例如PSTN中的)通信链路或者从存储媒体(例如数字存储器)接收窄带声信号aNB。窄带声信号aNB并行馈送给特征提取单元101、激励扩展单元105和上采样器102。特征提取单元101根据窄带声信号aNB产生至少一个基本特征zNB,特征zNB由后面的宽带包络估计器104用于产生宽带包络估计e。例如,可以将高斯混合模型(GMM)利用来对窄带特征向量ZNB和宽/高频段特征向量ZWB之间的相关性建模。宽/高频段特征向量ZWB包含例如窄带和宽/高频段之间谱包络和对数能量比的描述。窄带特征向量ZNB和宽/高频段特征向量ZWB组合成联合特征向量z=[ZNB,ZWB]。GMM对随机变量特征向量Z的联合概率密度函数fZ(z)建模,它可以表示为fZ(z)=Σm=1MαmfZ(z|θm)]]>其中,M表示总的混合分量个数,αm是混合编号m的加权因子,而fZ(z|θm)则是多变量高斯分布,它又可表示为fZ(z|θm)=1(2π)d2|Cm|12exp(-12(z-μzm)τCm-1(z-μzm))]]>其中μm表示平均向量,Cm则是收集在变量θm={μm,Cm}中的协方差矩阵,d表示特征维数。根据本发明的实施例,特征向量z的维数为22并由如下成分构成窄带谱包络,例如用15个线性频率倒谱系数(LFCC),即x={x1,...,x15}来建模;高频段谱包络,例如用5个线性频率倒谱系数,即y={y1,...,y5}来建模;能量比变量g,表示高频段和窄带之间对数能量之差,即g=y0-x0,其中,y0是对数高频段能量而x0是对数窄带能量;以及表示浊化程度的度量r。例如,通过使归一化自相关函数的最大值局限于对应于50-400赫兹的滞后范围(lag range)中来确定浊化程度量r。
根据本发明的实施例,可通过将所谓的最大值估计算法应用于从所谓的TIMIT数据库(TIMIT=德州仪器/麻省技术学院)中提取的训练集上而获得针对m=1,...,M的加权因子αm和变量θm。训练集合的大小最好为100000个不重叠的20毫秒宽带信号段。然后从所述训练集合中提取特征z,并用32个混合分量(即M=32)用例如GMM来建模。图5显示根据本发明实施例的信号解码器的框图。作为介绍,描述该解码器的总体工作原理。接着将更加详细地描述该解码器所含特定单元的工作原理。
该信号解码器接收段形式的窄带声信号aNB,其中每一段具有特定的时间扩展Tf,例如20毫秒。图6说明根据本发明实施例的窄带帧格式实例,其中,接收的窄带帧n的后面是帧n+1和n+2。相邻段彼此重叠的具体范围最好为T0,例如对应10毫秒。根据本发明的实施例,从每个输入的窄带段n,n+1,n+2等等中重复导出15个倒谱系数x和浊化程度r。
然后,通过联合使用不对称代价函数和基于窄带形状的后验能量比分布(用倒谱系数x来加以建模)来导出窄带和相应高频段之间的能量比的估计。不对称代价函数对能量比的过多估计的抑制(penalize)比对能量比的过低估计的抑制大。而且,与宽带后验分布相比,后验分布导致对能量比的抑制较少。能量比估计、窄带形状x和浊化程度r共同形成新的高频段形状的后验分布。高频段包络的MMSE估计也基于能量比估计、窄带形状x和浊化程度r来计算。随后,解码器产生高频段的经过修改的谱折叠的激励信号。然后用能量比控制的高频段包络对该激励信号滤波,之后将其加到窄带信号中,以形成由解码器馈送出去的宽带信号aWB。
特征提取单元101接收窄带声信号aNB并对此作出响应,产生至少一个描述接收窄带声信号aNB特性的基本特征(zNB(r,c))。表示一个这种基本特征(zNB(r,c))的浊化程度r是通过使归一化自相关函数的最大值局限于对应于50-400赫兹的滞后范围中而加以确定的。这意味着浊化程度r可以表示为
r=max20≤r≤160Σn=0N-1s(n)s(n+τ)Σk=0N-1s(k)2Σl=0N-1s(i+τ)2]]>其中,s=s(1),...,s(160)是采样率为例如8千赫兹的持续时间为Tf(例如20毫秒)的窄带声信号段。
谱包络c在这里用LFCC表示。图7显示部分特征提取单元101的框图,根据本发明的这一实施例,特征提取单元101用于确定谱包络c。
分段单元101a分离持续时间为Tf=20毫秒的窄带声信号aNB段。随后的加窗单元101b用窗函数w对段作加窗处理,窗函数可为汉明窗函数(Hamming-window)。然后,变换单元101c通过快速傅立叶变换计算相应的频谱SW,即SW=FFT(w.s)。经过加窗处理的窄带声信号aNB的频谱SW的包络SE是通过在以下卷积单元101d中让频谱SW与三角窗WT(其带宽例如为100赫兹)在频域作卷积而获得的。因此,SE=SW×WT。
对数单元101e接收包络SE并根据下式计算相应的对数值SElogSElog=20log10(SE)]]>最后,反变换单元101f接收对数值SElog并计算其快速傅立叶逆变换以表示LFCC,即c=IFFT(SElog)]]>其中,c是线性频率倒谱系数向量。向量c的第一分量c0构成窄带声信号段s的对数能量。该分量c0还由以下将要说明的高频段形状重建单元106a和能量比估计器104a加以利用。向量c中的其它分量c1,...,c15用于描述谱包络x,即x=[c1,...,c15]
包括在宽带包络估计器104中的能量比估计器104a接收线性频率倒谱系数c的向量中的第一分量c0并根据它以及窄带形状x和浊化程度r产生高频段和窄带之间的能量比估计 为了达此目的,能量比估计器104a使用二次代价函数,这是根据有条件概率函数作参数估计的常见做法。标准MMSE估计 是在给定窄带形状x和浊化程度r连同二次代价函数的条件下利用后验能量比分布获得的,即g^MMSE=argminy∫Ωg(g^-g)2fG|XR(g|x,r)dg]]>=E[G|X=x,R=r]]]>=∫ΩggΣm=1MαmfGXR(g,x,r|θm)Σk=1MαkfXR(x,r|θk)dg]]>=Σm=1MαmfXR(x,r|θm)Σk=1MαkfXR(x,r|θk)∫ΩggfG|XR(g|x,r,θm)dg]]>=Σm=1Mwm(x,r)∫ΩggfG|XR(g|x,r,θm)dg]]>=Σm=1Mwm(x,r)∫ΩggfG(g|θm)dg]]>=Σm=1Mwm(x,r)μym]]>其中,在倒数第二步中,利用了如下这一事实各混合分量具有对角协方差矩阵,因此具有独立分量。因为认为能量比的过估计导致人类听到恼人的声音,故使用不对称代价函数而不使用对称代价函数。即,不对称代价函数能够对能量比的过多估计作高于能量比的过低估计的的抑制。图8显示示范性不对称代价函数的曲线,故该曲线抑制能量比的过估计。图8中的不对称代价函数还可以表示为C=bU(g^-g)+(g^-g)]]>
其中,bU(·)表示幅度为b的阶跃函数。幅度b可以视为调谐参数,它提供控制针对过估计的抑制程度的可能性。估计的能量比 可以表示为g^=argming∫Ωg(bU(g^-g)+(g^-g)2)fG|XR(g|x,r)dg]]>估计的能量比通过对以上表达式的右边求微分并令其等于0而得到。假定微分和积分的顺序可以互换,则上述等式的导数可以写成Σm=1Mwm(x,r)∫Ωg(bδ(g^-g)+2(g^-g))fG(g|θm)dg=0,]]>Σm=1Mwm(x,r)bfG(g^|θm)+2g^-2Σm=1Mwm(x,r)μym=0,]]>由此得到估计的能量比 为g^=Σm=1Mwm(x,r)μym-b2Σm=1Mwm(x,r)fG(g^|θm)]]>以上等式最好用数值方法求解,例如通过栅格搜索(grid search)来求解。根据以上显而易见的是,估计的能量比 取决于形状的后验分布。所以,对能量比的MMSE估计 的抑制取决于后验分布的宽度。如果后验分布fg|XR(g|x,r)窄,这意味着MMSE估计 比后验分布宽时更可靠。因此可以将后验分布的宽度视为置信度指示。
其它不同于LFCC的参数可以用作窄带谱包络x的可选表示。线状谱(line spectral)频率(LSF)、Mel频谱系数(MFCC)和线性预测系数(LPC)构成这种可供选择的表示。此外,频谱时间变化可以通过将频谱导数包括在窄带特征向量zNB中和/或通过将GMM改为隐式Markov模型(HMM)而包含到模型中。
另外,还可以采用分类方法来表示置信度。这意味着利用分类错误来表示高频段估计(例如,关于能量y0和形状x)的确定度。
根据本发明的实施例,假定基本模型是GMM。然后可以构造所谓的贝页斯分类器以将窄带特征向量zNB分类成GMM的混合分量之一。还可以计算这种分类正确的概率。所述分类基于这样的假设,即观测的窄带特征向量z是根据GMM中混合分量中仅仅一个分量来产生的。利用两个不同的混合分量s1;s2对窄带特征向量z的分布建模的简单GMM方案如下表示为fz(z)=fz,s(z,s1)+fz,s(z,s2)假设观测到向量z0并且分类发现该向量最可能源自状态s1中的一种分布的实现。应用贝页斯规则,分类正确的概率P(S=s1|Z=z0)可以如下进行计算P(S=s1|Z=z0)=limΔ→0P(S=s1|z0-Δ2<Z<z0+Δ2)]]>=limΔ→0∫z0-Δ2z0+Δ2fz|s(z|s1)dz·P(s1)dz∫z0-Δ2z0+Δ2fz|s(z|s1)·P(s1)+fz|s(z|s2)·P(s2)dz]]>=fz|s(z0|s1)·P(s1)fz|s(z0|s1)·P(s1)+fz|s(z0|s2)·P(s2)]]>于是,分类正确的概率可以视为置信度。因此还可以将其用于控制宽带声信号aWB的带宽扩展区域WLB和WHB的能量(或形状),以便将较高能量分配给与表示较高确定度的置信度相关的频率分量而将较低能量分配给与表示较低确定度的置信度相关的频率分量。
给定观测数据,一般通过最大值估计(EM)算法来训练GMM以便找到GMM的未知的但却是固定的参数的最可能的估计。与此相反,根据本发明的备选实施例,将GMM的未知参数本身视为随机变量。还可以通过将参数分布包括到标准GMM中,从而包含模型的不确定性。因此,GMM将是特征向量z和基本参数θ的联合分布fz,Θ(z,θ)的模型,即fz,Θ(z,θ)=Σm=1Mαmfz|Θ(z|θ)fΘ(θ)]]>然后利用fz,Θ(z,θ)计算高频段参数的估计。例如,如以下详述所示,在使用推荐的不对称代价函数时用于计算估计能量比 的表达式为g^=argming∫Ωg(bU(g^-g)+(g^-g)2)fG|XR(g|x,r)dg]]>将模型不确定性结合到能量比的估计中,得到如下表达式g^=argming∫Ωg∫Ωg(bU(g^-g)+(g^-g)2)fG|XR(g|x,r,θ)fΘ(θ)dgdθ]]>只要分布fΘ(θ)和/或分布fg|XR(g|x,r)宽,则这将被解释为较低置信度的指示,由此又导致将较低能量分配给相应的频率分量。否则,(即如果分布fΘ(θ)和/或分布fg|XR(g|x,r)窄),则假定置信度较高,因此将较高能量分配给相应的频率分量。
通过时间上的平滑处理估计能量比 变成时间上平滑的能量比估计 从而避免估计能量比 的迅速(且不希望的)波动。这可以利用当前的估计和例如两个以前的估计根据下式来实现
其中,n表示当前的段号,n-1表示之前的段号,n-2表示更以前的段号。
高频段形状估计器104b包括在宽带包络估计器104中是为了创建高频段形状和能量比的组合,这对典型的声信号如语音信号是很可能的。估计的高频段包络 是通过调整窄带声信号段s中估计的能量比 窄带形状和浊化程度r而得以产生的。
具有对角协方差矩阵的GMM根据下式给出高频段形状 的MMSE估计y^MMSE=E[Y|X=x,R=r,G=g^]]]>=Σm=1MαmfXRG(x,r,g^|θm)μymΣn=1NαnfXRG(x,r,g^|θn)]]>激励扩展单元105接收窄带声信号aNB并根据它产生扩展激励信号EWB。如前所述,图3显示在通过带宽为WNB的窄带信道之后声源信号a源的频谱ANB实例。
从根本上说,扩展激励信号EWB是通过将窄带声信号aNB的相应激励信号ENB的频谱围绕特定频率折叠而产生的。为了确保在最靠近高于窄带声信号aNB的频带上限fNu的频率区域内有足够的能量,删去第一频率f1和第二频率f2(其中f1<f2<fNu)之间窄带激励频谱ENB的一部分,例如f1=2千赫兹和f2=3千赫兹,之后首先围绕f2、然后围绕2f2-f1,再围绕3f2-f1如此重复向上折叠必要次数以便至少覆盖直到频带最高上限(upper-most band limit)fWu的整个频带。从而获得宽带激励频谱EWB。根据本发明的最佳实施例,这样产生所获得的激励频谱EWB,使其平滑地演变成白噪声频谱。这就避免在宽带激励频谱EWB的较高频率处有过分的周期性激励。例如,可以设置向上折叠的窄带激励频谱ENB之间的过渡,使得在频率f=6千赫兹处周期性频谱上全部以噪声频谱为主。虽然并非必需,最好分配等于窄带激励频谱ENB幅度的宽带激励频谱的EWB的幅度。根据本发明的实施例,过渡频率取决于较高频率分量的置信度,故这些分量的较高确定度导致较高的过渡频率,与此相反,这些分量的较低确定度导致较低的过渡频率。
宽带滤波器106中的高频段形状估计器106a从高频段形状估计器104b接收高频段包络 从激励扩展单元105接收宽带激励频谱EWB。根据接收信号 和EWB,高频段形状估计器106a产生利用估计的高频段包络 形成的高频段包络频谱SY。这种对激励的频率整形在频域中这样完成(i)计算宽带激励频谱EWB;(ii)使它的高频段部分与估计的高频段包络 的频谱SY相乘。按照下式计算高频段包络频谱SYSY=10FFT(y^MMSE‾)20]]>乘法器106b从高频段形状估计器106a接收高频段包络SY,从能量比估计器104a接收时间上平滑的能量比估计 根据所述接收信号SY和 乘法器106b产生高频段能量y0。高频段能量y0是仅仅利用fNu和fWu(其中,例如fNu=3.3千赫兹和fWu=8.0千赫兹)之间频谱的高频段部分计算第一LFCC这样加以确定的。这样调整高频段能量y0,使得它满足如下等式 其中,c0是(由特征提取单元101计算的)当前窄带信号段的能量, 是(由能量比估计器104a产生的)能量比估计。
高通滤波器107从高频段形状重建单元106接收高频段能量信号y0并对此作出响应,产生高通滤波信号HP(y0)。高通滤波器107的截止频率最好设置为高于窄带声信号aNB的带宽上限fNu的某个值,例如3.7千赫兹。阻带可以设置为窄带声信号aNB的带宽上限fNu附近的某个频率,例如3.3千赫兹,且衰减为-60分贝。
上采样器102接收窄带声信号aNB并根据它产生上采样信号aNB-u,该信号的采样率与经由信号解码器的输出端传递的宽带声信号aWB的带宽WWB相匹配。如果上采样包括使采样频率加倍,则可简单地通过在窄带声信号aNB的每个原样值之间插入零样值来完成上采样。当然,同样可设想使用任何其它(非2)的采样因子。但是,如果是那样,则采样方案变得稍微更复杂了。由于上采样的混叠效应,还必须对所得的上采样信号aNB-u进行低通滤波。这是在下面的低通滤波器103中完成的,低通滤波器103通过其输出端传递低通滤波信号LP(aNB-u)。根据本发明的最佳实施例,低通滤波器103对高频段WHB的衰减约为-40分贝。
最后,加法器108接收低通滤波信号(LP(aNB-u))高通滤波信号(HP(y0))并将所述接收信号加起来,从而形成宽带声信号(aWB),该信号通过信号解码器的输出端传递。
为总结,现参照图9所示流程图描述根据窄带声信号产生宽带声信号的一般方法。
第一步901接收一段窄带声信号aNB。第二步902从窄带声信号中提取至少一个基本特征,该至少一个基本特征构成相应的宽带声信号的估计参数值的基础。宽带声信号包括窄带声信号频谱之外的宽带频率分量(即或者是高于窄带频谱的频率分量,或者是低于窄带频谱的频率分量,或者是高于窄带频谱的频率分量加低于窄带频谱的频率分量)。
步骤903接着确定每个宽带频率分量的置信度。将特定的置信度单独分配给每个宽带频率分量(或使其与每个宽带频率分量相关),或者某个特殊置信度同时涉及两个或多于两个宽带频率分量。随后,步骤904检查是否已将置信度分配给所有宽带频率分量,并且如果情况正是这样,则程序转到步骤909。否则,随后的步骤905选择至少一个新宽带频率分量并为其分配相关的置信度。然后,步骤906(根据上述任何一种方法)检查所述置信度是否满足针对较高确定度的条件Γh。如果条件得到满足Γh,则程序继续到步骤908,在步骤908中,允许将较高参数值分配给宽带频率分量,之后,程序返回到步骤904。否则,程序继续到步骤907,在步骤907中,允许将较低参数值分配给宽带频率分量,之后,程序返回到步骤904。
步骤909最后产生宽带声信号段,该信号段对应于步骤901中接收的接收窄带信号段。
以上参照图9描述的所有处理步骤以及任何随后的步骤可以由可直接装入计算机内存中的计算机程序来执行,所述计算机程序包括用于执行当该程序在计算机上运行时所必需的步骤的合适软件。该计算机程序也可记录到任意一种计算机可读媒体上。
本说明书中使用的术语“包括”用于说明所述特征、总体、步骤或部件的存在。然而,该术语不排除一个或多个其它特征、总体、步骤或部件或它们的组合的存在和添加。
本发明不限于所述的附图中各实施例,而是可以在所附权利要求书范围内自由地加以变化。
权利要求
1.一种根据窄带声信号(aNB)产生宽带声信号(aWB)的方法,所述宽带声信号(aWB)的频谱(AWB)具有大于所述窄带声信号(aNB)的频谱(ANB)的带宽,所述方法包括从所述窄带声信号(aNB)中提取至少一个基本特征(zNB(r,c),ENB),以及根据至少一个基本特征(zNB(r,c),ENB)来估计描述所述窄带声信号(aNB)频谱(ANB)之外宽带频率分量的某些方面的参数,其特征在于,根据相应的置信度为特定的宽带频率分量分配参数值。
2.如权利要求1所述的方法,其特征在于,这样分配所述参数值如果所述置信度表示较高确定度,则允许将较高参数值分配给所述频率分量,以及如果所述置信度表示较低确定度,则只允许将较低参数值分配给所述频率分量。
3.如权利要求1或2中任意一项所述的方法,其特征在于,所述参数值表示信号能量。
4.如权利要求1-3中任意一项所述的方法,其特征在于,所述宽带声信号(aWB)的频谱(AWB)包括低频段(WLB),它包括低于所述窄带声信号(aNB)的频谱(ANB)的频带下限(fNI)的宽带频率分量,和高频段(WHB),它包括高于所述窄带声信号(aNB)的频谱(ANB)的频带上限(fNu)的宽带频率分量,所述方法包括为所述低频段(WLB)中的所有频率分量分配表示高确定度的置信度。
5.如权利要求1-4中任意一项所述的方法,其特征在于,接收所述窄带声信号(aNB)并根据它产生具有与所述宽带声信号(aWB)的带宽(WWB)相匹配的采样率的上采样信号(aNB-u),以及通过低通滤波将所述上采样信号(aNB-u)过滤成低通滤波信号(LP(aNB-u))。
6.如权利要求5所述的方法,其特征在于,所述上采样信号(aNB-u)的产生包括在所述窄带声信号(aNB)的各样值之间插入零样值。
7.如权利要求4-6中任意一项所述的方法,其特征在于,包括根据至少一个基本特征(zNB(r,c))估计宽带包络(e)。
8.如权利要求7所述的方法,其特征在于包括扩展所述窄带声信号(aNB)的激励(ENB),所述扩展包括至少一个频谱折叠,即所述窄带声信号(aNB)的激励频谱的一部分(f1-f2)的频谱折叠。
9.如权利要求8所述的方法,其特征在于,通过宽带滤波将所述扩展激励频谱(EWB)过滤成宽带能量信号(y0),所述宽带滤波基于所述宽带包络估计(e)。
10.如权利要求9所述的方法,其特征在于,通过高通滤波将所述宽带能量信号(y0)过滤成高通滤波信号(HP(y0))。
11.如权利要求10所述的方法,其特征在于包括接收所述高通滤波信号(HP(y0))、接收所述低通滤波信号(LP(aNB-u))以及产生作为所述接收信号之和的所述宽带声信号(aWB)。
12.如前述任意一项权利要求所述的方法,其特征在于,所述至少一个基本特征(zNB(r,c))表示浊化程度和频谱包络(c)。
13.如权利要求12所述的方法,其特征在于,所述浊化程度由归一化的自相关函数确定。
14.如权利要求12或13中任意一项所述的方法,其特征在于,所述频谱包络(c)借助线性频率倒谱系数来表示。
15.如权利要求12或13中任意一项所述的方法,其特征在于,所述频谱包络借助线状谱来表示。
16.如权利要求12或13中任意一项所述的方法,其特征在于,所述频谱包络借助Mel频率倒谱系数来表示。
17.如权利要求12或13中任意一项所述的方法,其特征在于,所述频谱包络借助线性预测系数来表示。
18.如权利要求7-17中任意一项所述的方法,其特征在于,所述宽带包络估计(e)的高频段(WHB)部分的估计包括高斯混合建模。
19.如权利要求18所述的方法,其特征在于,所述高斯混合建模包括通过贝页斯分类法将至少一个窄带特征向量分类成高斯混合模型的混合分量,以及计算表示所述分类正确的概率的值。
20.如权利要求18所述的方法,其特征在于,所述高斯混合模型表示特征向量和基本参数的联合分布。
21.如权利要求7-17中任意一项所述的方法,其特征在于,对所述宽带包络估计(e)的高频段(WHB)部分的估计包括隐式马尔可夫建模。
22.一种可直接装入计算机内存中的计算机程序,包括当所述程序在所述计算机上运行时执行如权利要求1-21中任意一项所述的步骤的软件。
23.一种计算机可读媒体,所述计算机可读媒体上记录有程序,其中,所述程序用于使计算机执行如权利要求1-21中任意一项所述的步骤。
24.一种根据窄带声信号(aNB)产生宽带声信号(aWB)的信号解码器,所述宽带声信号(aWB)的频谱(AWB)具有比所述窄带声信号(aNB)的频谱(ANB)宽的带宽,所述信号解码器包括特征提取单元(101),此单元接收所述窄带声信号并根据该信号产生所述窄带声信号(aNB)的至少一个基本特征(zNB(r,c),ENB),以及至少一个频带扩展单元(102-108),此单元接收所述窄带声信号(aNB)、接收所述至少一个基本特征(zNB(r,c),ENB)并根据所述接收信号产生所述宽带声信号(aWB),其特征在于,设置所述信号解码器以根据相应置信度分配有关特定宽带频率分量的参数。
25.如权利要求24所述的信号解码器,其特征在于,设置所述信号解码器以对所述参数作这样的分配如果所述置信度表示较高确定度,则允许将较高参数值分配给所述频率分量,以及如果所述置信度表示较低确定度,则只允许将较低参数值分配给所述频率分量。
26.如权利要求24或25所述的信号解码器,其特征在于,所述参数值表示信号能量。
27.如权利要求24-26中任意一项所述的信号解码器,其特征在于包括上采样器(102),所述上采样器接收所述窄带声信号(aNB)并根据它产生具有与所述宽带声信号(aWB)的带宽(WWB)相匹配的采样率的上采样信号(aNB-u),以及低通滤波器(103),所述低通滤波器接收所述上采样信号(aNB-u)并对此作出响应,产生低通滤波声信号(LP(aNB-u))。
28.如权利要求24-27中任意一项所述的信号解码器,其特征在于包括宽带包络估计器(104),此宽带包络估计器接收所述至少一个基本特征(zNB(r,c))并根据它产生估计的宽带包络(e)。
29.如权利要求28所述的信号解码器,其特征在于,所述宽带包络估计器(104)包括能量比估计器(104a),所述能量比估计器接收所述至少一个基本特征(zNB(r,c))并对此作出响应,产生估计的能量比
30.如权利要求29所述的信号解码器,其特征在于,所述宽带包络估计器(104)包括高频段形状估计器(104b),所述高频段形状估计器接收所述至少一个基本特征(zNB(r,c))、接收所述估计的能量比 并根据所述接收信号产生估计的高频段包络
31.如权利要求28-30中任意一项所述的信号解码器,其特征在于,它包括激励扩展单元(105),所述激励扩展单元接收所述窄带声信号(aNB)并对此作出响应而产生扩展激励频谱(EWB),所述扩展激励频谱(EWB)包括所述窄带声信号(aNB)的频谱(ANB)之外的频率分量。
32.如权利要求31所述的信号解码器,其特征在于,它包括宽带滤波器(106),所述宽带滤波器接收所述扩展激励频谱(EWB)、接收所述宽带包络估计(e),并根据所述接收信号产生宽带能量信号(y0)。
33.如权利要求32所述的信号解码器,其特征在于,所述宽带滤波器(106)包括高频段形状重建单元(106a),所述高频段形状重建单元接收所述扩展激励频谱(EWB)、接收所述估计的高频段包络 并根据所述接收信号产生高频段包络频谱(SY)。
34.如权利要求33所述的信号解码器,其特征在于,所述能量比估计器(104a)包括用于根据所述至少一个基本特征(zNB(r,c))产生时间上平滑的能量比估计 的部件,以及所述宽带滤波器(1060包括乘法器(106b),所述乘法器接收所述高频段包络频谱(SY)、接收所述时间上平滑的能量比估计 并根据所述接收信号产生所述宽带能量信号(y0)。
35.如权利要求31-34中任意一项所述的信号解码器,其特征在于,它包括高通滤波器(107),所述高通滤波器接收所述宽带能量信号(y0)并对此作出响应产生所述高通滤波信号(HP(y0))。
36.如权利要求35所述的信号解码器,其特征在于,它包括加法器(108),所述加法器接收所述高通滤波信号(HP(y0))、接收所述低通滤波信号(LP(aNB-u)),并产生作为所述接收信号之和的所述宽带声信号(aWB)。
全文摘要
本发明涉及改善声信号的可闻声音质量。这种改善是通过扩展接收窄带声信号(a
文档编号G10L21/038GK1503968SQ02808715
公开日2004年6月9日 申请日期2002年3月14日 优先权日2001年4月23日
发明者M·尼尔松, M 尼尔松, B·克莱恩, 扯 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1