一种舒适噪声参数产生方法和装置的制作方法

文档序号：2837260阅读：298来源：国知局

专利名称：一种舒适噪声参数产生方法和装置的制作方法
技术领域：
本发明涉及音频处理技术，特别涉及一种舒适噪声参数产生方法和装置。

背景技术：
在当前的移动通信系统中，通常采用不连续传输模式(DTX)对语音信息进行传输。所谓DTX，是指在语音暂停的情况下，发送方移动终端(以下简称发送端)只发送相对于正常情况下极少的数据量，而接收方移动终端(以下简称接收端)根据接收到的数据中所包含的参数产生舒适噪声。这种方式有利于节省移动终端和基站的电能以及带宽，并降低传输数据的比特率和减少冲突，从而保证移动通信的通信质量。
在DTX传输模式中，当语音暂停时，伴随语音信息一起传输的背景噪声也会随之消失，造成背景噪声的不连续性。如果这种切换快速发生，尤其是当发生在车用环境中或是背景噪声水平比较高的时候，会给接收端用户造成主观感觉上语音质量的严重下降。为避免这种情况的发生，在语音暂停的情况下，发送端会计算背景噪声的参数，比如信号帧的能量参数以及线性预测编码(LPC)参数，并且将计算出的参数以非常低的码率传输至接收端。接收端利用接收到的参数尽可能地重构出接近于发送端背景噪声的舒适噪声。具体来说，接收端产生高斯随机噪声信号，通过生成的高斯随机噪声信号激励LPC滤波器，并根据接收自发送端的能量参数，合成舒适噪声信号，以消除切换造成的影响，从而使用户有更舒适的主观感受。
现有技术中比较常用的舒适噪声生成方法为自适应多速率宽带(AMR-WB)编码方法。该方法中发送端通过计算当前帧以及之前的7帧(以下简称前8帧)的平均值，得到代表当前背景噪声的静音描述(SID)帧中的能量参数enlogmean和频谱参数fmean，接收端根据接收到的enlogmean和fmean生成舒适噪声。
具体实现过程包括发送端参数计算 (1)计算能量参数enlogmean 发送端首先计算每一帧的能量enlog(i)，计算方式如公式(1)所示其中，s(n)为经过高通滤波之后的语音帧信号；N为每一帧的采样点数，在AMR-WB中N的取值为256。
计算出前8帧的能量后，发送端进一步求取这8帧的能量平均值，即能量参数enlogmean(i)，计算方式如公式(2)所示 (2)计算频谱参数fmean fmean的计算采用未量化的线性预测参数在AMR-WB中，LPC参数表示为倒谱频率(ISF)参数，每一帧的ISF参数的表示形式为一个矢量fT＝[f1f2…f16]。
在求取前8帧的ISF参数的均值之前，首先需要进行剔除频谱差异较大帧的运算，具体计算过程为根据每一帧的ISF参数计算前8帧相互之间的频谱差ΔRij，计算方式如公式(3)所示其中，fi(k)表示第i帧的ISF参数矢量的第k个值。
之后，计算第i帧与其它7帧的总频谱差ΔSi，计算方式如公式(4)所示通过公式(4)的计算得到8个总频谱差后，从中选出总频谱差取值最小的一个，记为ΔSmed，以及取值最大和次大的两个，分别记为ΔSfir和Ssec。分别比较ΔSfir与ΔSmed以及ΔSsec与ΔSmed的商是否大于预先设置的参数THmed，即判断ΔSfir和ΔSsec是否满足公式(5)所示条件其中，ΔSj的取值为ΔSfir或ΔSsec；THmed＝2.25。
如果ΔSfir或ΔSsec满足公式(5)所示条件，则用ΔSmed所对应的帧中的ISF参数替换ΔSfir或ΔSsec所对应的帧中的ISF参数；否则，保持ΔSfir或ΔSsec所对应的帧中的ISF参数不变。
最后，计算替换后的8个帧对应的ISF参数的平均值fmean(n)，计算方式如公式(6)所示 fmean(n)即为最终计算得到的当前背景噪声的频谱参数，其中f′(n-i)(i＝0，...，7)为替换后的前8帧的ISF参数。
发送端计算出代表当前背景噪声水平的能量参数enlogmean和频谱参数fmean后，通过SID帧将其发送至接收端。
接收端参数计算现有技术中，将语音暂停之后的7个连续帧，称为拖尾(Hangover)帧。在发送端，这7个连续帧仍将按照普通的语音帧处理方式进行编码传输，所以，接收端可以直接获取这7个连续帧的参数。这样，对于接收端来说，其第一个SID帧的参数即可根据接收到的Hangover中的连续7帧的参数直接求平均获得。具体计算过程为首先，计算第一个SID帧的能量参数

计算方式如公式(7)所示其中，

为对Hangover帧进行解码后得到的各帧能量值。
然后，计算第一个SID帧的频谱参数

计算方式如公式(8)所示其中，

为量化以后的各帧的ISF参数，通过对Hanover帧进行解码得到。
由于Hanover帧只有7帧，所以在实际计算时，如公式(7)和(8)所示，需要补充一个第8帧，该第8帧参数的取值可以为第7帧的简单重复。
除去以上所提到的语音暂停后的第一个SID帧的参数是由接收端计算得出之外，之后接收端得到的SID帧的enlogmean和fmean参数均是由发送端计算并通过SID帧传输过来的。
图1为现有接收端舒适噪声生成过程示意图。如图1所示，接收端得到SID帧的enlogmean和fmean参数以后，根据enlogmean得到激励增益(gain)，根据fmean得到ISF，然后对其进行内插，再转换为LPC参数；进而，接收端生成高斯随机噪声序列，并通过激励增益去调整高斯随机噪声序列和激励合成滤波器，最终产生舒适噪声。
应用上述方法，通过在接收端生成舒适噪声，解决了现有技术中当语音暂停的情况下，接收端用户主观感觉上语音质量下降的问题。但是，这种方法需要在发送端进行剔除频谱差异较大帧以及求ISF平均值的运算，接收端也需要进行ISF求平均的运算，这些运算都具有较大的运算量，因此造成算法复杂度过高。

发明内容
有鉴于此，本发明实施例的主要目的在于提供一种舒适噪声参数产生方法，能够简单方便地生成舒适噪声参数。
本发明实施例的另一个目的在于提供一种舒适噪声参数产生装置，应用该装置能够简单方便地生成舒适噪声参数。
一种舒适噪声参数产生方法，该方法包括以下步骤计算当前一组连续帧中各帧的能量特征值以及频谱特征值；从所述计算出的各帧能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；从所述计算出的各帧频谱特征值中选择出一个频谱特征值，将所述选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
一种舒适噪声参数产生装置，所述装置包括计算模块、能量参数生成模块以及频谱参数生成模块；所述计算模块，用于计算当前一组连续帧中各帧的能量特征值以及频谱特征值，并将计算出的各帧的能量特征值以及频谱特征值分别输出至所述能量参数生成模块以及频谱参数生成模块；所述能量参数生成模块，用于接收来自所述计算模块的各帧的能量特征值，并从所述各帧的能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；所述频谱参数生成模块，用于接收来自所述计算模块的各帧的频谱特征值，并从所述各帧的频谱特征值中选择出一个频谱特征值，将所述选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
可见，采用本发明实施例的技术方案，在计算出一组连续帧的能量特征值以及频谱特征值以后，根据计算结果，从中选择出最能代表当前背景噪声水平的能量特征值以及频谱特征值对应的帧的能量以及倒谱频率参数作为生成当前舒适噪声的参数。与现有技术中的舒适噪声参数生成方法相比，本发明实施例所述方法无需进行剔除频谱差异较大帧以及求倒谱频率参数均值的运算，从而降低了算法复杂度，只需较少运算，即可简单方便地生成所需舒适噪声参数。

图1为现有接收端舒适噪声生成过程示意图。
图2为本发明方法实施例的总体流程图。
图3为本发明方法较佳实施例的流程图。
图4为本发明装置实施例的组成结构示意图。
图5为将图4所示装置作为发送端应用到实际移动通信系统后的系统结构示意图。

具体实施例方式 为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步地详细说明。
本发明实施方式中，计算当前一组连续帧中各帧的能量特征值以及频谱特征值；从计算出的各帧能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；从计算出的各帧频谱特征值中选择出一个频谱特征值，将选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
图2为本发明方法实施例的总体流程图。本发明方法实施例应用于移动通信系统中的语音通信发生暂停的情况下。如图2所示，该方法包括以下步骤步骤201计算当前一组连续帧中各帧的能量特征值以及频谱特征值。
本步骤中，各帧的能量特征值是指各帧的能量值enlog(i)，计算方式如公式(9)所示其中，s(n)为经过高通滤波后的语音帧信号，N为每一帧的采样点数目。
各帧的频谱特征值是指各帧与除自身以外的其它帧的总频谱差ΔSi，计算方式为首先，计算各帧相互之间的频谱差ΔRij，计算方式如公式(10)所示然后，计算总频谱差ΔSi，计算方式如公式(11)所示其中，公式(10)和(11)中，i，j的取值范围为从零到N；N的取值为当前一组连续帧中所包括的帧的个数减一；fi(k)为第i帧的ISF参数矢量的第k个值。
步骤202从计算出的各帧能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；从计算出的各帧频谱特征值中选择出一个频谱特征值，将选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
本步骤中，对计算出的各帧的enlog(i)按照大小顺序进行排序，并选择排序后处于中间位置的enlog(i)作为当前舒适噪声的能量参数。
从计算得到的各帧的总频谱差ΔSi中选出取值最小的ΔSi，并选择取值最小的ΔSi对应的帧的ISF参数作为当前舒适噪声的频谱参数。
上述步骤201和202均是由发送端完成的。在得到所需的能量参数以及频谱参数以后，发送端向接收端发送携带有能量参数以及频谱参数的SID帧。接收端接收该SID帧，并根据其中的能量参数和频谱参数生成舒适噪声。
需要说明的是，在实际应用中，语音暂停之后的7个连续帧被称为Hangover，对于这7个连续帧，发送端仍然会按照语音帧的方式进行编码和传输，这种情况下，接收端可以直接获得这7帧的参数。由于Hangover作为语音信号的语尾，一般情况下越是往后的帧会越接近纯背景噪声，所以，本发明实施例中，接收端接收并选取七个连续帧中最后一帧的能量特征值和倒谱频率参数作为当前舒适噪声的能量参数和频谱参数，并根据所述能量参数和频谱参数生成舒适噪声。
图3为本发明方法较佳实施例的流程图。本实施例中，将每8个连续帧(当前帧以及之前7帧，以下简称前8帧)看成一组连续语音帧，即针对每8帧计算一次舒适噪声参数。如图3所示，包括以下步骤步骤301发送端按照普通的语音帧处理方式对语音暂停之后的7个连续帧进行编码并传输至接收端。
步骤302接收端选取最后一帧的能量和ISF参数作为生成舒适噪声的能量参数和频谱参数。
由于Hangover作为语音信号的语尾，一般情况下越往后的帧越接近纯背景噪声，所以，本步骤中，接收端直接选取接收到的7个连续帧中的最后一帧的能量和ISF参数作为生成舒适噪声的能量参数和频谱参数。
步骤303接收端生成舒适噪声。
本步骤中，接收端根据步骤302中获取到的能量参数和频谱参数生成舒适噪声，生成方式与现有技术相同。
步骤304发送端生成能量参数。
本步骤中，发送端计算前8帧中每一帧的能量值enlog(i)，计算方式如公式(9)所示。然后，对计算出的每一帧的enlog(i)(i＝0，......7)按照升序顺序进行排序，假设排序后的各帧能量值为en′log(j)(j＝0，...，7)，则选取处于中间位置的en′log(j)作为生成舒适噪声的能量参数enlogback。
本实施例中，假设选取排序后位于第四个位置上的en′log(j)作为enlogback，则有步骤305发送端生成频谱参数。
本步骤中，发送端首先计算前8帧相互之间的频谱差ΔRij，计算方式如公式(12)所示其中fi(k)是第i帧的ISF参数矢量的第k个值。
然后，计算第i帧与其它7帧的总频谱差ΔSi，计算公式如公式(13)所示计算出各帧的ΔSi后，发送端从中选出取值最小的一个ΔSi，记为ΔSmin，并用ΔSmin对应的帧的ISF参数f(i)作为当前生成舒适噪声的频谱参数fback，即fback＝f(i)。
步骤306发送端向接收端发送SID帧。
SID帧中携带有生成的反映背景噪声水平的能量参数enlogback以及频谱参数fback。
步骤307接收端生成舒适噪声。
本步骤中，接收端生成舒适噪声的方式与现有技术相同，此处不再赘述。
后续过程，发送端和接收端之间不断重复步骤304～307。
基于上述方法，图4为本发明装置实施例的组成结构示意图。如图4所示，该装置包括计算模块401、能量参数生成模块402以及频谱参数生成模块403 计算模块401，用于计算当前一组连续帧中各帧的能量特征值以及频谱特征值，并将计算出的各帧的能量特征值以及频谱特征值分别输出至能量参数生成模块402以及频谱参数生成模块403；计算模块401还可进一步划分为能量参数计算模块以及频谱参数计算模块；能量参数生成模块402，用于接收来自计算模块401的各帧的能量特征值，并从各帧的能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；频谱参数生成模块403，用于接收来自计算模块401的各帧的频谱特征值，并从各帧的频谱特征值中选择出一个频谱特征值，将选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
其中，各帧的能量特征值为各帧的能量值enlog(i)；能量参数生成模块402具体包括排序模块4021以及选择模块4022 排序模块4021，用于接收来自计算模块401的各帧的enlog(i)，将各帧的enlog(i)按照大小顺序进行排序后发送至选择模块4022；选择模块4022，用于从接收自排序模块4021的排序后的enlog(i)中选择出处于中间位置的enlog(i)，作为当前舒适噪声的能量参数输出。
各帧的频谱特征值为各帧与除自身以外的其它帧的总频谱差ΔSi；频谱参数生成模块403具体用于，接收来自计算模块401的各帧的ΔSi，选取各帧的ΔSi中取值最小的ΔSi对应的帧的ISF参数作为当前舒适噪声的频谱参数输出。
将图4所示装置作为发送端应用到实际移动通信系统中，可得到如图5所示的系统结构示意图。如图5所示，为便于描述，本实施例中将发送端中的计算模块进一步划分为频谱参数计算模块以及能量参数计算模块。
发送端将生成的能量参数enlogback以及频谱参数fback量化以后通过SID帧发送至接收端；接收端接收到SID帧以后，从中得到相应的参数并将其分别存放到能量参数接收模块以及频谱参数接收模块，然后根据该能量参数以及频谱参数生成舒适噪声。其中，舒适噪声的生成为现有技术，此处不再赘述。
可见，采用本发明实施例的技术方案，在计算出一组连续帧的能量特征值以及频谱特征值以后，根据计算结果，从中选择出最能代表当前背景噪声水平的能量特征值以及频谱特征值对应的帧的能量以及ISF参数作为生成当前舒适噪声的参数。相比于现有技术中的舒适噪声参数生成方法，本发明实施例方法无需进行剔除频谱差异较大帧以及求ISF参数平均值的运算，从而降低了算法复杂度，只需较少运算，即可简单方便地生成所需舒适噪声参数。
综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1、一种舒适噪声参数产生方法，其特征在于，该方法包括以下步骤
计算当前一组连续帧中各帧的能量特征值以及频谱特征值；
从所述计算出的各帧能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；
从所述计算出的各帧频谱特征值中选择出一个频谱特征值，将所述选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
2、根据权利要求1所述的方法，其特征在于，所述各帧的能量特征值为各帧的能量值enlog(i)；所述enlog(i)的计算方法为
其中，s(n)为经过高通滤波的语音帧信号，N为每一帧的采样点数目。
3、根据权利要求2所述的方法，其特征在于，所述从计算出的各帧能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数的方法为
对所述计算出的各帧的能量值按照大小顺序进行排序；
选取所述排序后处于中间位置的能量值作为所述当前舒适噪声的能量参数。
4、根据权利要求1所述的方法，其特征在于，所述各帧的频谱特征值为各帧与除自身以外的其它帧的总频谱差ΔSi；所述ΔSi的计算方法为
首先，计算各帧相互之间的频谱差ΔRij
然后，计算所述总频谱差ΔSi
其中，i，j的取值范围为从零到N；所述N的取值为当前一组连续帧中所包括的帧的个数减一；fi(k)为第i帧的倒谱频率参数矢量的第k个值。
5、根据权利要求4所述的方法，其特征在于，所述从计算出的各帧频谱特征值中选取出一个频谱特征值，将所述选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数的方法为
从所述计算得到的各帧的总频谱差ΔSi中选出取值最小的ΔSi；
选择所述取值最小的ΔSi对应的帧的倒谱频率参数作为当前舒适噪声的频谱参数。
6、根据权利要求1所述的方法，其特征在于，该方法进一步包括
发送端将所述能量参数以及频谱参数输出至接收端；
所述接收端接收所述能量参数以及频谱参数；根据所述能量参数和频谱参数生成舒适噪声。
7、根据权利要求1所述的方法，其特征在于，该方法之前进一步包括
发送端将语音暂停之后的七个连续帧按照语音帧进行编码并输出；
接收端接收并选取所述七个连续帧中最后一帧的能量特征值和倒谱频率参数作为当前舒适噪声的能量参数和频谱参数；
接收端根据所述能量参数和频谱参数生成舒适噪声。
8、根据权利要求1～7中任一项所述的方法，其特征在于，所述当前一组连续帧中共包括八帧。
9、一种舒适噪声参数产生装置，其特征在于，所述装置包括计算模块、能量参数生成模块以及频谱参数生成模块；
所述计算模块，用于计算当前一组连续帧中各帧的能量特征值以及频谱特征值，并将计算出的各帧的能量特征值以及频谱特征值分别输出至所述能量参数生成模块以及频谱参数生成模块；
所述能量参数生成模块，用于接收来自所述计算模块的各帧的能量特征值，并从所述各帧的能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；
所述频谱参数生成模块，用于接收来自所述计算模块的各帧的频谱特征值，并从所述各帧的频谱特征值中选择出一个频谱特征值，将所述选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
10、根据权利要求9所述的装置，其特征在于，所述各帧的能量特征值为各帧的能量值enlog(i)；所述能量参数生成模块具体包括排序模块以及选择模块；
所述排序模块，用于接收来自所述计算模块的各帧的enlog(i)，将所述各帧的enlog(i)按照大小顺序进行排序后发送至所述选择模块；
所述选择模块，用于从接收自所述排序模块的排序后的enlog(i)中选择出处于中间位置的enlog(i)，作为所述当前舒适噪声的能量参数输出。
11、根据权利要求9或10所述的装置，其特征在于，所述各帧的频谱特征值为各帧与除自身以外的其它帧的总频谱差ΔSi；
所述频谱参数生成模块具体用于，接收来自所述计算模块的各帧的ΔSi，选取所述各帧的ΔSi中取值最小的ΔSi对应的帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。
全文摘要
本发明实施例公开了一种舒适噪声参数产生方法，包括计算当前一组连续帧中各帧的能量特征值以及频谱特征值；从所述计算出的各帧能量特征值中选择出一个能量特征值，作为当前舒适噪声的能量参数输出；从所述计算出的各帧频谱特征值中选择出一个频谱特征值，将所述选择出的频谱特征值对应帧的倒谱频率参数作为当前舒适噪声的频谱参数输出。本发明实施例同时公开了一种舒适噪声参数产生装置，应用该方法和装置能够实现简单方便地生成舒适噪声参数。
文档编号G10L19/012GK101303855SQ20071010439
公开日2008年11月12日申请日期2007年5月11日优先权日2007年5月11日
发明者伟李, 孙晓刚, 丽刘, 曹军彬, 清张, 许丽净, 许剑峰, 杜正中, 晨胡, 磊苗, 毅杨申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李伟;孙晓刚;刘丽;曹军彬;张清;许丽净;许剑峰;杜正中;胡晨;苗磊;杨毅
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：语音识别方法、语音识别装置及计算机程序的制作方法
上一篇：实现基音增强后处理的方法及装置的制作方法