利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法

文档序号：9693330阅读：328来源：国知局

利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
【技术领域】
[0001] 本发明设及音频信号处理，特别是语音处理，并且更特别地设及用于似AC化P(似代数码激励线性预测)隐藏中的自适应码本的改进隐藏的装置W及方法。
【背景技术】
[0002] 音频信号处理变得越来越重要。在音频信号处理领域中，隐藏技术扮演重要角色。当帖丢失或损坏时，由于丢失或损坏的帖而丢失的信息必须被放回。在语音信号处理中，尤其是，当考虑到ACELP或似ACELP语音编解码器时，音调信息是非常重要的。音调预测技术W 及脉冲再同步化技术是所需的。
[0003] 关于音调重建，现有技术中存在不同的音调外推技术。
[0004] 运些技术中的一种是基于重复的技术。多数的现有编解码器应用基于简单重复的隐藏方法，运意味着在包丢失之前最后正确地接收的音调周期被重复，直至良好的帖到达且可从比特流中解码出新的音调信息为止。或者，应用音调稳定性逻辑，根据其，选择在包丢失之前已被接收一些时间的音调值。遵循基于重复的方法的编解码器是，例如，G.719(参看[ITU08b，8.6])、G.729(参看[ITU12,4.4])、AMR(参看[3GP12a，6.2.3.1]，[mJ03])、AMR-WB(参看[3GP12b，6.2.3.4.2])W及AMR-WB+(ACELP及TCX20(似AC化P)隐藏）（参看 [3GP09]); (AMR=自适应多速率;AMR-WB =自适应多速率宽带）。
[000引现有技术的另一种音调重建技术是自时间域的音调推导。对于一些编解码器，音调是隐藏所必须的，但是未被嵌入比特流中。因此，基于先前帖的时域信号计算音调，W便计算音调周期，然后在隐藏期间保持音调周期恒定。遵循运种方法的编解码器是，例如， 6.722，参看，尤其是，6.722附录3(参看[11'1106曰，111.6.6及111.6.7])^及6.722附录4(参看[ITU07JV.6.1.2.5])。
[0006] 现有技术的又一种音调重建技术是基于外推。一些现有的编解码器应用音调外推方法并且执行特定算法W在包丢失时依据外推的音调估计而改变音调。运些方法将参照 G. 718 W及G. 729.1在下面更详细地说明。
[0007] 首先，G.718被考虑(参看[ITUOSa])。未来音调的估计通过外推被进行W支持声口脉冲再同步化模块。运个可能的未来音调值的信息用于同步化隐藏的激励的声口脉冲。
[0008] 仅当最后的良好帖不是无声的时进行音调外推。G.718的音调外推是基于编码器具有平滑的音调轮廓的假设。所述外推基于消音之前的最后屯个子帖的音调滞后而被进行。
[0009] 在G.718中，浮动音调值的历史更新在每个正确地接收的帖之后被进行。为了运个目的，仅当核屯、模式不是无声的时更新音调值。在丢失帖的情况中，浮动音调滞后之间的差根据公式(1)被计算：
[0010]
/研' ￡二二....L …，.(i (1)
[0011]在公式（1)中，表示先前帖的最后（即，第4个)子帖的音调滞后；表示先前帖的第3个子帖的音调滞后;等等。
[001引根据G.718,差值省的总和如公式(2)被计算：
[0013] (2)
[0014] 由于值苗I可W是正数或负数，述I.的符号反向的数量被相加并且通过存储器中保存的参数指示第一反向的位置。
[001引通过公式(3 )得到参数f cnrr :
[0016]
[00Π ]其中dmax = 231是考虑的音调滞后的最大值。
[0018] 在G.718中，根据W下限定得到指示最大绝对差值的位置imax:
[0019]
[0020] 并且如下所示计算对于运个最大差值的比率：
[0021] (4)
[0022] 如果运个比率大于或等于5,则最后正确接收的帖的第4个子帖的音调被用于待隐藏的所有子帖。如果运个比率大于或等于5，运意味着所述算法是不够可靠的W外推所述音调，并且所述声口脉冲再同步化将不会被进行。
[0023] 如果rmax小于5,则另外的处理被进行W实现最佳可能外推。Ξ种不同的方法被用于外推未来音调。为了在可能的音调外推算法之间做选择，计算偏差参数其取决于因子fcDrrW及最大音调变化的位置imax。但是，首先，修改平均浮动音调差值W从平均值中移除太大的音调差值：
[0024] 如果心^0.98且如果imax=3，则根据公式(5)确定平均部分音调差值S部i
[0025] 巧
[0026] W移除关于两个帖之间的过渡的音调差值。
[0027] 如果心口>〇.98或如果1。3、辛3，则根据公式(6)计算平均部分音调差值^娜.，
[002引㈱
[0029] 并且最大浮动音调差值被运个新的平均值替代：
[0030]
口）[0031] 使用运个浮动音调差值的新平均值，如下计算标准偏差
[0032] (8)
[0033] 其中Isf在第一情况中等于4,在第二情况中等于6。
[0034] 依据运个新参数，在外推未来音调的Ξ种方法之间做选择：
[0035] 如果改变符号多于两次(运指示高的音调变化），第一符号反向在最后的良好帖中（对于i<3)，并且fc。rr2〉0.945，则如下计算外推的音调dext(外推的音调也被表示为 Text)：
[0036]
[0037] 如果0.945<fcnrr2<0.99并且改变符号至少一次，则采用部分音调差值的加权平均值外推音调。平均差值的权重fw与标准偏差fcorr2有关，并且如下所示定义第一符号反向的位置：
[003引
[0039] 公式中的参数imem取决于的第一符号反向的位置，W使得如果第一符号反向发生在过去帖的最后两个子帖之间则ime" = 0,使得如果第一符号反向发生在过去帖的第2个及第3个子帖之间则imem= 1，W此类推。如果第一符号反向接近于最后帖结束，运意味着音调变化仅在丢失帖之前不太稳定。因此应用至平均值的加权因子将是接近于0并且外推的音调dext将是接近于最后良好帖的第4个子帖的音调：
[0040]
[0041] 否则，音调演变被考虑是稳定的并且如下所示确定外推音调dext:
[0042]
[0043] 在运个处理之后，音调滞后被限制在34W及231之间（值指示最小W及最大允许的首调滞后)。
[0044] 现在，为说明基于外推的音调重建技术的另一示例，G. 729.1被考虑（参看 [ITU06b])〇
[004引G. 729.1的特征为无前向误差隐藏信息（例如，相位信息）是可解码的情况中的音调外推方法（参看[Gao])。例如，如果两个连续帖丢失（一个超级帖由四个帖组成，可W是 ACELP或TCX20)，则运种情况出现。也有可能是TCX40或TCX80帖及其几乎所有组合。
[0046] 当在有声区域中丢失一个或多个帖时，先前的音调信息通常被用于重建当前丢失的帖。当前估计的音调的精确性可能直接地影响与原始信号对齐的相位，并且其对于当前丢失的帖W及在丢失帖之后接收到的帖的重建质量是关键的。使用多个过去的音调之后而不是仅复制先前的音调滞后将导致统计上较佳的音调估计。在G. 729.1编码器中，用于FEC (前向误差校正）的音调外推由基于过去五个音调值的线性外推组成。过去五个音调值是P 。），对于1 = 〇，1，2,3,4，其中？(4)是最近的音调值。根据公式(9)定义外推模型：
[0047] p'(i)=a+i.b (9)
[0048] 然后，如公式(10)被定义对于丢失帖中的第一子帖的外推音调数值：
[0049] p'(5)=a+5.b (10)
[0050] 为了确定系数aW及b，误差E被最小化，其中根据公式(11)定义误差E:
[0056] 下面，对如[MCZ11]中所提出的用于AMR-WB编解码器的现有帖删除隐藏概念进行说明。运个帖删除隐藏概念是基于音调和增益线性预测。所述文章提出基于最小均方误差准则，在帖丢失情况中的线性音调内推/外推法。
[0057] 根据运个帖删除隐藏概念，在解码器侧，当删除帖之前的最后有效帖(过去帖）的类型与删除帖之后的最先帖(未来帖）的类型相同时，定义音调P(i)，其中i = -N，-N+l，…， 0,1，···，N+4，N+5,并且其中N是删除帖的过去W及未来子帖的数量。P(l)，P(2)，P(3)，P(4) 是删除帖中的四个子帖的四个音调，P(0)，P(-1)，…，P(-N)是过去子帖的音调，并且P(5)，P (6)，···，Ρ(Ν+5)是未来子帖的音调。线性预测模型P'（i)=a+b· i被采用。对于i = l，2,3,4; P'（1)，P'（2)，P'（3)，P'（4)是对于删除帖的预测音调。MMS准则(MMS =最小均方)被考虑W 根据内推方法而推导出两个预测系数aW及b的值。根据运种方法，误差E被定义为：
[005引
[0059]接着，系数a W及b可通过计算如下公式得到：
[0063] 可根据公式(14e)计算对于删除帖的最后四个子帖的音调滞后：
[0064] P'(l)=a+b · 1;P'(2)=a+b · 2
[006引 p'(3)=a+b · 3;P'(4)=a+b · 4 (14e)
[0066] 结果发现，N = 4提供最好的结果。N = 4表示5个过去子帖W及5个未来子帖被用于内推。
[0067] 但是，当过去帖的类型与未来帖的类型不同时，例如，当过去帖是有声的但是未来帖是无声的时，只有过去帖或未来帖的有声音调被用于使用上述外推方法而预测删除帖的音调。
[0068] 现在，考虑现有技术中的脉冲再同步化，尤其是参考G.718及G.729.1。脉冲再同步化的方法在[VJGS12]中进行了描述。
[0069] 首先，说明建构激励的周期部分。
[0070] 对于在正确地接收除了无声之外的帖之后的删除帖的隐藏，通过重复先前帖的被低通滤波的最后音调周期建构激励的周期部分。
[0071] 使用来自先前帖的末端的激励信号的被低通滤波段的简单复制而完成周期部分的建构。
[0072] 音调周期长度被四舍五入(round)至最接近整数：
[0073] Tc = :round(最后音调）（15a)
[0074] 考虑最后音调周期长度是Τρ，则被复制的段的长度Tr可W例如根据公式（1化)被定义：
[007引跨二扔 + 0'S| (1 报）
[0076] 对于一个帖和一个额外的子帖建构周期部分。
[0077] 例如，帖中有Μ个子帖，子帖长度是
[0078] 其中L是帖长度，也表示为L打細e : L = L打ame。
[0079] 图3示出语音信号的建构周期部分。
[0080] τ[ο]是激励的建构周期部分中的第一最大脉冲的位置。其他脉冲的位置利用下式给出：
[0081 ] T[i]=T[0]+iTc (16a)
[0082] 对应于
[0083] T[i]=T[0]+iTr (16b)
[0084] 在激励的周期部分的建构之后，声口脉冲再同步化被进行W校正丢失帖的最后脉冲的估计目标位置(P)与其在激励的建构周期部分中的实际位置(T[k])之间的差。
[0085] 基于丢失帖之前的最后屯个子帖的音调滞后外推音调滞后演变。每个子帖中的演变音调滞后是：
[0086] p[i] =round(Tc+(i+l)5) ,0 < i<M (17a)
[0087] 其中
[008引 il7b)
[0089] 且Text(也表不为dext)是外推首调，如上面对于dext的描述。
[0090] 在帖长度内发现具有恒定音调的音调周期（T。）内的总样本数量和与具有演变音调P[i]的音调周期内的总样本数量和之间的差(表示为d)。文献中没有说明如何发现d。
[0091] 在G.718的源码中（参看[ITUOSa])，是使用下面的算法(其中Μ是帖中的子帖的数量)发现d:
[0092]
[0093] 帖长度内的建构周期部分中的脉冲加上未来帖中的第一脉冲的数量是N。文献中没有说明如何发现N。
[0094] 在G.718的源码中（参看[ITUOSa])，根据W下公式发现N:
[0095] (ISa)
[0096] 通过W下公式确定属于丢失帖的激励的建构周期部分中的最后脉冲的位置Τ[η]:
[0097]
[0098]估计的最后脉冲位置Ρ是：
[0099] P = T[n]+d (19a)
[0100] 最后脉冲位置的实际位置T[k]是最接近估计的目标位置P的激励的建构周期部分中的脉冲的位置(包含在当前帖之后的第一脉冲的捜寻中）：
[0101]
[0102] 通过增加或移除全部音调周期的最小能量区域中的样本进行声口脉冲再同步化。通过W下的差值确定被增加或移除的样本的数量：
[0103] diff = P-T[k] (19c)
[0104] 使用滑动5-样本窗口确定最小能量区域。最小能量位置被设定在窗口中间，在其处能量是最小的。在两个音调脉冲之间从T[i]+Te/8至T[i + l]-Te/4进行捜寻。有Nmin = n-1个最小能量区域。
[0105] 如果Nmin=l，则仅有一个最小能量区域且在该位置插入或删除dif f个样本。
[0106] 对于Nmin〉l，在开始处增加或移除较少样本，朝向帖结束部分增加或删除较多样本。使用下面的递归关系发现脉冲T[i]与T[i+1]之间被移除或被增加的样本的数量：
[0107]
[0108] 如果即1]<即1-1]，则即1]与即1-1]的值互换。

【发明内容】

[0109] 本发明的目的在于提供用于音频信号处理的改进的概念，特别地，提供用于语音处理的改进的概念，并且更特别地，提供改进的隐藏概念。
[0110] 本发明的目的通过根据权利要求1的装置，根据权利要求16的方法W及根据权利要求17的计算机程序而实现。
[0111] 提供一种用于重建包括语音信号的帖作为重建帖的装置，所述重建帖与一个或多个可用帖相关联，所述一个或多个可用帖是所述重建帖的一个或多个先前帖W及所述重建帖的一个或多个后续帖中的至少一个，其中所述一个或多个可用帖包括作为一个或多个可用音调周期的一个或多个音调周期。所述装置包括:确定单元，用于确定样本数量差，所述样本数量差指示所述一个或多个可用音调周期中的一个的样本数量与待重建的第一音调周期的样本数量之间的差。并且，所述装置包括帖重建器，所述帖重建器用于通过依据所述样本数量差W及依据所述一个或多个可用音调周期中的一个的样本重建待被重建作为第一重建音调周期的所述第一音调周期，而重建所述重建帖。所述帖重建器用于重建所述重建帖，W使得所述重建帖完全地或部分地包括所述第一重建音调周期，W使得所述重建帖完全地或部分地包括第二重建音调周期，W及W使得所述第一重建音调周期的样本数量不同于所述第二重建音调周期的样本数量。
[0112] 根据实施例，所述确定单元，例如，可用于确定对于待被重建的多个音调周期中的每个的样本数量差，W使得所述音调周期中的每个的样本数量差指示所述一个或多个可用音调周期中的一个的样本数量与待被重建的所述音调周期的样本数量之间的差。所述帖重建器，例如，可用于依据待被重建的所述音调周期的所述样本数量差W及依据所述一个或多个可用音调周期中的一个的样本重建待被重建的所述多个音调周期中的每个音调周期，从而重建所述重建帖。
[0113] 在实施例中，所述帖重建器，例如，可用于依据所述一个或多个可用音调周期中的一个生成中间帖。所述帖重建器，例如，可用于修改所述中间帖W得到所述重建帖。
[0114] 根据实施例，所述确定单元，例如，可用于确定指示多少样本将从所述中间帖移除或多少样本将被增加至所述中间帖的帖差值(d;s)。此外，所述帖重建器，例如，可用于当所述帖差值指示第一样本应从所述帖被移除时，将所述第一样本从所述中间帖移除W得到所述重建帖。此外，所述帖重建器，例如，可用于当所述帖差值(d;s)指示第二样本应被增加至所述帖时，将所述第二样本增加至所述中间帖W得到所述重建帖。
[0115] 在实施例中，所述帖重建器，例如，可用于当所述帖差值指示所述第一样本应从所述帖移除时，将所述第一样本从所述中间帖移除，因而从所述中间帖移除的所述第一样本的数量由所述帖差值指示。此外，所述帖重建器，例如，可用于当所述帖差值指示所述第二样本应被增加至所述帖时，将所述第二样本增加至所述中间帖，因而被增加至所述中间帖的所述第二样本的数量由所述帖差值指示。
[0116] 根据实施例，所述确定单元，例如，可用于确定帖差量S，因而适用下列公式：
[0117]
[0118] 其中L指示所述重建帖的样本数量，其中Μ指示所述重建帖的子帖的数量，其中Tr 指示所述一个或多个可用音调周期中的一个的四舍五入的音调周期长度，并且其中P[i]指示所述重建帖的第i个子帖的重建音调周期的音调周期长度。
[0119] 在实施例中，所述帖重建器，例如，可适于依据所述一个或多个可用音调周期中的一个生成中间帖。此外，所述帖重建器，例如，可适于生成所述中间帖，使得所述中间帖包括第一部分中间音调周期、一个或多个其他中间音调周期、W及第二部分中间音调周期。此夕h所述第一部分中间音调周期可例如取决于所述一个或多个可用音调周期中的一个的样本中的一个或多个，其中所

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰雷米·勒孔特;迈克尔·施那拜尔;戈兰·马尔科维奇;马丁·迪茨;伯恩哈德·诺伊格鲍尔;
技术所有人：弗朗霍夫应用科学研究促进协会;
我是此专利的发明人

上一篇：话音增强方法及其装置的制造方法
上一篇：应用加权噪音的帧丢失的校正的制作方法