对输入信号值序列进行时间缩放的方法

文档序号：2832260阅读：255来源：国知局

专利名称：对输入信号值序列进行时间缩放的方法
技术领域：
本发明涉及一种数字信号处理技术，该技术改变音频信号的长度并从而有效改变其播放速度。在专业市场中，该技术用于电影工业中的帧率转换或音乐制作中的声音效果。此外，消费电子设备，例如mp3播放器、录音机或应答机利用时间缩放来进行快进或慢动作音频播放。
背景技术：
在 Dorran 等人的"A Comparison of Time-Domain Time-Scale Modification Algorithms," AES 2006中，可以找到用于对音频信号进行时间縮放的以下应用列表-用于数字图书馆和远程学习的语音材料的快速浏览-音乐和外语学习/教学-电话应答机和录音电话机的快/慢回放-视频-电影标准转换-对音频加水印-针对盲人的加速听觉阅读-音乐合成-音频4见频同步-音频数据压缩-心脏紊乱诊断-针对无线电/电视产业中分配的时隙来编辑音频/视觉记录-声音性别转换-文本至语音的合成-唇形同步和配音-韵律移植和卡拉OK实现这种用于音频信号长度改变的数字信号处理技术的一种方式是所谓的波形相似度叠加(WSOLA)方法。WSOLA能够产生高质量的时间縮放的输出信号。由固定长度(典型地约为20ms)的块来构造 WSOLA输出信号。这些块重叠50%，以保证固定的交叉渐变长度。追加至输出信号的下一块是如下的块首先该块与将正常跟随当前块的块最相似，其次该块位于理想位置(由缩放因子确定)周围的搜索窗内。因此，与理想位置的偏差典型地限制在小于5ms，从而产生10ms 大小的搜索窗。Demol等人在"Efficient Non-Uniform Time-Scaling of Speech with WSOLA," Speech and Computers (SPECOM)， 2005中描述也可以通过改变縮放因子来将WSOLA扩展为将处理后的信号的变化特性列入考虑之中。发明内容本发明的目的是通过提出一种根据权利要求1所述的使用修改的波形相似度叠加方法来对输入信号值序列进行时间缩放的方法，以及一种根据权利要求9所述的使用修改的波形相似度叠加方法来对输入信号值序列进行时间縮放的设备，来增强WSOLA方法。根据所述方法，对波形相似度叠加方法进行修改，以确定子序列对的相似度度量中的最大化相似度，每个所述子序列对包括来自输入窗的待匹配子序列和来自搜索窗的匹配子序列，其中，所述子序列对包括至少两个子序列对，所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。所述输入窗允许找到具有比使用基于单一待匹配子序列的 WSOLA方法所找到的相似度更高的子序列对。这产生了较少的可感知伪像。在实施例中，所述第一对包括第一匹配子序列，所述第二对包括不同的第二匹配子序列。在另一实施例中，所述第一对和所述第二对包括相同的匹配子序列。有利地，对所述波形相似度叠加方法的修改包括拷贝子序列，直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差，所述累计时间偏差依赖于所拷贝的子序列的累计持续时间和期望的时间縮放因子。这减小了接合点(splice point)的数目，从而减小了时间缩放的可听性。每个子序列对的相似度度量可以包括加权，所述加权考虑所述对中的子序列之间的时间距离。考虑时间距离能够使WSOLA方法偏向优选的时间距离。例如，在实施例中，对相似度进行加权，使其偏向较大的时间距离。这允许追加更长的子序列，继而使得所需接合点更少。在所述方法的又一实施例中，对相似度进行加权，使其偏向与期望的时间縮放因子相对应的时间距离。然后，即使时间縮放后的序列的一部分也很好地反映了时间缩放因子。在又一实施例中，确定所述输入窗，使其包括至少一个暂停信号段。已知对于信号暂停而言接合在计算上较为简单。在另一实施例中，确定所述输入窗，使其不包括任何瞬变信号段。已知对于瞬变信号段而言接合在计算上较为困难。

在附图中示意并在以下描述中更详细说明了本发明的示例实施例。在附图中图1示出了示例性原始采样序列和示例性的时间缩放的采样序列，以及图2示出了示例性加权函数。
具体实施方式
现根据时间縮放因子a的时间縮放。在这两个阶段之一中，简单地将原始采样序列ORIG 中的采样拷贝至时间縮放的釆样序列SCLD 。令时间縮放差等于l-ct的绝对值。然后，每个拷贝的采样的持续时间与理想的时间縮放的采样的持续时间的偏差为一个原始采样D^的持续时间乘以时间縮放差。因此，对L个采样进行拷贝产生的累计时间偏差为其中A。是初始时间偏差，该偏差可以为0，或者在确定累计时间偏差时可以忽略该偏差。所拷贝的最小采样数目应使累计时间偏差超过偏差下阈值Amin。所拷贝的最大采样数目应使累计时间偏差不超过偏差上阈值Amax。偏差下阈值Amin确保了时间缩放的采样序列中的接合点之间的最小距离。随着音频信号的能量趋向于集中在低频范围内使得自相似度函数在0附近具有宽峰，接合点之间的最小跳距离将成为问题。如果 An^远小于该峰值，则模板匹配可能判定搜索窗的边界在行中多次最接近理想点(直到Amin的和超过自相似度函数的上述峰值的宽度)。在这种情况下，输出信号将包含许多小信号段的拼接。该最小距离与两个拷贝的块之间的交叉渐变长度相对应，即在时间縮放的信号中为N 个采样。理想地，使用N/(X个采样来形成时间缩放的信号中的这N个采样。这产生了原始信号中的偏差下阈值Amin: = iV . t^Z)"。此外，可以确定偏差下阈值Amin，使其至少达到下界LB:A—; = max、丄^——^ 、《乂使用LB:2ms可以实现很好的结果。尤其是如果cc较小，则下界LB 有助于防止引入伪像。偏差上阈值AmajA保了时间縮放的采样序列中的接合点之间的最大距离。该最大距离限制了累计时间偏差Ai^并从而限制了输入信号中省略或重复的连续子序列的长度。继而也限制了由于重复或省略而导致的伪像的可听性。在拷贝操作导致满足或刚刚超过偏差上阈值Am^时，处理进入第二阶段。在第二阶段中，执行修改的WSOLA。对于原始采样序列SCLD 中接下来将要拷贝的N个采样组成的模板子序列，在原始采样序列 ORIG中执行模板匹配来在搜索窗MW内找到候选子序列<:1，...，(:*，...,0^中最适合用于进行接合的候选子序列(:*。模板匹配是基于相似度度量(如相关、均方差或平均绝对差)，使用权值w来对该相似度度量进行加权，权值w依赖于候选子序列的时间位置与原始采样序列中模板的位置之间的时间差At 。权值W还可以依赖于候选子序列Cl，...,CV..,Ck的理想时间偏移 ITS，所述理想时间偏移ITS是由原始釆样序列ORIG中的候选子序列的时间位置以及时间缩放因子来确定的。图2中示意性示出了示例加权函数WF1、 WF2、 WF3。加权函数可以是线性函数WF1、 WF2，使得最佳匹配偏向将产生较大初始时间偏差(延迟或预先呈现)并从而产生被追加在后时较大的信号段的那些候选。加权函数可以是钟形函数WF3，使得最佳匹配偏向将产生被追加在后时与理想时间偏移ITS最佳对应的初始时间偏差的那些候选。如果对包括同步的音频和视频信号在内的电影进行时间缩放，则可以使用另一加权函数。人类感知系统适应于对事件的视觉印象的感知早于所述事件的相应可听印象的情形。例如，如果某人从远方呼喊，则该事件的视觉印象以光速传播至观察者，而喊声仅以音速传播。因此，观察者可能忽略音频信号相对于视频信号的小延迟。但是，大到使音频信号不再与视频信号相匹配的音频信号延迟是一种恼人的伪像。同样恼人的是视频信号相对于音频信号的任何延迟。因此，依赖于针对视频信号而实现的时间缩放、使得确保时间缩放的音频信号不超前于时间縮放的视频信号同时又不延迟过多的加权函数是有益的。例如，钟形函数WF3的中心可以位于确保时间缩放的音频信号相对于时间縮放的视频信号具有小而不过大的延迟的偏移位置。还可以针对包括最后拷贝至时间缩放的序列SCLD的采样紧接之前的N个最后拷贝的采样在内的子序列来执行模板匹配。将倒数第二个子序列与其最佳匹配模板之间的相似度与最后子序列与最后子序列的最佳匹配模板之间的相似度进行比较，其中可以对这些相似度进行加权也可以不进行加权。将与较大的加权相似度相关联的子序列与时间缩放的采样序列中其最佳匹配模板进行接合或交叉渐变。类似地，可以考虑包括从倒数第n个子序列至最后子序列的所有子序列Bl，...， B*, ...,Bn在内的子序列集合以最大化加权的相似度。因此，不仅针对单一潜在接合点，而是针对优选地密集位于输入窗SW中的潜在接合点的整个集合来最大化相似度度量。结果是二维相似度函数。但是，用于计算所述二维相似度函数的额外计算工作仍然有限。对于N个采样的模板长度和K个采样的搜索窗宽度，一维相似度函数需要进行I^K次乘法或绝对/平方差值等计算。然后，通过将N个产生的值求和来确定K个相似度值。如果a接近于l,则可以对输入窗中的所有模板使用共同的搜索窗。然而，具有宽度L的输入窗的二维相似度函数需要f v+丄"/:个值的计算，并将这些值求和以得到I^K个相似度值。因此，二维搜索的额外计算工作随搜索窗的大小呈线性增长。在一维框架内，必须确定K个不同相似度，而二维框架需要计算 1^K个不同相似度。但是在二维框架中，可以以迭代方式来确定一些相似度。这就是说，确定第一模板与第一候选的第一相似度值的第一和值与确定第二模板与第二候选的第二相似度值的第二和值的差别仅在于一个被加数。其中，第二模板和第二候选分别相对于第一模板和第一候选偏移一个采样。根据所述"K个不同相似度，必须从头开始确定的仅有K+L个相似度，其余(尺-1)*(￡-1)个相似度可以迭代方式确定。如果a远大于或远小于l，则使用一组交叉搜索窗，对来自输入窗的每个模板使用一个搜索窗。这些搜索窗中的每一个的中心位于与使用对应模板的理想时间偏移相对应的时间点。可以确定输入窗sw,使其包括至少一个暂停信号段和/或至少一个准周期性信号段。己知这种信号段提供很好的接合点，而瞬变信号段不那么适于接合或交叉渐变。此外或可选地，对相似度度量的加权可以被适配为使其进一步或完全依赖于子序列B1， ...， B*， ...， Bn中的信号特性，其中待接合的段中的暂停和/或准周期性导致权值增大，而瞬变信号特性导致权值减小。使用包括来自输入窗SW的被最佳匹配的子序列Bf和来自搜索窗MW的最佳匹配候选子序列C^ (其相似度最大)在内的子序列用来产生时间縮放的信号SCLD的交叉渐变区CF的采样。交叉渐变区中的采样数可以与这些子序列之一中的采样数相对应，使得这些子序列中的所有采样都用于交叉渐变。或者，交叉渐变区中的采样数较少，即仅使用这些子序列中的一些采样。例如，子序列长度与块长度或2*1^个采样相对应，而交叉渐变区长度与半块的长度或N个采样相对应。使用比交叉渐变区更长的子序列可能有利于通过将接合点偏向音素(phoneme)的中心来进一步减小接合点的可听性。提供了根据时间縮放因子来对信号值序列进行时间縮放的方法的示例实施例，其中，所述方法包括以下步骤使用WSOLA方法对在前的子序列进行时间縮放；以及使用内插方法来对连续子序列进行时间縮放。在另一示例实施例中，所述方法包括以下步骤(a)形成包括待匹配子序列B1、 B*、 Bn和匹配子序列Cl、 C*、 Ck在内的子序列对；(b)对于每一对，确定对中包括的子序列之间的相似度；(c)确定优选对B、 C*，所述优选对具有最大相似度；(d)在时间縮放的序列 SCLD中，对优选匹配子序列与所述优选被匹配子序列进行交叉渐变；(e)借助于优选匹配子序列来确定待拷贝的子序列的长度；(f)将该子序列拷贝至时间縮放的序列SCLD并返回步骤(a)，其中，待拷贝的子序列的长度依赖于阈值。优选地，步骤(b)包括根据所述阈值依赖于对中的待匹配子序列与匹配子序列之间的时间距离来确定阈值。在又一实施例中，步骤(e)包括使用时间因子以及优选匹配子序列与优选被匹配子序列之间的时间距离来确定待拷贝的子序列的长度。
权利要求
1.一种使用修改的波形相似度叠加方法来对输入信号值序列进行时间缩放的方法，其中-对波形相似度叠加方法进行修改，以确定子序列对的相似度度量中的最大化相似度，每个所述子序列对包括来自输入窗(SW)的待匹配子序列(B1，..，B*，..Bn)和来自搜索窗(MW)的匹配子序列(C1，..C*，..Ck)，其中-所述子序列对包括至少两个子序列对，所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。
2. 如权利要求l所述的方法，其中-所述第一对包括第一匹配子序列，所述第二对包括不同的第二匹配子序列。
3. 如权利要求l所述的方法，其中-所述第一对和所述第二对包括相同的匹配子序列。
4. 如前述权利要求之一所述的方法，其中-对所述波形相似度叠加方法的修改包括拷贝子序列，直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差，所述累计时间偏差依赖于所拷贝的子序列的累计持续时间和期望的时间縮放因子。
5. 如前述权利要求之一所述的方法，其中-每个子序列对的相似度度量包括加权，所述加权考虑对中的子序列之间的时间距离。
6.如权利要求5所述的方法，其中 -将所述加权偏向较大的时间距离。
7. 如前述权利要求之一所述的方法，其中-确定所述输入窗，使其包括至少一个暂停信号段。
8. 如前述权利要求之一所述的方法，其中-确定所述输入窗，使其不包括任何瞬变信号段。
9. 一种设备，包括使用修改的波形相似度叠加方法来对输入信号值序列进行时间縮放的装置，所述装置适于确定子序列对的相似度度量中的最大化相似度，每个所述子序列对包括来自输入窗(SW)的待匹配子序列(Bl, .., B*， .. Bn)和来自搜索窗(MW)的匹配子序列(C1，.. C*，..Ck)，其中，所述子序列对包括至少两个子序列对，所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。
10. 如权利要求9所述的设备，其中-所述第一对包括第一匹配子序列，所述第二对包括不同的第二匹配子序列。
11. 如权利要求9所述的设备，其中-所述第一对和所述第二对包括相同的匹配子序列。
12. 如权利要求9至11之一所述的设备，其中-所述装置还适于拷贝子序列，直到所述拷贝所产生的累计时间偏差等于或大于最小跳距离，所述累计时间偏差依赖于所拷贝的子序列的累计持续时间和期望的时间缩放因子。
13. 如权利要求9至12之一所述的设备，其中-每个子序列对的相似度度量包括加权，.所述加权考虑对中的子序列之间的时间距离。
14. 如权利要求13所述的设备，其中 -将所述加权偏向较大的时间距离。
15. 如权利要求9至14之一所述的设备，其中-所述装置还适于确定所述输入窗，使其包括至少一个暂停信号段和/或使其不包括任何瞬变信号段。
全文摘要
本发明涉及一种数字信号处理技术，用于改变音频信号的长度并从而有效改变其播放速度。该技术用于帧率转换、声音效果、快进或慢动作。根据所述方法，对波形相似度叠加方法进行修改，以确定子序列对的相似度度量中的最大化相似度，每个所述子序列对包括来自输入窗(SW)的待匹配子序列(B1，..，B<sup>*</sup>，..Bn)和来自搜索窗(MW)的匹配子序列(C1，..C<sup>*</sup>，..Ck)，其中，所述子序列对包括至少两个子序列对，所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。所述输入窗允许找到具有比使用基于单一待匹配子序列的WSOLA方法所找到的相似度更高的子序列对。这产生了较少的可感知伪像。
文档编号G10L21/04GK101620856SQ20091014253
公开日2010年1月6日申请日期2009年6月29日优先权日2008年7月3日
发明者马库斯·施洛瑟申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马库斯.施洛瑟
技术所有人：汤姆森许可贸易公司
我是此专利的发明人