声信号处理装置和方法

文档序号:2829467阅读:193来源:国知局
专利名称:声信号处理装置和方法
技术领域
本发明涉及处理声信号的装置和方法,通过该装置和方法,进行对多声道声信号的时间压缩和时间扩展。
背景技术
当改变声信号的时间长度时(例如在语速变换中),人们通常通过从输入信号中提取诸如基频的特征数据、并插入和删除具有基于获得的特征数据确定的适应时间宽度的信号,来实现希望的压扩比。例如,MORITANaotaka和ITAKURA Fumitada在“Time companding of voices,using anauto-correlation function”(Proc.of the Autumn Meeting of the AcousticalSociety of Japan,3-1-2,p.149-150,1986年10月)中所述的“指针间隔控制的交迭和累加”(PICOLA)方法便是一种典型的时间压扩方法。在这种PICOLA中,通过从输入信号中提取基频、并插入和删除具有所获取基频的波形来进行时间压扩。在日本专利3430968中,将位于在平滑转换间隔(crossfade interval)中的波形彼此最相似的位置上的波形切出,并将所切出波形的两端连接以进行时间压扩处理。在这两种技术中,基于特征数据进行压扩处理,该特征数据表示在原始信号的时基方向上分离的两个间隔之间的相似度,且能在不改变音程(musical intervals)的情况下自然实现时基压缩处理和时基扩展处理。
但是,在待处理的声信号为诸如立体信号和5.1声道信号的多声道类型声信号的情况下,当对各声道单独进行时基压扩时,从各声道提取的特征数据,例如基频,不一定彼此相同,这导致了插入和删除波形的时序彼此不同的状态。因此,存在这样的问题,导致处理后的信号之间出现了原始信号中并不存在的相差,使听众感到不适。
从而,在多声道声信号的语速变换中,为保持音源定位,要求在提取全部声道共有的特征(共有音调)之后,通过基于该共有特征(共有音调)插入和删除波形来实现声道之间的同步。例如日本专利2905191和日本专利3430974所述的常规技术,通过其提取全部声道共有的特征(共有音调),并如上述确保声道间的同步。根据这些技术,从复合(累加)了全部或部分多声道声信号的信号中提取特征(共有音调)。例如,当输入信号是立体信号时,从通过复合(累加)L声道和R声道所得的(L+R)信号中提取所有声道共有的特征。
然而,如上述从复合(累加)了多声道声信号的信号中提取所有声道共有的特征的方法存在这样的问题,即在复合(累加)多个声道信号中,当包含具有与右声道分量异相的左声道分量的声音时,不能准确提取出特征(共有音调)。更具体地是,当立体信号中的L声道和R声道具有彼此异相的信号、且两信号以(L+R)形式复合(累加)时,存在两信号互相抵消(幅度相同的情况下两者均变为零)、不能准确提取特征(共有音调)的问题。

发明内容
根据本发明的一方面,声信号处理装置包括特征提取单元和时基压扩单元,所述特征提取单元基于通过复合从形成多声道声信号的每个声道信号计算的相似度而获得的复合相似度,提取所述每个声道信号共有的特征数据;所述时基压扩单元基于所述提取的特征数据,进行对所述多声道声信号的时间压缩和时间扩展。
根据本发明的另一方面,声信号处理方法包括基于通过复合从形成多声道声信号的每个声道信号计算的相似度而获得的复合相似度,提取所述每个声道信号共有的特征数据;以及在提取的特征数据的基础上进行对多声道声信号的时间压缩和时间扩展。


图1为示出根据本发明第一实施例的声信号处理装置的配置的框图;图2示意示出了经过根据PICOLA法的时基压缩的语音信号的波形;图3示意示出了经过根据PICOLA法的时基扩展的语音信号的波形;图4为示出根据本发明第二实施例的声信号处理装置中的硬件资源的框图;图5为示出特征提取处理流程的流程图,通过该处理从左信号和右信号提取两声道共有的特征数据;图6为示出根据本发明第三实施例的声信号处理装置的配置的框图;以及图7为示出根据本发明第四实施例的声信号处理装置中的特征提取处理的流程的流程图。
具体实施例方式
下面,将参照附图详细说明根据本发明尤其优选的实施例的声信号处理装置和声信号处理方法。
根据本发明的第一实施例将参照图1至图3进行说明。本实施例为将多声道声信号处理装置用作声信号处理装置的实例,其中,待处理的声信号为立体类型,且在改变音乐的速度或在改变语速时应用该多声道声信号处理装置。
图1为示出根据本发明第一实施例的声信号处理装置1的结构的框图。如图1所示,声信号处理装置1包括模拟至数字转换器2,其用于以预定采样频率进行对左输入信号和右输入信号的模拟至数字转换;特征提取单元3,其用于对从模拟至数字转换器2输出的左信号和右信号提取两声道共有的特征;时间压扩单元4,其基于在特征提取单元3中提取的左右声道共有的特征数据,按照指定的压扩比,对输入的原始数字信号进行时基压扩处理;以及数字至模拟转换器5,其输出通过对经由时基压扩单元4的处理后的各声道数字信号进行数字至模拟转换所获得的左输出信号和右输出信号。
特征提取单元3包括复合相似度计算器6,其用于利用左右信号来计算复合相似度;以及最大值搜索器7,其用于确定这样的搜索位置,在所述位置上,复合相似度计算器6所获取的复合相似度为最大。
在时基压扩单元4中,将指针间隔控制的交迭和累加方法(PICOLA)用于时基压扩。在PICOLA方法中,如MORITA Naotaka和ITAKURAFumitada在“Time companding of voices,using an auto-correlationfunction”(the Proc.of the Autumn Meeting of the Acoustical Associationof Japanese,3-1-2,p.149-150,1986年10月)中所述,通过从输入信号中提取基频并重复插入和删除所获得的基频的波形,来实现希望的压扩比。这里,当将R定义为由(处理后的时间长度/处理前的时间长度)表示的时基压扩比时,R落在以下范围内在压缩处理的情况下,0<R<1;在扩展处理的情况下,R>1。尽管在根据本实施例的时基压扩单元4中将PICOLA法用作时基压扩方法,但时基压扩方法并不限于PICOLA法。例如,可以应用这样的配置,在该配置中,切出位于在平滑转换间隔中的波形彼此最相似的位置上的波形,并将切出的波形的两端连接以进行时间压扩处理。
接下来将说明声信号处理装置1中的过程。
首先,在模拟至数字转换器2中,将左输入信号和右输入信号——即待进行时基压扩处理的立体信号——的各信号由模拟信号转换成数字信号。
然后,在特征提取单元3中,从在模拟至数字转换器2转换的左数字信号和右数字信号提取出左声道和右声道共有的基频。
在特征提取单元3的复合相似度计算器6中,对来自模拟至数字转换器2的左数字信号和右数字信号,计算出在时间方向上分离的两个间隔之间的复合相似度。复合相似度可基于公式(1)计算S(τ)=Σn=0,n+=ΔnN-1(X1(n)·X1(n+τ)+Xr(n+Δd)·Xr(n+Δd+τ))---(1)]]>其中,X1(n)表示时刻n上的左信号,Xr(n)表示时刻n上的右信号,N表示用于计算复合相似度的波形窗口的宽度,τ表示相似波形的搜索位置,Δn表示用于计算复合相似度的稀疏化(thinning-out)宽度,Δd表示左声道和右声道之间稀疏化宽度的偏移。
在公式(1)中,采用自相关函数计算在时间方向上分离的两个波形之间的复合相似度。S(τ)表示在搜索位置τ上左信号和右信号的自相关函数值之和,即表示通过复合(累加)各声道的相似度所得的复合相似度。复合相似度S(τ)越大,导致对于左声道和右声道,以时刻n为起点、长度为N的波形与以时刻n+τ为起点、长度为N的波形之间的平均相似度越高。要求用于复合相似度计算的波形窗口宽度N至少为待提取的基频中最低频率的宽度。例如,假定模拟至数字转换的采样频率为48000赫兹,且待提取的基频的下限为50赫兹,则波形的窗口宽度N为960次采样。如公式(1)所示,当使用通过复合从各声道获得的相似度所获得的复合相似度时,即使左声道和右声道的声音中包含彼此反相的声音,也能精确表达出相似度。
此外,为了减少计算量,在公式(1)中以间隔Δn对各声道计算相似度。Δn表示用于相似性计算的稀疏化宽度,且当将该值设置为较大的值时,可减少计算量。例如,当压扩比为1或更小(压缩)时,用于转换处理所需的短时间内的计算量增大。因此,当压扩比为1或更小时,随着压扩比接近于1,将Δn设置为5次采样到10次采样,且可应用Δn接近1次采样的配置。在复合相似度计算中,即使对采样进行稀疏化以用于上述计算,足以获知幅度上的较大差异,且经时基压扩后的声音质量并没有明显降低。另外,可依据声道的数量来决定Δn。因为当声道数量增加时,如同5.1声道,提取特征所需的计算量增加。例如,即使在处理5.1声道信号时,通过使Δn的采样数等于声道数能减少计算量。
公式(1)中的Δd表示稀疏化处理在左声道和右声道之间的位置偏移宽度。对左声道和右声道在不同位置进行稀疏化处理能减少时间分辨率的降低。将偏移宽度Δd设置为例如Δn/2,这相当于在公式(1)中用稀疏化宽度Δn/2交替对左声道和右声道进行的相似度计算。如上所述,通过对每个多声道在不同的位置进行稀疏化处理可以对全部声道减少时间分辨率的降低。可以与Δn相同的方式,根据声道数改变声道之间的位移宽度。当处理5.1声道信号时,对每声道设置Δd为例如0、Δn×1/6、Δn×2/6、Δn×3/6、Δn×4/6、Δn×5/6,这相当于用稀疏化宽度Δn/6交替对全部六个声道进行的相似度计算。因此,可以对全部声道减少时间分辨率的降低。
在特征提取单元3中的最大值搜索器7中,在搜索相似波形的范围中搜索搜索位置τmax,在所述位置上复合相似度为最大值。当通过公式(1)计算复合相似度时,只需在预定搜索起始位置Pst和预定搜索结束位置Ped之间搜索最大值s(τ)。例如,当假设模拟至数字转换的采样频率为48000赫兹时,且待提取基频的上限为200赫兹、待提取频率的下限为50赫兹,则对相似波形的搜索位置τ介于240次采样至960次采样之间,且获得在此范围内使s(τ)最大的τmax。如上所述所获取的τmax是两声道共有的基频。即使在如上所述搜索到最大值时,仍可应用稀疏化处理。也就是说,在时基方向上对相似波形的搜索位置τ由搜索起始位置Pst以Δτ变至搜索结束位置Ped。Δτ表示在时基方向上的相似波形搜索的稀疏化宽度,并且,当将该值设置得较大时,可以减少计算量。以与上述Δn相同的方式,通过改变压扩比的数量和声道的数量可有效减小Δτ的大小。例如,当压扩比为1或更小时,将Δτ设置为5次采样到10次采样,并且,当压扩比接近1时,可应用其中Δτ接近1次采样的配置。
这里,尽管在上述说明中特别提到了计算量的减少,在对计算量有足够能力时,假设稀疏化宽度Δn以及Δτ为1次采样,自然可以进行详细的复合相似度计算和最大值搜索。
在时基压扩单元4中,基于在特征提取单元3中获得的基频τmax,进行对左右信号的时基压扩。图2示出了依照PICOLA法进行时基压缩(R<1)的语音信号的波形。首先,如图2所示,在时基压缩的起始位置设置指针(在图2中用方形标记表示),在特征提取单元3中,对语音信号从指针向前提取基频τmax。接着,生成信号C,其中,通过以这样一种方式加权的交迭且累加操作来获取信号C,即将距上述指针位置的距离为基频τmax的两波形A和B进行平滑转换。这里,通过以权重由1到0线性变化的方式指定波形A的权重,并以权重由0到1线性变化的方式指定波形B的权重,而生成长度为τmax的波形C。为了保证波形C前端和后端连接点的连续性而提供这种平滑转换处理。接着,将指针在波形C上移动Lc=R·τmax/(1-R),并将其假设为后续处理的起始点(如图2中倒三角所示)。可以理解,基于长度为Lc+τmax=τmax/(1-R)的输入信号,通过上述处理产生长度为Lc的输出波形以满足压扩比R。
另一方面,图3示出了依照PICOLA法进行时基扩展(R>1)的语音信号的波形。在扩展处理中,以与压缩处理相同的方式,如图3所示,在时基压缩的起始位置设置指针(在图3中用方形标记表示),且在特征提取单元3中,对语音信号从指针向前提取基频τmax。设距上述指针位置的距离为基频τmax的两波形为A、B。在第一处,将波形A原样输出。接着,通过以权重由1到0线性变化的方式指定波形A的权重进行叠加-累加操作,并以权重由0到1线性变化的方式指定波形B的权重进行叠加-累加操作,生成长度为τmax的波形C。接着,将指针在波形C上移动LS=τmax/(R-1),并将其假设为后续处理的起始点(如图3中倒三角所示)。基于长度为Ls的输入信号,通过上述处理产生长度为Ls+τmax=R·τmax/(R-1)的输出波形以满足压扩比R。
在时基压扩单元4中,通过PICOLA法,如上所述进行时基压扩处理。
在上述时基压扩单元4中,根据PICOLA法,对左信号和右信号的各信号进行时基压扩处理。此时,由于使用在特征提取单元3中提取的共有基频τmax用于对左右声道的时基压扩来保持声道的互相同步,从而在不会导致转换后的语音令人不适的情况下完成了时基压扩。
最后,在数字至模拟转换器5中,通过对在时基压扩单元4中处理的左信号和右信号数字-模拟转换,将数字信号转换为模拟信号。
以上介绍了根据第一实施例的对立体声信号的时基压扩。
根据第一实施例,由于基于复合相似度提取了各声道信号共有的特征数据,其中所述复合相似度通过复合从组成多声道声信号的各声道信号计算得出的相似度来获得;且基于所提取到的特征数据,可通过对多声道声信号的时间压缩和时间扩展来精确提取所有声道共有的特征数据;且基于获得的共有特征数据,可在使所有声道彼此保持同步的状态下进行时间压扩,因此,可以实现高品质的时基压扩。
另外,当计算复合相似度和搜索最大相似度时,通过在对采样进行稀疏化的状态下进行计算,可以大大减小提取特征数据所需的计算量。
此外,在计算复合相似度中,通过在不同位置对各声道进行稀疏化处理,可以对全部声道防止时间分辨率的降低。
这里,当声道数量增加时,例如,在5.1声道声信号的情况下,通过使用从全部声道或部分声道信号计算的复合相似度来提取特征可准确提取出特征,而不依赖于各声道信号之间的相位关系。
下面将参照图4和图5说明根据本发明的第二实施例。这里,将与前述关于第一实施例的部分相同的部分用与第一实施例中相同的符号表示,并省略对该部分的说明。
第一实施例所示的声信号处理装置1示出了这样的实例其中通过具有数字电路配置的硬件资源进行对左信号和右信号的两声道共有的特征数据的提取处理,另一方面,第二实施例将说明这样的实例其中通过声信号处理装置中的硬件资源(例如HDD和NVRAM)内所安装的计算机程序进行左信号和右信号的两声道共有的特征数据的提取处理。
图4为示出根据本发明第二实施例的声信号处理装置10中的硬件资源的框图。根据本实施例的声信号处理装置10具有系统控制器11,其代替特征提取单元3。系统控制器11为微型计算机,其包含CPU(中央处理单元)12,其控制整个系统控制器11;ROM(只读存储器13),其为系统控制器11存储控制程序;以及RAM(随机存取存储器)14,其作为CPU12的工作存储器。且具有这样一种配置,在该配置中,将用于提取左信号和右信号两声道的共有的特征数据的特征提取处理计算机程序安装在HDD(硬盘驱动器)15上,HDD15预先通过总线连接到系统控制器11,且在启动声信号处理装置10时将这样的计算机程序写入RAM14并执行,其中,通过特征提取处理计算机程序,从左信号和右信号提取两声道共有的特征数据。也就是说,计算机程序使计算机的系统控制器11进行特征提取处理,以从左信号和右信号提取两声道共有的特征数据。在这里,HDD15起到了存储介质的作用,其存储声信号处理程序的计算机程序。
下面将参照图5所示的流程图说明根据计算机程序进行的特征提取处理,该处理从左信号和右信号中提取两声道共有的特征数据。如图5所示,假定压扩处理的起始位置为T0,CPU12设置参数τ,τ表示首先在TST进行对类似波形的搜索的位置,同时,将Smax=-∞作为最大复合相似度的初始值(步骤S1)。
接着,设时刻n为T0,且搜索位置τ上的复合相似度S(τ)为0(步骤S2),计算复合相似度S(τ)(步骤S3)。在复合相似度S(τ)的计算中,时刻n以Δn增加(步骤S4),并重复步骤S4的操作直到时刻n大于T0+N(步骤S5中的“是”)。
当时刻n大于T0+N(步骤S5中的“是”)时,处理进至步骤S6,在S6中将计算得到的复合相似度S(τ)与Smax进行比较。当计算得到的复合相似度S(τ)大于Smax(步骤S6中的“是”)时,用计算得到的复合相似度S(τ)替代Smax,并同时将在该情况下获得的τ设定为进到步骤S8时的τmax(步骤S7)。另一方面,当计算得到的复合相似度S(τ)小于Smax(步骤S6中的“否”)时,处理照原样进至步骤S8。
执行上述步骤S2至步骤S7的处理,直至τ在增大Δτ(步骤S8)后超过TED(步骤S9中的“是”),并将在最终获得的最大复合相似度Smax处的τmax设为左信号和右信号共有的基频(特征数据)(步骤S10)。
如上所述,由于基于复合相似度提取出各声道信号共有的特征数据,其中所述复合相似度通过复合从组成多声道声信号的各声道的信号计算得出的相似度来获得;且基于所提取到的特征数据,通过对多声道声信号的时间压缩和时间扩展,可准确提取出所有声道共有的特征数据;且基于所获得的共有特征数据,可在使所有声道保持彼此同步的状态下进行时间压扩处理,因此,根据本发明可实现高品质的时基压扩。
这里,将安装在HDD15中的声信号处理程序的计算机程序记录在存储介质上,例如,诸如只读光盘(CD-ROM)和数字通用盘只读存储器(DVD-ROM)的光学信息记录介质或诸如软盘(FD)的磁介质。将上述存储介质中记录的计算机程序安装在HDD15上。因此,其中存储了声信号处理程序的计算机程序的存储介质可以为便携存储介质,例如,诸如CD-ROM的光学信息记录介质和诸如FD的磁介质。此外,声信号处理程序的计算机程序可以从外部通过例如网络获取,并被安装在HDD15上。
接下来将参照图6说明根据本发明的第三实施例。这里,将与前述关于第一实施例的部分相同的部分用与第一实施例中相同的符号表示,并省略对该部分的说明。
作为第一实施例示出的声信号处理装置1具有这样的配置,其中,计算各声道波形的自相关函数值的和,即通过复合(累加)各声道的相似度所获得的复合相似度S(τ);将复合相似度s(τ)的最大值处的基频τmax设为左信号和右信号共有的基频(特征数据);将共有的基频τmax用于左右声道的时基压扩。本实施例具有这样的配置,其中,计算各声道波形幅度之差的值的绝对值之和,即通过复合(累加)各声道的相似度所获得的复合相似度S(τ);将复合相似度s(τ)最小值处的基频τmin设为左信号和右信号共有的基频(特征数据);将共有的基频τmin用于左右声道的时基压扩。
图6为示出根据本发明第三实施例的声信号处理装置20的配置的框图。如图6所示,声信号处理装置20包括模拟至数字转换器2,其用于以预定采样频率进行对左信号和右信号的模拟至数字转换;特征提取单元3,其用于从由模拟至数字转换器2输出的左信号和右信号提取两声道的共有特征数据;时间压扩单元4,其用于基于在特征提取单元3中提取的、左声道和右声道共有的特征数据,根据指定的压扩比,对输入原始数字信号进行时间压扩处理;数字至模拟转换器5,其输出通过对经由时基压扩单元4的处理后的各声道数字信号进行数字至模拟转换获取的左输出信号和右输出信号。
特征提取单元3包括复合相似度计算器21,其用于利用左右信号来计算复合相似度;以及最小值搜索器22,其用于确定这样的搜索位置,在所述位置上,在复合相似度计算器21获得的复合相似度最小。
在特征提取单元3的复合相似度计算器21中,对来自模拟至数字转换器2的左数字信号和右数字信号,计算出在时基方向上分离的两个间隔之间的复合相似度。复合相似度可基于公式(2)计算S(τ)=Σn=0,n+=ΔnN-1(|X1(n)-X1(n+τ)|+|Xr(n+Δd)-Xr(n+Δd+τ)|)---(2)]]>其中,X1(n)表示时刻n上的左信号,Xr(n)表示时刻n上的右信号,N表示用于复合相似度计算的波形窗口的宽度,τ表示相似波形的搜索位置,Δn表示用于复合相似度计算的稀疏化宽度,Δd表示左声道和右声道之间稀疏化宽度的偏移。
在公式(2)中,通过幅度之差的值的绝对值之和来计算在时间方向上分离的两个波形之间的复合相似度,且通过复合(累加)左信号和右信号在搜索位置τ上的幅度之差的值的绝对值之和来计算复合相似度s(τ)。复合相似度s(τ)越小,导致对于左声道和右声道,以时刻n为起点、长度为N的波形与以时刻n+τ为起点、长度为N的波形之间的平均相似度越高。
在特征提取单元3的最小值搜索器22中,在搜索相似波形的范围中搜索出搜索位置τmin,在所述位置上复合相似度为最小值。当通过公式(2)计算复合相似度时,只需在预定搜索起始位置Pst和预定搜索结束位置Ped之间搜索最小值s(τ)。
如上所述,由于基于复合相似度提取了各声道信号共有的特征数据,其中所述复合相似度通过复合从组成多声道声信号的各声道信号计算得出的相似度来获得;且基于所提取到的特征数据,可通过对多声道声信号的时间压缩和时间扩展来精确提取所有声道共有的特征数据;且基于所获得的共有特征数据,可在使所有声道彼此保持同步的状态下进行时间压扩,因此,根据第三实施例可以实现高品质的时基压扩。
接着将参照图7说明根据本发明的第四实施例。这里,将与前述关于第一实施例到第三实施例所述的部分相同的部分用与第一实施例到第三实施例中相同的符号表示,并省略对该部分的说明。
第三实施例所示的声信号处理装置1示出这样的实例其中通过具有数字电路配置的硬件资源,进行从左信号和右信号提取两声道共有的特征数据的处理,另一方面,本实施例将说明这样一个实例其中通过在信息处理器中的硬件资源(例如HDD)内安装的计算机程序,进行从左信号和右信号提取两声道的共有特征数据的处理。
由于本实施例的声信号处理装置的硬件配置与第二实施例所说明的声信号处理装置10的硬件配置并无不同,因此省略对其的说明。本实施例中的声信号处理装置与第二实施例所说明的声信号处理装置10的不同之处在于安装在HDD15中的计算机程序,其中,提供计算机程序以进行特征提取处理,通过该处理,从左信号和右信号提取出两声道共有的特征数据。
下面,将参照图7所示的流程图,说明根据计算机程序进行的特征提取处理,所述处理用于从左信号和右信号提取两声道共有的特征数据。如图7所示,假定压扩处理的起始位置为T0,CPU12设置参数τ,τ表示首先在TST进行相似波形搜索的位置,同时,将Smin=∞作为最小复合相似度的初始值(步骤S11)。
接着,设时刻n为T0,且搜索位置τ上的复合相似度S(τ)为0(步骤S12),计算复合相似度S(τ)(步骤S13)。在复合相似度S(τ)的计算中,时刻n以Δn增加(步骤S14),并重复步骤S14的操作直到时刻n大于T0+N(步骤S15中的“是”)。
当时刻n大于T0+N(步骤S15中的“是”)时,处理进至步骤S16,在S16中将计算得到的复合相似度S(τ)与Smin进行比较。当计算得到的复合相似度S(τ)小于Smin(步骤S16中的“是”)时,则用计算得到的复合相似度S(τ)替代Smin,并同时将在该情况下获得的τ设为进至步骤S18时的τmin(步骤S17)。另一方面,当计算得到的复合相似度S(τ)大于Smin(步骤S16中的“否”)时,处理原样进至步骤S18。
执行上述步骤S12至步骤S17的处理,直至τ在增加Δτ(步骤S18)时超过TED(步骤S19中的“是”),并将最终获得的最小复合相似度Smin处的τmin设为左信号和右信号共有的基频(特征数据)(步骤S20)。
根据上述实施例,由于基于复合相似度提取各声道信号共有的特征数据,其中所述复合相似度通过复合从组成多声道声信号的各声道的信号计算得出的相似度来获得;且基于所提取到的特征数据,通过对多声道声信号的时间压缩和时间扩展,可准确提取所有声道共有的特征数据;且基于所获得的共有特征数据,可在使所有声道保持彼此同步的状态下进行时间压扩处理,因此,可实现高品质的时基压扩。
本领域技术人员可以容易地想到其它优点和修改。因此,本发明的更宽的范围并不局限于文中示出和描述的具体细节和代表性实施例。因此,在不脱离所附权利要求书及其等同物所限定的总体发明构思的精神和范围的条件下可进行多种修改。
权利要求
1.一种声信号处理装置,包括特征提取单元,其基于通过复合包括多声道声信号的多个声道信号的相似度而获得的复合相似度,提取所述声道信号共有的特征数据;以及时基压扩单元,其基于所述提取的特征数据,进行对所述多声道声信号的时间压缩和时间扩展。
2.如权利要求1所述的声信号处理装置,其中,所述特征提取单元包括复合相似度计算器,其计算作为各声道信号波形的自相关函数值之和的复合相似度;以及最大值搜索器,其搜索所述计算得到的复合相似度的最大值,以提取所述最大值作为所述特征数据。
3.如权利要求1所述的声信号处理装置,其中,所述特征提取单元包括复合相似度计算器,其计算作为各声道信号波形幅度之差的值的绝对值之和、并通过复合相似度获得的复合相似度;以及最小值搜索器,其通过搜索所述计算得到的复合相似度的最小值,而提取各声道信号共有的特征数据。
4.如权利要求1所述的声信号处理装置,其中,复合相似度通过稀疏化各声道信号相似度计算的采样数而被计算。
5.如权利要求4所述的声信号处理装置,其中,当稀疏化各声道信号相似度计算的所述采样数时,各声道信号的稀疏化位置互不相同。
6.如权利要求2所述的声信号处理装置,其中,希望的复合相似度通过在时基方向上稀疏化对相似波形的搜索位置而被搜索。
7.如权利要求3所述的声信号处理装置,其中,希望的复合相似度通过在时基方向上稀疏化对相似波形的搜索位置而被搜索。
8.如权利要求4所述的声信号处理装置,其中,稀疏化宽度由所述多声道声信号的声道数确定。
9.如权利要求4所述的声信号处理装置,其中,稀疏化宽度根据特定的压扩比而被确定。
10.一种声信号处理方法,包括基于通过复合包括多声道声信号的多个声道信号的相似度而获得的复合相似度,提取所述声道信号共有的特征数据;以及基于所述提取到的特征数据,进行对所述多声道声信号的时间压缩和时间扩展。
11.如权利要求10所述的声信号处理方法,还包括计算复合相似度,所述复合相似度为各声道信号波形的自相关函数值之和;以及搜索所述计算得到的复合相似度的最大值,以提取所述最大值作为所述特征数据。
12.如权利要求10所述的声信号处理方法,还包括计算复合相似度,所述复合相似度为各声道信号波形幅度之差的值的绝对值之和、并通过复合相似度获得;以及通过搜索所述计算得到的复合相似度的最小值,而提取各声道信号共有的特征数据。
全文摘要
一种声信号处理装置,其包括特征提取单元和时基压扩单元,所述特征提取单元基于通过复合从形成多声道声信号的每个声道信号计算的相似度而获得的复合相似度,提取所述每个声道信号共有的特征数据;所述时基压扩单元基于所述提取的特征数据,进行对所述多声道声信号的时间压缩和时间扩展。
文档编号G10L19/00GK1848691SQ200610066620
公开日2006年10月18日 申请日期2006年4月13日 优先权日2005年4月14日
发明者山本幸一, 河村聪典 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1