信号处理装置和信号处理方法与流程

文档序号:11161297
信号处理装置和信号处理方法与制造工艺

本发明涉及如下的信号处理装置和信号处理方法,其通过生成内插信号并且将内插信号与音频信号合成,从而对音频信号的高频带分量进行内插。



背景技术:

已知有损压缩格式,例如MP3(MPEG音频层-3)、WMA(Windows媒体音频TM)以及AAC(增强音频编码)作为压缩音频信号的格式。对于有损压缩格式,通过明显地切断接近可听到频带的上限或者超过可听到频带的上限的高频率分量来获得高压缩速率。在这种类型的技术被开发的时代初期,已经认为即使当明显地削减高频分量,听觉感受方面的声音质量也不变差。然而,近年来,与原始声音相比,明显地削减高频分量引起声音质量的微小变化并由此听觉感受方面的声音质量变差的想法已经成为主流。在这种情况下,高频带内插装置通过对已经经受有损压缩的音频信号内插高频带来增强声音质量。例如,在日本专利临时公开文本第2007-25480A号(在下文中,称作为专利文件1)和PCT公开文本的国内再版第2007-29796A1号(在下文中,称作为专利文件2)中,描述了这种类型的高频带内插装置的具体配置。

在专利文件1中描述的高频带内插装置计算通过分析音频信号(原始信号)获得的信号的实部和虚部,基于计算的实部和虚部来形成原始信号的包络分量,并且提取形成的包络分量的较高谐波分量。在专利文件1中描述的高频带内插装置通过将提取出的较高谐波分量与原始信号合成,从而对原始信号的高频带执行内插。

在专利文件2中描述的高频带内插装置将音频信号的频谱反相,对频谱反相的信号进行上采样,并且基于上采样的信号来提取较低频率边缘大约等于基带信号的高频带的扩展频带分量。在专利文件2中描述的高频带内插装置通过将提取出的扩展频带分量与基带信号合成,从而对基带信号的高频带执行内插。



技术实现要素:

通过有损压缩而进行压缩的音频信号的频带根据压缩编码格式、采样速率或者在压缩编码之后的比特率来变化。因此,如专利文件1所述的,当通过对音频信号和具有固定频带的内插信号进行合成来执行高频带内插时,根据音频信号在高频带内插之前的频带,音频信号在高频带内插之后的频谱变得不连续。因而,在专利文件1中所述的高频带内插装置通过将音频信号经受高频带内插,而可能在听觉感受方面相反地使得声音质量变差。

尽管音频信号具有如通常特性的高频率区域很大程度地衰减的特性,但是也存在音频信号的电平在高频率侧立即增大的情况。然而,在专利文件2中,仅将音频信号的前述通常特性考虑为输入至装置的音频信号的特性。因此,具有电平在高频率侧上增加的特性的音频信号被输入至装置之后,音频信号的频谱立即变得不连续,且因此过度地突显了高频带。因而,如在专利文件1所述的高频带内插装置的情况下,专利文件2中所示的高频带内插装置通过将音频信号经受高频带内插而可能相反地使得在听觉感受方面的声音质量变差。

音频信号不仅包括有损压缩格式的音频信号,还包括无损压缩格式的音频信号以及CD(光盘)声源或者高清晰度声源(例如,DVD(数字通用盘)音频和SACD(超音频CD))的音频信号。存在的问题在于,当在专利文件1或者专利文件2中所述的技术应用至这些音频信号时,通过将这些音频信号经受高频带内插,也会相反地引起在听觉感受方面的声音质量变差。

结合上述情况提出了本发明。即,本发明的目标是提供一种适用于利用对音频信号的高频带内插来实现声音质量的提高的信号处理装置和信号处理方法。

根据本发明的一个实施方案的信号处理装置包括:频率检测单元,其从音频信号检测满足预定条件的频率;补偿单元,其根据在检测出的频率处或者检测出的频率周围的频率特性对由频率检测单元检测出的频率给出补偿;参考信号生成单元,其基于由补偿单元补偿的检测出的频率,通过从音频信号提取信号来生成参考信号;内插信号生成单元,其基于生成的参考信号来生成内插信号;以及信号合成单元,其通过将生成的内插信号与音频信号合成来执行高频带内插。

补偿单元可以检测音频信号在检测出的频率处或者检测出的频率周围的斜率特性,以及可以根据检测出的斜率特性来对检测出的频率改变补偿量。

补偿单元可以对检测出的频率设定补偿量,使得随着音频信号在检测出的频率处或者在检测出的频率周围的衰减更加适度,补偿量变得更大。

参考信号生成单元可以从音频信号提取与从检测出的频率朝向较低频率侧延伸n%的范围相对应的信号,并且利用提取出的信号来生成参考信号。

频率检测单元可以计算音频信号中的第一频率区域的电平、以及音频信号中比第一频率区域更高的第二频率区域的电平,可以基于第一频率区域和第二频率区域计算出的电平来设定阈值,并且可以将电平低于设定的阈值的电平的频率检测为满足预定条件的频率。

频率检测单元可以将如下频率点处的频率检测为满足预定条件的频率:在电平低于阈值的电平的至少一个频率点中的最高频率侧上的频率点。

内插信号生成单元可以在对由参考信号生成单元生成的参考信号执行通过窗函数的加权和重叠处理之后,复制参考信号;可以对通过复制增加的多个参考信号并排地布置于比检测出的频率更高的频带;并且可以根据音频信号的频率特性,对并排布置的多个参考信号的每个频率分量执行加权,从而生成内插信号。

根据实施方案的信号处理装置可以进一步包括:噪声降低单元,其在通过内插信号生成单元对参考信号进行复制之前,降低包括在参考信号中的噪声。

根据一个实施方案的信号处理装置可以进一步包括对音频信号进行滤波的滤波单元。在这种情况下,信号合成单元可以通过将内插信号与由滤波单元滤波的音频信号合成,从而对音频信号执行高频带内插。滤波单元可以配置为使得音频信号的截止频率根据检测出的频率而变化。

根据本发明的一个实施方案的信号处理方法包括:频率检测步骤,其从音频信号检测满足预定条件的频率;补偿步骤,其根据在检测出的频率处或者检测出的频率周围的频率特性对由频率检测步骤检测出的频率给出补偿;参考信号生成步骤,其基于由补偿步骤补偿的检测出的频率,通过从音频信号提取信号来生成参考信号;内插信号生成步骤,其基于声测很难过的参考信号来生成内插信号;以及信号合成步骤,其通过将生成的内插信号与音频信号合成来执行高频带内插。

根据本发明的实施方案,提供了一种适用于利用对音频信号的高频带内插来实现声音质量的提高的信号处理装置和信号处理方法。

附图说明

图1为图示了根据本发明的实施方案的声音处理装置的配置的框图。

图2为图示了根据本发明的实施方案的设置于声音处理装置的高频带内插单元的配置的框图。

图3为根据本发明的实施方案的关于设置于高频带内插单元的频带检测单元的操作的辅助解释的图。

图4图示了根据本发明的实施方案的输入至频带检测单元的高压缩音频信号的阈值频率与复合频谱之间的关系(上部的图),并且图示了高压缩音频信号的频率与信号电平(信号レベル)的变化率之间的关系(下部的图)。

图5图示了根据本发明的实施方案的输入至频带检测单元的高压缩音频信号的阈值频率与复合频谱之间的关系(上部的图),并且图示了高压缩音频信号的频率与信号电平的变化率之间的关系(下部的图)。

图6中的(a)至图6中的(h)示出了工作波形(图6中的(a)至图6中的(h)),用于解释根据本发明的实施方案的直到对输入至设置于高频带内插单元的参考信号提取单元的复合频谱执行高频带内插为止,所执行的一系列处理。

图7图示了补偿量与在阈值频率处或者阈值频率周围的信号电平的变化率之间的关系。

图8中的(a)和图8中的(b)示出了工作波形(图8中的(a)和图8中的(b)),其用于解释根据本发明的实施方案的设置于高频带内插单元的内插信号生成单元的操作。

图9中的(a)和图9中的(b)为解释图示(图9中的(a)和图9中的(b)),其用于解释根据本发明的实施方案的由设置于高频带内插单元的第一噪声降低电路执行的噪声去除处理。

图10中的(a)至图10中的(d)为解释图示(图10中的(a)至图10中的(d)),其用于解释根据本发明的实施方案的由设置于高频带内插单元的第二噪声降低电路执行的噪声去除处理。

图11中的(a)至图11中的(c)为情况1的解释图示(图11中的(a)至图11中的(c)),其用于解释在本发明的实施方案中根据频率斜率、通过对阈值频率进行补偿处理所获得的有利效果。

图12中的(a)至图12中的(c)为情况2的解释图示(图12中的(a)至图12中的(c)),其用于解释在本发明的实施方案中对参考信号通过窗函数进行加权和重叠处理所获得的有利效果。

图13中的(a)和图13中的(b)为情况3的解释图示(图13中的(a)和图13中的(b)),其用于解释在本发明的实施方案中通过第一噪声降低电路来进行噪声去除处理所获得的有利效果。

图14中的(a)至图14中的(c)为情况4的解释图示(图14中的(a)至图14中的(c)),其用于解释在本发明的实施方案中通过第二噪声降低电路来进行噪声去除处理所获得的有利效果。

具体实施方式

在以下内容中,参照所附附图来描述根据实施方案的声音处理装置1。

(声音处理装置1的整体配置)

图1为图示了根据实施方案的声音处理装置1的配置的框图。如图1所示,声音处理装置1包括:FFT(快速傅里叶变换)单元10、高频带内插单元20和IFFT(快速傅里叶逆变换)单元30。

对FFT单元10输入例如,将通过对有损压缩格式的编码信号解码所获得的音频信号、通过对无损压缩格式的编码信号解码所获得的音频信号、或者CD声源或者高清晰度声源(诸如DVD音频和SACD)的音频信号。有损压缩格式为例如,MP3、WMA或者AAC。无损压缩格式例如为WMAL(MWA无损)、ALAC(AppleTM无损音频编码解码器)、或者AAL(ATRAC高级无损TM)。为了便于解释,有损压缩格式的频率信号被称作为“高压缩音频信号”,并且具有关于比高压缩音频信号更高频域的信息,以及例如为无损压缩格式的音频信号、高清晰度声源的音频信号以及不满足诸如CD-DA(44.1kHz/16比特)的高清晰度声源的规格的音频信号的音频信号被称作为“高质量音频信号”。

FFT单元10将输入的音频信号进行重叠处理并且通过窗函数进行加权,将处理的信号通过STFT(短时傅里叶变换)从时域转换成频域,并且获得包括实数和虚数的复合频谱,以及将复合频谱输出至高频带内插单元20。高频率内插处理单元20对从FFT单元10输入的复合频谱单元的高频带进行内插,并且将所得的复合频谱输出至IFFT单元30。在高压缩音频信号的情况下,由高频带内插单元20内插的频带为例如超过或者接近可听到的频带中在有损压缩的处理期间明显削减的上限的频带。在高质量音频信号的情况下,通过高频带内插单元20内插的频带为例如超过或者接近可听到的频带的上限并且包括电平适当衰减的频带。FFT单元30基于通过高频带内插单元20内插的高频带的复合频谱,从而获得复合频谱的实数和虚数,并且通过窗函数来执行加权。IFFT单元30通过执行STFT并且对加权的信号重叠叠加,从而执行从时域到频域的信号转换,以及生成并输出进行内插的高频带的音频信号。

(高频带内插单元20的配置)

图2为图示了高频带内插单元20的配置的框图。如图2所示,高频带内插单元20包括:频带检测单元210、参考信号提取单元220、参考信号校正单元230、内插信号生成单元240、内插信号校正单元250、加法单元260、第一噪声降低电路270、以及第二噪声降低电路280。为了便于解释,在以下内容中,附图标记被分配至高频带内插单元20的每个单元的输入信号和输出信号。

图3为关于频带检测单元210的操作的辅助解释的图,并且示出从FFT单元10输入至频带检测单元210的复合频谱S的示例。在图3中,竖直轴(y轴)表示信号电平(单位:dB),并且水平轴(x轴)表示频率(单位:Hz)。

频带检测单元210将从FFT单元10输入的音频信号的复合频谱S(线性度量)转换成分贝度量。为了防止复合频谱S的局部波动的发生,频带检测单元210使转换成分贝度量的复合频谱S平滑。频带检测单元210计算平滑的复合频带S的预定低和中范围以及预定高范围的信号电平,并且基于低和中范围以及高范围的计算出的信号电平来设定阈值。例如,如图3所示,阈值处在低和中范围的信号电平(平均值)与高范围的信号电平(平均值)之间的中间电平。

频带检测单元210从FFT单元10输入的复合频谱(线性度量)中检测低于阈值的频率点。如图3所示,当存在多个低于阈值的频率点时,频带检测单元210检测在较高频带侧的频率点(图3的示例中的频率ft)。为了便于解释,在以下内容中,由阈值检测出的频率(在该示例中的频率ft)被称作为“阈值频率Fth”。应当注意的是,为了抑制生成不期望的内插信号,当满足以下条件(1)至(3)中的至少一个时,频带检测单元210判断出不需要生成内插信号。

(1)检测的阈值频率Fth低于或等于预定的频率。

(2)高范围的信号电平高于或等于预定值。

(3)低和中范围的信号电平与高范围的信号电平之间的差低于或等于预定值。

对于判断出不需要生成内插信号的复合频谱S,不执行高频带内插。

在图4的上部,图示了阈值频率Fth与从FFT单元10输入至频带检测单元210的高压缩音频信号的复合频谱S之间的关系。在图4的下部,图示了频率与高压缩音频信号的信号电平的变化率β之间的关系。在图5的上部,图示了阈值频率Fth与从FFT单元10输入至频带检测单元210的高质量音频信号的复合频谱S之间的关系。在图5的下部,图示了频率与高质量音频信号的信号电平的变化率β之间的关系。变化率β是通过使用高通滤波器来区分复合频谱S而获得的。在图4和图5的上部所示的每个示意图中,竖直轴(y轴)表示信号电平(单位:dB),并且水平轴(x轴)表示频率(单位:Hz)。此外,在图4和图5的下部所示的每个示意图中,竖直轴(y轴)表示信号电平的变化率(单位:dB),并且水平轴(x轴)表示频率(单位:Hz)。

关于高压缩音频信号,为了减少信息量,在阈值频率Fth周围的高压缩信号的高频带明显被削减(参见图4的上部),并且阈值频率Fth周围的信号电平的变化率β较大(参见图4的下部)。另一方面,对于高质量音频信号,在阈值频率Fth周围的信号电平具有相对缓和的频率斜率的形式(参见图5的上部),并且在阈值频率Fth周围的信号电平的变化率β较小(参见图5的下部)。

通过第一噪声降低电路270和第二噪声降低电路280去除了噪声的复合频谱S被输入至参考信号提取单元220。为了便于解释,在以下内容中,通过第一噪声降低电路270降低噪声之后的复合频谱S被分配附图标记S’,并且通过第二噪声降低电路280降低噪声之后的复合频谱S’被分配附图标记S”。随后解释关于第一噪声降低电路270和第二噪声降低电路280进行噪声降低处理的细节。此外,从频带检测单元210输入的关于后补偿频率Fth’的信息被输入至参考信号提取单元220。随后也将解释关于后补偿频率Fth’的细节。

图6(a)至图6(h)示出了用于解释直到对复合频谱S”执行高频带内插为止所执行的一系列处理的工作波形,所述复合频谱S”输入至参考信号提取单元220。在图6(a)至图6(h)的每个中,竖直轴(y轴)表示信号电平(单位:dB),并且水平轴(x轴)表示频率(单位:Hz)。

考虑参考信号提取单元220基于关于阈值频率Fth的信息来从复合频谱S”提取参考信号Sb的情况。在这种情况下,例如,从整个复合频谱S”中,将在从阈值频率Fth至较低频率侧延伸n%(0<n)的范围内的复合频谱提取为参考信号Sb。因此,由于在当检测到阈值频率Fth时设定的阈值频率Fth周围的复合频谱S”的频率斜率的影响,所以存在参考信号Sb不具有适当的信号电平的可能性。具体地,当参考信号Sb为高质量音频信号时,质量受到在阈值频率Fth周围的频率斜率影响的质量的变差程度较大,且因此,参考信号Sb可能不具有适当的信号电平。

针对该原因,频带检测单元210将依据在阈值频率Fth周围的频率斜率的补偿量α应用至检测出的阈值频率Fth,并且将补偿之后的阈值频率Fth(后补偿频率Fth’)输出至参考信号提取单元220。参考信号提取单元220从整个复合频谱S”中将在从补偿频率Fth’延伸至较低频率侧n%范围内的复合频谱提取为参考信号Sb(参见图6(a))。因此,防止由于在阈值频率Fth周围的频率斜率引起的参考信号Sb的质量变差。

图7图示了补偿量α与在阈值频率Fth周围(或者在阈值频率Fth处)的信号电平的变化率β之间的关系。应当注意的是,在阈值频率Fth周围的变化率β为例如在包括阈值频率Fth的预定范围内的平均值。在图7中,竖直轴(y轴)表示补偿量α(单位:Hz),并且水平轴(x轴)表示信号电平的变化率β(单位:dB)。如图7所示,在关于信号电平的变化率β的-50dB至0dB的范围内,补偿量α在0Hz至-3kHz的范围内变化。补偿量α的绝对值随着变化率β变得更大(随着频率斜率变得更陡)而变得更小,并且补偿量α的绝对值随着变化率β变得更小(随着频率斜率变得更缓和)而变得更大。

具体地,在图4中所示的高压缩音频信号的示例中,信号电平的变化率较大(频率斜率较陡),并且由于在阈值频率Fth周围的频率斜率而引起的参考信号Sb的质量变差基本上为零。因此,补偿量α为零。相应地,参考信号提取单元220将在从等于阈值频率Fth的后补偿频率Fth’起延伸至较低频率侧n%的范围内的复合频谱提取为参考信号Sb。

另一方面,在图5中所示的高质量音频信号的示例中,信号电平的变化率β较小(频率斜率缓和),并且由于在阈值频率Fth周围的频率斜率而引起的参考信号Sb的质量变差较大。因此,补偿量α为-3kHz。相应地,参考信号提取单元220将在从比阈值频率Fth低3kHz的后补偿频率Fth’起延伸至较低频率侧n%的范围内的复合频谱提取为参考信号Sb。因此,如图6(a)所示,消除了在阈值频率Fth周围的频率斜率的影响,并且参考信号Sb的电平变为足够的(适当的)信号电平。

存在的问题在于,当通过基于语音频带(例如,正常语音)的信号生成的内插信号来执行高频带内插时,信号的声音质量通过改变至趋于对于听觉感受给出不舒服感觉的声音质量而变差。通过对比,根据实施方案,复合频率S”变得越窄,参考信号Sb的频带变得越窄。因此,能够抑制引起声音质量变差的语音频带的提取。

参考信号提取单元220将从复合频带S”提取出的参考信号Sb的频率移位至较低频率侧(DC侧)(参见图6(b)),并且将频率已经被移位的参考信号Sb输出至参考信号校正单元230。

参考信号校正单元230将从参考信号提取单元220输入的参考信号Sb(线性度量)转换成分贝度量,并且对转换成分贝度量的参考信号Sb,通过线性回归分析来检测频率斜率。参考信号校正单元230计算通过线性回归分析检测出的频率斜率的逆特性(参照参考信号Sb对每个频率的加权量)。具体地,当关于参考信号Sb对每个频率的加权量被定义为p1(x)时,在水平轴(x轴)上的频域FFT的采样点被定义为x,由线性回归分析检测出的参考信号Sb的频率斜率的值被定义为α1,与参考信号Sb的频带相对应的FFT的采样数量的1/2被定义为β1,参考信号校正单元230通过以下等式(1)来计算频率斜率的逆特性(关于参考信号Sb对每个频率的加权量p1(x))。

(等式(1))

p1(x)=-α1x+β1

如图6(c)所示,关于参考信号Sb对每个频率的加权量p1(x)以分贝度量来获得。参考信号校正单元230将以分贝度量获得的加权量p1(x)转换成线性度量。参考信号校正单元230将转换成线性度量的加权量p1(x)与从参考参考信号提取单元220输入的参考信号Sb(线性度量)一起相乘来校正参考信号Sb。具体地,参考信号Sb被校正成具有平坦频率特性的信号(参考信号Sb’)(参见图6(d))。

由参考信号校正单元230校正的参考信号Sb’被输入至内插信号生成单元240。内插信号生成单元240通过将参考信号Sb’扩展至高于阈值频率Fth的频带(换言之,通过复制参考信号Sb'来生成多个参考信号Sb’并且通过布置多个复制的参考信号Sb’以达到高于阈值频率Fth的频带),从而生成包括高频带的内插信号Sc(参见图6(e))。频率信号Sb’被扩展的范围包括例如,靠近可听到频带的上限的频带或者超过可听到频带的上限的频带。

图8(a)和图8(b)图示了用于解释内插信号生成单元240的操作的工作波形。严格地讲,通过内插信号校正单元230校正的参考信号Sb’不具有平坦的频率特性。因此,当参考信号Sb’在内插信号生成单元240被复制成多个频带时,由于幅度的突然改变以及复制的参考信号Sb’之间的相位会引起频带之间的干扰。因此,引起信号沿着相对于真实内插信号Sc的时间轴在先输出的前回声。因此,如图8(a)的上部所示,内插信号生成单元240通过预定的窗函数对参考信号Sb’相乘的频率特性执行加权,并且执行重叠处理。因此,频带之间的信号电平差和相位差降低,并且频带之间的干扰降低。

应当注意的是,当在图8(a)的上部所示的参考信号Sb’被复制到多个频带而没有变化时,内插信号将具有纹波。因此,内插信号生成单元240相对于参考信号Sb’的峰值而将参考信号Sb’分为两部分,并且将在高频率侧的划分信号与在较低频率侧的划分信号相互替换(参见图8(a)的下部)。然后,内插信号生成单元240将通过窗函数加权之后的参考信号Sb’(参见图8(a)的上部)与替换之后的参考信号(参见图8(a)的下部)合成,并且在频带之间执行重叠处理。因此,获得具有更平坦的频率特性的参考信号Sb’(参见图8(b))。对于因而获得的参考信号Sb’,即使当参考信号Sb’被复制到多个频带时,也不会引起频带之间的干扰,并且也不生成前回声。即,获得具有平坦频率特性的内插信号Sc。

在内插信号生成单元240中生成的内插信号Sc被输入至内插信号校正单元250。此外,复合频谱S’从第一噪声降低电路270输入至内插信号校正单元250,并且关于后补偿频率Fth’的信息从频带检测单元210输入。

内插信号校正单元250将从第一噪声降低电路270输入的复合频谱S’(线性度量)转换成分贝度量,并且通过线性回归分析来检测转换成分贝度量的复合频谱S’的频率斜率。应当注意的是,当内插信号校正单元250检测出频率斜率时,内插信号校正单元250不利用关于比后补偿频率Fth’更高频带侧的信息。可以任意地设置回归分析的范围;然而,为了将音频信号的较高频带侧与内插信号平滑地连接,典型地,回归分析的范围对应于除了较低频带分量之外的预定频带。内插信号校正单元250根据对应于检测出的频率斜率的频带和回归分析的范围,从而对每个频率计算加权量。具体地,当关于内插信号Sc的每个频率的加权量被定义为p2(x),在频域中FFT的水平轴(x轴)上的采样点被定义为x,FFT的采样长度被定义为s,回归分析的范围的上限频率被定义为b,FFT的采样长度被定义为s,在与回归分析的范围相对应的频带中的频率斜率值被定义为α2,以及预定的校正系数被定义为k时,内插信号校正单元250通过以下等式2来计算关于内插信号Sc的每个频率的加权量p2(x)。

(等式(2))

P2(x)=-α’x+β2

其中:

α'=α2-(1-(b/s))/k

β2=-αb

当x<b时,p2(x)=-∞

如图6(f)所示,关于参考信号Sc的每个频率的加权量p2(x)以分贝度量来获得。内插信号校正单元250将为分贝度量的加权量p2(x)转换成线性度量。内插信号校正单元250通过将转换成线性度量的加权量p2(x)与在内插生成单元240中生成的内插信号Sc(线性度量)一起相乘,从而校正内插信号Sc。如图6(g)中的示例所示的,校正之后的内插信号Sc’为相对于后补偿频率Fth’的高频带侧上的信号,并且具有朝向较高频带侧衰减的特性。

从FFT单元10通过第一噪声降低电路270的复合频谱S’以及来自内插信号校正单元250的内插信号Sc’被输入至加法单元260。复合频谱S’为高频带分量被明显削减的音频信号的复合频谱或者关于高频带分量的信息量较小的音频信号的复合频谱。内插信号Sc’为关于高于音频信号的频带的频率区域的复合频带。加法单元260通过将复合频谱S’和内插信号Sc’合成来生成内插高频带的音频信号的复合频谱SS(参见图6(h)),并且将生成的音频信号的复合频谱SS输出至IFFT单元30。

因而,根据实施方案,参考信号Sb是基于依据阈值频率Fth周围的频率斜率进行补偿的后补偿频率Fth’,从复合频谱S”中提取出的。因此,抑制了由于频率斜率引起的参考信号Sb的质量变差,且因此能够生成具有高质量的内插信号Sc’。相应地,无论输入至FFT单元10的音频信号的频率特性如何,都能够对音频信号执行高频带内插,由此提供了具有连续变化的正常衰减特性的频谱,并且能够在听觉感受方面实现声音质量的提高。

此外,由于在实施方案中对参考信号Sb’执行重叠处理和通过窗函数进行加权,所以能够抑制频带之间干扰引起的前回声的发生。即,由于抑制了被引起为高频带内插的负面影响的前回声,所以能够在听觉感受方面实现声音质量的提高。

同时,根据声源的记录环境或者音频设备的影响,会存在如下的情况:由采样频谱的转换所引起的混叠噪声(折叠噪声)和不期望的正弦波噪声被混合至在超过阈值频率Fth的频带中从声源输入的音频信号中。图9(a)示出混合了这种类型的噪声的音频信号的复合频谱S的示例。由于图9(a)中例示的正弦波噪声和混叠噪声引起声音质量变差,所以期望的是消除这种噪声。

针对该原因,第一噪声降低电路270包括低通滤波器,其中,截止频率根据阈值频率Fth而能够变化。具体地,第一噪声降低电路270基于关于从频带检测单元210输入的阈值频率Fth的信息,从而对从FFT单元10输入的复合频谱S进行滤波,并且将滤波的复合频谱S’输出至后阶段的电路。

图9(b)示出通过阈值频率Fth对图9(a)中例示的复合频谱S进行滤波所获得的复合频谱S’。如图9(b)所示,在复合频谱S’中,正弦波噪声和混叠噪声通过第一噪声降低电路270被去除。因此,能够抑制由正弦波噪声和混叠噪声引起的声音质量的变差。

此外,由于声源的记录环境或者音频设备的影响,会存在如下的情况:在关于阈值频率Fth的较低频带侧上,不期望的正弦波被混合至从声源输入的音频信号中。作为示例,图10(a)示出混合了这种类型的噪声的音频信号的复合频谱S。

在图10(a)所示的示例中,噪声被混合至提取为参考信号Sb的频带。当基于混合了这种噪声的参考信号Sb来执行高频带内插时,噪声被叠加至已经经受高频带内插的音频信号上,噪声的数量根据对参考信号Sb’的复制处理的数量而增加,如图10(b)所示。

针对该原因,在本实施方案中,在将参考信号Sb’至多个频带的复制处理的前阶段,提前降低混合至参考信号Sb的噪声。具体地,第二噪声降低电路280将复合频谱S’(其已经对于各个STFT输入多次并且从低频带至高频带变化)转换成幅度频谱和相位频谱。第二噪声降低电路280通过滤波处理,从而对每个转换的幅度分量抑制恒定分量(即,DC分量和DC周围的波动分量)。第二噪声降低电路280将抑制的幅度频谱和相位频谱再次转换成复合频谱。如图10(c)所示,所得的复合频谱S”使得仅恒定分量(例如,正弦波)被抑制。当通过基于已经抑制了正弦波等的参考信号Sb来生成内插信号,从而执行高频带内插时,能够抑制在参考信号Sb’的复制处理期间的噪声增加,如图10(d)所示。因此,能够抑制由正弦波噪声引起的的声音质量的变差。

(工作参数的示例)

在下文中,示出根据实施方案的声音处理装置1的工作参数的示例。本文中例示的工作参数应用至以下所述的情况1至4。应当注意的是,在情况1至4的每个中所处理的音频信号为高质量音频信号。

(FFT单元10/IFFT单元30)

采样频率:96kHz

采样长度:8,192个采样

窗函数:汉明

重叠长度:75%

(频带检测单元210)

最小控制频率:7kHz

低和中频带范围:2kHz-6kHz

高频带范围:46kHz-48kHz

高频带电平判断:-40dB

信号电平差:30dB

阈值:0.5

主高通滤波器的标准截止频率:0.005

(参考信号提取单元220)

参考频带宽度:6kHz

(内插信号生成单元240)

窗函数:汉明

(内插信号校正单元250)

下限频率:500Hz

校正系数k:0.01

(第一噪声降低电路270)

响应于阈值频率Fth的可变低通滤波器

(第二噪声降低电路280)

主高通滤波器的标准截止频率:0.01

“采样频率(=96kHz)”表示通过STFT,转换成频域的频率的FFT的采样点。“最小控制频率(=7kHz)”表示当通过频带检测单元210检测出的阈值频率Fth小于7kHz时,不执行高频带内插。“高频带电平判断(=-40dB)”表示当高频带中的信号电平高于或等于-40dB时,不执行高频带内插。“信号电平差(=30dB)”表示当低和中频带范围与高频带范围之间的信号电平差小于或等于30dB时,不执行高频带内插。“阈值(=0.5)”表示用于检测阈值频率Fth的阈值为低和中频带范围的信号电平(平均值)与高频带范围的信号电平(平均值)之间的中间值。频带检测单元210的“主高通滤波器的标准截止频率”为当检测出变化率β时设定的值。“参考频带宽度(=6kHz)”为与“最小控制频率(=7kHz)”相对应的参考信号Sb的频带宽度。“下限频率(=500Hz)”表示通过内插信号校正单元250进行的回归分析的范围的下限(即,低于500Hz的区域不包括在回归分析的范围内)。

(情况1)

图11(a)至图11(c)为用于解释情况1的解释图示。在图11(a)至图11(c)的每个中,竖直轴(y轴)表示信号电平(单位:dB),并且水平轴(x轴)表示频率(单位:kHz)。在情况1中,解释了通过引入针对取决于频率斜率的阈值频率Fth的补偿处理所获得的有利效果。

图11(a)示出了输入至高频带内插单元20的音频信号的复合频谱S。由于在图11(a)中所示的复合频谱S为高质量音频信号的频谱,所以在高频带侧的频率斜率(大约22kHz至25kHz)不陡峭,而是相对缓和。

图11(b)和图11(c)的每个示出了关于图11(a)所示的输入(复合频谱S)的输出(复合频谱SS)。图11(b)示出了当不执行根据频率斜率的针对阈值频率Fth的补偿处理时提供的输出。图11(c)示出了当执行根据频率斜率的针对阈值频率Fth的补偿处理时提供的输出。

如图11(b)所示,当不执行根据频率斜率的针对阈值频率Fth的补偿处理时,复合频谱S’不平滑地连接至频域中的内插信号Sc’(在22kHz至25kHz周围引起空隙),并且朝向内插区域(高频带)的衰减变得异常。另外,由于参考信号Sb不具有足够的(适当的)信号电平,所以内插区域的衰减失去连续性并且变得异常。

通过对比,如图11(c)所示,当执行根据频率斜率的针对阈值频率Fth的补偿处理时,复合频谱S’不平滑地连接至频域中的内插信号Sc’,并且朝向内插区域(高频带)的衰减变得正常。另外,由于参考信号Sb具有足够的(适当的)信号电平,所以内插区域的衰减变得连续和正常。

(情况2)

图12(a)至图12(c)为用于解释情况2的解释图示(光谱图)。在图12(a)至图12(c)的每个中,竖直轴(y轴)表示频率(单位:kHz),并且水平轴(x轴)表示时间(或者采样数量)(单位:毫秒),着色的阴影表示功率(单位:dB)。在情况2中,解释了通过相对于参考信号Sb’进行窗函数加权并且进行重叠处理所获得的有利效果。

图12(a)示出了在情况2下输入至声音处理装置1的音频信号的光谱图。

图12(b)和图12(c)的每个示出了关于图12(a)所示的输入的声音处理装置1的输出。图12(b)为在情况2下不相对于参考信号Sb’执行重叠处理和通过窗函数进行加权时所提供的输出。图12(c)示出在情况2下,当相对于参考信号Sb’执行重叠处理和通过窗函数的加权时所提供的输出。

如图12(b)所示,当不执行相对于参考信号Sb’的重叠处理和通过窗函数的加权时,由频带之间的干扰会引起前回声(在图12(b)中,细的线状分量沿着高频侧的时间轴方向延伸)。

通过对比,如图12(c)所示,当执行相对于参考信号Sb’的重叠处理和通过窗函数的加权时,抑制了由频带之间的干扰所引起的前回声的发生。

(情况3)

图13(a)和图13(b)为用于解释情况3的解释图示。在图13(a)和图13(b)的每个中,竖直轴(y轴)表示信号电平(单位:dB),并且水平轴(x轴)表示频率(单位:kHz)。在情况3中,解释了通过引入由第一噪声降低电路270进行的噪声降低处理所获得的有利效果。

图13(a)示出在情况3中输入至第一噪声降低电路270的音频信号的复合频谱S。如图13(a)所示,在情况3中,正弦波噪声和混叠噪声包含在复合频谱S中。

图13(b)示出在情况3中通过第一噪声降低电路270输出的音频信号的复合频谱S’。如图13(b)所示,通过第一噪声降低电路270去除了正弦波噪声和混叠噪声。

(情况4)

图14(a)至图14(c)为用于解释情况4的解释图示。在图14(a)至图14(c)的每个中,竖直轴(y轴)表示信号电平(单位:dB),并且水平轴(x轴)表示频率(单位:kHz)。在情况4中,解释了通过引入由第二噪声降低电路280进行的噪声降低处理所获得的有利效果。

图14(a)示出了在情况4中输入至高频带内插单元20的音频信号的复合频谱S。在图14(a)中所示的复合频谱S中,正弦波噪声混合至被提取为参考信号Sb的频带中。

图14(b)和图14(c)中的每个示出了关于图14(a)所示的输入(复合频谱S)的输出(复合频谱SS)。图14(b)示出了在情况4中当不执行通过第二噪声降低电路280的噪声降低处理时所提供的输出。图14(c)示出了在情况4中当执行通过第二噪声降低电路280的噪声降低处理时所提供的输出。

如图14(b)所示,当不执行通过第二噪声降低电路280的噪声降低处理时,根据参考信号Sb’的复制处理的数量增加的噪声被叠加在复合频谱SS上。

通过对比,如图14(c)所示,当执行通过第二噪声降低电路280的噪声降低处理时,抑制了在参考信号Sb’的复制处理期间噪声的增加。

前述内容是关于本发明的实施方案的解释。本发明不限制于上述实施方案,而在本发明的范围内可以采用各种方式进行变化。例如,本发明的实施方案包括在本说明书中清楚描述的实施方案以及易于从上述实施方案中实现的实施方案的组合。例如,在实施方案中,参考信号校正单元230利用线性归回分析来校正具有在频率区域中单调增加或衰减特性的参考信号Sb。然而,参考信号Sb的特性不限制于线性特性,也可以为非线性特性。考虑到对在频域中具有重复增加和衰减特性的参考信号Sb进行校正的情况。在这种情况下,参考信号校正单元230通过执行升序的回归分析来计算逆特性,并且通过利用计算出的逆特性来校正参考信号Sb。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1