声音信号纠正方法、声音信号纠正设备以及计算机程序的制作方法

文档序号:2837050阅读:229来源:国知局
专利名称:声音信号纠正方法、声音信号纠正设备以及计算机程序的制作方法
技术领域
本发明涉及一种声音信号纠正方法、应用所述声音信号纠正方法的声音 信号纠正设备以及用于实施所述声音信号纠正设备的计算机程序,其中所述声音信号纠正方法用于根据与噪声图(noisepattern)相关的噪声模型纠正基 于获取的声音的声音信号。特别地,本发明涉及一种为获取的声音提高语音 识别率的声音信号纠正方法、声音信号纠正设备以及计算机程序。
背景技术
噪声抑制技术能够抑制在有噪声的环境下获取的声音中的噪声成分,其 目的用于提高诸如汽车导航器等语音识别设备中的语音识别率,并用于提高 与语音相关的设备的质量,例如提高电话机中发送语音的质量。图1为在概念上示出传统噪声抑制技术的示意图。根据传统噪声抑制技 术,获取包括噪声和语音的声音,并通过FFT (快速傅立叶变换)处理,将 按帧划分且基于获取的声音的声音信号、即输入信号in(n)转换为相位频谱 tan—'IN(f)和振幅频谱IIN(f)1。然后,根据与声音信号的振幅频谱IIN(f)l具有很 高相似度的噪声模型,估算稳态噪声的振幅频谱IN(f)l,并从声音信号的振幅 频谱IIN(f)l中减去估算的稳态噪声的振幅频谱IN(f)l。接着,通过逆FFT处理 转换己减去稳态噪声的振幅频谱IN(f)l的振幅频谱IIN(f)l和相位频谱 tan"IN(f),从而导出每个帧的输出信号out(n)。作为其中噪声被抑制的声音 信号,导出的输出信号用于例如语音识别处理。图2A和图2B为示出与传统噪声抑制技术相关的振幅频谱的坐标图。图 2A示出声音信号的振幅频谱IIN(f)l中频率值与振幅值之间的关系,而图2B 示出已减去稳态噪声的振幅频谱IN(f)l的振幅频谱IIN(f)l中频率值与振幅值之 间的关系。在比较图2A和图2B时清楚可知,在图2B所示的波形中已从输 入信号的振幅频谱IIN(f)l中减去估算的稳态噪声的振幅频谱IN(f)l,从而抑制 了噪声。这种噪声抑制技术称为谱减法,并且例如在日本专利申请特开平 No.07-193548 (1995)中公开了使用谱减法的噪声抑制技术。然而,噪声包括随时间而改变的非稳态成分,从而在日本专利申请特开 平No.07-193548 (1995)所述的使用谱减法的噪声抑制技术中,留下非稳态 成分。例如,图2A和图2B所示的波形涉及仅由噪声构成的输入信号,如图 2B所示,在抑制稳态噪声时,留下高度非稳态噪声。以这种方式留下的噪 声是非自然噪声,因此与用于语音识别的声音模型中包含的噪声模型的匹配 度低,从而导致噪声识别的精度低之类的问题。具体来说,引起误差,从而 使留下的噪声被识别为谱功率较低的音位,例如"s"和"n"。因此,对噪 声的抑制与语音识别率的提高不相关;相反地,出现引起语音识别率降低的 问题。此外,出现产生音乐噪声之类的非自然噪声的问题。发明内容为了解决上述问题提出了本发明,并且本发明的目的是提供声音信号纠 正方法、应用所述声音信号纠正方法的声音信号纠正设备以及用于实施所述 声音信号纠正设备的计算机程序,其中所述声音信号纠正方法通过比较声音 信号与噪声模型并基于比较结果平滑化声音信号的波形而能够防止留下非自然噪声,从而使噪声识别精度提高、提高语音识别率以及防止产生音乐噪 声。根据本发明第一方案提供一种声音信号纠正方法,根据与噪声图相关的 噪声模型来纠正基于获取的声音的声音信号,其包括以下步骤将所述声音 信号与所述噪声模型进行比较;以及基于比较结果平滑化所述声音信号的波形。根据本发明第二方案提供一种声音信号纠正设备,根据与噪声图相关的噪声模型来纠正基于获取的声音的声音信号,其包括用于将所述声音信号 与所述噪声模型进行比较的装置;以及用于基于比较结果平滑化所述声音信号的波形的装置。根据本发明第三方案提供一种声音信号纠正设备,根据与噪声图的频谱相关的噪声模型来纠正基于获取的声音的声音信号的频谱,其包括导出装 置,通过将所述声音信号的频谱与所述噪声模型进行比较来导出用于纠正所 述声音信号的纠正系数;以及平滑化装置,使用导出的纠正系数平滑化所述 声音信号的波形。根据本发明第四方案提供一种声音信号纠正设备,在根据第三方案的声 音信号纠正设备中所述导出装置根据所述声音信号的频谱强度与基于所述 噪声模型确定的阈值之差,导出所述纠正系数。根据本发明第五方案提供一种声音信号纠正设备,在根据第三或第四方 案的声音信号纠正设备中所述平滑化装置平滑化所述声音信号的频谱在频 率轴方向的变化。根据本发明第六方案提供一种声音信号纠正设备,在根据第五方案的声 音信号纠正设备中所述平滑化装置基于下面的公式(A)进行平滑化|IN(f),|=a|IN(f-l)'|+(l-a)|IN(f)| ....................................公式(A)其中,IIN(f)'l为平滑化后在频率f处的频谱, IIN(f)l为平滑化前在频率f处的频谱,IIN(f-l)'l为平滑化后在频率f-1处的频谱,其中频率f-1与频率f相差预 定频率间距,以及a为纠正系数,其中0^xSl。根据本发明第七方案提供一种声音信号纠正设备,在根据第三或第四方 案的声音信号纠正设备中所述平滑化装置平滑化所述声音信号的频谱在时 间轴方向的变化。根据本发明第八方案提供一种声音信号纠正设备,在根据第七方案的声音信号纠正设备中所述平滑化装置基于下面的公式(B)进行平滑化|IN(f),|t=a|IN(f),|t-l+(l-a)|IN(f)|t ....................................公式(B)其中,|IN(f)'|t为平滑化后在时刻t于频率f处的频谱, |IN(f)|t为平滑化前在时刻t于频率f处的频谱,|IN(f)'|t-l为平滑化后在时刻t-l于频率f处的频谱,其中时刻t-l在时刻 t之前并与时刻t相隔预定时间,以及 a为纠正系数,其中0^c^1。根据本发明第九方案提供一种声音信号纠正设备,在根据第二至第八方 案中的任一个方案的声音信号纠正设备中还包括用于基于平滑化后的声音信号执行语音识别处理的装置。根据本发明第十方案提供一种计算机程序,使计算机执行处理以根据与
噪声图相关的噪声模型纠正基于获取的声音的声音信号,所述计算机程序包 括使计算机将所述声音信号与所述噪声模型进行比较的步骤;以及使计算 机基于比较结果平滑化所述声音信号的波形的步骤。根据本发明,将声音信号与噪声模型进行比较,并基于比较结果平滑化 声音信号的波形,从而防止了高度非稳态噪声的出现;以及将声音信号的波 形纠正为具有稳态噪声的波形,其与噪声模型的匹配度高,由此可以提高噪 声识别的精度,从而在将本发明应用于例如语音识别设备时可以提高语音的 识别率。此外,在将本发明用于与电话通信相关的设备中时,可以防止诸如 音乐噪声之类的非自然噪声的产生。另外,根据本发明,纠正系数随着与噪声模型的比较结果而改变,由此 在包括语音等频谱(其强度不同于噪声)的情况下平滑化的程度降低,从而 通过防止语音中的峰被平滑化,可以提高语音的识别率。在根据本发明的声音信号纠正方法、声音信号纠正设备和计算机程序 中,将基于获取的声音的声音信号和与噪声图相关的噪声模型进行比较,并 根据比较结果平滑化声音信号的波形在频率轴方向的变化和/或在时间轴方 向的变化。根据本发明,防止了高度非稳态噪声的出现,从而将波形纠正为与噪声 模型具有高匹配度的稳态噪声的波形,由此获得优异的效果,从而可以提高 噪声识别的精度。由于本发明在应用于例如语音识别设备的情况下可以提高 语音的识别率;以及在将本发明用于与电话通信相关的设备中的情况下,可 以防止诸如音乐噪声之类的非自然噪声的产生,因此本发明提供优异的技术 效果。此外,本发明的声音信号纠正设备等将声音信号与噪声模型进行比较; 根据声音信号的频谱强度与基于噪声模型确定的阈值之差,导出用于纠正声 音信号的纠正系数;以及使用导出的纠正系数平滑化声音信号的波形。根据本发明,在包括语音等频谱(其强度不同于噪声)的情况下,平滑 化的程度降低,由此可以防止语音中的峰被平滑化,并获得优异的效果,从 而可以提高语音的识别率。根据以下详细说明和附图,可更全面地了解本发明的以上和其它目的及 特征。


图1为在概念上示出传统噪声抑制技术的示意图;图2A和图2B为示出根据传统噪声抑制技术的振幅频谱的坐标图; 图3为示出根据本发明的声音信号纠正设备的结构框图; 图4为示出根据本发明的声音信号纠正设备中的处理的流程图; 图5为在概念上示出根据本发明的声音信号纠正设备中的纠正处理的示 意图;图6A和图6B为示出与根据本发明的声音信号纠正设备相关的声音信号 的振幅频谱的坐标图;图7为示意性示出根据本发明的声音信号纠正设备中的平滑化处理的控 制流程图;图8为示意性示出根据本发明的声音信号纠正设备中的平滑化处理的控 制流程图;以及图9为示出根据本发明的声音信号纠正设备中的纠正系数导出处理的坐 标图。
具体实施方式
下面,参照附图详细描述本发明,在附图中示出了本发明的实施例。图 3为示出根据本发明的声音信号纠正设备的结构框图。例如,在图3中以1 表示使用计算机的声音信号纠正设备,例如安装在车辆中的导航器,并且声 音信号纠正设备l包括控制装置IO (控制器),例如CPU (中央处理器) 或者DSP (数字信号处理器),用于控制整个设备;记录装置ll,例如硬盘 或者ROM,用于记录诸如程序和数据等多种信息;存储装置12,例如RAM, 用于临时存储产生的数据;声音获取装置13,例如麦克风,用于从外部获取 声音;声音输出装置14,例如扬声器,用于输出声音;显示装置15,例如 液晶监视器;以及导航装置16,用于执行与导航相关的处理,例如指示到达 目的地的路线。记录装置11记录本发明的计算机程序lla,在记录的计算机程序lla中 包含的多种处理步骤被存储在存储装置12中并在控制装置10的控制下而被
执行,从而使计算机可用作本发明的声音信号纠正设备1。此外,记录装置11中的部分记录区用作多个数据库,例如用于语音 识别的声音模型数据库(用于语音识别的声音模型DB) lib以及识别语法llc,声音模型数据库llb记录与语音识别所需的用于匹配的信号图(signal pattern)相关的声音模型和噪声模型,识别语法llc记录用于识别的词汇表, 根据与声音模型相对应的音位或音节定义以及语法来表示所述词汇表。存储装置12的部分存储区用作声音信号缓冲器12a以及帧缓冲器12b, 声音信号缓冲器12a存储通过以预定周期对声音进行采样而获得的数字化声 音信号,其中所述声音是由声音获取装置13获取的模拟信号,帧缓冲器12b 用于存储通过将声音信号划分为具有预定时间长度的多段而获得的多个帧。导航装置16具有诸如GPS (全球定位系统)的位置检测机构以及诸如 DVD (数字多功能光盘)或硬盘之类的记录地图信息的记录介质。导航装置 16执行导航处理,例如搜索从当前位置到达目的地的路线并指示所述路线, 导航装置16还在显示装置15上显示地图和路线并从声音输出装置14输出 语音指导。这里,图3所示的结构仅为实例,可以通过多种形式来发展本发明。可 以通过一个或多个VLSI芯片的形式来构建与语音识别相关的功能部件 (function),并将其与导航器集成在一起,并且例如也可以将用于语音识别 的专用器件在外部附着在导航器上。此外,控制装置10既可以用于语音识 别处理,也可以用于导航处理,或者可分别设置专用电路。另外,在控制装 置10中可包括协处理器,所述协处理器用于执行包括与语音识别相关的特 定计算的处理,例如FFT (快速傅立叶变换)。而且,可以将声音信号缓冲 器12a设置为属于声音获取装置13的电路,并且可以在设置在控制装置10 中的存储器中形成帧缓冲器12b。此外,除了安装在车辆中的器件、例如导 航器之外,本发明的声音信号纠正设备l还可以应用于多种器件中,例如用 于电话通信的语音发送器(在发送语音时抑制噪声)、中继器和语音接收器。接下来,描述本发明的声音信号纠正设备l中的处理。图4为示出本发 明的声音信号纠正设备1中的处理的流程图。在步骤S1,在用于执行计算机 程序11a的控制装置10的控制下,声音信号纠正设备1通过声音获取装置 13获取外部声音;并在步骤S2,在预定期间对己经获取的、作为模拟信号
的声音进行采样,然后将由此数字化的声音信号存储在声音信号缓冲器12a 中。在步骤Sl中获取的外部声音为诸如人的语音、稳态噪声和非稳态噪声 等多种声音交叠的声音。人的语音是通过与声音模型进行匹配来识别的语 音。稳态噪声为交通噪声和发动机噪声之类的噪声,在本发明中可通过与噪 声模型进行匹配来纠正稳态噪声。非稳态噪声为以非稳态方式产生的噪声, 并且已经提出和建立了去除非稳态噪声的多种方法。此外,在步骤S3,在控制装置10的控制下,声音信号纠正设备l从存 储在声音信号缓冲器12a中的声音信号产生具有预定长度的多个帧。在步骤 S3中,例如,以20ms至30ms的预定长度将声音信号划分为多个帧。这里, 各个帧彼此交叠10ms至15ms。对于每个帧,进行语音识别领域通用的帧处 理,包括汉明(Hamming)窗和汉宁(Hanning)窗之类的窗口函数以及使 用高通滤波器进行滤波。对由此产生的每个帧进行下面的处理。在步骤S4,在控制装置10的控制下,声音信号纠正设备1通过进行FFT 处理将每个帧中的声音信号转换为相位频谱和振幅频谱;并在步骤S5,将获 取的声音信号的振幅频谱与基于稳态噪声等的振幅频谱的噪声模型进行比 较,从而导出用于纠正声音信号的振幅频谱的纠正系数。在步骤S5中,例 如,将稳态噪声的振幅谱的平均值用作将要比较的噪声模型。此外,在步骤 S5中,通过将声音信号的振幅频谱强度(例如峰值、峰的积分值以及峰的平 方值)与基于噪声模型确定的阈值进行比较,来执行声音信号的振幅频谱与 噪声模型的比较,从而根据声音信号的振幅频谱强度与阈值之差导出纠正系 数。此外,在步骤S6,声音信号纠正设备l利用导出的纠正系数平滑化声音 信号的振幅频谱的波形;并在步骤S7,对相位频谱和平滑化后的振幅频谱进 行逆FFT处理,从而将所述声音信号转换为振幅频谱被纠正的每个帧中的声 音信号。在步骤S6中,平滑化振幅频谱在频率轴方向的变化和/或在时间轴 方向的变化。然后,在步骤S8,在控制装置10的控制下,声音信号纠正设备l对在 步骤S7中己经转换的声音信号的输出执行语音识别处理。此外,在使用语 声音谱进行语音识别处理的情况下,可从步骤S6的结果实现识别,而不需 执行步骤S7。
下面,进一步详细描述参照图4描述的本发明的声音信号纠正设备1中步骤S4至S7的处理。图5为概念上示出本发明的声音信号纠正设备1中的 纠正处理的示意图。这里,在图5中,n表示己进行FFT处理的声音信号的 帧数,f表示频率。在本发明的声音信号纠正设备1中,将每个帧中的声音 信号(包括诸如获取的噪声和语音等声音)用作输入信号in(n),并通过FFT 处理将其转换为相位频谱tan"IN(f)和振幅频谱IIN(f)l。然后,根据与声音信 号的振幅频谱IIN(f)l具有高相似度的噪声模型,估算稳态噪声的振幅频谱 |N(f)|;并根据估算的稳态噪声的振幅频谱IN(f)l与声音信号的振幅频谱IIN(f)l 的比较结果导出纠正系数cx。然后,利用导出的纠正系数(x,平滑化声音信 号的振幅频谱IIN(f)l的波形。接着,对利用纠正系数a己经平滑化的振幅频 谱IIN(f),l和相位频谱tan"IN(f)进行逆FFT (IFFT)处理,从而将其转换为每 个帧中的输出信号out(n)。图6A和图6B为示出与本发明的声音信号纠正设备1相关的声音信号的 振幅频谱的坐标图。图6A示出振幅频谱IIN(f)l的频率值与振幅值之间的关系, 图6B示出波形已被平滑化的振幅频谱IIN(f)l的频率值与振幅值之间的关系。 图6A和图6B示出仅由噪声构成的声音信号的波形,并且通过将图6A所示 的振幅频谱平滑化为图6B所示的振幅频谱,而将振幅频谱的波形纠正为高 度非稳态噪声成分被抑制的稳态噪声的典型波形,也就是说,与噪声模型具 有高相似度的波形。因此,在语音识别等之后的处理中易于去除稳态噪声, 从而能够提高语音的识别率。图7为示意性示出本发明的声音信号纠正设备1中的平滑化处理的控制 流程图。图7示出用于在频率轴方向平滑化声音信号的振幅频谱IIN(f)l的处 理,其等效于递归滤波器,可表示为下面的公式l。|IN(f),|n=aiIN(f-l),|n+(l-a)|IN(f)|n ....................................(公式l)这里,|IN(f),|n为平滑化后在第n个帧中于频率f处的振幅频谱, |IN(f)|n为平滑化前在第n个帧中于频率f处的振幅频谱, |IN(f-l)'|n为平滑化后在第n个帧中于频率f-1处的振幅频谱,其中频率 f-l与频率f相差预定频率间距,以及a为纠正系数,其中0^xSl。在公式1中,f-l为与频率f相差预定频率间距的频率,也就是说,在频
率转换为离散值频率的振幅频谱中与频率f相邻的频率,并且预定频率间距、即频率f与频率f-l之差表示离散值频率间距。如图7和公式1所示,在本发明的声音信号纠正设备l中,在频率轴方向的平滑化通过重复如下处理而执行在加法器ld中将频谱(l-a) |IN(f)|n与频谱a|IN(f-l)'|n相加,其中频谱 (1-a) |IN(f)|n是通过在放大器la中将声音信号的振幅频谱IIN(f)ln与l-a相乘 而获得的,而频谱(x|IN(f-l)'|n是通过在移位单元lb中将平滑化后于相邻频 率f-l处的振幅频谱IIN(f-l)ln移动预定频率间距,然后在放大器lc中将获得 的结果与a相乘而获得的。如从图7和公式1清楚可知,当纠正系数a接近0时,平滑化后的振幅 频谱IIN(f)'ln的波形接近平滑化前的振幅频谱IIN(f)ln的波形,并且在纠正系 数a为0的情况下,平滑化后的振幅频谱IIN(f)'ln与平滑化前的振幅频谱 IIN(f)ln—致。此外,当纠正系数a接近l时,平滑化后的振幅频谱IIN(f)'ln 较平稳,并且在纠正系数a为1的情况下,平滑化后的振幅频谱IIN(f),ln为 恒定值,在频率轴方向没有变化。图8为示意性示出本发明的声音信号纠正设备1中的平滑化处理的控制 流程图。图8示出用于在时间轴方向平滑化声音信号的振幅谱IIN(f)l的处理, 其等效于递归滤波器,可表示为下面的公式2。|IN(f),|n=a|IN(f),|n-l+(l-a)|IN(f)|n ....................................(公式2)这里,ilN①'ln为平滑化后在第n个帧中于频率f处的振幅频谱, IIN(f)in为平滑化前在第n个帧中于频率f处的振幅频谱, |IN(f)'|n-l为平滑化后在第(n-l)个帧中于频率f处的振幅频率,以及 a为纠正系数,其中OSo^1。如图8和公式2所示,本发明的声音信号纠正设备1通过重复如下处理 来执行在时间轴方向的平滑化在加法器ld中将频谱(l-a)IIN(f)ln与频谱 a|IN(f)'|n-l相加,其中频谱(l-a) |IN(f)|n是通过在放大器la中将声音信号的 第n个帧中的振幅频谱IIN(f)ln与l-a相乘而获得的,而频谱a|IN(f)'|n-l是通 过在延迟单元le中将平滑化后的第(n-l)个帧(即紧接在第n个帧之前的帧) 中的振幅频谱IIN(f)'ln-l保持与帧间距相对应的预定时间,然后在放大器lc 中将获得的结果与ex相乘而获得的。如从图8和公式2清楚可知,当纠正系数a接近0时,平滑化后的振幅
频谱lIN(f),ln的波形接近平滑化前的振幅频谱IIN(f)ln的波形,并且在纠正系 数a为0的情况下,平滑化后的振幅频谱IIN(f)'ln与平滑化前的振幅频谱 IIN(f)ln—致。此外,当纠正系数a接近l时,平滑化后的振幅频谱IIN(f)'ln 较平稳,并且在纠正系数a为1的情况下,平滑化后的振幅频谱IIN(f)'ln为 恒定值,在时间轴方向没有变化。这里,所述帧是基于已经被划分为具有预定时间间距的多个段的声音信 号而产生的,因此公式2等效于递归滤波器,可表示为下面的公式3。|IN(f),|t=a|IN(f),|t-l+(l-a)|IN(f)|t ....................................(公式3)这里,|IN(f),|t为平滑化后在时刻t于频率f处的振幅频谱,|IN(f)|t为平滑化前在时刻t于频率f处的振幅频谱,|IN(f)'|t-l为平滑化后在时刻t-l于频率f处的振幅频率,其中时刻t-l在 时刻t之前并与时刻t相隔预定时间,以及a为纠正系数,其中0^x^L。图9为示出本发明的声音信号纠正设备1中的纠正系数导出过程的坐标 图。图9示出频率f处的振幅频谱IIN(f)l的值(沿水平轴)与纠正系数a (沿 垂直轴)之间的关系。此外,使用通过将常数x[dB]与频率f处的稳态噪声IN(f)1 的值相加而获得的值作为用于导出纠正系数a的阈值。如图9所示,根据振 幅频谱IIN(f)l与阈值IN(f)l+x[dB]之差来导出纠正系数a,其中所述阈值 IN(f)l+x[dB]是基于与噪声模型相关的稳态噪声而确定的。具体来说,在振幅 频谱IIN(f)l的值不小于阈值IN(f)l+x[dB]的情况下,纠正系数a为0;而在振幅 频谱IIN(f)l的值小于阈值IN(f)l+x[dB]的情况下,随着振幅频谱IIN(f)l的值与阈 值IN(f)l+x[dB]之差变大,纠正系数a也变大,也就是说,随着振幅频谱IIN(f)l 的值变小,纠正系数a逼进l、即最大值。这里,图9示出纠正系数a的最 大值为a。的设置实例。由于使用通过将常数x[dB]与稳态噪声IN(f)l的值相加而获得的值作为阈 值,而不使用稳态噪声N(f)l的值作为阈值,如图9所示,因此可以处理稳态 噪声的频谱中的波动。如上所述,在包括语音的振幅频谱(其强度不同于稳态噪声)的情况下, 通过将纠正系数a减小可降低平滑化的程度,从而可以防止基于语音的峰被 平滑化。此外,在包括基于稳态噪声的振幅频谱的许多成分的情况下,通过 将纠正系数(X增大可提高平滑化的程度,从而增加稳态噪声与噪声模型的相 似度,因此可以容易地去除稳态噪声。尽管示出了上述实施例作为通过FFT处理将声音信号转换为相位频谱 和振幅频谱并平滑化获得的声音信号的振幅频谱的实施例,然而本发明不限 于此,可以将本发明应用于多种处理,例如将从FFT处理产生的复数划分为 实部和虚部,从而分别平滑化实部和虚部。此外,尽管作为应用于语音识别设备中的实施例示出了上述实施例,然 而本发明不限于此,并且可以通过多种形式发展本发明,例如将本发明应用 于用于电话通信的语音发送器,从而抑制发送的声音信号中包含的稳态噪 声。这里,在应用于电话通信的情况下,仅在语音发送器中执行平滑化,而 可以在语音接收器一侧执行抑制稳态噪声的处理。
权利要求
1.一种声音信号纠正方法,用于根据与噪声图相关的噪声模型来纠正基于获取的声音的声音信号,其包括以下步骤将所述声音信号与所述噪声模型进行比较;以及基于比较结果平滑化所述声音信号的波形。
2. —种声音信号纠正设备,用于根据与噪声图相关的噪声模型纠正基 于获取的声音的声音信号,其包括用于将所述声音信号与所述噪声模型进行比较的装置;以及 用于基于比较结果平滑化所述声音信号的波形的装置。
3. —种声音信号纠正设备,用于根据与噪声图的频谱相关的噪声模型 来纠正基于获取的声音的声音信号的频谱,其包括-导出装置,通过将所述声音信号的频谱与所述噪声模型进行比较,导出 用于纠正所述声音信号的纠正系数;以及平滑化装置,使用导出的该纠正系数,平滑化所述声音信号的波形。
4. 如权利要求3所述的声音信号纠正设备,其中, 所述导出装置根据所述声音信号的频谱强度与基于所述噪声模型确定的阈值之差导出所述纠正系数。
5. 如权利要求3或4所述的声音信号纠正设备,其中,所述平滑化装置平滑化所述声音信号的频谱在频率轴方向的变化。
6. 如权利要求5所述的声音信号纠正设备,其中, 所述平滑化装置基于下面的公式(A)进行平滑化|IN(f),|=a|IN(f-l),|+(l-a)|IN(f)| ....................................公式(A)其中,IIN(f)'l为平滑化后在频率f处的频谱, IIN(f)l为平滑化前在频率f处的频谱,IIN(f-l)'l为平滑化后在频率f-l处的频谱,其中频率f-l与频率f相差预 定频率间距,以及a为纠正系数,其中0^xSl。
7. 如权利要求3或4所述的声音信号纠正设备,其中, 所述平滑化装置平滑化所述声音信号的频谱在时间轴方向的变化。
8. 如权利要求7所述的声音信号纠正设备,其中, 所述平滑化装置基于下面的公式(B)进行平滑化|IN(f),|t=a|IN(f),|t-l+(l-a)|IN(f)|t ....................................公式(B)其中,|IN(f)'|t为平滑化后在时刻t于频率f处的频谱,|IN(f)|t为平滑化前在时刻t于频率f处的频谱,|IN(f)'|t-l为平滑化后在时刻t-l于频率f处的频谱,其中时刻t-l在时刻 t之前并与时刻t相隔预定时间,以及 a为纠正系数,其中0S^1。
9. 如权利要求2至4中任一项所述的声音信号纠正设备,还包括 基于平滑化后的声音信号执行语音识别处理的装置。
10. —种计算机程序,用于使计算机执行根据与噪声图相关的噪声模型 来纠正基于获取的声音的声音信号的处理,所述计算机程序包括使计算机将所述声音信号与所述噪声模型进行比较的步骤;以及 使计算机基于比较结果平滑化所述声音信号的波形的步骤。
全文摘要
本发明提供一种声音信号纠正方法、声音信号纠正设备以及计算机程序,声音信号纠正设备(1)通过如下步骤纠正基于获取的声音的声音信号进行FFT处理将获取的声音信号转换为相位频谱和振幅频谱(步骤S4);将获取的声音信号的振幅频谱与噪声模型进行比较,从而导出用于纠正声音信号的振幅频谱的纠正系数(步骤S5);利用导出的纠正系数,平滑化声音信号的振幅频谱的波形(步骤S6);以及通过对相位频谱和平滑化后的振幅频谱进行逆FFT处理,将所述声音信号转换为振幅频谱被纠正的声音信号(步骤S7)。
文档编号G10L21/00GK101154384SQ200710008338
公开日2008年4月2日 申请日期2007年1月29日 优先权日2006年9月25日
发明者松尾直司 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1