声音信号处理方法、声音信号处理设备及计算机程序的制作方法

文档序号:2837051阅读:424来源:国知局
专利名称:声音信号处理方法、声音信号处理设备及计算机程序的制作方法
技术领域
本发明涉及通过将基于所获取声音的声音信号转换为频谱来执行信号 处理的声音信号处理方法、采用该声音信号处理方法的声音信号处理设备、 以及实现该声音信号处理设备的计算机程序,更具体地,涉及非稳态噪声的 抑制,该非稳态噪声例如包括在从输入装置(例如麦克风)输入的声音中的 装置电子声音以及紧急车辆的汽笛。
背景技术
例如,在安装在诸如汽车导航系统之类的装置中的语音识别功能中,能否精确地检测包括语音的语音区间(voice interval)对语音识别性能影响很 大。例如,检测语音区间的主流方法包括当能量等于或大于预定阈值时, 将声音信号确定为语音来检测语音区间的方法,其中该能量被计算为沿频谱 的时间轴方向的振幅的平方,该频谱通过例如FFT (快速傅立叶变换)变换 方法转换声音信号而获得;在基音(pitch)存在时,提取称作基音的声音信 号的周期并确定该声音信号为语音来检测语音区间的方法;以及这些方法的妙A 5口 口 o此处,对现有技术语音识别系统的语音识别处理进行说明。图l为示出 现有技术语音识别处理的流程图。在步骤S101,语音识别系统用麦克风获取 包括语音和噪声的声音,在步骤S102,在以预定时间间隔分段的逐帧基础上 将基于所获取声音的声音信号转换为频谱,并从转换的频谱中提取诸如能 量、基音、倒频谱等特征分量。进而,在步骤S103,语音识别系统从作为所提取的特征分量的能量和基 音中检测等于或大于语音区间检测阈值的帧,并确定是否该检测到的帧持续 一定时段或更长,以从所获取声音中确定语音区间。然后,在步骤S104,通过用声学模型和语言辞典校核被确定为语音区间 的帧的特征分量,语音识别系统识别语音区间中的语音。
在如图l所示的语音识别处理中,电子声音,例如通过操作汽车导航系 统的按钮而导致的声音,具有一定能量和基音。因此,当语音识别系统获得 单独的电子声音时,存在倾向于将电子声音错误地确定为语音的问题。因此,日本公开专利申请No.08-265457 (1996)公开了一种利用在电子 声音(音调信号(tone signal))中存在少量峰的特性并通过谱峰的检测来确 定电子声音的方法。此外,日本公开专利申请No.2003-58186公开了一种用于抑制紧急车辆 的汽笛声的噪声抑制方法。此夕卜,日本公开专利申请No.2005-257805公开了一种不但抑制诸如电子 声音、汽笛声之类的非稳态噪声而且抑制周期性噪声的方法。然而,在日本公开专利申请No.08-265457 (1996)公开的现有技术方法 中,存在这样的问题即在出现诸如车辆引擎声和空调声音之类的噪声的环 境下,检测电子声音谱峰的精度降低。此处,使用图2A和图2B来说明日本公开专利申请No.08-265457(1996) 中存在的问题。图2A和图2B为示出频谱的图。图2A为示出在不存在由车 辆引擎声导致的噪声的情况下频率与能量之间关系的图,图2B为示出在存 在由引擎声导致的噪声的情况下频率与能量之间关系的图。如图2A所示, 在不存在由引擎声导致的噪声的情况下,很清楚地出现两个具有窄波带宽度 的尖峰,这两个尖峰均不低于由虚线表示的阈值并且可被高度精确地检测为 由电子声音导致的噪声。然而,如图2B所示,在存在由车辆引擎声导致的 噪声(如虚线所示)的情况下,在低频波带中出现由引擎声导致的具有宽波 带宽度的平缓峰(moderate peak),因此由电子声音导致的两个峰不清楚。 所以,仅使用将阈值与能量进行简单比较的方法来检测峰的精度是很低的。在日本公开专利申请No.2003-58186公开的方法中,需要提取汽笛声的 基频(fundamental frequency),并需要从过去的帧中计算平均频谱。因此, 存在该方法只能抑制预先学习的周期性噪声的问题。在日本公开专利申请>10.2005-257805公开的方法中,存在这样的问题, 即额外需要用于收集待被抑制的噪声的麦克风。

发明内容
本发明为解决上述问题而做出。本发明的目的是提供一种声音信号处理 方法,该方法即使在诸如引擎声和空调声之类的稳态噪声存在的情况下,通 过根据频谱计算频谱包络、从频谱中去除该频谱包络、基于通过去除该频谱 包络而获得的频谱来检测谱峰、以及抑制谱峰,能够高度精确地检测和抑制诸如电子声音和汽笛声之类的非稳态噪声的峰,而不需要预先学习(prior learning)或不需要用于收集噪声的麦克风。本发明还提供一种采用该声音信 号处理方法的声音信号处理设备,以及用以实现该声音信号处理设备的计算 机程序。根据本发明第一方案提供一种声音信号处理方法,用于通过将基于所获 取声音的声音信号转换为频谱来执行信号处理,其特征在于包括如下步骤 基于该频谱计算频谱包络;从该频谱中去除该频谱包络;从通过去除该频谱 包络获得的频谱中检测谱峰;以及抑制所检测到的谱峰。在如上所述的本发明中,通过在去除频谱包络之后检测谱峰,能够检测 电子声音等的尖峰,而不会受到在低频波带中出现的引擎声、空调声等平缓 峰的不利影响。因此,能够高度精确地检测峰并去除噪声。此外,不需要预 先学习,也不需要用以收集噪声的麦克风。根据本发明第二方案提供一种声音信号处理设备,用于通过将基于所获 取声音的声音信号转换为频谱来执行信号处理,其特征在于,包括包络计 算装置,用于基于该频谱计算频谱包络;包络去除装置,用于从频谱中去除 该频谱包络;检测装置,用于从通过去除该频谱包络获得的频谱中检测谱峰; 以及抑制装置,用于抑制所检测到的谱峰。在如上所述的本发明中,通过在去除频谱包络之后检测谱峰,能够检测 电子声音等的尖峰,而不会受到在低频波带中出现的引擎声、空调声等平缓 峰的不利影响。因此,能够高度精确地检测峰并去除噪声。此外,不需要预 先学习,也不需要用于收集噪声的麦克风。根据本发明第三方案提供一种基于第二方案的声音信号处理设备,其特 征在于,所述包络计算装置根据利用第一变换来转换该声音信号而获得的频 谱来计算倒频谱,并通过利用第二变换来转换比所计算的倒频谱的预定阶 (order)低的低阶分量来计算频谱包络,其中所述第二变换是所述第一变换 的逆变换。
在如上所述的本发明中,通过诸如FFT的第一变换以及诸如逆FFT的 第二变换来计算表现频谱轮廓的频谱包络。根据本发明第四方案提供一种基于第二方案或第三方案的声音信号处 理设备,其特征在于,所述检测装置检测出一波带作为包括通过去除该频谱 包络获得的频谱谱峰的波带,其中所检测出的波带表现大于预定阈值的值。在如上所述的本发明中,通过与阈值进行比较能够检测谱峰。根据本发明第五方案提供一种基于第二方案或第三方案的声音信号处 理设备,其特征在于,所述检测装置检测出一波带作为包括通过去除该频谱 包络获得的频谱谱峰的波带,其中所检测出的具有预定宽度的波带中各值的 总值与除所述具有预定宽度的波带之外的所有波带中各值的总值之比所表 现的值大于预定阈值。在如上所述的本发明中,通过将所有波带中的谱能量进行比较,并从具 有强能量的波带提取峰,而不是简单地从具有高谱峰的波带中提取峰,能够 考虑到所有的波带来检测明显的峰。根据本发明第六方案提供一种基于第二至第五方案中的任一方案的声 音信号处理设备,其特征在于,所述抑制装置通过用基于阈值的值取代在包 括所检测谱峰的波带的各频谱值中等于或大于阈值的那些值来抑制谱峰。在如上所述的本发明中,通过用阈值来取代基于噪声(例如电子声音) 的谱峰值,能够去除峰并抑制噪声。根据本发明第七方案提供一种基于第二至第五方案中的任一方案的声 音信号处理设备,其特征在于,所述抑制装置通过用基于频谱包络的值取代 在包括所检测谱峰的波带的各频谱值中等于或大于该频谱包络的那些值来 抑制谱峰。在如上所述的本发明中,通过用基于频谱包络的值取代基于噪声(例如 电子声音)的谱峰值,能够去除峰并抑制噪声。根据本发明第八方案提供一种基于第二至第五方案中的任一方案的声 音信号处理设备,其特征在于,所述抑制装置通过用比包括所检测到的谱峰 的波带宽的波带中各值的总值取代包括所检测谱峰的波带的各频谱值来抑 制谱峰。在如上所述的本发明中,例如通过用谱峰周围具有几个100Hz宽度的波
带中各值的总值或者平均值来取代基于噪声(例如电子声音)的谱峰值,能 够去除峰并抑制噪声。根据本发明第九方案提供一种基于第二至第八方案中的任一方案的声 音信号处理设备,其特征在于,还包括基于具有被抑制的谱峰的声音信号来 执行语音识别处理的装置。在如上所述的本发明中,基于从其中去除了噪声(例如电子声音)的声 音信号,能够高度精确的执行语音识别处理。根据本发明第十方案提供一种计算机程序,用于使得计算机通过将基于 所获取声音的声音信号转换为频谱来执行信号处理,其特征在于执行如下步 骤使该计算机基于该频谱计算频谱包络;使该计算机从频谱中去除该频谱 包络;使该计算机从通过去除该频谱包络获得的频谱中检测谱峰;以及使该 计算机抑制所检测到的谱峰。在如上所述的本发明中,通过用计算机(例如导航装置)执行计算机程 序,计算机起到声音信号检测设备的作用。通过在频谱包络去除之后检测谱 峰,能够检测电子声音等的尖峰,而不会受到在低频波带中出现的引擎声、 空调声等平缓峰的不利影响,因此能够高度精确的检测峰并去除噪声。此外, 不需要预先学习,也不需要用以收集噪声的麦克风。根据本发明的声音信号检测方法、声音信号检测装置以及计算机程序通 过诸如FFT的处理将基于所获取声音的声音信号转换为频谱;基于频谱计算 频谱包络;从频谱中去除频谱包络;从通过去除频谱包络而获得的频谱中检 测谱峰;以及抑制所检测到的谱峰。在这种结构中,由于在去除频谱包络之后检测谱峰,所以能够去除作为 频谱轮廓的频谱包络,并使用频谱的精细结构来检测谱峰。因此,由于能够 检测电子声音等的尖峰,而不会受到在低频波带中出现的引擎声、空调声等 平缓峰的不利影响,因此本发明的有益效果在于能够高度精确地检测峰并去 除噪声。此外,本发明的有益效果还在于不需要预先学习以及用于收集噪声 的麦克风。特别地,当将本发明应用于安装在车辆中的具有语音识别功能的汽车导 航系统中时,由于即使在诸如车辆的引擎声和空调声之类的稳态噪声存在的 情况下,也能够实现高度精确地检测和抑制诸如电子声音和汽笛声之类的非
稳态噪声的谱峰,所以诸如电子声音和汽笛声之类的噪声决不会被误识别为 语音。因此本发明能够产生提高识别语音的精度的有益效果。从下面结合附图的详细描述中本发明的上述及其它目的和特点将更为清楚。


图1为示出现有技术语音识别处理的流程图; 图2A和图2B为示出频谱的图;图3为示出根据本发明第一实施例的声音信号处理设备的结构实例的框图;图4为示出根据本发明第一实施例的声音信号处理设备进行信号处理实 例的流程图;图5为示出根据本发明第一实施例的声音信号处理设备的频谱的一个实 例的示图;图6A和图6B为示出根据本发明第一实施例的声音信号处理设备的声音 信号的一个实例的波形图;图7为示出根据本发明第二实施例的声音信号处理设备的频谱的一个实 例的示图;以及图8为示出根据本发明第三实施例的声音信号处理设备的频谱的一个实 例的示图。
具体实施方式
根据示出本发明一些实施例的附图,下面的描述将更为详细地说明本发明。第一实施例图3是示出根据本发明第一实施例的声音信号处理设备的结构实例的框 图。在图3中,1代表使用计算机的声音信号处理设备,例如安装在车辆中 的导航装置,声音信号处理设备1至少包括控制装置10 (控制器),例如 CPU (中央处理单元)和DSP (数字信号处理器),用于控制整个装置;记 录装置ll,例如硬盘和ROM,用于记录诸如程序和数据之类的各种信息;存储装置12,例如RAM,用于临时存储所产生的数据;声音获取装置13, 例如麦克风,用于从外部获取声音;声音输出装置14,例如扬声器,用于输 出声音;显示装置15,例如液晶监视器;以及导航装置16,用于执行有关 导航的处理,例如指示到达目的地的路线。本发明的计算机程序lla被记录在记录装置11中,通过将包含在所 记录的计算机程序lla中的各种处理步骤存储到存储装置12中并在控制装 置10的控制下执行这些步骤,计算机起到本发明的声音信号处理设备1的 作用。记录装置11的一部分记录区用作例如声学模型数据库(声学模型DB) lib和语言辞典lie的各种数据库,其中声学模型数据库lib记录用于语音 识别的声学模型,语言辞典llc记录由对应于该声学模型的音素和音节定义 所描述的可识别词汇和语法。存储装置12的一部分用作声音数据缓冲器12a和帧缓冲器12b,其中声 音数据缓冲器12a用于存储数字化声音数据,该数字化声音数据通过以预定 周期采样由声音获取装置13获取的声音(其为模拟信号)而获得,帧缓冲 器12b用于存储通过将声音数据分成预定的时间长度而获得的多个帧。导航装置16包括诸如GPS (全球定位系统)之类的位置检测机构以及 记录地图信息的诸如DVD和硬盘之类的记录介质。导航装置16执行例如査 找从当前位置到目的地的路线并指示该路线的导航处理、在显示装置15上 显示地图和路线、以及从声音输出装置14输出语音导向。在图3中示出的结构实例仅仅是一个实例,本发明可以各种形式扩展。 例如,可以将有关声音信号处理的功能部件构建成单个或多个VLSI芯片并 将其包括在导航装置中,或者可以在外部安装专用于导航器上的声音信号信 号处理设备。也可以将控制装置10既用于声音信号处理也用于导航处理, 或者可以提供专用于每个处理的电路。此外,可以在控制装置10中并入协 处理器,用于执行诸如有关声音信号处理的特定计算的处理,例如后面描述 的FFT (快速傅立叶变换)和逆FFT。或者,可以将声音数据缓冲器12a构 建成声音获取装置13的附属电路,以及将帧缓冲器12b构建在控制装置10 的存储器上。本发明的声音信号处理设备1不局限于诸如导航装置之类的车 载装置,可以使用在用于执行语音识别的各种应用的设备(例如电话机)中。
下面的描述将说明由根据本发明第一实施例的声音信号处理设备1执行 的处理。图4为示出由根据本发明第一实施例的声音信号处理设备1所执行的处理的一个实例的流程图。在步骤S1,在执行计算机程序lla的控制装置 IO的控制下,声音信号处理设备1通过声音获取装置13获取外部声音,并 在步骤S2将数字化声音数据存储在声音数据缓冲器12a中,其中该数字化 声音数据通过以预定周期采样所获取的声音(其为模拟信号)而获得。在步 骤Sl中获取的外部声音包括诸如人声、稳态噪声和非稳态噪声等各种声音 的叠加声音。人声是由声音信号处理设备l要识别的语音。稳态噪声是诸如 车辆的引擎声和空调声之类的噪声。非稳态噪声是诸如在电子设备运行中产 生的电子声音以及汽笛声之类的噪声。在步骤S3,在控制装置10的控制下,声音信号处理设备1根据存储在 声音数据缓冲器12a中的声音数据生成预定长度的帧。在步骤S3中,例如, 按照20ms至30ms的预定长度将声音数据分成多个帧。各帧彼此重叠10ms 至15ms。对于每个帧,执行语音识别领域的普通帧处理并利用高通滤波器进 行滤波,其中所述帧处理包括诸如汉明窗(Hamming window)和汉宁窗 (Harmingwindow)的窗口函数。对这样产生的每个帧执行下面的处理。在步骤S4,在控制装置10的控制下,通过执行FFT处理,声音信号处理设备1将基于每个帧的声音数据的声音信号转换为频谱。在步骤S4中, 声音信号处理设备1通过对振幅频谱X(o))进行平方运算而得到能量频谱,并计算对数能量频谱2()1°&。1%(^作为所得到的能量频谱的对数,其中振幅频谱 X((D)通过对声音信号执行FFT处理而获得。以这种方式,声音信号被转换为 对数能量频谱。请注意,在步骤S4中,可以计算对数振幅频谱1()1°^1%^)1作 为通过对声音信号执行FFT处理而获得的振幅频谱X((D)的对数,并将计算 所得的对数振幅频谱用作转换后的频谱。在步骤S5,在控制装置10的控制下,声音信号处理设备1将基于声音 信号的傅立叶变换的频谱转换为倒频谱(cepstrum),并通过对比转换的倒 频谱的预定阶低的低阶分量执行逆FFT处理来计算频谱包络。下面说明步骤S5中的处理。通过对声音信号执行FFT处理而获得的振 幅频谱lz(")l用下面的公式i表示,分别用W")和^^)表示高阶分量和低阶分量的FFT。X( ) = G(w)//(w) 公式i公式1的对数可用下面的公式2表示。 log10 = log10 |GO)| + log10 公式2通过使用频率(0作为变量对公式2执行逆FFT来获得倒频谱cW 。公式 2右侧的第一项表示精细结构,即频谱的高阶分量,公式2右侧的第二项表 示频谱包络,即频谱的低阶分量。换句话说,在步骤S5中,通过对低于预 定阶的低阶分量执行逆FFT来计算频谱包络,所述低阶分量例如为低于从 FFT频谱计算所得的FFT倒频谱的第10阶或第20阶的分量。请注意,虽然 存在使用LPC (线性预测编码)倒频谱的频谱包络方法,但是这种方法给出 具有增强峰的包络,因此FFT倒频谱是优选的。在步骤S6,在控制装置10的控制下,声音信号处理设备1从在步骤S4 中得到的频谱中去除在步骤S5中计算所得的频谱包络。通过从步骤S4中得 到的频谱的各频率值中减去频谱包络的各频率值来执行步骤S6中的去除操 作。在步骤S6中,通过从频谱中去除频谱包络,频谱的倾斜被去除,并且 频谱变得平滑,因此作为处理结果获得了频谱的精细结构。请注意,取代从 频谱中去除频谱包络,可以通过对FFT倒频谱的高阶分量(例如不低于第 11阶或第21阶的分量)执行逆FFT来计算频谱的精细结构,其中该高阶分 量在计算频谱包络时未被使用。在步骤S7,在控制装置10的控制下,声音信号处理设备1检测通过频 谱包络的去除而获得的频谱中的谱峰,并在步骤S8抑制检测到的谱峰。在步骤S7中,当检测谱峰时,检测一波带作为包括待被抑制的谱峰的 波带,所检测的波带包括表现大于记录在记录装置11中的预定阈值的谱峰 值的谱峰。或者,可检测包括从作为待被抑制谱峰的最大峰开始的n (n为 自然数)个峰的波带。此外,可以检测包括从作为待被抑制谱峰的、表现大 于预定阈值的值的谱峰中的最大值谱峰开始最多n个峰的波带。请注意,n 的值适合为2至4左右。作为步骤S8中抑制谱峰的方法,下面列出一些方法的实例。第一种抑 制方法为在包括被检测谱峰的波带中,将等于或高于阈值的能量值转换为 阈值,即将对应于阈值和大于阈值的能量值从频谱中减去。不是必须将等于 或高于阈值的值转换为阈值,可以将这些值转换为基于阈值的值,例如比阈
值大预定值的值。第二种抑制方法为在包括被检测谱峰的外围波带中,例如谱峰周围具有几个100Hz宽度的波带中,将等于或高于频谱包络的能量值转换为相应的频谱包络的值。第三种抑制方法为将被检测谱峰与频谱包络相交处的点之间的波带 (即在该波带中形成谱峰的能量值超过频谱包络,然后变得低于频谱包络) 中的值转换为相应的频谱包络的值。第四种抑制方法为通过用例如比包括被检测谱峰的波带宽的波带(例 如谱峰周围具有几个IOOHZ宽度的波带)中的各值的总值或者平均值来转换 包括被检测谱峰的波带中的能量值,进行谱峰抑制。在步骤S9,在控制装置10的控制下,声音信号处理设备1提取特征分量,例如沿频率轴方向通过使能量频谱与被抑制的谱峰结合而获得的能量、基音和倒频谱,以及在步骤S10基于所提取的谱能量和基音来确定语音区间。 关于步骤10中语音区间的确定,将步骤9中计算的谱能量与记录在记录装 置11中用于语音检测的阈值进行比较,如果区间中存在等于或大于阈值的 谱能量并存在基音,则将该区间确定为语音区间。然后,在步骤Sll,在控制装置10的控制下,声音信号处理设备1基于 特征矢量(即从通过抑制谱峰而获得的频谱中提取的特征分量),参照记录 在声学模型数据库lib中的声学模型以及记录在语言辞典lie中的可识别词 汇和语法,来对被确定为语音区间的帧执行语音识别处理。步骤S11中的语 音识别处理是通过计算关于声学模型的相似性以及参照有关可识别词汇的 语言信息来进行的。图5为示出根据本发明第一实施例的声音信号处理设备1的频谱的一个 实例的示图。在图5中,用水平轴表示频率并用垂直轴表示频谱的能量,来 示出它们之间的关系。图5中的实线代表能量频谱S1,长短交替的虚线示出 基于能量频谱Sl计算的频谱包络S2,以及点线示出通过从能量频谱Sl中 去除频谱包络S2而获得的频谱的精细结构S3。此外,如TL (阈值)所示的 30dB被设为阈值。如图5所示,通过从能量频谱S1中去除频谱包络S2,从 低频侧至高频侧的能量频谱Sl的倾斜被去除,并且包括在频谱的精细结构 S3中的三个谱峰是清楚的。在从精细结构S3中检测谱峰时,优选从检测目 标中排除最低频(bottom fr叫uency)和最高频(top frequency)处100Hz的波段,因为在数字信号处理期间受带通滤波器的影响、在低频波带中不存在 电子声音、频谱包络S2的精度较低或其它原因。图6A和图6B为示出根据本发明第一实施例的声音信号处理设备1的声 音信号的一个实例的波形图。图6A示出划分为帧的声音信号随时间的振幅 变化,图6B示出通过对图6A的声音信号的振幅进行平方运算而获得的能量 概要。在图6B中,PI示出在去除频谱包络之前的能量概要,P2示出去除频 谱包络之后的能量概要。如图6B所示,重叠在图6A中的由诸如引擎声之类 的稳态噪声导致的平缓峰出现在P1的段R中,但是在P2中它们被去除。因此,在本发明的第一实施例中,即使在诸如引擎声和空调声之类的具 有平缓峰的稳态噪声环境下,通过去除稳态噪声能够检测由诸如电子声音和 汽笛声之类的具有尖峰的非稳态噪声导致的峰,并能够抑制检测到的峰。因 此能够防止将非稳态噪声误识别为语音。虽然语音(元音)频谱具有多个峰, 但是由于这些峰与电子声音相比不明显,所以它们作为频谱包络被去除,因 此元音的这些峰决不会被错误地抑制。第二实施例第二实施例是通过改变第一实施例的谱峰检测方法而构建的实施例。由 于第二实施例的声音信号处理设备的结构实例与第一实施例相同,所以通过 参考第一实施例而省略其说明。在下面的说明中,通过添加与第一实施例相 同的标号来示出声音信号处理设备的结构。此外,由于通过第二实施例的声 音信号处理设备1执行的处理与第一实施例相同,所以通过参考第一实施例 而省略其说明。在下面的说明中,通过添加与第一实施例相同的步骤编号来 说明由声音信号处理设备1执行的各处理。图7为示出根据本发明第二实施例的声音信号处理设备1的频谱的一个 实例的示图。在图7中,用水平轴表示频率并用垂直轴表示频谱能量,来示 出它们之间的关系。图7中的实线代表能量频谱S1,长短交替的虚线示出基 于能量频谱Sl计算的频谱包络S2,以及点线示出通过从能量频谱Sl中去 除频谱包络S2而获得的频谱的精细结构S3。作为从通过去除频谱包络而获得的频谱中检测谱峰的步骤S7的处理, 第二实施例的声音信号处理设备1检测预定宽度波带中各值的总值与除预定
宽度波带之外的所有波带中各值的总值之比所表现的值大于预定阈值的波 带作为包括谱峰的波带。更具体地,检测频谱能量为最大值处的频率,并计算例如检测频率周围100Hz的预定宽度波带中能量总值或者例如能量平均 值。在图7中,计算如fl所示的波带中的能量平均值Pl。此外,计算除fl 之外的所有波带中的例如能量总值或者能量平均值。在图7中,计算如f2 所示的波带中的能量平均值P2。当代表Pl和P2之比的值Pl/P2大于预定阈 值时,波带fl被检测为包括谱峰的波带。此外,对第二大频谱能量重复检测 频率的过程,直到其比值大于阈值的至多预定数n的谱峰均被检测。诸如抑 制检测到的谱峰的处理过程与第一实施例相同。 第三实施例第三实施例是通过改变第一实施例的谱峰检测方法而构建的实施例。由 于第三实施例的声音信号处理设备的结构实例与第一实施例相同,所以通过 参考第一实施例而省略其说明。在下面的说明中,通过添加与第一实施例相 同的标号来示出声音信号处理设备l的结构。此外,由于通过第三实施例的 声音信号处理设备1执行的处理与第一实施例相同,所以通过参考第一实施 例而省略其说明。在下面的说明中,通过添加与第一实施例相同的步骤编号 来说明由声音信号处理设备1执行的各处理。图8是示出根据本发明第三实施例的声音信号处理设备1的频谱的一个 实例的示图。在图8中,用水平轴表示频率并用垂直轴表示频谱能量,来示 出它们之间的关系。图8中的实线代表能量频谱S1,长短交替的虚线示出基 于能量频谱Sl计算的频谱包络S2,以及点线示出通过从能量频谱Sl中去 除频谱包络S2而获得的频谱的精细结构S3。作为从通过去除频谱包络而获得的频谱中检测谱峰的步骤S7的处理, 第三实施例的声音信号处理设备1检测第一波带作为包括谱峰的波带,其中 具有第一预定宽度的该第一波带中各值的总值与邻近该第一波带且具有第 二预定宽度的第二波带中各值的总值之比所表现的值大于预定阈值。更具体 地,检测具有最大值频谱能量处的频率,并计算具有预定宽度(例如被检测 频率周围100Hz)的波带中的能量总值或者例如能量平均值。在图8中,计 算如fl所示的波带中的能量平均值P1。此外,分别计算fl前后150Hz的波 带中的能量总值或者例如能量平均值。在图8中,计算如f2所示的波带中的能量平均值P2。当代表Pl与P2之比的值Pl/P2大于预定阈值时,波带fl 被检测为包括谱峰的波带。此外,对第二大频谱能量重复检测频率的过程, 直到其比值大于阈值的至多预定数n的谱峰均被检测。诸如抑制检测到的谱 峰的处理过程与第一实施例相同。在上面所述的第一实施例至第三实施例中,在去除非稳态噪声之后执行 语音识别的各实施例被示作关于语音识别的发明,但是本发明不局限于这些 实施例,并且可在与语音处理相关的各种领域中进行扩展。例如,当本发明 被应用于电信以将基于通过接收器所获取声音的声音信号传输到正被呼叫 的人时,通过本发明的处理方法能够在从声音信号中去除非稳态噪声之后, 将声音信号传输到该人。
权利要求
1.一种声音信号处理方法,用于通过将基于所获取声音的声音信号转换为频谱来执行信号处理,该方法包括如下步骤基于该频谱计算频谱包络;从该频谱中去除该频谱包络;从通过去除该频谱包络获得的频谱中检测谱峰;以及抑制所检测到的谱峰。
2. —种声音信号处理设备,用于通过将基于所获取声音的声音信号转换 为频谱来执行信号处理,该设备包括包络计算装置,用于基于该频谱计算频谱包络; 包络去除装置,用于从该频谱中去除该频谱包络;检测装置,用于从通过去除该频谱包络获得的频谱中检测谱峰;以及 抑制装置,用于抑制所检测到的谱峰。
3. 根据权利要求2所述的声音信号处理设备,其中所述包络计算装置根 据利用第一变换转换该声音信号而获得的频谱来计算倒频谱,以及通过利用 第二变换转换比所计算的倒频谱的预定阶低的低阶分量来计算频谱包络,其 中所述第二变换是所述第一变换的逆变换。
4. 根据权利要求2或3所述的声音信号处理设备,其中所述包络去除 装置从该频谱的值中减去该频谱包络的值。
5. 根据权利要求2或3所述的声音信号处理设备,其中所述检测装置 检测出一波带作为包括通过去除该频谱包络获得的频谱的谱峰的波带,其中 所检测出的波带表现大于预定阈值的值。
6. 根据权利要求2或3所述的声音信号处理设备,其中所述检测装置 检测出一波带作为包括通过去除该频谱包络获得的频谱的谱峰的波带,其中 所检测出的具有预定宽度的波带中各值的总值与除所述具有预定宽度的波 带之外的所有波带中各值的总值之比所表现的值大于预定阈值。
7. 根据权利要求2或3所述的声音信号处理设备,其中所述检测装置 检测出第一波带作为包括通过去除该频谱包络获得的频谱的谱峰的波带,其 中具有第一预定宽度的第一波带中各值的总值与邻近所述第一波带并具有 第二预定宽度的第二波带中各值的总值之比所表现的值大于预定阈值。
8. 根据权利要求2或3所述的声音信号处理设备,其中所述检测装置 检测包括一个谱峰直到至多预定数目的谱峰的波带。
9. 根据权利要求2或3所述的声音信号处理设备,其中所述抑制装置 通过用基于阈值的值取代在包括所检测谱峰的波带的各频谱值中等于或大 于该阈值的值来抑制谱峰。
10. 根据权利要求2或3所述的声音信号处理设备,其中所述抑制装置 通过用基于频谱包络的值取代在包括所检测谱峰的波带的各频谱值中等于 或大于该频谱包络的值来抑制谱峰。
11. 根据权利要求2或3所述的声音信号处理设备,其中所述抑制装置 通过用比包括所检测谱峰的波带宽的波带中各值的总值取代包括所检测谱 峰的波带的各频谱值来抑制谱峰。
12. 根据权利要求2或3所述的声音信号处理设备,还包括基于具有被 抑制的谱峰的声音信号来执行语音识别处理的装置。
13. —种计算机程序,用于使得计算机通过将基于所获取声音的声音信 号转换为频谱来执行信号处理,所述计算机程序包括如下步骤使该计算机基于该频谱计算频谱包络; 使该计算机从该频谱中去除该频谱包络;使该计算机从通过去除该频谱包络获得的频谱中检测谱峰;以及 使该计算机抑制所检测到的谱峰。
全文摘要
本发明涉及一种声音信号处理方法、声音信号处理设备及计算机程序。其中,声音信号处理设备(1)根据所获取的声音数据产生帧(S3),并按照逐帧基础将声音信号转换为频谱(S4)。然后,声音信号处理设备(1)基于该频谱计算频谱包络(S5)、从该频谱中去除该频谱包络(S6)、在通过该频谱包络的去除而获得的频谱中检测谱峰(S7),以及抑制该检测到的谱峰(S8)。声音信号处理设备(1)从具有被抑制的谱峰的频谱中确定语音区间(S10),并在被确定为语音区间的帧中基于具有该被抑制的谱峰的频谱执行语音识别处理(S11)。
文档编号G10L21/02GK101149928SQ20071000834
公开日2008年3月26日 申请日期2007年1月29日 优先权日2006年9月20日
发明者伊藤太介, 早川昭二 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1