声音识别装置、声音增强装置、声音识别方法、声音增强方法以及导航系统与流程

文档序号:14959324发布日期:2018-07-18 00:12阅读:224来源:国知局

本发明涉及声音识别技术和声音增强技术,特别涉及应对在多种噪声环境下使用的技术。



背景技术:

在使用叠加有噪声的声音进行声音识别的情况下,通常在进行声音识别处理之前进行抑制叠加着的噪声的处理(下面称作噪声抑制处理)。根据噪声抑制处理的特性,存在对于噪声抑制处理有效的噪声和无效的噪声。例如,在噪声抑制处理是针对稳定噪声较强的谱去除处理的情况下,针对非稳定噪声的去除处理减弱。另一方面,在噪声抑制处理是对非稳定噪声追踪性较高的处理的情况下,成为对稳定噪声追踪性较低的处理。作为解决这种问题的方法,以往采用声音识别结果的整合或者声音识别结果的选择。

该以往的方法在输入了叠加有噪声的声音的情况下,例如由2个噪声抑制部抑制噪声而取得2个声音,由2个声音识别部对取得的2个声音进行声音的识别,这2个噪声抑制部进行对稳定噪声追踪性较高的抑制处理和对非稳定噪声追踪性较高的抑制处理。采用rover(recognitionoutputvotingerrorreduction)等声音接合方法对通过声音识别而得到的2个声音识别结果进行整合,或者选择2个声音识别结果中似然度较高的声音识别结果,输出整合后或者选择出的声音识别结果。但是,在该以往的方法中,虽然识别精度的改善程度较大,但是存在声音识别用的处理增加这样的问题。

作为解决该问题的方法,例如在专利文献1中公开有如下的声音识别装置:计算输入噪声的声学特征参数相对于各概率声音模型的似然度,根据该似然度选择声音概率声学模型。另外,在专利文献2中公开有如下的信号识别装置:进行从输入的对象信号中去除噪声并提取表示对象信号特征的特征量数据的前处理,然后根据竞争型神经网络的聚类图的形状,将对象信号分类成多个类别并自动选择处理内容。

现有技术文献

专利文献

专利文献1:日本特开2000-194392号公报

专利文献2:日本特开2005-115569号公报



技术实现要素:

发明要解决的问题

但是,在上述的专利文献1公开的技术中,由于使用输入噪声的声学特征参数相对于各概率声音模型的似然度,因而存在有时不能选择能够得到良好的声音识别率或者声学指标的噪声抑制处理这样的问题。另外,在专利文献2公开的技术中,虽然进行对象信号的聚类,但是没有进行与声音识别率或者声学指标相关的聚类,因而存在有时不能选择能够得到良好的声音识别率或者声学指标的噪声抑制处理这样的问题。并且,上述的两种方法为了性能预测都需要进行了噪声抑制处理的声音,因而存在在学习时/使用时都必须进行一次全部作为候选的噪声抑制处理这样的问题。

本发明正是为了解决上述问题而完成的,其目的在于,不需为了选择噪声抑制方法而在使用时进行噪声抑制处理,仅根据噪声声音数据即可高精度地选择能够得到良好的声音识别率或者声学指标的噪声抑制处理。

用于解决问题的手段

本发明的声音识别装置具有:多个噪声抑制部,其对输入的噪声声音数据进行方法彼此不同的噪声抑制处理;声音识别部,其进行由噪声抑制部抑制了噪声信号后的声音数据的声音识别;预测部,其根据输入的噪声声音数据的声学特征量,预测在由多个噪声抑制部对噪声声音数据分别进行了噪声抑制处理的情况下得到的声音识别率;以及抑制方法选择部,其根据预测部预测出的声音识别率,从多个噪声抑制部中选择对噪声声音数据进行噪声抑制处理的噪声抑制部。

发明效果

根据本发明,不需为了选择噪声抑制方法而进行噪声抑制处理,即可选择能够得到良好的声音识别率或者声学指标的噪声抑制处理。

附图说明

图1是示出实施方式1的声音识别装置的结构的框图。

图2a、图2b是示出实施方式1的声音识别装置的硬件结构的图。

图3是示出实施方式1的声音识别装置的动作的流程图。

图4是示出实施方式2的声音识别装置的结构的框图。

图5是示出实施方式2的声音识别装置的动作的流程图。

图6是示出实施方式3的声音识别装置的结构的框图。

图7是示出实施方式3的声音识别装置的识别率数据库的结构例的图。

图8是示出实施方式3的声音识别装置的动作的流程图。

图9是示出实施方式4的声音增强装置的结构的框图。

图10是示出实施方式4的声音增强装置的动作的流程图。

图11是示出实施方式5的导航系统的结构的功能框图。

具体实施方式

下面,为了更详细地说明本发明,参照附图来说明用于实施本发明的方式。

实施方式1

首先,图1是示出实施方式1的声音识别装置100的结构的框图。

声音识别装置100构成为具有第1预测部1、抑制方法选择部2、噪声抑制部3以及声音识别部4。

第1预测部1由回归器构成。作为回归器构建并应用例如神经网络(neuralnetwork,下面称作nn)。在构建nn时,使用例如误差逆传播法等构建nn,该nn利用通常使用的声学特征量,如利用梅尔频率倒谱系数(mel-frequencycepstralcoefficient:mfcc)或者滤波器组特征等,作为回归器直接计算0以上1以下的声音识别率。误差逆传播法是在给出某学习数据时,修正各层之间的接合负荷/偏置等使得该学习数据与nn输出的误差减小的学习方法。第1预测部1通过例如设输入为声学特征量、设输出为声音识别率的nn,预测输入的声学特征量的声音识别率。

抑制方法选择部2参照第1预测部1预测出的声音识别率,从多个噪声抑制部3a、3b、3c中选择进行噪声抑制的噪声抑制部3。抑制方法选择部2对选择出的噪声抑制部3输出控制指示以进行噪声抑制处理。噪声抑制部3由多个噪声抑制部3a、3b、3c构成,各噪声抑制部3a、3b、3c对输入的噪声声音数据进行彼此不同的噪声抑制处理。作为彼此不同的噪声抑制处理,可以适用例如谱去除法(ss)、利用学习同定法(normalizedleastmeansquarealgorithm:nlms算法)等的自适应滤波法、利用降噪自动编码器(denoisingautoencoder)等nn的方法等。并且,根据从抑制方法选择部2输入的控制指示,决定在噪声抑制部3a、3b、3c中的哪个噪声抑制部中进行噪声抑制处理。另外,在图1的例子中,示出由3个噪声抑制部3a、3b、3c构成的例子,但构成数量不限于3个,可以适当变更。

声音识别部4对由噪声抑制部3抑制了噪声信号后的声音数据进行声音识别,输出声音识别结果。声音识别是使用例如高斯混合模型(gaussianmixturemodel)或者基于深度神经网络(deepneuralnetwork)的声学模型和基于n-gram的言语模型进行声音识别处理。另外,关于声音识别处理,能够适用公知技术来构成,因而省略详细的说明。

声音识别装置100的第1预测部1、抑制方法选择部2、噪声抑制部3以及声音识别部4通过处理电路来实现。处理电路可以是专用的硬件,也可以是执行存储器中存储的程序的cpu(centralprocessingunit:中央处理单元)、处理装置以及处理器等。

图2a示出实施方式1的声音识别装置100的硬件结构,示出处理电路由硬件执行时的框图。如图2a所示,在处理电路101是专用的硬件的情况下,第1预测部1、抑制方法选择部2、噪声抑制部3以及声音识别部4各自的功能可以分别由处理电路实现,也可以由处理电路统一实现各部的功能。

图2b示出实施方式1的声音识别装置100的硬件结构,示出处理电路由软件执行时的框图。

如图2b所示,在处理电路是处理器102的情况下,第1预测部1、抑制方法选择部2、噪声抑制部3以及声音识别部4各自的功能通过软件、固件或者软件和估计的组合而实现。将软件或固件记作程序并存储在存储器103中。处理器102通过读出并执行存储器103中存储的程序而执行各部的功能。在此,存储器103例如是ram、rom、闪存等非易失性或者易失性的半导体存储器或磁盘、光盘等。

这样,处理电路能够通过硬件、软件、固件或者它们的组合来实现上述的各功能。

下面,对第1预测部1和抑制方法选择部2的具体结构进行说明。

首先,应用回归器的第1预测部1由以声学特征量为输入、以输出为声音识别率的nn构成。第1预测部1在按照短时傅里叶变换的每帧被输入声学特征量时,通过nn由各噪声抑制部3a、3b、3c分别预测声音识别率。即,第1预测部1按照声学特征量的每帧计算适用彼此不同的噪声抑制处理时的声音识别率。抑制方法选择部2参照第1预测部1计算出的适用各噪声抑制部3a、3b、3c时的声音识别率,选择导出声音识别率最高的声音识别结果的噪声抑制部3,对选择出的噪声抑制部3输出控制指示。

图3是示出实施方式1的声音识别装置100的动作的流程图。

假设经由外部的传声器等向声音识别装置100输入噪声声音数据和该噪声声音数据的声学特征量。另外,假设噪声声音数据的声学特征量是由外部的特征量计算单元计算出来的。

在被输入噪声声音数据和该噪声声音数据的声学特征量时(步骤st1),第1预测部1以输入的声学特征量的短时傅里叶变换的帧为单位,通过nn预测由各噪声抑制部3a、3b、3c进行噪声抑制处理时的声音识别率(步骤st2)。另外,步骤st2的处理是对设定的多个帧反复进行处理。第1预测部1求出在步骤st2中以帧为单位对多个帧预测出的声音识别率的平均、最大值或者最小值,计算由各噪声抑制部3a、3b、3c进行处理时各自的预测识别率(步骤st3)。第1预测部1将计算出的预测识别率与各噪声抑制部3a、3b、3c关联起来输出给抑制方法选择部2(步骤st4)。

抑制方法选择部2参照在步骤st4中输出的预测识别率,选择显示出最高的预测识别率的噪声抑制部3,对选择出的噪声抑制部3输出控制指示以进行噪声抑制处理(步骤st5)。在步骤st5中被输入控制指示的噪声抑制部3对在步骤st1中输入的实际的噪声声音数据进行抑制噪声信号的处理(步骤st6)。声音识别部4对在步骤st6中抑制了噪声信号后的声音数据进行声音识别,取得并输出声音识别结果(步骤st7)。然后,流程图返回到步骤st1的处理,反复进行上述的处理。

如上所述,根据本实施方式1,构成为具有:第1预测部1,其由回归器构成,并由以声学特征量为输入、以输出为声音识别率的nn构成;抑制方法选择部2,其参照第1预测部1预测出的声音识别率,从多个噪声抑制部3中选择导出声音识别率最高的声音识别结果的噪声抑制部3,对选择出的噪声抑制部3输出控制指示;噪声抑制部3,其具有适用多种噪声抑制方法的多个处理部,根据抑制方法选择部2的控制指示进行噪声声音数据的噪声抑制处理;以及声音识别部4,其进行实施了噪声抑制处理后的声音数据的声音识别。因而不会增加声音识别的处理量,并且不需为了选择噪声抑制方法而进行噪声抑制处理,即可选择有效的噪声抑制方法。

例如,在以往的技术中,在作为候选的噪声抑制方法有3种的情况下,利用全部3种方法进行噪声抑制处理,根据其结果选择最佳的噪声抑制处理,但是,根据本实施方式1,即使在作为候选的噪声抑制方法有3种的情况下,也能够预先预测出性能可能最佳的方法,因而可得到如下的优点:通过仅利用该选择出的方法进行噪声抑制处理,能够削减噪声抑制处理所需要的计算量。

实施方式2

在上述的实施方式1中,示出了使用回归器选择导出声音识别率高的声音识别结果的噪声抑制部3的结构,在本实施方式2中,示出使用识别器选择导出声音识别率高的声音识别结果的噪声抑制部3的结构。

图4是示出实施方式2的声音识别装置100a的结构的框图。

实施方式2的声音识别装置100a构成为设置第2预测部1a和抑制方法选择部2a,以替代在实施方式1中示出的声音识别装置100的第1预测部1和抑制方法选择部2。另外,下面对于与实施方式1的声音识别装置100的构成要素相同或者相当的部分,标注与在实施方式1中使用的标号相同的标号并省略或者简化说明。

第2预测部1a由识别器构成。作为识别器构建并应用例如nn。在构建nn时,使用误差逆传播法构建nn,该nn利用通常采用的声学特征量,如利用mfcc或者滤波器组特征等,作为识别器进行二级分类或者多级分类等分类处理,选择识别率最高的抑制方法的标识符。第2预测部1a由如下的nn构成,该nn例如设输入为声学特征量,设最终的输出层为softmax层而进行二级分类或者多级分类,将输出作为导出声音识别率最高的声音识别结果的抑制方法id(identification)。nn的示教数据能够使用仅将导出声音识别率最高的声音识别结果的抑制方法设为“1”而将其它方法设为“0”的向量,或者对识别率乘以sigmoid等进行加权而得到的数据(sigmoid((该系统的识别率-(max(识别率)-min(识别率)/2))/σ)。其中,σ是比例系数。

当然,也可以考虑使用svm(supportvectormachine:支持向量机)等其它分类器。

抑制方法选择部2a参照第2预测部1a预测出的抑制方法id,从多个噪声抑制部3a、3b、3c中选择进行噪声抑制的噪声抑制部3。噪声抑制部3与实施方式1同样能够适用谱去除法(ss)、自适应滤波法、使用nn的方法等。抑制方法选择部2a对选择出的噪声抑制部3输出控制指示以进行噪声抑制处理。

下面,对声音识别装置100a的动作进行说明。

图5是示出实施方式2的声音识别装置100a的动作的流程图。另外,下面对与实施方式1的声音识别装置100相同的步骤,标注与在图3中使用的标号相同的标号并省略或者简化说明。

假设经由外部的传声器等向声音识别装置100a输入噪声声音数据和该噪声声音数据的声学特征量。

在被输入噪声声音数据和该噪声声音数据的声学特征量时(步骤st1),第2预测部1a以输入的声学特征量的短时傅里叶变换的帧为单位,通过nn预测导出声音识别率最高的声音识别结果的噪声抑制方法的抑制方法id(步骤st11)。

第2预测部1a在步骤st11中求出以帧为单位预测出的抑制方法id的最频值或者平均值,取得该最频值或者平均值的抑制方法id作为预测抑制方法id(步骤st12)。抑制方法选择部2a参照在步骤st12中取得的预测抑制方法id,选择与取得的预测抑制方法id对应的噪声抑制部3,对选择出的噪声抑制部3输出控制指示以进行噪声抑制处理(步骤st13)。然后,进行与在实施方式1中示出的步骤st6和步骤st7相同的处理。

如上所述,根据本实施方式2,构成为具有:第2预测部1a,其适用识别器,并由以声学特征量为输入、将输出作为导出声音识别率最高的声音识别结果的抑制方法的id的nn构成;抑制方法选择部2a,其参照第2预测部1a预测出的抑制方法id,从多个噪声抑制部3中选择导出声音识别率最高的声音识别结果的噪声抑制部3,对选择出的噪声抑制部3输出控制指示;噪声抑制部3,其具有与多种噪声抑制处理分别对应的多个处理部,根据抑制方法选择部2a的控制指示进行噪声声音数据的噪声抑制处理;以及声音识别部4,其进行实施了噪声抑制处理后的声音数据的声音识别。因而不会增加声音识别的处理量,并且不需为了选择噪声抑制方法而进行噪声抑制处理,即可选择有效的噪声抑制方法。

实施方式3

在上述的实施方式1、2中,示出了按照短时傅里叶变换的每帧向第1预测部1或者第2预测部1a输入声学特征量,按照输入的每帧预测声音识别率或者抑制方法id的结构。另一方面,在本实施方式3中示出如下的结构:使用讲话单位的声学特征量,从预先学习到的数据中选择与实际输入到声音识别装置的噪声声音数据的声学特征量最接近的讲话,根据选择出的讲话的声音识别率进行噪声抑制部的选择。

图6是示出实施方式3的声音识别装置100b的结构的框图。

实施方式3的声音识别装置100b构成为设置具有特征量计算部5、相似度计算部6和识别率数据库7的第3预测部1c以及抑制方法选择部2b,以替代在实施方式1中示出的声音识别装置100的第1预测部1以及抑制方法选择部2。

另外,下面对于与实施方式1的声音识别装置100的构成要素相同或者相当的部分,标注与在实施方式1中使用的标号相同的标号并省略或者简化说明。

构成第3预测部1c的特征量计算部5根据输入的噪声声音数据,按照讲话单位计算声学特征量。另外,讲话单位的声学特征量的计算方法的具体情况容后再述。相似度计算部6参照识别率数据库7,对特征量计算部5计算出的讲话单位的声学特征量与识别率数据库7中存储的声学特征量进行对照,计算声学特征量的相似度。相似度计算部6取得由与具有计算出的相似度中的最高相似度的声学特征量对应的各噪声抑制部3a、3b、3c进行噪声抑制时的声音识别率的组,并输出给抑制方法选择部2b。声音识别率的组例如是“声音识别率1-1、声音识别率1-2、声音识别率1-3”和“声音识别率2-1、声音识别率2-2、声音识别率2-3”等。抑制方法选择部2b参照从相似度计算部6输入的声音识别率的组,从多个噪声抑制部3a、3b、3c中选择进行噪声抑制的噪声抑制部3。

识别率数据库7是将多个学习数据的声学特征量和由各噪声抑制部3a、3b、3c对该声学特征量进行噪声抑制时的声音识别率对应起来进行存储的存储区域。

图7是示出实施方式3的声音识别装置100b的识别率数据库7的结构例的图。

识别率数据库7将学习数据的声学特征量和由各噪声抑制部(在图7的例子中是第1、第2、第3噪声抑制部)对各学习数据进行噪声抑制处理后的声音数据的声音识别率对应起来进行存储。在图7中,例如示出对于第1声学特征量v(r1)的学习数据,第1噪声抑制部进行噪声抑制处理后的声音数据的声音识别率是80%,第2噪声抑制部进行噪声抑制处理后的声音数据的声音识别率是75%,第3噪声抑制部进行噪声抑制处理后的声音数据的声音识别率是78%。另外,识别率数据库7也可以构成为对学习数据进行分类,将分类后的学习数据的识别率和声学特征量对应起来进行存储,并抑制数据量进行存储。

下面,对特征量计算部5进行的讲话单位的声学特征量的计算进行详细说明。

作为讲话单位的声学特征量,可以适用声学特征量的平均向量、基于全局背景模型(universalbackgroundmodel,ubm)的平均似然度向量、i-vector等。特征量计算部5对作为识别对象的噪声声音数据,分别按照讲话单位计算上述的声学特征量。例如,在适用i-vector作为声学特征量的情况下,将高斯混合模型(gaussianmixturemodel,gmm)适应于讲话r,利用由预先求出的ubm的超级向量v和定义低级的全部变量平面的基向量构成的矩阵t,根据下面的式(1)对得到的超级向量v(r)进行因数分解。

v(r)=v+tw(r)(1)

根据上述的式(1)得到的w(r)是i-vector。

按照下面的式(2)所示,使用euclid距离或者cosine相似度测定讲话单位的声学特征量之间的相似性,从学习数据rt中选择与当前的评价数据re最接近的讲话r’t。在用sim表示相似度的情况下,选择用下面的式(3)表示的讲话。

如果对学习数据rt求出预先利用第i个噪声抑制部3和声音识别部4得到的单词错误率wtr(i,rt),则按照下面的式(4)所示,根据识别性能选择最适合于re的系统i’。

另外,在上述的说明中,以2种噪声抑制方法的情况为例进行了说明,但是,也能够适用于3种以上噪声抑制方法的情况。

下面,对声音识别装置100b的动作进行说明。

图8是示出实施方式3的声音识别装置100b的动作的流程图。另外,下面对与实施方式1的声音识别装置100相同的步骤,标注与在图3中使用的标号相同的标号并省略或者简化说明。

假设经由外部的传声器等向声音识别装置100b输入噪声声音数据。

在被输入噪声声音数据时(步骤st21),特征量计算部5根据输入的噪声声音数据计算声学特征量(步骤st22)。相似度计算部6对在步骤st22中计算出的声学特征量和识别率数据库7中存储的学习数据的声学特征量进行比较,计算相似度(步骤st23)。相似度计算部6选择显示出在步骤st23中计算出的声学特征量的相似度中的最高相似度的声学特征量,参照识别率数据库7取得与选择出的声学特征量对应的识别率的组(步骤st24)。在步骤st24中,在使用euclid距离作为声学特征量间的相似性的情况下,取得距离最短的识别率的组。

抑制方法选择部2b选择在步骤st24中取得的识别率的组中显示出最高识别率的噪声抑制部3,对选择出的噪声抑制部3输出控制指示以进行噪声抑制处理(步骤st25)。然后,进行与上述的步骤st6和步骤st7相同的处理。

如上所述,根据本实施方式3,构成为具有:特征量计算部5,其根据噪声声音数据计算声学特征量;相似度计算部6,其参照识别率数据库7计算计算出的声学特征量与学习数据的声学特征量之间的相似度,取得与显示出最高相似度的声学特征量对应的声音识别率的组;以及抑制方法选择部2b,其选择在取得的声音识别率的组中显示出最高声音识别率的噪声抑制部3。因而具有如下的效果:能够按照讲话单位进行声音识别性能的预测,高度地预测声音识别性能,通过使用固定维数的特征量,使得相似性的计算变得容易。

另外,在上述的实施方式3中,示出了声音识别装置100b具有识别率数据库7的结构,但是,也可以构成为相似度计算部6参照外部的数据库进行与声学特征量之间的相似度的计算以及识别率的取得。

另外,在上述的实施方式3中,在按照讲话单位进行声音识别的情况下产生延迟,但是,在不能允许该延迟的情况下,也可以构成为使用讲话开始后的最初数秒的讲话来参照声学特征量。并且,当与在成为声音识别对象的讲话之前进行的讲话之间环境没有变化的情况下,也可以构成为使用前面的讲话中的噪声抑制部3的选择结果进行声音识别。

实施方式4

在上述的实施方式3中,示出了参照将学习数据的声学特征量与声音识别率对应起来的识别率数据库7选择噪声抑制方法的结构,在本实施方式4中,示出参照将学习数据的声学特征量与声学指标对应起来的声学指标数据库选择噪声抑制方法的结构。

图9是示出实施方式4的声音增强装置200的结构的框图。

实施方式4的声音增强装置200构成为设置具有特征量计算部5、相似度计算部6a和声学指标数据库8的第4预测部1d以及抑制方法选择部2c,以替代在实施方式3中示出的声音识别装置100b的具有特征量计算部5、相似度计算部6和识别率数据库7的第3预测部1c以及抑制方法选择部2b。并且,不具备声音识别部4。

另外,下面对于与实施方式3的声音识别装置100b的构成要素相同或者相当的部分,标注与在实施方式3中使用的标号相同的标号并省略或者简化说明。

声学指标数据库8是将多个学习数据的声学特征量与由各噪声抑制部3a、3b、3c对各学习数据进行了噪声抑制时的声学指标对应起来进行存储的存储区域。在此,声学指标是指根据抑制了噪声后的增强声音和抑制噪声前的噪声声音计算出的pesq或者snr/sdr等。另外,声学指标数据库8也可以构成为对学习数据进行分类,将分类后的学习数据的声学指标与声学特征量对应起来进行存储,抑制数据量进行存储。

相似度计算部6a参照声学指标数据库8,对特征量计算部5计算出的讲话单位的声学特征量与声学指标数据库8中存储的声学特征量进行对照,计算声学特征量的相似度。相似度计算部6a取得与具有计算出的相似度中的最高相似度的声学特征量对应的声学指标的组,并输出给抑制方法选择部2c。作为声学指标的组,例如是“pesq1-1、pesq1-2、pesq1-3”和“pesq2-1、pesq2-2、pesq2-3”等。

抑制方法选择部2参照从相似度计算部6a输入的声学指标的组,从多个噪声抑制部3a、3b、3c中选择进行噪声抑制的噪声抑制部3。

下面,对声音增强装置200的动作进行说明。

图10是示出实施方式4的声音增强装置200的动作的流程图。假设经由外部的传声器等向声音增强装置200输入噪声声音数据。

在被输入噪声声音数据时(步骤st31),特征量计算部5根据输入的噪声声音数据计算声学特征量(步骤st32)。相似度计算部6a对在步骤st32中计算出的声学特征量与声学指标数据库8中存储的声学特征量进行比较,计算相似度(步骤st33)。相似度计算部6a选择显示出在步骤st33中计算出的声学特征量的相似度中的最高相似度的声学特征量,取得与选择出的声学特征量对应的声学指标的组(步骤st34)。

抑制方法选择部2c选择在步骤st34中取得的声学指标的组中显示出最高声学指标的噪声抑制部3,对选择出的噪声抑制部3输出控制指示以进行噪声抑制处理(步骤st35)。在步骤st35中被输入控制指示的噪声抑制部3对在步骤st31中输入的实际的噪声声音数据进行抑制噪声信号的处理,取得并输出增强声音(步骤st36)。然后,流程图返回到步骤st31的处理,反复进行上述的处理。

如上所述,根据本实施方式4,构成为具有:特征量计算部5,其根据噪声声音数据计算声学特征量;相似度计算部6a,其参照声学指标数据库8计算计算出的声学特征量与学习数据的声学特征量之间的相似度,取得与显示出最高相似度的声学特征量对应的声学指标的组;以及抑制方法选择部2c,其选择在取得的声学指标的组中显示出最高声学指标的噪声抑制部3。因而具有如下的效果:能够按照讲话单位进行声音识别性能的预测,高度地预测声音识别性能,通过使用固定维数的特征量,使得相似性的计算变得容易。

另外,在上述的实施方式4中,示出了声音增强装置200具有声学指标数据库8的结构,但是,也可以构成为相似度计算部6a参照外部的数据库进行与声学特征量之间的相似度的计算以及声学指标的取得。

另外,在上述的实施方式4中,在按照讲话单位进行声音识别的情况下产生延迟,但是,在不能允许该延迟的情况下,也可以构成为使用讲话开始后的最初数秒的讲话来参照声学特征量。并且,当与在成为增强声音取得对象的讲话之前进行的讲话之间环境没有变化的情况下,也可以构成为使用前面的讲话中的噪声抑制部3的选择结果进行增强声音的取得。

实施方式5

上述的实施方式1~3的声音识别装置100、100a、100b以及实施方式4的声音增强装置200能够适用于例如具有基于声音的通话功能的导航系统、电话应对系统、电梯等。在本实施方式5中,示出将实施方式1的声音识别装置适用于导航系统的情况。

图11是示出实施方式5的导航系统300的结构的功能框图。

导航系统300例如是搭载于车辆来执行前往目的地的路径引导的装置,具有信息取得装置301、控制装置302、输出装置303、输入装置304、声音识别装置100、地图数据库305、路径计算装置306以及路径引导装置307。导航系统300的各装置的动作由控制装置302统一控制。

信息取得装置301具有例如当前位置检测单元、无线通信单元以及周围信息检测单元等,取得本车辆的当前位置、本车辆周围、其它车辆检测出的信息。输出装置303具有例如显示单元、显示控制单元、声音输出单元以及声音控制单元等,向用户通知信息。输入装置304由传声器等声音输入单元、按钮、触摸面板等操作输入单元实现,受理来自用户的信息输入。声音识别装置100是具有在实施方式1示出的结构和功能的声音识别装置,对经由输入装置304输入的噪声声音数据进行声音识别,取得声音识别结果并输出给控制装置302。

地图数据库305是存储地图数据的存储区域,例如作为hdd(harddiskdrive:硬盘驱动器)、ram(randomaccessmemory:随机存取存储器)等存储装置来实现。路径计算装置306将信息取得装置301取得的本车辆的当前位置作为出发地,将声音识别装置100的声音识别结果作为目的地,根据地图数据库305中存储的地图数据计算从出发地到目的地的路径。路径引导装置307按照由路径计算装置306计算出的路径来引导本车辆。

导航系统300在从构成输入装置304的传声器输入包含用户讲话的噪声声音数据时,声音识别装置100对该噪声声音数据进行在上述图3的流程图中示出的处理,取得声音识别结果。路径计算装置306根据从控制装置302和信息取得装置301输入的信息,将信息取得装置301取得的本车辆的当前位置作为出发地,将声音识别结果所示的信息作为目的地,根据地图数据计算从出发地到目的地的路径。路径引导装置307经由输出装置303输出按照路径计算装置306计算出的路径而计算出的路径引导信息,对用户进行路径引导。

如上所述,根据本实施方式5,构成为针对输入到输入装置304的包含用户讲话的噪声声音数据,声音识别装置100通过被预测为导出表示良好的声音识别率的声音识别结果的噪声抑制部3进行噪声抑制处理,进行声音识别。因而能够根据声音识别率良好的声音识别结果进行路径计算,能够进行符合用户期望的路径引导。

另外,在上述的实施方式5中,示出了将在实施方式1中示出的声音识别装置100适用于导航系统300的结构,但是,也可以构成为适用在实施方式2中示出的声音识别装置100a、在实施方式3中示出的声音识别装置100b或者在实施方式4中示出的声音增强装置200。在将声音增强装置200适用于导航系统300的情况下,假设导航系统300侧具有对增强声音进行声音识别的功能。

除了上述以外,本发明能够在该发明的范围内进行各实施方式的自由组合、或者各实施方式的任意构成要素的变形、或者在各实施方式中省略任意的构成要素。

产业上的可利用性

本发明的声音识别装置和声音增强装置能够选择可得到良好的声音识别率或者声学指标的噪声抑制方法,因而能够适合于导航系统、电话应对系统以及电梯等具有通话功能的装置。

标号说明

1第1预测部;1a第2预测部;2、2a、2b抑制方法选择部;3、3a、3b、3c噪声抑制部;4声音识别部;5特征量计算部;6、6a相似度计算部;7识别率数据库;8声学指标数据库;100、100a、100b声音识别装置;200声音增强装置;300导航系统;301信息取得装置;302控制装置;303输出装置;304输入装置;305地图数据库;306路径计算装置;307路径引导装置。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1