声音识别装置以及方法

文档序号：2821624阅读：209来源：国知局

专利名称：声音识别装置以及方法
技术领域：
本发明涉及识别使用者发出的声音指令并进行仪器控制的声音识别装置以及方法，特别涉及具有将所识别的说话声音反馈给使用者的对讲(talkback)功能的声音识别装置。
背景技术：
现有，在例如车辆上所搭载的导航装置、免提装置或者个人电子计算机等领域中，通过使用遥控器、触摸屏、键盘或者鼠标以及声音识别装置，使用者可以通过输入声音进行仪器的操作。
在这种声音识别装置中，通过按下所配备的说话按钮进入声音识别模式，识别使用者的说话声音执行指令。说话方法主要包括两种。第1种方法为使用者按一下说话按钮则进入声音识别模式，必要时仪器提醒使用者进行声音输入，使用者与仪器之间以对话的方式进行交流的方法。第2种方法为使用者每次按下说话按钮只可以在一定时间里进行声音输入的方法。
几乎所有的声音识别装置都具有将所识别的说话声音从扬声器等向使用者反馈的对讲功能。使用者听到对讲声音确认是否正确，如果发现错误就进行声音输入修正，正确的话将命令指示给声音识别装置。声音识别装置通过接受该指示执行各种控制。
通常，在声音识别装置中所预备的多个声音指令根据操作内容对控制对象的仪器分成多个层次进行管理。比如，在导航装置中，用地址设定目的地时，按照[都道府县→市区街村→地址以及其它]的形式，将地址分成多个分层进行声音输入。
此时，由于在每次进行各分层声音输入时都要进行对讲，因此，在一连串的声音输入完成时大多要花费很长的时间。对此，就有了缩短声音的识别时间的尝试。其中一个例子就是提出了削减对讲的运算量以求达到缩短识别时间的装置(参照例如专利文献1)。
日本专利特开平6-149287号公报但是，现有的声音识别装置在进行对讲的中间时，为不能接受下一个声音输入的状态。如果对讲的声音与说话声音混杂的话，容易发生误识别说话声音的情况。图4(a)为表示现有的声音识别装置的接受声音输入状态的变化的形式的时间图。另外，该图4(a)表示上述第1说话方法的接受声音输入的状态的变化。
如图4(a)所示，在第1说话方法中，使用者最初按下说话按钮就进入声音识别模式，进入在一定时间内接受声音输入的状态。使用者在进入接受声音输入状态的期间发出所希望的声音指令。虽然在进行发声时，声音识别装置进行该输入声音的识别处理以及对讲处理，但此时为不接受声音输入的状态。当对讲完成时，再次进入接受声音输入的状态，可以进行下一个声音输入。
这样，在第1说话方法中，由于在对讲完成之前不能接受下一个声音输入，因此使用者不能在所希望的时间里说话。即，必须要等到听完对讲之后，所以就出现了进行一连串的声音输入需要花费很长的时间的问题。
而如果采用第2种说话方法的话，通过按下说话按钮来中断对讲，可以进行下一次声音输入。但是，在此种情况下，在横跨多个分层进行声音输入时，在每次进行各分层的声音输入时都必须按下说话按钮，所以又出现了操作非常繁杂的问题。

发明内容
本发明就是为了解决这些问题，目的是不需要进行多次按下说话按钮的繁杂的操作，使缩短声音识别的操作时间成为可能。
为了解决上述问题，本发明的声音识别装置用自适应滤波器模拟从扬声器输出并输入到麦克风中的对讲声音，从麦克风输入声音中减去该对讲模拟声音，由此从说话声音与对讲声音混杂的麦克风输入声音中只提取说话声音。
如果采用上述结构的本发明，即使在进行对讲的过程中输入声音，也可以除去对讲声音而只提取说话声音并提供给声音识别引擎。由此，即使在对讲过程中输入声音也能够抑制产生说话声音的误识别的错误情况，即使在对讲过程中也可随时接受声音的输入。
附图的简要说明图1表示第1实施形态的声音识别装置的主要部分的结构的方框2表示自适应滤波器的结构的3表示第1实施形态的声音识别处理的动作的流程4A、4B表示将本实施形态的接受声音输入的状态的变化形式与现有技术相比较的时间5表示第2实施形态的声音识别装置的主要部分结构的方框6表示第2实施形态的声音识别处理的动作的流程7表示第3实施形态的声音识别装置的主要部分结构的方框图本发明的实施形态(第1实施形态)下面根据

本发明的第1实施形态。图1为表示第1实施形态的声音识别装置的主要部分的结构的方框图。
如图1所示，本实施形态的声音识别装置100的结构包括音量装置(volumn)或者均衡器(以下简单称为音量装置等)1、增益控制器2、输出放大器3、自适应滤波器(ADF)4、减法器5、声音输出单元51、扬声器52、麦克风53以及声音识别引擎54。
声音输出单元51生成对讲声音进行输出处理。扬声器52输出由音量装置1等进行增益控制并再次由输出放大器3增幅的对讲声音。麦克风53是说话声音输入用部件，实际上，不只是发出的声音指令，从扬声器52输出的对讲声音、行走噪音等周围噪音也全部输入同一个麦克风53中。声音识别引擎54识别由麦克风输入的说话声音，对图中没有示出的控制对像的仪器(比如，导航装置)执行与该说话声音相对应的指令。
如图2所示，自适应滤波器4的结构中包含系数鉴别单元21以及声音修正滤波器22。系数鉴别单元21是用来识别从扬声器52到麦克风53之间的音响系统的传递函数(声音修正滤波器22的滤波系数)的滤波器，使用基于LMS(Least Mean Square最小均方)算法和N-LMS(Normalized-LMS标准最小均方)算法的自适应滤波器。该系数鉴别单元21动作，使减法器5输出的误差e(n)的功率最小，鉴别音响系统的脉冲应答。
声音修正滤波器22通过使用系数鉴别单元21所确定的滤波系数w(n)和作为控制对象的对讲声音x(n)进行叠加运算，将与上述音响系统相同的传达特性付与对讲声音x(n)。由此，生成模拟了麦克风53的位置上的对讲声音的对讲模拟声音y(n)。这样，自适应滤波器4构成了本发明的自适应滤波器。
减法器5通过将麦克风53输入的声音(声音指令、对讲声音和环境噪音混杂一起的声音)减去自适应滤波器4生成的对讲模拟声音y(n)，提取声音指令(说话声音)和环境噪音(例如行走噪音)。这样，减法器5构成本发明的说话声音提取单元。
该减法器5提取的说话声音和环境噪音的混杂声音提供给声音识别引擎54。声音识别引擎54在进行杂音处理之后进行声音指令的识别处理。此时的杂音处理是指由滤波器进行的处理和频谱子结构(スペクトラムサブストラクシヨン)等现有的代表性的处理。另外，减法器5所提取的说话声音以及环境噪音的混杂声音也反馈给自适应滤波器4的系数鉴别单元21以及增益控制器2作为误差e(n)。
增益控制器2根据自适应滤波器4输出的对讲模拟声音y(n)和减法器5输出的说话声音以及环境噪音的混杂声音e(n)计算出对声音输出单元51输出的控制对象的对讲声音施加的最适合的增益，将计算出的增益值输出给音量装置1等。在这里，将说话声音以及环境噪音的混杂声音e(n)看作是对讲声音的噪音，为了使使用者能清晰地听到扬声器52输出的对讲声音，进行该对讲声音的增益调整。
音量装置1等对声音输出单元51输出的对讲声音进行增益修正。即，将增益控制器2算出的增益给予声音输出单元51输出的对讲声音，由此修正该对讲声音。该修正例如分别对分割成多个频率的每一个进行。
接下来，对有上述结构的声音识别装置100的动作进行简单的说明。声音输出51输出的对讲声音通过音量装置1等以及增益控制器2进行增益调整，改善该对讲声音的清晰度。音量装置1等输出的对讲声音在输出放大器3中进行一定倍率的增幅后，从扬声器52输出。
扬声器52输出的对讲声音由麦克风53输入。此时如果使用者发出声音指令，该说话声音也由麦克风53输入。并且，如果是在行走中，发动机声音和道路噪音等环境噪音也由麦克风53输入。因此，对讲声音和说话声音以及环境噪音以混杂一起的状态输入麦克风53。该混杂声音输入减法器5的正极端。而自适应滤波器4生成的对讲模拟声音(对讲声音的推定值)输入减法器5的负极端。
减法器5将麦克风53输入的对讲声音、说话声音和环境噪音的混杂声音减去自适应滤波器4输入的对讲模拟声音，由此算出误差，提取说话声音和环境噪音。提取的说话声音和环境噪音提供给声音识别引擎54。由此进行降低环境噪音的处理以及与声音指令相对应的处理。另外，上述提取的说话声音和环境噪音也反馈给增益控制器2以及自适应滤波器4，用于对讲声音的清晰度改善处理以及对讲声音的推定运算处理。
图3为表示第1实施形态中的声音识别处理的动作的流程图。另外，虽然图1中没有图示，但在声音识别装置100还设置了进行与声音识别有关的整体控制的控制器，图3所示的流程按照该控制器的控制实施。
在图3中，当控制器探测到开始声音识别的触发(例如，按下说话按钮，一定关键字的声音输入等)(步骤S1)，激活声音识别引擎54，然后进入接受声音输入的状态(步骤S2)。在这一状态下，使用者发出位于被分割成多个分层管理的声音指令的最上层的第1指令(步骤S3)。
在这里发出的声音指令由麦克风53输入，通过减法器5提供给声音识别引擎54。声音识别引擎54接受声音指令后进行声音识别处理(包括降低噪音)(步骤S4)。此时，控制器使声音识别引擎54返回到非激活状态，解除接受声音输入的状态。接下来，音量装置1等以及增益控制器2开始进行对讲声音的清晰度改善处理(步骤S5)。在这种状态下，声音输出单元51开始声音识别引擎54得出的识别结果以及引导内容的声音对讲(步骤S6)。
在进行该对讲期间，控制器判定是否有必要继续进行声音操作(步骤S7)。在这里，再转移至更下层，判定是否有必要再继续输入声音指令。如果有必要继续进行声音操作，则再次激活声音识别引擎54，进入接受声音输入的状态(步骤S8)。之后，减法器5从自适应滤波器4获得在上述步骤S6中输出的对讲声音的推定值，将从麦克风53输入的声音减去获得的推定值，由此除去从麦克风输入的声音中的对讲声音(步骤S9)。
然后，控制器判定是否有声音指令发出(步骤S10)。没有发出声音时返回步骤S9，反复这种循环处理直至有声音发出。另外，如果在一定时间内没有任何声音发出的话，进行暂停处理。而当发出声音指令时，在此刻中断对讲(步骤S11)，返回步骤S4的处理。当然，虽然这里在进行说话时中断对讲，但是因为即使进行对讲也可以除去该声音只提取说话声音，所以不一定非要中断对讲。
图4为将本实施形态中的接受声音输入的状态的变化的形式与现有的技术相比较的时间图，(a)为现有技术，(b)表示本实施形态。当然，对于图4(a)的动作已经进行了说明。
如图4(b)所示，在本实施形态中，使用者最初按下说话按钮时进入声音识别模式，进入只在一定时间内接受声音输入的状态。使用者在进入接受声音输入的状态期间发出所希望的声音指令。一旦输入声音指令，就进行该输入声音的识别处理以及对讲处理。这之前的操作与图4(a)所示的现有技术相同。
在图4(a)所示的现有技术中，在进行对讲期间处于不能接受声音输入的状态。与之相反，在图4(b)所示的本实施形态中，在识别处理结束的阶段自动进入接受声音输入的状态，不必等到对讲结束，可以在希望的时间里进行下一个声音输入。由此就可以减少等待时间。
如以上的详细说明，如果采用本实施形态，在对讲时也可以随时接受声音输入，可以不必等待对讲结束而在希望的时间内随时进行声音输入。而且，也不必每次说话都按下说话按钮。由此，不必进行繁杂的按钮操作，可以缩短一连串的声音识别所需的操作时间。
另外，本实施形态利用用于改善对讲声音的清晰度而设置的自适应滤波器4推定的模拟声音，除去从麦克风输入的声音中的对讲声音。因此不必为了除去对讲声音而另外导入专用的自适应滤波器。因此可以在不增加成本的情况下，改善对讲声音的清晰度，同时，也能够缩短声音识别操作的时间。
(第2实施形态)接下来，对本发明的第2实施形态进行说明。图5是表示第2实施形态中的声音识别装置的主要部分结构的方框图。另外，在图5中，因为添加了与图1所示的符号相同的符号的单元为具有相同功能的单元，所以在这里就省略了重复的说明。
如图5所示，本实施形态的声音识别装置200的结构为除图1所示的结构外，还包括输出放大器6-1，6-2、第2自适应滤波器7-1、7-2、加法器8、减法器9、音频再生单元61以及多声道(右声道、左声道)扬声器62-1、62-2。
音频再生单元61为再生CD(Compact Disc压密盘)、MD(MiniDisc小型盘)、DVD(Digital Versatile Disc数字化视频光盘)、广播等各种音频信号源的单元。输入放大器6-1、6-2以一定的倍率增幅音频再生单元61再生的左右声道的音频音，从各声道的扬声器62-1、62-2中输出。从扬声器62-1、62-2中输出的音频音与说话声音以及扬声器52输出的对讲声音同时输入麦克风53。
第2自适应滤波器7-1、7-2也如图2同样的结构。一个自适应滤波器7-1鉴别模拟了从右声道的扬声器62-1至麦克风53的传递系统的滤波系数，对右声道的音频音进行滤波处理，由此生成右声道的音频模拟声音。
并且，另一个自适应滤波器7-2鉴别模拟了从右声道的扬声器62-2至麦克风53的传递系统的滤波系数，对右声道的音频音进行滤波处理，由此生成右声道的音频模拟声音。
这样，在第2实施形态中，自适应滤波器4构成本发明的第1自适应滤波器，第2自适应滤波器7-1、7-2构成本发明的第2自适应滤波器。加法器8将从第2自适应滤波器7-1、7-2输出的左右声道的音频模拟音相加输出给减法器9。
在本实施形态中，减法器5将从麦克风53输入的声音(声音指令、对讲、音频音和环境噪音混杂在一起的声音)减去自适应滤波器4生成的对讲模拟声音，由此提取声音指令、音频音和环境噪音。而且，减法器9将减法器5输出的声音减去自适应滤波器7-1、7-2以及加法器8所生成的音频模拟声音，由此提取声音指令(说话声音)和环境噪音。这样，减法器5、9构成本发明的说话声音提取单元。
用声音识别引擎54降低减法器5提取的声音指令、音频音和环境噪音的混杂声音中的环境噪音，只识别处理声音指令。并且，该减法器5提取的说话声音、音频音和环境噪音的混杂声音反馈给增益控制器2以及自适应滤波器4。另外，减法器9提取的说话声音和环境噪音的混杂声音提供给声音识别引擎54，同时反馈给在第2自适应滤波器7-1、7-2。
下面简单地说明上述结构的第2实施形态的声音识别装置200的动作。声音输出单元5 1输出的对讲声音用音量装置1等和增益控制器2进行增益调整，改善该对讲声音的清晰度。音量装置1等输出的对讲声音在输出放大器3中以一定的倍率增幅后从扬声器52输出。
并且，音频再生单元61输出的音频音在输出放大器6-1、6-2中以一定的倍率增幅后，从扬声器62-1、62-2中输出。
扬声器52输出的对讲声音、扬声器62-1、62-2输出的音频声音由麦克风53输入。此时，如果使用者发出声音指令的话，其说话声音也由麦克风53输入。并且，如果在行走中，发动机声音和道路噪音等环境噪音也由麦克风53输入。因此，对讲声音、音频音、说话声音和环境噪音以混杂的状态从麦克风53中输入。
这种混杂在一起的声音输入减法器5的正极端。而自适应滤波器4生成的对讲模拟声音输入减法器5的负极端。减法器5将麦克风53输入的混杂声音减去自适应滤波器4输出的对讲模拟声音，由此算出误差，提取音频声音、说话声音和环境噪音。
提取的音频音、说话声音和环境噪音的混杂声音输入到减法器9的正极端。而自适应滤波器7-1、7-2以及加法器8生成的音频模拟声音输入到减法器9的负极端。减法器9将从减法器5输入的混杂声音减去加法器8输入的音频模拟声音，算出误差，提取说话声音和环境噪音。
所提取的说话声音以及环境噪音提供给声音识别引擎54。由此进行降低环境噪音的处理以及与声音指令相对应的处理。减法器5所提取的音频音、说话声音和环境噪音也反馈给增益控制器2以及自适应滤波器4，用于改善对讲声音的清晰度的处理以及推定对讲声音的运算的处理。并且，减法器9提取的说话声音和环境噪音也反馈给自适应滤波器7-1、7-2，用于推定音频音的运算处理。
图6为表示第2实施形态的声音识别处理的动作的流程图。当然，在该图6中，由于添加了与图3所示的步骤编号相同的编号的处理表示相同的处理内容，所以在这里就省略了重复的说明。在图6中与图3不同的只是在步骤S2与步骤S3之间以及步骤S9与步骤S10之间分别加入了除去音频音的处理(步骤S21、S22)。
在步骤S21、S22中，除去音频音的处理是用运算器9将减法器5输出的声音减去加法器8输入的音频音的推定值，由此除去音频音、说话声音和环境噪音的混杂声音中的音频音，提取说话声音和环境噪音。
如以上的详细说明，如果采用第2实施形态，即使在进行对讲并且进行音频再生时输入声音，也可以从麦克风输入的声音中除去对讲声音和音频声音，提取说话声音和环境噪音并提供给声音识别引擎54。因此，即使是在进行对讲和音频再生的过程中也可以随时接受声音输入，使用者可以在所希望的时间进行声音输入，能够缩短声音识别的操作时间。
(第3实施形态)接下来，对本发明的第3实施形态进行说明。图7是表示第3实施形态中的声音识别装置的主要部分结构的方框图。另外，在图7中，由于添加了与图5所示的符号相同符号的单元具有相同的功能，所以在这里就省略了重复的说明。
上述图5所示的第2实施形态就对讲声音的输出处与音频音的输出处不同时的情况进行了说明。与之相反，图7所示的第3实施形态表示对讲声音的输出处和音频音的输出处相同时的情况。
即，在图7所示的第3实施形态的声音识别装置300中，没有设置图5所示的输出放大器3，只设置了两个输出放大器6-1、6-2。并且，本实施形态的声音识别装置300的结构是设置了可变滤波器10取代图5所示的自适应滤波器4，而且设置了加法器11。其它的结构与图5相同。
在图7中，加法器11将音量装置1等输出的对讲声音与音频再生单元61再生的右声道的音频音相加，输出给输出放大器6-1以及自适应滤波器7-1。输出放大器6-1以一定的倍率增幅加法器11输出的声音，从右声道的扬声器62-1输出。
并且，自适应滤波器7-1鉴别模拟了从右声道的扬声器62-1至麦克风53的传递系统的滤波系数。然后使用该鉴别的滤波系数滤波处理加法器11输出的对讲声音与右声道的音频声音混杂在一起的声音，由此生成模拟了该混杂声音的声音。
可变滤波器10是滤波系数为可变的结构的声音修正滤波器，复制右声道的自适应滤波器7-1鉴别的滤波系数，进行设定。然后，滤波处理音量装置1等输出的对讲声音，由此生成在麦克风53的位置的对讲模拟声音。该可变滤波器10构成本发明的可变滤波器。
这里，作为可变滤波器10的滤波系数的复制源的右声道的自适应滤波器7-1是模拟从输出对讲声音的右声道的扬声器62-1至麦克风53的传递系统的自适应滤波器。比如，将本实施形态的声音识别装置300用于导航装置时，从设置在靠近驾驶座位置的右声道的扬声器62-1输出对讲声音，用于输入该声音的麦克风53也设置在驾驶座附近。因此，此时最好将右声道的自适应滤波器7-1的滤波系数复制给可变滤波器10。此外，驾驶座位于左侧时，最好将左声道的自适应滤波器7-2的滤波系数复制给可变滤波器10。
接下来，对具有上述结构的第3实施形态的声音识别装置300的动作进行简单的说明。声音输出单元51输出的对讲声音用音量装置1等以及增益控制器2进行增益调整，改善该对讲声音的清晰度。
音量装置1等输出的对讲声音，利用加法器11加到音频再生单元61再生的右声道的音频音中，在输出放大器6-1中以一定的倍率增幅后，从扬声器62-1输出。并且，音频再生单元61再生的左声道的音频音在输出放大器6-2中以一定的倍率增幅后，从扬声器62-2输出。
扬声器62-1输出的声音(对讲声音和右声道音频音的混杂声音)、扬声器62-2输出的左声道音频音由麦克风53输入。此时如果使用者发出声音指令的话，其说话声音也由麦克风53输入。并且，如果在行走中，发动机声音和道路噪音等环境噪音也由麦克风53输入。因此，对讲声音、左右声道的音频音、说话声音和环境噪音混杂在一起的声音从麦克风53输入。
这种混杂在一起的声音输入减法器5、9的正极端。可变滤波器10生成的对讲模拟声音输入减法器5的负极端。减法器5将麦克风53输入的混杂声音减去可变滤波器10输出的对讲模拟声音，由此算出误差，提取音频声音、说话声音和环境噪音。提取的音频音、说话声音和环境噪音的混杂声音反馈给增益控制器2，用于改善对讲声音的清晰度的处理。
上述加法器11输出的对讲声音和右声道音频音的混杂声音也输入自适应滤波器7-1。然后，用该自适应滤波器7-1生成对讲声音和右声道音频音混杂的模拟声音。同时在自适应滤波器7-2中生成左声道的音频模拟声音。
然后，用加法器8将这些自适应滤波器7-1、7-2生成的模拟声音相加，将其结果输入减法器9的负极端。减法器9将减法器5输入的混杂声音减去加法器8输入的对讲声音与音频音混杂在一起的声音，由此算出误差，提取说话声音和环境噪音。
减法器9提取的说话声音以及环境噪音提供给声音识别引擎54。由此进行降低环境噪音的处理以及与声音指令相对应的处理。并且，该减法器9提取的说话声音和环境噪音还反馈给自适应滤波器7-1、7-2，用于推定音频音的运算处理。
另外，由于第3实施形态的声音识别处理的动作与图6所示的流程图同样，所以在这里就省略了说明。
如以上详细说明，在第3实施形态中与第2实施形态同样，即使是在进行对讲和音频再生的过程中也可以随时接受声音输入，使用者可以在所希望的时间进行声音输入。并且，如果采用第3实施形态，不必准备含有用于进行滤波系数鉴别的算法的高级的自适应滤波器用作推定对讲声音，可以削减这一部分的成本。而且，可变滤波器10只需复制滤波系数就可以，不必要进行用于鉴别滤波系数的运算处理，所以具有能够减轻负荷的优点。
虽然以上对第1～第3实施形态进行了说明，但这只不过是实施本发明的一个具体的示例，不能解释为本发明的技术范围受此限定。即，只要不脱离本发明的主旨或者其主要的特征，本发明可以以各种各样的形式实施。
发明效果如上所述，本发明用自适应滤波器推定从扬声器输出并从麦克风输入的对讲声音，将麦克风输入的声音减去该推定值，由此从说话声音与其它的声音混杂在一起的麦克风输入的声音中只提取说话声音，所以不必进行每次说话时都要按下说话按钮而中断对讲的繁杂的操作，可以在对讲中的任意时间里随时进行声音输入。由此，不需进行繁杂的操作，可以缩短声音识别的操作时间。
权利要求
1.一种声音识别装置(100)，具备识别从麦克风(53)输入的说话声音并通过扬声器(52)对讲的功能，其特征在于，包括自适应滤波器(4)，对模拟了从上述扬声器(52)输出的对讲声音输入到上述麦克风(53)中的传递系统的滤波系数进行设定、对从上述扬声器(52)输出之前的对讲声音进行滤波处理，由此生成位于上述麦克风(53)的对讲模拟声音；说话声音提取单元(5)，从上述麦克风(53)输入的声音中减去上述对讲模拟声音，由此提取说话声音。
2.如权利要求1所述的声音识别装置(100)，其特征在于，包括清晰度改善处理单元(1，2)，使用上述自适应滤波器(4)生成的上述对讲模拟声音和从上述麦克风(53)输入的声音中减去上述对讲模拟声音以后的声音，进行从上述扬声器(52)输出之前的对讲声音的清晰度改善处理。
3.如权利要求1所述的声音识别装置(100)，其特征在于，还包括第2扬声器(62-1、62-2)；第2自适应滤波器(7-1，7-2)，对模拟了从上述第2扬声器(62-1、62-2)输出的音频音输入到上述麦克风(53)中去的传递系统的第2滤波系数进行设定，对从上述第2扬声器(62-1、62-2)输出之前的音频音进行滤波处理，由此生成位于上述麦克风(53)生成音频模拟音；说话声音提取单元(9)，将从上述麦克风(53)经由说话声音提取单元(5)输入的声音减去上述音频模拟音，由此提取说话声音。
4.如权利要求3所述的声音识别装置(200)，其特征在于，设置了将音频音相加的加法器(11)，上述第2扬声器(62-1、62-2)中的至少一个扬声器(62-1)用上述加法器(11)进行音频音的相加。
5.如权利要求4所述的声音识别装置(300)，其特征在于，上述第2自适应滤波器(7-1，7-2)中的至少一个自适应滤波器(7-1)，对模拟了上述扬声器(62-1)输出的对讲声音和音频音的混合声音输入到上述麦克风(53)中的传递系统的滤波系数进行设定，对从上述扬声器(62-1)输出之前的混合声音进行滤波处理，由此生成位于上述麦克风(53)的混合模拟声音。
6.如权利要求4所述的声音识别装置(300)，其特征在于，上述第2自适应滤波器(7-1，7-2)中的另一个自适应滤波器(7-2)，对模拟了上述多个扬声器(62-1，62-2)中的另一个扬声器(62-2)输出的另一个声道的音频音输入到上述麦克风(53)中的传递系统的第2滤波系数进行设定，对从上述另一个扬声器(62-2)输出之前的音频音进行滤波处理，由此生成位于上述麦克风(53)的音频模拟音。
7.如权利要求6所述的声音识别装置(300)，其特征在于，还包括可变滤波器(10)，复制上述自适应滤波器(7-1)设定的滤波系数并进行设定，对从上述至一个扬声器(62-1)输出之前的对讲声音进行滤波处理，由此生成位于上述麦克风(53)的对讲模拟声音。
8.一种声音识别方法，其特征在于，包括以下步骤当识别处理单元(54)对从麦克风(53)输入的说话声音进行识别处理时，设定为不接受声音输入的非激活状态的步骤；当对上述识别处理单元(54)所识别的说话声音开始进行从扬声器(52)对讲的处理时，设定为接受声音输入的激活状态的步骤；在自适应滤波器(4)中设定模拟了从上述扬声器(52)输出的对讲声音输入到上述麦克风(53)中的传递系统的滤波系数，对从上述扬声器(52)输出之前的对讲声音进行滤波处理，由此生成在上述麦克风(53)的位置的对讲模拟声音的步骤；在设定上述激活状态时将从麦克风(53)输入的声音减去上述对讲模拟声音，由此提取说话声音，提供给上述识别处理单元(54)的步骤。
9.如权利要求8所述的声音识别方法，其特征在于，还包括用上述对讲模拟声音，对从上述扬声器(52)输出之前的对讲声音的清晰度进行改善处理的步骤。
10.如权利要求8所述的声音识别方法，其特征在于，还包括以下步骤在第2自适应滤波器(7-1，7-2)中设定模拟了从第2扬声器(62-1，62-2)输出的音频音输入到上述麦克风(53)中的传递系统的第2滤波系数，对从上述第2扬声器(62-1，62-2)输出之前的音频音进行滤波处理，由此生成在上述麦克风(53)的位置的音频模拟声音的步骤；在设定上述激活状态时将从上述麦克风(53)输入的声音减去上述对讲模拟声音和上述音频模拟声音，由此提取说话声音，提供给上述识别处理单元(54)的步骤。
11.如权利要求10所述的声音识别方法，其特征在于，将下述步骤，即上述步骤中的在自适应滤波器(4)中设定将模拟了从上述扬声器(52)输出的对讲声音输入到上述麦克风(53)中的传递系统的滤波系数、对从上述扬声器(52)输出之前的对讲声音进行滤波处理，由此生成在上述麦克风(53)的位置的对讲模拟声音的步骤，替换成下述步骤从上述多个扬声器(62-1，62-2)中输出多个声道的音频音，并且至少其中一个扬声器(62-1)也输出上述对讲声音，对从上述至少一个扬声器(62-1)输出之前的某声道的音频音与上述对讲声音的混合声音进行上述滤波处理，由此生成在上述麦克风(53)的位置的混合模拟声音的步骤。
12.如权利要求11所述的声音识别方法，其特征在于，还包括以下步骤在自适应滤波器(7-1)中设定模拟了上述扬声器(62-1)输出的对讲声音与音频音的混合声音输入到上述麦克风(53)中的传递系统的滤波系数，对从上述扬声器(62-1)输出之前的混合声音进行滤波处理，由此生成在上述麦克风(53)的位置的混合模拟声音的步骤；在设定上述激活状态时，将从由上述麦克风(53)输入的声音减去上述混合模拟声音，由此提取说话声音，并提供给上述识别处理单元(54)的步骤。
13.如权利要求12所述的声音识别方法，其特征在于，还包括复制上述自适应滤波器(7-1)所设定的滤波系数并在可变滤波器(10)中设定，用上述可变滤波器(10)对从上述至少一个扬声器(62-1)输出之前的对讲声音进行滤波处理，由此生成在上述麦克风(53)的位置的对讲模拟声音的步骤。
全文摘要
本发明提供一种具有将所识别的说话声音反馈给使用者的对讲(talkback)功能的声音识别装置，不必进行繁杂的按钮操作，可以缩短声音识别的操作时间。具有自适应滤波器4，对模拟了输入声音指令的说话声音以及来自扬声器52的对讲声音的麦克风53的位置的传递系统的滤波系数进行设定，滤波处理对讲声音x(n)、由此生成对讲模拟声音y(n)；减法器5，通过将麦克风输入的混杂声音减去对讲模拟声音y(n)来提取说话声音；从说话声音和对讲声音混杂在一起的声音中只衰减掉对讲声音并提供给声音识别引擎54，这样，就可以不必进行每次说话时都要按下说话按钮而中断对讲的繁杂的操作，在对讲过程中随时可以进行声音输入。
文档编号G10L15/20GK1542734SQ200410042129
公开日2004年11月3日申请日期2004年5月8日优先权日2003年5月2日
发明者松本修一, 丸本彻申请人:阿尔派株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：松本修一;丸本彻
技术所有人：阿尔派株式会社
我是此专利的发明人