语音识别装置及语音识别方法

文档序号:5860761阅读:308来源:国知局
专利名称:语音识别装置及语音识别方法
技术领域
本发明涉及一种语音识别装置和一种语音识别方法,尤其涉及一种用他于借助利用一组与从语音识别装置至声源的距离对应的声学模式以改善的准确度识别语音的语音识别装置和语音识别方法。
背景技术
近年来,已经实现了CPU(中央处理单元)的操作速度和存储器存储容量的增加。这使得通过利用大量的语音数据或者文本数据的统计模型实现能够识别好几十万字的大词汇量的语音识别系统成为可能。
在包括这样一种大词汇量语音识别系统的语音识别系统中,对将要识别的语音输入其中的麦克风的附近位置所发出的语音能够获得高的语音识别准确度。
不过,如果在远处发出语音,由于噪声等的影响,则语音识别准确度会随着麦克风和发出语音处的位置之间的距离而降低。
例如,在题为“在有噪声/回响的环境中借助利用麦克风阵列的HHM分解/组合的语音识别(Speech Recognition in Noisy/Reverberant Environmentby means of HHM Decomposition/Composition Using a Microphone Array)”的论文中披露了为避免上述问题的第一个已知技术(Miki,Nishiura,和Shikano,电子、信息和通信工程师协会学报D-II,第J83-DII卷,第11期,2206-2214页,2000年11月)(此后,称作为对比文件1)。在此技术中,用麦克风阵列来改善在远离麦克风的位置所发出的语音的信噪比(SN),并且以改善的信噪比对语音进行语音识别。
例如,在题为“考虑空间声学特征的空间分集健壮性的语音识别(SpaceDiversity Robust Speech Recognition Taking Into Account Space AcousticCharacteristic)”的论文中披露了第二个已知技术(Shimizu,Kazita,Takeda和Itakur,电子、信息和通信工程师协会学报D-II,第J83-DII卷,第11期,2448-2456页,2000年11月)(此后,称作为对比文件2)。在利用此第二种技术的语音识别中,将多个麦克风放置在房间的不同位置,并将离开各个麦克风的不同距离的位置处的脉冲响应和将要学习的语音数据进行卷积,并考虑各个距离处的脉冲响应学习所得的语音数据以产生HMM(隐马尔可夫模型)。接着,考虑各个距离处的脉冲响应计算输入到各个麦克风的每一个语音的相似性。
不过,在如上所述的第一种和第二种技术中,必须在限定的位置放置麦克风。在某些情况下,对麦克风位置的限定使得难于使用这些技术。
近年来,已经将自动行为的机器人玩具(例如以填馅动物玩具的形式)投放到了市场。此机器人能够识别由用户发出的语音,并且根据所识别的结果,进行动作或者输出合成的语音。如果在这样的机器人上安装了利用所述第一种技术的语音识别装置,则对形成麦克风阵列的多个麦克风的位置限制使得用小尺寸实现机器人困难,并且所述限制同样也使得在设计机器人中的自由度降低。
另一方面,在将利用第二种技术的语音识别装置安装在机器人上的情形中,要求在使用机器人的每个房间放置多个麦克风。这是不切实际的。而且,在第二种技术中,要求考虑各个距离处的脉冲响应来计算输入到多个麦克风的语音的HHM相似性,并因此在语音识别中需要大量的计算。

发明内容
鉴于上述情况,本发明的目的是在不使得语音识别的计算量显著增加的情况下,提供一种用于改善在远离麦克风处的用户所发出的语音的语音识别准确度的技术。
本发明提供的第一语音识别装置包括距离计算装置,用于确定到语音声源的距离;采集装置,用于采集一组与由距离计算装置所确定的距离对应的声学模式;以及语音识别装置,用于根据由采集装置所采集的一组声学模式识别所述语音。
本发明同样也提供了第一语音识别方法,包括步骤确定到语音声源的距离;采集一组与由距离计算步骤所确定的距离对应的声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。
本发明同样也提供了第一程序,包括确定到语音声源的距离;采集一组与由距离计算步骤所确定的距离对应的声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。
本发明同样也提供了将程序存储其上的第一存储介质,其中,所述程序包括步骤确定到语音声源的距离;采集一组与由距离计算步骤所确定的距离对应的声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。
本发明同样也提供了第二语音识别装置,包括距离计算装置,用于确定到语音声源的距离;采集装置,用于采集用于实现具有对应于由距离计算装置所确定的距离的频率特征的逆滤波器的抽头系数;滤波器装置,用于利用由采集装置所采集的抽头系数滤波所述语音;以及语音识别装置,用于根据一特定组的声学模式,识别由滤波装置滤波所述语音。
本发明同样也提供了第二语音识别方法,包括步骤确定到语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。
本发明同样也提供了第二程序,包括步骤确定到语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。
本发明同样也提供了在其上存储有程序的第二存储介质,其中所述程序包括步骤确定到语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。
在根据本发明的第一语音识别装置、第一语音识别方法、以及第一程序中,确定到声源的距离并采集对应该距离的一组声学模式。利用所采集的声学模式组进行语音识别。
在根据本发明的第二语音识别装置、第二语音识别方法、以及第二程序中,确定到声源的距离并采集用于实现具有对应于所述距离的频率特征的逆滤波器的抽头系数。利用所采集的抽头系数滤波语音并利用一特定组的声学模式识别被滤波的语音。


图1是说明根据本发明的宠物机器人的外部面貌的透视图。
图2是说明宠物机器人的硬件结构的例子的方框图。
图3是说明控制器11的功能结构的例子的方框图。
图4是说明用参照摄像机22L和检测摄像机22R摄取用户图像的方式的例图。
图5是说明外极线(epipolar line)的图。
图6A是说明参考摄像机图像的图。
图6B是说明检测摄像机图像的图。
图7是说明各种点的评估值的图。
图8A是说明给定点-距离表的图。
图8B是说明视差-距离的表的图。
图9是说明语音识别单元41B的结构例子的方框图。
图10是说明与语音识别单元41B相联系的处理的流程图。
图11是说明宠物机器人的硬件结构的另一个例子的方框图。
图12是说明与超声波传感器111相联系的处理图。
图13是说明控制器11的功能结构的例子的方框图。
图14是说明语音识别单元41的结构的另一个例子的方框图。
具体实施例方式
图1是说明根据本发明的宠物机器人的外表的透视图,而图2是说明其内部结构的例子的方框图。
在本实施例中,以具有4只腿的动物的形式构造宠物机器人,其中,所述宠物机器人主要由躯体单元1,腿单元2A、2B、2C和2D,头单元3和尾巴单元4组成。
将腿单元2A、2B、2C和2D在躯体单元1的各自的4个角处连接到躯体单元1,以便用作腿。将用作头的头单元3连接到躯体单元1的前端,而将作为尾巴的尾巴单元4连接到躯体单元1的后端。
将背传感器1A安置在躯体单元1的上表面。将头传感器3A安置在头单元3的上部,而将颚单元3B安置在头单元3的下部。背传感器1A、头传感器3A和颚传感器3B每一个都由压力传感器组成以便检测施加到各个部分的压力。
将尾巴单元4连接到躯体单元1,这样使得尾巴单元4能够在水平和垂直方向自由地移动。
如图2所示,躯体单元1包括在其里面的控制器11、模数转换器12、数模转换器13、通信单元14、半导体存储器15和背传感器1A。
控制器11包括负责控制整个控制器11的CPU 11A,同样也包括在其中存储有由CPU 11A所执行控制各种单元的操作系统(OS)、应用程序和其他必要数据的存储器11B。
模数(A/D)转换器12将从麦克风21、CCD摄像机22L和22R、背传感器1A、头传感器3A和颚传感器3B所接收到的模拟信号转换为提供给控制器11的数字信号。数模(D/A)转换器13将从控制器11所接收到的数字信号转换为模拟信号,并将所得的模拟信号提供给扬声器23。
通信单元14控制和外部装置的有线或者无线的通信。当OS或者应用程序的更新版本可得到时,则能够通过通信单元14将OS或者应用程序的更新版本下载到存储器11B。同样也将通信单元14用来接收命令,并将其转发给CPU 11A。
例如,半导体存储器15由EEPROM(电可擦除可编程只读存储器)组成,并且可移动地插入到躯体单元1的槽中(未示出)。使用半导体存储器15存储将在随后描述的情感模式等。
将用作宠物机器人的背的背传感器1A安置在躯体单元1的上部,从而背传感器1A检测到由用户施加到宠物机器人的背的压力,并将表示所检测到的压力的压力信号通过模数转换器12提供给控制器11。
躯体单元1还包括在其里面的用作宠物机器人的电源的电池(未示出),和用于检测电池的剩余容量的电路。
在如图2所示的头单元3上,在适当选择的位置上安置检测来自外部激励的各传感器。它们包括用作“耳朵”的用于检测声音的麦克风21、用作“左眼”和“右眼”的用于检测光的CCD(电耦合器件)摄像机22L和22R,以及用作触摸传感器的用于检测用户所施加的压力的头传感器3A和颚传感器3B。在头单元3上,将用作宠物机器人的“嘴”的扬声器23安置在适当选择的位置上。
在各个腿单元2A至2D的关节、用于将腿单元2A至2D和躯体单元1连接的各关节、用于将头单元3和躯体单元1连接的关节、和用于将尾巴单元4和躯体单元1连接的关节中,安置致动器。所述致动器在控制器11的控制下驱动相应的关节。例如,当机器人行走时,由致动器移动腿单元2A至2D。
在头单元3上所安置的麦克风21收集包括来自外部环境的用户的发声语音,并将所获得的语音信号通过模数转换器12输出到控制器11。CCD摄像机22L和22R摄取环境图像,并将所得的图像信号通过模数转换器12输出到控制器11。安置在头单元3上方的头传感器3A和安置在头单元下方的颚传感器3B检测用户所施加的作为诸如“摩擦”或者“轻拍”的实际动作的压力,并将表示检测到的压力的压力信号通过模数转换器12输出到控制器11。控制器11根据通过模数转换器12从麦克风21、CCD摄像机22L和22R、背传感器1A、头传感器3A和颚传感器3B所接收的语音信号、图像信号和压力信号,检测环境状态、用户所发布的命令和用户施加到宠物机器人的行为。依据所述检测,控制器11确定宠物机器人将要采取的行动。根据所述决定,控制器11驱动必要的致动器以便点头或者摇动头单元3、移动尾巴单元4或者通过移动腿单元2A至2D使宠物机器人行走。
而且,控制器11按要求合成声音,并将所得的声音信号通过数模转换器13提供给扬声器23,由此从扬声器23输出声音。控制器11同样也接通/关断或者闪动在对应于宠物机器人的“眼睛”的位置安置的LED(发光二极管,图中未示出)。
如上所述,宠物机器人自动地行动,以响应环境条件或者用户的行为。
图3显示了如图2所示的控制器11的功能结构的例子。能够通过利用CPU 11A执行存储在存储器11B的OS和应用程序实现如图3所示的功能结构。注意,模数转换器12和数模转换器13没有在图3中示出。
在控制器11中的传感器输入处理单元41,根据背传感器1A、头传感器3A、颚传感器3B、麦克风21、和CCD摄像机22L和22R所提供的压力信号、语音信号、图像信号,检测特定的外部条件,用户施加到宠物机器人的行为和用户给定的命令。将表明所检测条件的状态信息提供给模式存储器42和行为决定单元43。
为了上述目的,传感器输入处理单元41包括压力处理单元41A、语音识别单元41B和图像处理单元41C。
压力处理单元41A处理从背传感器1A、头传感器3A和颚传感器3B所接收的压力信号。如果压力处理单元41A在短的持续期内接收比预定阈值更高的压力,则传感器输入处理单元41A识别出已经“轻拍(斥责)”宠物机器人。另一方面,如果所检测到的压力有比阈值更低的幅度,并持续了一段长时间,则所感觉的信号处理单元41A识别出已经“抚摸(表扬)”了宠物机器人。将表示识别结果的信息作为状态信息提供给模式存储器42和行为决定单元43。
语音识别单元41B识别通过麦克风21接收的语音信号。例如,如果通过语音识别单元41B识别出给定的语音信号为诸如“行走”、“躺下”或者“跟踪球”的命令,则将表示所识别命令的信息作为状态信息提供给模式存储器42和行为决定单元43。考虑从麦克风21至诸如用户发声的语音源的距离由语音识别单元进行语音识别,其中,由随后所述的距离计算器47确定所述距离。
图像处理单元41C根据由CCD摄像机22L和22R提供的图像信号进行图像识别。例如,如果图像处理单元41C检测到某物是“红且圆的”,或者“从地面到比预定值更高的向垂直延伸的平面”,则图像处理单元41C接着确定“有一个球”或者“有一堵墙”。将表示图像识别结果的信息作为状态信息提供给模式存储器42和行为决定单元43。
模式存储器42存储并管理表示机器人状态的分别涉及情感、本能和成长的情感模式、本能模式、和成长模式。
情感模式利用预定范围内的值(例如,从-1.0至1.0)表示有关例如“幸福”、“忧伤”、“愤怒”和“愉快”的情感状态(程度),其中,所述值依据由传感器输入处理单元41提供的状态信息并且同样也依据时间的流逝而变化。
本能模式利用预定范围内的值表示有关例如“爱好”、“睡眠欲”、和“运动欲望”的本能状态(程度),其中,所述值依据由传感器输入处理单元41提供的状态信息并且同样也依据时间的流逝而变化。
成长模式利用预定范围内的值表示有关例如“童年”、“青年”、和“中年”的成长状态(程度),其中,所述值依据由传感器输入处理单元41提供的状态信息并且同样也依据时间的流逝而变化。
将分别由情感模式、本能模式和成长模式所表示的表明情感、本能和成长状态的信息作为状态信息从情感存储器42提供给行为决定单元43。
除了传感器输入处理单元41所提供的状态信息外,所述模式存储器42同样也从行为决定单元43接收诸如“行走了一长段时间”的表示宠物机器人的当前或者过去行为的行为信息,根据由行为信息所表示的宠物机器人行为,甚至对提供给模式存储器42的相同状态信息,模式存储器42也要变化由模式存储器42所生成的状态信息。
更具体地讲,当宠物机器人问候用户时,如果用户摸宠物机器人的头,则将表示宠物机器人问候用户的行为信息和表示所述头被摸的状态信息提供给模式存储器42。在此情况下,模式存储器42增加表示幸福程度的情感模式值。
行为决定单元43根据从传感器输入处理单元41提供的状态信息、由模式存储器提供的状态信息和时间流逝,决定下一步将要采取的行动。将表示所决定行为的信息作为行为命令信息提供给姿态变化单元44。
更具体地讲,行为决定单元43管理有限的自动操作,该自动操作能够按照确定宠物机器人行为的行为模式,采取与宠物机器人的可能行为对应的状态。行为决定单元43按照由传感器输入处理单元41所提供的状态信息,与情感模式、本能模式、成长模式相联系的模式存储器42的值、和/或时间流逝切换实现行为模式的有限自动操作的状态,并且所述行为决定单元43采取与所变化后的状态相对应的行动作为下一步的行动。
在上述处理中,当行为决定单元43检测具体触发器时,行为决定单元43将变化状态。更具体地讲,例如当与当前状态相对应的行动的已执行时间段已经达到预定值时,或者当已经接收特定状态信息时,或者由从模式存储器42所提供的状态信息所表示的情感、本能或者成长的状态值变得比预定阈值更低或者更高时,所述行为决定单元43将变化所述状态。
如上所述,因为行为决定单元43不仅依靠由传感器输入处理单元41所提供的状态信息,而且依靠模式存储器42的情感模式、本能模式和成长模式的值,变化所述行为模式的状态,甚至当输入相同的状态信息时,当前状态将要改变到的状态也能够根据情感模式、本能模式和成长模式的值(状态信息)而不同。
更具体的讲,当状态信息表示机器人不是“愤怒”且不“饥饿”时,如果状态信息表示“将其手掌朝上的用户的手保持在机器人的脸的前面”时,行为决定单元43产生表示应该执行挥动的行为命令信息,并将它发送给姿态变化单元44,以对保持在机器人的脸前面的手做出反应。
另一方面,当状态信息表示机器人不是“愤怒”但是“饥饿”时,如果状态信息表示“将其手掌朝上的用户的手保持在机器人的脸的前面”时,行为决定单元43产生表示应该舔其手掌的行为命令信息,并将它发送给姿态变化单元44,以对保持在机器人的脸前面的手做出反应。
而且,根据由模式存储器42所提供的状态信息所表示的情感、本能和成长的状态,行为决定单元43可以确定与例如在其当前状态将要改变到的状态中应该采用的移动前腿和后腿的行走步态或者幅度和速度相联系的行为参数。在此情形下,将包括行为参数的行为命令信息提供给姿态变化单元44。
除了如上所述的与宠物机器人的诸如头、前腿、后腿等的各个部分的移动相联系的行为命令信息外,行为决定单元43同样也产生用于使宠物机器人发声的行为命令信息。将用于使宠物机器人发声的行为命令信息提供给语音合成器46。如果语音合成器46接收到行为命令信息,则语音合成器46根据所接收的行为命令信息合成语音,并将所合成的语音从扬声器23输出。
根据由行为决定单元43所提供的行为命令信息,姿态变化单元44产生用于将宠物机器人的姿态从当前姿态改变为下一个姿态的姿态改变命令信息,并将其发送给机构控制器45。
依据诸如身体、前腿和后腿的宠物机器人的各个部分的形状和重量并且同样也依据诸如各个部分之间的连接状态的宠物机器人的身体状态,能够将机器人的姿态从当前姿态改变到可能的姿态。而且,可能的姿态同样也取决于诸如关节的方向和角度的致动器的状态。
尽管在某些情况下到下一个姿态的直接过渡是可能的,但是依据下一个姿态的直接过渡则是不可能的。例如,具有四条腿的宠物机器人能够将姿态从机器人腿完全伸开地躺在一侧的状态直接变化到躺下的状态,但是不能直接地变化到站起的状态。为了将姿态改变到站起的状态,需要执行包括通过收腿将所述姿态改变为躺下的姿态并接着站立的两步操作。有些姿态是不容易改变到的。例如,如果具有四条腿的宠物机器人试着从用四条腿站着的姿态将两条前腿向上抬起,则机器人容易跌倒。
为了避免上述问题,姿态变化单元44事先注册用直接过渡的方法能够达到的姿态。如果由行为决定单元43所提供的行为命令信息指定通过直接过渡能够达到的姿态,则姿态变化单元44直接将行为命令信息转发给机构控制器45。
然而,在行为命令信息指定不能通过直接过渡达到的姿态的情况下,姿态变化单元44产生表示应该首先将姿态改变为一种可能的中间姿态,并接着改变为最终姿态的姿态变化信息,并且,该姿态变化单元44将所产生的姿态变化信息发送给机构控制器45。这防止了机器人试图将其姿态改变为一种不可能的姿态或者跌倒。
根据从姿态变化单元44所接收的姿态变化信息,机构控制器45产生用于驱动致动器的控制信号并将它们发送给致动器。
如果语音合成器46从行为决定单元43接收到行为命令信息,则语音合成器46执行例如常规的语音合成,并将所得的合成语音从扬声器23输出。
距离计算器47从CCD摄像机22L和22R接收图像信号,距离计算器47根据从CCD摄像机22L和22R所接收的图像信号,执行立体效果处理(基于立体效果匹配的处理)以便确定包括在CCD摄像机22L和22R所摄取的图像中的从麦克风21至诸如发出语音的用户的声源的距离。将表示所计算距离的数据提供给语音识别单元41B。
在距离计算器47所进行的立体效果处理中,由(对应于视线)摄像机从两个或多个不同的方向摄取相同物体的多个图像,并且从多个图像的对应像素中确定视差。根据所述视差,确定在摄像机和所述物体之间的距离。
这里,将CCD摄像机22L和22R分别称作参考摄像机22L和检测摄像机22R,并且将所输出的图像称分别作为参考摄像机图像和检测摄像机图像。例如,如图4所示,如果用参考摄像机22L和检测摄像机22R摄取物体图像(在此特定例子中的用户),则由参考摄像机22L产生包括用户图像的参考摄像机图像,而检测摄像机22R产生包括用户图像的检测摄像机图像。在有关用户的嘴的某个点包括在参考摄像机图像和检测摄像机图像两者中的情形下,能够根据参考摄像机图像上的P点的位置和检测摄像机图像上的P点的位置确定视差信息(即,对应点(对应像素))。用三角测量的方法根据视差信息能够确定三维空间中的点P的位置(三维点)。
在如上所述的立体效果处理的第一步中检测对应点。一种检测对应点的已知技术是利用外极线的区域库匹配方法(areabase matching method)。
在如图5所示的此方法中,在由参考摄像机22L所摄取的图像中,将用户的点P投影到在参考摄像机1的图像表面S1和通过点P和参考摄像机22L的光中心(透镜中心)O1延伸的线L之间的交点na上。
类似地,在检测摄像机22R所摄取的图像中,将用户的点P投影到检测摄像机22R的图像表面S2和通过点P和参考摄像机22L的光中心(透镜中心)O2延伸的线之间的交点nb上。
在此情况下,将线L作为线L2投影到图像表面S2,其中,线L2由在其上形成检测摄像机图像的图像表面S2和由光中心O1和O2和点n2(或点P)所确定的表面之间的交线给出。因为点P在线L上,点P被投影到图像表面S2中的点nb上,因此点nb存在于将线L投影其上的线L2上,其中,线L2被称作外极线。所以,与点na对应的点nb一定在外极线L2上。从而,在外极线L2上一定能够找到对应点nb。
对于在图像表面S1上所形成的参考摄像机图像的每个像素能够存在外极线。如果已知参考摄像机22L和检测摄像机22R的相对位置,则通过计算能够确定各个像素的外极线。
例如,通过如下所述的区域库匹配方法能够确定外极线L2上的对应点nb。
在如图6A所示的区域库匹配中,从参考摄像机图像中提取在参考摄像机图像中的以点na(例如,参考摄像机图像的对角线的交点)为中心的长方形小方块(此后,称作为参考块)。而且,如图6B所示,从所述检测摄像机图像提取以投影到检测摄像机图像中的外极线L2上的某个点为中心的具有和参考块一样大小的小方块。
在如图6B所示的例子中,选择外极线L2上的6个点nb1至nb6作为检测方块的中心点。通过将如图5所示的三维空间中的延伸线L上的6个点投影到检测摄像机22R的图像表面S2上而获得这6个点nb1至nb6。更具体的讲,如果投影关于参考摄像机22L的以1m、2m、3m、4m、5m和6m的距离存在于线L上的6个点,则在图像表面S2中的6个点nb1至nb6对应关于参考摄像机22L的以1m、2m、3m、4m、5m和6m的距离存在于线L上的点。
在区域库匹配中,从检测摄像机图像中提取以在外极线L2上的点nb1至nb6为中心的检测块,并且利用特定的求解函数计算检测块和参考块之间的相关性。将具有与以点na为中心的参考块有最高相关性的检测块的中心点nb作为与点na对应的点来使用。
如果将降低相关性的函数作为求解函数来使用,则能给出在外极线L2上的各个点nb1至nb6的解值(利用求解函数所计算的),例如,如图7所示。在此特定例子中,点nb3有最小的解值(最高相关性),并且因此将此点nb3作为与点na对应的点来使用。或者,在图7中,从点nb1至nb6中(在图7中用实心圆表示)选择具有最小解值的点和与该具有最小解值的点相邻近的一个或者多个点,并且通过内插方法从上述点中可以确定具有真正最小值的点,并且可以将所得的点作为所述对应点来使用。
在如上所述的如图6A和6B所示的例子中,选择在三维空间中的线L上的点,结果在两个直接相邻的点之间的距离等于任意组合的两个直接相邻点的预定值,并将这些点投影到检测摄像机22R的图像表面S2。能够按参考摄像机22L和检测摄像机22R的校准那样执行它。如果对相应于参考摄像机22L的图像表面S1的各个像素的每个外极线进行校准,并且用如图8A所示的设定点-距离表描述在外极线上设定的点(此后将这样的点称作为设定点)和从参考摄像机22L到设定点的距离之间的对应关系,则能够直接通过从设定点检测对应点并在设定点-距离表中读取所描述的距离,来确定从参考摄像机22L(到用户)的距离。即,能够从对应点直接确定所述距离。
另一方面,如果与参考摄像机图像上的点na所对应的点被检测为在检测摄像机上的点nb,则能够确定两点(na和nb)之间的视差(视差信息)。而且,如果已知参考摄像机22L和检测摄像机22R的相对位置,则通过三角测量的方法从两点na和nb之间的视差能够确定到用户的距离。通过基于已知方法的计算能够进行来自视差的距离的确定。如果视差ζ和距离之间的对应关系已计算出并用如图8B所示的视差-距离表描述所述的对应关系,则通过检测对应点和视差并读取视差-距离表立即确定与参考摄像机22L之间的距离是可能的。
因为视差和与用户的距离以一对一的方式对应,确定视差就等价于确定到用户的距离。
在检测对应点中使用包括多个像素的诸如参考块和检测块的块的理由是为了降低噪声的影响并清楚地检测在参考摄像机图像上的像素(点)na的邻近区中的像素模式的特征和在检测摄像机图像上的对应点(像素)nb的邻近区中的像素模式的特征的相关性,从而以可靠的方式检测所述对应点。特别的,在参考摄像机图像和检测摄像机图像有小变化的情形中,能够通过增加块大小来增加基于图像间的相关性的对应点检测可靠性。
至于用于在区域库匹配中计算参考块和检测块之间的相关性的求解函数,能够采用参考块中的像素和检测块的对应像素之间的像素值差的平方和或者绝对值,或者归一化互相关。
上文已经简单描述了立体效果处理。在“用C进行图像处理的介绍(Introduction to Image Processing With C)”(Yasuin and Nagao,ShokodoCo.Ltd.,127页)中能够找到有关立体效果处理的更进一步信息。
图9说明了如图3所述的语音识别单元41B的结构的例子。
如果语音识别单元41B通过如图2所示的模数转换器12接收来自麦克风21的语音数据,则将所述输入语音数据提供给特征提取器单元101和语音段检测器107。
特征提取器101对由模数转换器12提供的语音数据按一帧一帧的方式进行声学分析,以便提取作为诸如MFCC(Mel-频率倒谱系数)的特征值的特征矢量。特征提取器101所提取的特征矢量不仅限于MFCC,同样也能够提取诸如频谱、线性预测系数、倒谱系数或者线谱的其它类型的特征矢量(特征参数)。
将由特征提取器101按一帧一帧所提取的特征矢量顺续地提供给特征矢量缓存器101,并存储其中。因此,将按一帧一帧所提取的特征矢量在时间上顺续地存储在特征矢量缓存器102中。
例如,更具体的讲,在特征矢量缓存器102中存储了从发声的开始至其结尾的时段(语音段)中的特征矢量的时间序列。
匹配单元103通过按要求检查声学模式数据库104n(n=1,2,...,N(N是等于或者大于2的整数))、字典数据库105以及语法数据库106来分析存储在特征矢量缓存器102中的的特征矢量,从而利用连续分布的HMM方法等识别输入到麦克风21(输入语音)的语音。
声学模式数据库104n存储表示诸如将要识别语音的语言音素或者音节的各个PLU(语音-语言-单元)的声学特征的声学模式。当利用连续分布的HMM算法进行语音识别时,将利用诸如高斯分布函数的概率密度函数的HMM(隐马尔可夫模型)作为声学模式使用。字典数据库105存储描述将要识别的有关各个字(词)的发音信息(语言信息)的字典。语法数据库106存储描述在字典数据库所存储的各个字彼此如何能够被串联(连接)的语法(语言模式)。对于语法来说,可以使用上下文自由的语法(CFG)、规则语法(RG)、基于统计字串联概率模式的语法等。
匹配单元103通过将存储在声学模式数据库104n中的声学模式应用到在字典数据库105中存储的字典所描述的字中而创建字声学模式(字模式)。而且,匹配单元103根据存储在语法数据库106中的语法将一些字模式彼此串联,并且按照连续分布HMM算法利用串联字模式识别通过麦克风21所输入的语音。更具体地讲,匹配单元103计算表示在以如上所述的方式所创建的字模式序列中观测在特征矢量缓存器102所存储的特征矢量时间序列的相似性的得分。匹配单元接着检测具有最高得分的字模式序列,并使用与所检测的字模式序列对应的字序列作为语音识别的结果。
在基于HMM方法的语音识别中,匹配单元103计算与所串联的字模式对应的序列或者字的特征矢量的发生概率之和,并把该和作为得分利用。
即,匹配单元103通过全部地求出根据存储在声学模式数据库104中的声学模式所给定的声学得分(此后简单地称作为声学得分)和根据存储在语法数据库106中所计算的语言得分(此后简单地称作为语言得分)来确定所述得分。
更具体地讲,在使用HMM方法的情形中,根据在形成字模式的声学模式中观测由特征提取器101所输出的特征矢量序列的概率(发生概率)计算每个字的声学得分。另一方面,在使用双字母组的情形中,根据在最感兴趣的字和紧挨在前面的字之间的连接概率确定语言得分。接着,通过全部地求出各个字的声学得分和语言得分确定整个的得分(此后,将用这样的方法所确定的整个得分简单地称作为整个得分),并接着根据整个得分最终确定语音识别结果。
语音识别单元41B不必需要语法数据库106。不过,更希望语音识别单元41B包括语法数据库106,因为可被串联的字模式受到在语法数据库106中所描述的语法规则的限制,并因此可能降低在声学得分计算中匹配单元103将要处理的字数。这导致匹配单元103所进行的计算量降低,并因此能够在更短时间内进行计算。
在如图9所示的例子中,语音识别单元41B包括N个声学模式数据库1041、1042、...104n,其中,当变化麦克风和声源之间的距离时产生由声源所发出的语音的声学模式,并且在一个数据库中描述了用于特定距离所获得的一组声学模式,而在另一个数据库中描述了用于不同距离的另一组声学模式。
更具体地讲,例如,选择从麦克风到声源即将要学习的语音扬声器的距离为D1、D2、...,Dn(其中,D1<D2<...<Dn),并且通过麦克风收集各个距离D1、D2、...,Dn的扬声器所发出的语音。在各个声学模式数据库1041、1042、...104n中描述了通过学习由麦克风所采集的语音数据而获得的各个距离D1、D2、...,Dn的声学模式(在本例中,HMM)。
从而,声学模式数据库104n包括一组由在离麦克风的特定距离Dn处的扬声器所发出的语音所产生的声学模式。
例如,能够选择距离D1至Dn的最小距离D1是0(实际上,将麦克风放置到距离扬声器的口很近),并且,能够选择最大距离Dn为等于统计上被估值的最大距离,在此距离,用户能够向机器人发出语音(例如,通过许多用户的问卷调查估计用户可以向机器人发声的最大可能距离,并使用其平均值)。例如,通过均分距离Dn可以选择其余的距离D2、D3、...Dn-1。
由离麦克风的距离Dn实际发出的语音,或者通过卷积离开麦克风的距离Dn的位置的脉冲响应和在接近(实际上和0一样地接近)麦克风的位置所发出的语音数据(例如,通过利用头戴式麦克风可以采集这样的语音数据)可以产生,在声学模式数据库104n中所描述的距离Dn的一组声学模式。例如,在前文所述的对比文件2中能够找到一种通过脉冲响应的方法采集在距离麦克风特定距离的位置所发出的语音数据的专门技术。
语音段检测器107根据模数转换器12的输出检测语音段,并将表示检测结果的消息发送给选择控制器108。例如,通过计算模数转换器12的每一帧输出能量并确定所计算的能量是否大于预定的阈值,可以检测语音段。
如果选择控制器108从语音段检测器107中接收到表示语音段已被检测的消息,则选择控制器108请求距离计算器47(图3)计算在麦克风21和用户之间的距离。为了响应该请求,距离计算器47计算所述距离,并将所计算的距离发送给选择控制器108。根据从距离计算器47所接收的距离,选择控制器108控制选择器109。
在如图3所示的例子中,距离计算器47通过立体效果处理计算从CCD摄像机22L或者22R至发出语音的用户之间的距离。这里,假定麦克风21位于CCD摄像机22L或者22R的近处,并且因此能够认为从CCD摄像机22L或者22R到发声用户的距离等于从麦克风21至发声用户的距离。如果已知CCD摄像机22L或者22R和麦克风21之间的相对位置,则可以根据从CCD摄像机22L或者22R到所述用户的距离确定从麦克风到所述用户的准确距离。
在选择控制器108的控制下,选择器109从N个声学模式数据库1041至104n中选择声学数据库104n。而且,选择器109采集在所选择的声学模式数据库104n中存储的距离Dn的所述声学模式组,并将所采集的声学模式组提供给匹配单元103。根据由选择器109所提供的距离Dn的所述声学模式,匹配单元103计算声学得分。
参考如图10所示的流程图,描述了由如图9所示的语音识别单元41B所执行的语音识别处理。
在第一步骤S1,语音段检测器107确定是否接收到用户所发出的语音。即,语音段检测器107确定是否检测到语音段。如果检测到语音段,则语音段检测器107确定接收到用户所发出的语音。另一方面,如果没有检测到语音段,则语音段检测器107确定用户没有发出语音。
如果在步骤S1中确定没有输入语音,则处理跳到步骤S6,而不执行步骤S2至S5。
不过,如果确定在步骤S1中输入了语音,即,如果语音段检测器107检测到语音段,则选择控制器108接收表示已经检测到语音段的消息,特征提取器101就开始在语音段中的语音数据的特征矢量的提取,并且,特征矢量缓存器102开始存储特征矢量,接着,处理进行到步骤S2。在步骤S2中,选择控制器108请求距离计算器47(图3)计算到发声用户的所述距离。为了响应请求,在步骤S2中,距离计算器47计算到发声用户的所述距离,并将所计算的距离提供给选择控制器108。
总的来说,用户最可能从垂直于机器人脸的方向发声。因此,这里假定摄取在到用户的距离计算中所使用的用户图像的CCD摄像机22L和22R位于头单元3(图2),结果,在垂直于机器人脸的方向摄取到图像。
在此情形中,如果发声用户在偏离机器人脸方向的位置,诸如机器人的侧面或者后面的位置,则CCD摄像机22L和22R不能获取用户图像。为了避免上述问题,将方向性具有与CCD摄像机22L和22R摄取用户图像的方向相同方向的麦克风作为麦克风21使用,并且可以移动头单元21,直至由麦克风21所检测的语音电平最大,由此使得CCD摄像机22L和22R摄取用户图像成为可能。
或者,机器人可以包括多个麦克风,并且可以根据由多个麦克风所检测的语音信号之间的能量差或者相位差估计声音方向。在此情形中,如果将头单元3移动到直到头单元3面对与声源所检测的方向相同的方向,则CCD摄像机22L和22R获取用户图像是可能的。在多个麦克风安置于机器人上的情形中,对从具有最大语音电平的麦克风所输出的语音数据进行语音识别(在移动机器人直到机器人脸面对用户方向的情形中,使用在与机器人脸垂直的相同方向上安置的麦克风)。
在如图3所示的距离计算器47中,为了通过利用CCD摄像机22L和22R所摄取图像的立体效果处理计算到用户的距离,需要从CCD摄像机22L和22R所摄取的图像中检测形成用户图像的像素(此后,将这样的像素称作为用户像素)。例如,能够通过检测具有诸如皮肤颜色的特定颜色的像素作为用户像素来执行这一点。或者,可以事先通过CCD摄像机22L和22R摄取用户脸的图像,并且可以将所获得的脸图像作为图像识别中的参考模式使用,以便检测用户像素。
如果选择控制器108从距离计算器47接收到表示到用户距离的数据(图3),则处理进行到步骤S3。在步骤S3中,从如上所述的N个距离D1至Dn中选择与到用户距离最接近的距离Dn,并且通过选择器109选择其中存储该距离的声学模式组的声学模式库104n。即,在步骤S3中,在选择控制器108的控制下,选择器109选择声学模式数据库104n,采集与到用户距离最接近的距离Dn的声学模式组,并将所采集的声学模式组提供给匹配单元103。随后,处理进行到步骤S4。
在步骤S4中,匹配单元103从特征矢量缓存器102中读取从语音段的语音数据中所提取的特征矢量,并通过利用由选择器109所提供的距离Dn的声学模式组、由字典数据库105所存储的字典、以及在语法数据库106中所存储的语法规则,来计算候选字序列(或者字)的语言得分和声学得分。
而且,计算所述全部得分,将具有最高全部得分的字序列(或者字)作为语音识别结果使用。
随后,处理进行到步骤S5,其中,匹配单元103输出在步骤S4中所确定的语音识别结果。随后,处理进行到步骤S6。
在步骤S6中,确定语音识别处理是否应该结束。如果确定语音识别处理不应该结束,则处理流程返回到步骤S1,以便重复如上所述的处理。
如果在步骤S6中确定语音识别处理应该结束,则所述情形是,当用户关掉机器人电源,结束语音识别处理。
在如上所述的本实施例中,计算到发声用户的距离,并利用从在与所计算的距离最接近的距离Dn处所发声的语音数据中产生的一组声学模式(距离Dn处的一组声学模式)进行语音识别。因此,即使对于离麦克风远的位置处的用户所发出的语音,也能够实现高精度的语音识别。
即,因为根据通过学习在与用户实际发声的环境相类似的声学环境中所采集的语音数据所产生的一组声学模式进行语音识别,所以改善了语音识别准确度。
在此技术中,从N组声学模式中选择一组声学模式,并利用所选择的一组声学模式进行语音识别。因此,在不使计算量(显著)增加的情况下能够实现语音识别准确度的改善。
声学环境不仅根据麦克风21到所述用户之间的距离,而且根据诸如噪声电平或者回响特征的其他因素变化。通过利用同样也考虑这样的因素的一组声学模式,能够更进一步地改善语音识别的准确度。
尽管在如图9所示的实施例中,从声学模式数据库1041至104n中选择了对到所述用户的距离最佳的一组声学模式(基于离到用户的距离最近的距离的一组声学模式),在该数据库的各个距离D1至Dn的声学模式组中,可以例如通过网络采集到所述用户的距离最佳的一组声学模式。
图11是说明如图1所示的宠物机器人的外部结构的另一个例子的方框图。在图11中,用类似的参考标号表示如图2中的那些类似部分,并且对其没有给出更进一步的描述。如图11所示的宠物机器人除了在头单元3中额外地安置了超声波传感器111外与如图2所示的相类似。
尽管在图11没有示出,但是超声波111包括声源和麦克风。如图12所示,从声源发射超声波脉冲。如果从障碍物反射超声波脉冲,则由超声波传感器111的麦克风接收其反射波,并且确定自超声波的发送到反射波的接收所流逝的时间(以后将这样的时间称作为延迟时间),并将其提供给控制器11。
图13说明了如图11所示的控制器11的功能结构的例子。在图13中,用类似的参考标号表示与在图3中的那些类似的部分,并且在此不对其作更详细的描述。如图13所示的控制器11除了用超声波传感器111的输出代替CCD摄像机22L和22R的输出提供给距离计算器47外都与如图3所示的类似。
在如图13所示的实施例中,距离计算器47根据超声波传感器111的输出计算到用户的距离。
在如图13所示的实施例中,利用如上所述的包括基于麦克风21的方向性的检测和利用多个麦克风的检测以及利用图像识别的检测的技术之一检测发声用户的方向,并且移动头单元3,结果超声波传感器111的声源指向所述用户。超声波传感器111向用户发射超声波脉冲。如果接收到反射波,则超声波传感器111确定所述延迟时间,并将表示所述延迟时间的数据提供给距离计算器47。根据由超声波传感器111所通告的延迟时间,距离计算器47计算到所述用户的距离,并将表示所计算距离的数据提供给语音识别单元41B。随后,语音识别单元41B参照图9和10按如上所述的类似方法进行语音识别。
图14说明了如图3或者13所示的语音识别单元41B的结构的另一个例子。在图14中,用类似的参考标号表示如图9中的那些类似部分,并且在此没有对它们作更进一步详细的描述。
在如图9所示的实施例中,从D1至Dn的各个距离的声学模式组中选择与到用户距离最接近的距离的一组声学模式,并利用所选择的一组声学模式进行语音识别。不过,在如图14所示的实施例中,利用具有与到用户的距离对应的频率特性的逆滤波器对从麦克风21输出的语音数据进行滤波,并根据所得的已被滤波的语音数据,利用一组特定声学模式进行语音识别。
在如图14所示的实施例中,声学模式数据库104存储例如从接近(实质上和0一样地接近)麦克风位置处所发声的语音数据中产生的一组声学模式。
滤波器121是一具有由抽头系数选择器122所确定的抽头系数的数字滤波器(此后将这样的抽头系数简单地称作为所选择的抽头系数)。滤波器121滤波从模数转换器12输出的语音数据,并且将所得的已被滤波的语音数据提供给特征提取器101。
如果抽头系数选择器122从语音段检测器107接收到表示已经检测语音段的消息,则抽头系数选择器122请求如图3或者13所示的距离计算器47计算到用户的距离。为了响应该请求,距离计算器47计算所述距离并将表示所计算的到用户的距离的数据发送给抽头系数选择器122。抽头系数选择器122从抽头系数存储器123中读取用于实现具有与到用户的距离最接近的距离对应的频率特性的逆滤波器的一组抽头系数。将从抽头系数存储器123中所读取的抽头系数作为所选择的抽头系数从抽头系数选择器122提供给所述滤波器,并设置为滤波器121的抽头系数。
抽头系数存储器123存储用于实现数字滤波器的抽头系数组,该数字滤波器用作具有分别为与D1至Dn的N个距离相对应的频率特性的倒数的特性的逆滤波器。
在按如上所述的方式构造的语音识别单元41B中,如果语音段检测器107检测语音段,则抽头系数选择器122请求距离计算器47(如图3或者13所示)计算到用户的距离。为了响应该请求,距离计算器47计算该距离并将表示到用户的计算距离的数据发送给抽头系数选择器122。抽头系数选择器122从抽头系数存储器123读取一组用于实现逆滤波器的抽头系数,该逆滤波器具有与到用户距离最接近的距离相对应的频率特性。将从抽头系数存储器123所读取的抽头系数作为所选择的抽头系数提供给滤波器121。
滤波器121使用所选择的抽头系数作为其抽头系数,并将从模数转换器12输出的语音数据滤波,以便抵消在从麦克风21所输出的语音数据的频率特性上的从麦克风21到用户之间距离的效果,由此获得等价于在接近麦克风21的位置处所发出的语音数据的语音数据。将所得的语音数据提供给特征提取器101。
这里,设x(t)(t是时间)为位于接近扬声器的麦克风所采集的发声语音数据,y(t)为由离开扬声器距离为Dn的位置处的麦克风所采集的相同发声的语音数据,hn(t)为从麦克风21至离开麦克风21的距离为Dn的位置的空间的脉冲响应,而X(ω)、Y(ω)和Hn(ω)则分别为x(t)、y(t)和hn(t)的付立叶变换,其中,ω是角频率,于是,下面的等式成立Y(ω)=X(ω)Hn(ω) (1)根据等式(1),获得如下等式X(ω)=Y(ω)/Hn(ω)(2)这里,Hn(ω)表示在距离Dn处的空间频率特性。因此,等式(2)表示如果通过具有在距离Dn的空间的频率特性Hn(ω)的倒数特性即1/Hn(ω)的逆滤波器对在离开扬声器距离Dn处的位置的麦克风21所采集的发声的语音数据Y(ω)进行滤波,则等价地获得由位于接近扬声器的麦克风21所采集的发声语音数据X(ω)。
在如图14所示的实施例中,抽头系数存储器123存储用于实现具有与距离D1至Dn对应的频率特性H1(ω)至Hn(ω)互为倒数的特性1/H1(ω)至1/Hn(ω)的逆滤波器的抽头系数。抽头系数选择器122从抽头系数存储器123中读取一组用于实现具有与用户的实际距离最接近的距离对应的倒数频率特性的逆滤波器的抽头系数,并将此组抽头系数作为所选择的抽头系数提供给滤波器121。
滤波器121使用所选择的抽头系数作为滤波器121(数字滤波器)的抽头系数,以便滤波从模数转换器12输出的语音数据,由此获得等价于由位于接近扬声器的麦克风21所采集的语音数据。将所获得的语音数据提供给特征提取器101。
结果,当匹配单元103进行语音识别时,根据一组通过实际上位于接近扬声器的麦克风21所采集的语音数据所产生的声学模式,对等价于由位于接近扬声器的麦克风21所采集的语音数据进行语音识别。从而,和如图9所示的实施例一样,在不增加匹配单元103所进行的计算量的情况下能够实现语音识别准确度的改善。
能够通过从离开麦克风距离Dn的空间位置发射脉冲δ(t)、观测通过利用此麦克风捕捉脉冲δ(t)获得的语音数据s(t)、并将等式(1)或者(2)应用于所述结果,理想地确定与距离Dn对应的频率特性Hn(ω)的倒数特性1/Hn(ω),或者也能够通过利用TSP(时间扩展脉冲(Time Stretched Pulse))信号进行类似的测量实际地确定与距离Dn对应的频率特性Hn(ω)的倒数特性1/Hn(ω)。
注意,希望麦克风21和用来采集将要学习的语音数据的麦克风应该具有相同的频率特性。
已经参照将本发明应用于具有实际物理特性的机器人中的具体实施例描述了本发明。本发明同样也能够被应用到在计算机上的虚拟机器人上,以及其他的各种装置中。
能够在一般目的的计算机上进行如上所述的语音识别处理。在此情形中,通过将用于语音识别的程序安装在一般目的的计算机上,在一般目的计算机上就实现了语音识别装置。
在此情形中,可以事先在放置在计算机内部的作为存储介质的硬盘或者ROM上存储所述程序。
或者,可以暂时或者永久地在诸如软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或者半导体存储器的可移动存储介质上存储(记录)程序。可以以所谓的软件包的形式提供这样一种可移动存储介质。
替代从可移动存储介质将程序安装到计算机上,同样可以借助无线传输通过数字广播卫星,或者通过诸如LAN(局域网)的网络或者通过利用无线通信的因特网从下载站点将所述程序转发到计算机中。在此情形中,计算机接收以这种方式发送的程序,并将所接收的程序安装到安置在计算机内的硬盘中。
在本发明中,没有必要以按照在流程图中所描述的顺序的时间序列执行在将要由计算机执行的程序中所描述的用来执行各种处理的处理步骤。相反,可以并行或者单独地执行处理步骤(利用并行处理或者对象处理)。
可以由单个计算机或者由多个计算机以分布式的方式执行该程序。可以将程序转发到远端位置处的计算机上,并且可以在那里执行。
同样也可以利用不同于HMM算法的算法将本发明应用到语音识别中。
尽管在如上所述的实施例中,利用立体效果处理或者利用超声波传感器确定到用户的距离,但是也可以用其他的方法确定所述距离。例如,可以通过识别由用户所发出的语音确定到用户的距离。也可以用这样的方法确定到用户的距离,这样的方法是当用户按下安置在远方命令器中的距离测量按钮时,机器人确定到用户的距离。
工业适用性根据第一语音识别装置、语音识别方法和程序,确定到语音源的距离,并采集对应此距离的一组声学模式。利用所采集的一组声学模式进行语音识别。这使得语音识别准确度得到改善。
按照第二个语音识别装置、语音识别方法和程序,确定到语音源的距离,并采集用于实现具有与所述距离对应的频率特征的逆滤波器的抽头系数。利用所采集的抽头系数滤波语音,并利用特定的一组声学模式识别所滤波的语音。这使得语音识别准确度得到改善。
权利要求
1.一种用于识别输入语音的语音识别装置,包括距离计算装置,用于确定到所述语音的声源的距离;采集装置,用于采集与由距离计算装置所确定的距离对应的一组声学模式;以及语音识别装置,用于根据由采集装置所采集的一组声学模式识别所述语音。
2.如权利要求1所述的语音识别装置,还包括存储装置,用于存储由位于不同位置的声源所发出的语音产生的多组声学模式;其中,所述采集装置从在存储介质中所存储的用于各个距离的多组声学模式中,选择与由所述距离计算装置所确定的距离相对应的一组声学模式。
3.如权利要求1所述的语音识别装置,其中,所述距离计算装置通过对由用于摄取图像的多个图象传感器装置所输出的图像进行立体效果处理,来确定到所述声源的距离。
4.如权利要求1所述的语音识别装置,其中,所述距离计算装置根据超声波传感器的输出确定到所述声源的距离。
5.一种用于识别输入语音的语音识别方法,包括步骤确定到所述语音的声源的距离;采集与由距离计算步骤所确定的距离对应的一组声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。
6.一种用于使计算机识别输入语音的程序,所述程序包括步骤确定到所述语音的声源的距离;采集与由距离计算步骤所确定的距离对应的一组声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。
7.一种将使计算机识别输入语音的程序存储于其上的存储介质,所述程序包括步骤确定到所述语音的声源的距离;采集与由距离计算步骤所确定的距离对应的一组声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。
8.一种用于识别输入语音的语音识别装置,包括距离计算装置,用于确定到所述语音的声源的距离;采集装置,用于采集用于实现具有对应于由距离计算装置所确定的距离的频率特征的逆滤波器的抽头系数;滤波器装置,用于利用由采集装置所采集的抽头系数滤波所述语音;以及语音识别装置,用于根据一特定组的声学模式,识别由滤波装置滤波所述语音。
9.一种用于识别输入语音的语音识别方法,包括步骤确定到所述语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。
10.一种用于使计算机识别输入语音的程序,所述程序包括步骤确定到所述语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。
11.一种将使计算机识别输入语音的程序存储其上的存储介质,所述程序包括步骤确定到所述语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。
全文摘要
一种能够改善语音识别准确度的语音识别装置和语音识别方法。距离计算器(47)计算发声用户和麦克风(21)之间的距离并将该距离提供给语音识别单元(41B)。语音识别单元(41B)包含多组从通过记录在多个不同距离所发出的语音形成的语音数据中产生的声学模式。语音识别单元(41B)选择一组离由距离计算器(47)所提供的距离最近的距离处的声学模式,并且通过利用该声学模式组进行语音识别。
文档编号G01C3/06GK1488134SQ02804051
公开日2004年4月7日 申请日期2002年10月21日 优先权日2001年10月22日
发明者浅野康治 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1