语音识别对话装置的制作方法

文档序号：1629229阅读：293来源：国知局

专利名称：语音识别对话装置的制作方法
技术领域：
本发明涉及识别语音和进行与识别结果对应的发话及特定动作的语音识别对话装置。
背景技术：
作为这种语音识别对话装置的一个例子有语音识别玩具。例如，在日本专利特开昭6-142342号公开的语音识别玩具中，将构成语音指令的多个指令字作为识别对象语音预先登录下来，将使用该玩具游戏的儿童所发出的语音信号与登录的语音信号进行比较，当上述两语音信号一致时，输出对语音指令规定的电信号，以此为基础使玩具进行特定的动作。
但是，在现有的根据这种语音识别结果进行会话和动作的布制的等玩具中，错误地识别讲话者的话语的情况很多，一般，即使是正确地识别了单词和语句也不能根据状态和环境的变化作出反应和进行回答。
近来，即使是玩具也要求它能完成高难度的动作，例如，如果当孩子们向布娃娃说“早上好”时不管什么时间只知道回答说“早上好”，孩子们就会厌烦了。而且，由于这种语音识别对话技术有可能应用于面向更高年级学生的游戏机、进而应用于日常生活中的设备，所以希望开发更高的技术。

发明内容
本发明的目的在于实现一种语音识别对话装置，该装置具有检测时间等的状态和环境变化的功能，可以根据状态和环境的变化响应用户发出的语音，并有可能进行更高级的对话。
本发明的语音识别对话装置，对输入的语音进行分析以与登录的语音数据模式进行比较从而识别语音、并根据识别的语音进行应答，其特征在于具有语音分析装置、变动数据检出装置、系数设定装置、语音识别装置、语音合成装置和语音输出装置。语音分析装置对输入的语音进行分析生成语音数据模式，变动数据检测部检出对对话内容产生影响的变动数据，系数设定装置输入该变动数据检测部的变动数据、对预先登录的每一次识别对象语音的内容产生与上述变动数据对应的加权系数，语音识别装置在输入从上述语音分析装置输出的语音数据模式的同时、从上述系数设定装置得到该时刻的相对于登录的多个识别对象语音的各自的加权系数、计算出考虑了与各个识别对象语音的识别数据分别对应的加权系数之后的最终识别数据、由所求出的这些最终识别数据识别上述输入语音、将识别的语音的最终识别数据输出，语音合成装置数据来自该语音识别装置的考虑了上述系数之后的最终识别数据输出与其对应的语音合成数据，语音输出装置将来自该语音合成装置的输出向外部发出。
上述变动数据检测装置例如是检测时钟数据的计时装置，上述系数设定装置是对预先登录的各识别对象语音的每一项内容产生与时间对应的加权系数的装置。这时的系数设定装置也可以这样来输出加权系数，即，当某个输入语音是在过去已正确地识别的几个时刻中的最多的那个时刻输入的时，则使该识别数据的加权系数取最大值，与该时刻相隔越远，使上述加权系数取越小的值。
本发明的语音识别对话装置，对输入的语音进行分析以与登录的语音数据模式进行比较从而识别语音，并根据识别的语音进行应答，其特征在于具有语音分析装置、语音识别装置、计时装置、应答内容级别产生装置、应答内容级别存储装置、应答内容生成部、语音合成装置和语音输出装置。语音分析装置对输入的语音信号进行分析、生成语音数据模式，语音识别装置根据从该语音分析装置输出的语音数据模式输出与上述输入语音对应的识别数据，计时装置产生时间数据，应答内容级别产生装置输入该计时装置的时间数据和由上述语音识别装置正确识别的识别次数数据中的至少1个数据、根据输入的数据产生用于改变对输入语音的应答内容的应答内容级别，应答内容级别存储装置存储由上述应答内容级别产生装置得到的与时间对应的应答级别，应答内容生成部根据来自上述语音识别部的识别数据决定与来自上述应答内容级别产生装置的应答级别相对应的应答内容，并输出与其对应的应答内容数据，语音合成装置根据来自该应答内容生成部的应答内容数据输出与该应答内容数据对应的语音合成数据，语音输出装置将来自该语音合成装置的输出向外部发出。
本发明的语音识别对话装置，对输入的语音进行分析以与登录的语音数据模式进行比较从而识别语音，并根据识别的声音进行应答，其特征在于具有语音分析装置、语音识别装置、变动数据检出装置、应答内容生成装置、语音合成装置和语音输出装置。语音分析装置对输入的语音进行分析并生成语音数据模式，语音识别装置根据从该声音分析装置输出的语音数据模式输出对上述输入语音的识别数据，变动数据检出装置检出影响对话内容的变动数据，应答内容生成装置输入来自该变动数据检出装置的变动数据和来自上述语音识别部的识别数据，根据该识别数据输出考虑了上述变动数据的内容的应答内容数据，语音合成装置根据来自该应答内容生成装置的应答内容数据输出与该应答内容数据对应的语音合成数据，语音输出装置将该语音合成装置来的输出向外部发出。
上述变动数据检测装置是测定使用环境的温度并输出该温度数据的温度传感器，上述应答内容生成装置输出考虑了该温度数据的应答内容数据。
上述变动数据检测装置还是测定使用环境的气压并输出该气压数据的气压传感器，上述应答内容生成装置输出考虑了该气压数据的应答内容数据。
上述变动数据检测装置还是检测日历数据输出该日历数据的日历检出装置，上述应答内容生成装置输出考虑了该日历数据的应答内容数据。
本发明随着影响对话内容的变动数据(例如，时间、气温、天气、日期等)的变化，对预先登录的识别对象语音的每1个识别数据设定加权系数。例如，若变动数据为时间，则与时间相对应对识别对象语音的每一个识别数据设定加权系数，通过进行考虑了该加权系数的语音识别，可以进行考虑了讲话者的语言(特别是问候语)在时间上是否合理的声音识别。因此，即使出现与声音分析后的声音模式相似的识别对象语音时，通过加权系数也可以使最终输出的识别数据的数值之差增大，从而可以提高识别率。不仅是时间，对上述种种的变动数据都是可能的，例如，通过根据气温设定加权系数，可以进行考虑了问候语在气温上是否合理的语音识别，这时，即使出现与声音分析后的声音模式相似的识别对象语音时，与上述一样通过加权系数也可以使最终输出的识别数据的数值之差增大，从而可以提高识别率。
此外，当变动数据是时间时，对某1个语句，检出使用该语句的频度高的时间，使该使用频度高的时刻时的加权系数值最大、距离该时间越远系数值愈小，由此便可以得到与实际使用状态相符合的语句与时间的关系。
还有，随着时间的推移等产生改变对输入语音的应答内容的应答内容级别，根据来自语音识别部的识别数据决定与上述应答内容级别相应的应答内容，进行与之相应的应答，所以，可以使对讲话者问询的应答内容级别发生变化。
进而，使用来自温度传感器、气压传感器的数据和日历数据等变动数据，根据这些数据生成应答内容，由此可以使应答内容在很宽范围内变化，从而可以进行内容更加充实的对话。

图1是本发明第1实施例的布制玩具狗的整体结构框图。
图2是本发明第2实施例的整体结构框图。
图3是本发明第3实施例的整体结构框图。
图4是本发明第4实施例的整体结构框图。
图5是本发明第5实施例的整体结构框图。
图6是本发明第6实施例的整体结构框图。
1...话筒2...语音分析部3...时钟部4...系数设定部5...语音识别部6...语音合成部7...驱动控制部8...扬声器9...电源部10...操作机构11...电机12...凸轮13...凸杆14...轴15...曲柄16...狗的下颚21...系数存储部31...应答内容级别产生部32...应答内容级别存储部33...应答内容生成部34...温度传感器35...气压传感器36...日历部具体实施方式
以下，通过实施例示出本发明的详细情况。再有，在下面说明的实施例中，以本发明用于玩具为例、特别是在这里以本发明用于玩具“布制玩具狗”为例进行说明。
(第1实施例)
该第1实施例是相对于预先登录的识别对象语音的识别数据设定与影响对话内容的变动数据(时间、气温、天气、日期等)的值相对应设定加权系数，当输入问候语句时希望提高对该问候语句的识别率。图1是说明本发明的第1实施例的结构图。首先简略说明其结构，然后说明每一种详细的功能。在该第1实施例中，以使用时间作为影响上述对话内容的变动数据为例进行说明。
图1中，布玩具狗30的内部设置有话筒1、语音分析部2、时钟部3、系数设定部4、语音识别部5、语音合成部6、驱动控制部7、扬声器8和电源部9等。话筒1用于从外部输入语音，语音分析部2分析从话筒1来的语音、产生与语音特征值对应的语音数据模式，时钟部3作为计时装置输出上述语音输入的时间或后文所述的由语音识别部识别的时间等时间数据，系数设定部4输入来自该时钟部3的时间数据、与各识别对象语音的内容相对应产生随时间变化而变化的加权系数，语音识别部5输入从上述语音分析部2输出的语音的语音数据模式，同时从上述系数设定部4得到对登录的识别对象语音在该时刻的各个加权系数，对各识别对象语音的识别数据分别乘上对应的加权系数算出最终的识别数据，根据所求得的这些最终识别数据进行上述输入语音的识别，输出识别出的语音的最终识别数据，语音合成部6在来自该语音识别部5的考虑了上述系数后识别出的最终识别数据的基础上输出与其对应的语音合成数据，驱动控制部7按照预先规定的驱动条件、根据由上述语音识别部5识别出的识别数据驱动操作机构10使布玩具狗30的嘴等动作，扬声器8向外部输出由上述语音合成部6合成的语音内容，电源9等使以上各部工作。
上述语音识别部5作为识别方法在这里是以使用了把非特定的说话者作为对象的神经网络的情况为例进行说明的，但是，作为识别方法不限于以非特定的说话者为对象的方法，也可以采用以特定的说话者为对象的方式或者DP匹配和HMM等其他众所周知的识别方法。
上述操作机构10根据驱动控制部7输出的驱动信号(与语音合成部6的输出信号在长度上一致)使电机11转动，通过与电机连动的凸轮12的转动设置在该凸轮12上的突起状的凸杆13与凸轮12一起连动而作园运动。而且曲柄15以轴14为支点夹在凸杆13上，布玩具狗的下颚16随凸轮12的转动上下动作。
在这样的结构中，从话筒1输入的语音经语音分析部2分析后生成与输入语音特征值相应的语音数据模式。该语音数据模式输入到预先设置在语音识别部5上的神经网络的输入部上，如下面那样进行语音识别。
这里，以对某几个问候词或语句进行识别的情况为例进行说明。例如，以“早上好”、“我走了”、“您好”、“我回来了”、“您休息吧”等问候语为例进行说明。例如，现在假如某一非特定的讲话者说的“早上好”被输入到话筒内，该讲话者的“早上好”这个语句的特征由语音分析部2进行分析并作为语音数据模式输入到语音识别部5。
另一方面，从话筒输入的“早上好”语句作为声压被检测出来的时刻或“早上好”语句由语音识别部5的神经网络识别出来的时刻的时间数据从时钟部3送到系数设定部4。这里，系数设定部4的参照时间假定是语音识别部5识别了语音的时间。
这样一来，输入到声音识别部5的神经网络的“早上好”的上述声音数据模式便不作为二进制数据而是作为具有某一数值的识别数据从神经网络的输出部输出。这里以将该值作为从0到10的具有浮点的值输出的情况为例进行说明。
当讲话者向布玩具狗30说“早上好”时，假定从语音识别部5的神经网络输出“早上好”为8.0、“我走了”为1.0、“您好”为2.0、“我回来了”为1.0、“请休息”为4.0的识别数据。这里，神经网络对讲话者的“早上好”的识别数据当然是“早上好”为8.0的高的数值。但是与“我走了”、“您好”、“我回来了”相比，“请休息”也有比较高的识别数据值，可以认为这是由于某一任意非特定讲话者的“早上好”和“请休息”经语音分析部2分析的语音数据模式比较相似。因此，讲话者所说的“早上好”被语音识别部5识别为“我走了”、“您好”、“我回来了”的概率几乎为零，但讲话者的“早上好”被识别成“请休息”的可能性却比较大。这时语音识别部5访问系数设定部4，读出对识别对象的语句预先设定的加权系数，将该系数乘以识别数据。该加权系数是因问候语一般在不同时间使用不同内容的语句而按时间对各个问候语所设定的系数。例如，当现在的时间是早上7点00分时，对“早上好”设定的加权系数是1.0、对“我走了”的加权系数是0.9、对“您好”的加权系数是0.7、对“我回来了”的加权系数是0.6、对“请休息”的加权系数是0.5，这样的识别对象语句和时间以及系数的关系事先存储在系数设定部4中。
这样将加权系数考虑进去之后，因为从神经网络输出的“早上好”的识别数据是8.0、早上7点00分的“早上好”的系数是1.0，所以“早上好”的最终识别数据是8.0与系数1.0的乘积即为8.0的值。同样，“我走了”的最终识别数据是1.0和0.9的乘积0.9，“您好”的最终识别数据是2.0和0.7的乘积1.4，“我回来了”的最终识别数据是1.0和0.6的乘积0.6，“请休息”的最终识别数据是4.0和系数0.5的乘积2.0。这样在语音识别部5中生成考虑了时间加权系数的最终识别数据。
这样一来，通过求出考虑了由时间信息决定的加权系数之后的最终识别数据，“早上好”的最终识别数据是“请休息”的最终识别数据的4倍以上的很大的值，所以，在语音识别部5中便能把讲话者说的“早上好”正确地识别成“早上好”这一语句。而且，这些可识别的语句数是任意的。象上面那样被识别的语句“早上好”的最终识别数据输入到语音合成部6和驱动控制部7。语音合成部6与来自语音识别部5的最终识别数据相对应，变换出预先决定的语音合成数据，并将该语音合成输出从扬声器8发出。这时，扬声器8针对“早上好”语句的最终识别数据发出例如“早上好”。即，当与该布制玩具玩耍的孩子向布制玩具问候“早上好”时，布玩具回答“早上好”。这是因为说“早上好”的时间是早晨7点00分、问候语的内容和说话的时间相吻合，所以能正确识别出“早上好”，并对“早上好”的问候作出恰当地回答。
另一方面，驱动控制部7根据与上述最终识别数据相对应的预先决定的驱动条件来驱动各操作机构。这里是使布玩具狗的嘴随着语音合成部6的输出信号(此时是“早上好”)动作。但操作机构不限于布玩具的嘴动作，例如也可以使头部晃动、尾巴摆动或任意部位动作。
同样地就现在时间是晚上8点00分的情况进行说明。这时，对“早上好”设定的加权系数是0.5、对“我走了”的加权系数是0.6、对“您好”的加权系数是0.7、对“我回来了”的加权系数是0.9、对“请休息”的加权系数是1.0。
通过这样来考虑加权系数，因为从神经网络输出的“早上好”的识别数据是8.0、晚上8点00分时的“早上好”的加权系数是0.5，所以“早上好”的最终识别数据就是8.0和系数0.5的乘积4.0的值。
同样，“我走了”的最终识别数据是1.0和系数0.6的乘积0.6、“您好”的最终识别数据是2.0和系数0.7的乘积1.4、“我回来了”的最终识别数据是1.0和系数0.9的乘积0.9、“请休息”的最终识别数据是4.0和系数1.0的乘积4.0。
这样在语音识别部生成考虑了加权系数的最终识别数据。根据上述的最终识别数据，“早上好”和“请休息”的最终识别数据都是4.0，由于两者没以差别因此不能识别。也就是说，如果讲话者在晚上8点00分也说“早上好”，这个“早上好”到底是“早上好”还是“请休息”识别不出来。
该最终识别数据送到语音合成部6和驱动控制部7，语音合成部6和驱动控制部7进行与此相应的动作。即，语音合成部6便变换出与该最终识别数据对应的、预先准备好的有疑义的应答语音合成数据并输出。例如，通过扬声器输出“什么！真滑稽”。这意思是都到晚上了你还说“早上好”太可笑了。
驱动控制部7与上述一样根据与来自语音识别部5的最终识别数据对应的预先决定的驱动条件驱动各操作机构。在这里是使布玩具狗的嘴跟随语音合成部5的输出信号(这里是“什么！真滑稽”)动作。
但是，操作机构与上述一样不限于布玩具嘴的动作也可以驱动任意的部位动作。
下面，就现在时间是8点00分、讲话者说“请休息”时的情况进行说明。这时，假定从语音识别部3的神经网络输出的识别数据是“早上好”4.0、“我走了”1.0、“您好”2.0、“我回来了”1.0、“请休息”8.0。而且，假定设定晚上8点钟对“早上好”的加权系数是0.5、对“我走了”的加权系数是0.6、对“您好”的加权系数是0.7、对“我回来了”的加权系数是0.9、对“请休息”的加权系数是1.0。
通过考虑这样的加权系数，由于从神经网络输出的“早上好”的识别数据是4.0、晚上8点00分时对“早上好”的加权系数是0.5，所以“早上好”的最终识别数据是4.0和系数0.5相乘的值2.0。同样，“我走了”的最终识别数据是1.0和系数0.9的乘积0.9、“您好”的最终识别数据是2.0和系数0.7的乘积1.4、“我回来了”的最终识别数据是1.0和系数0.6的乘积0.6、“请休息”的最终识别数据是8.0和系数1.0的乘积8.0。就这样在语音识别部5中生成考虑了加权系数的最终识别数据。
这样一来，通过求出考虑了时间信息的最终识别数据，“请休息”的最终识别数据是“早上好”的最终识别数据的4倍以上的很大的值，所以语音识别部5的正确地将讲话者的“请休息”识别成“请休息”语句。
象以上那样识别出来的“请休息”语句的最终识别数据被输入到语音合成部6和驱动控制部7。语音合成部6与来自语音识别部5的最终识别数据相对应变换出预先决定的语音合成数据，将该语音合成输出从扬声器8发出。这时，扬声器8针对“请休息”语句的最终识别数据发出例如“请休息”。
在以上的说明中，虽然布制玩具对“早上好”的问候回答的是“早上好”、对“请休息”回答的是“请休息”，但是，也可以把对问话的回答设定为各式各样的语句。例如，对“早上好”问话的回答可以设定为“今天您起得早”。
此外，在该第1实施例中，虽然是就使用时间作为设定加权系数时的变动数据的情况进行了说明，但是不限定是时间也可以使用例如气温、天气、日期等数据并根据这些数据设定加权系数。例如，当使用气温作为变动数据时，由测定气温的温度传感器检测温度数据，通过对与温度有关的寒喧语句(“真热”或真冷”等)的输入语音的识别数据和其他的登录的识别数据分别设定加权系数，即使有与输入语音比较相似的语音数据模式，根据该加权系数可以使两者的识别数据的差值加大从而可以提高识别率。进而，如果将时间、气温、天气、日期等变动数据组合起来使用并与此对应设定加权系数，则可以更加提高对各种各样的问候寒喧语句的识别率。
(第2实施例)下面参照图2说明本发明的第2实施例。图2中省去了布玩具狗30和使布玩具的嘴动作的的操作机构10等。图2的结构与图1的不同之处在于设有存储器21，用于存储与系数设定部4设定的时间数据对应的各个可识别语句的加权系数，其它构成部件和图1一样，因此对同一部分标记同一符号。此外，关于存储器21和系数设定部4之间的处理等在后面说明。
在图2中，从话筒输入的语音由语音分析部2进行分析并生成与输入语音的特征值对应的语音数据模式。该语音数据模式输入到预先设在语音识别部5中的神经网络的输入部，进行下面所示那样的语音识别。
这里，以识别某些问候性的单词或语句的情况为例进行说明。例如，以“早上好”、“我走了”、“您好”、“我回来了”、“请休息”等的问候语句作为例子进行说明。例如，现在由某个非特定的讲话者所说的“早上好”这一语句被送到话筒1，该讲话者说的“早上好”语句的特征由语音分析部2分析后作为语音数据模式输入到语音识别部5。
另一方面，从话筒1输入的“早上好”语句作为声压被检测出来的时刻或“早上好”语句由语音识别部5的神经网络识别出来的时刻的时间数据由时钟部3送入系数设定部4。这里，假设系数设定部4参照的时间是语音识别部5识别了语音的时间。
这样一来，向语音识别部5的神经网络输入的“早上好”的上述语音数据模式不是作为二进制的数据而是作为具有某一数值的识别数据从神经网络的输出部输出。这里，以该值作为从0至10的具有浮点的值而输出的情况为例进行说明。
当讲话者对布玩具30说“早上好”时，从语音识别部5的神经网络输出例如“早上好”为8.0、“我走了”为1.0、“您好”为2.0、拔一乩戳恕蔽*1.0、“请休息”为4.0的识别数据。这里，神经网络对讲话者的“早上好”的识别数据当然是“早上好”为8.0的高数值，但“请休息”的识别数据又比“我走了”、“您好”、“我回来了”的识别数值要高一点，可以认为这是由于某一任意非特定讲话者的“早上好”和“请休息”经语音分析部2分析的语音数据模式比较相似。因此，讲话者所说的“早上好”被语音识别5识别为“我走了”、“您好”、“我回来了”的概率几乎为零，但讲话者的“早上好”被识别成“请休息”的可能性却比较大。到此为止与上述第1实施例大致一样。
上述语音识别部5访问系数设定部4并读出对与时间数据相应的各可识别语句所设定的用于加权的系数，但在该第2实施例中，在系数设定部4上接有存储器21，存储器21存储的内容(加权系数)由系数设定部4进行访问处理。再有，上述系数设定部4对某个语句来说，当该语句出现在识别得最多的时刻时使对某识别数据的加权系数取最大的值，离该时刻越远所输出的对该语句的识别数据的加权系数就越小。即，当某个语句出现在该语句使用频度最高的时间时，使对其识别数据的加权系数取最大值，离该时间越远，对该语句的识别数据的加权系数就越小。
例如，当现在的时间是早上7点00分时，如假设在存储器21中设定的各系数的初始值分别是“早上好”的加权系数1.0、“我走了”的加权系数0.9、“您好”的加权系数0.7、“我回来了”的加权系数0.6、“请休息”的加权系数0.5，则因从神经网络输出的“早上好”的识别数据是0.8，从存储器21调出的早上7点00分时的“早上好”的系数是1.0，所以，“早上好”的最终识别数据便是8.0和系数1.0相乘的值8.0。根据同样的计算“我走了”为0.9、“您好”为1.4、“我回来了”为0.6、“请休息”为4.0。在语音识别部5中生成如上的初始的最终识别数据。
但是，即使在已进行考虑了基于时间的加权系数的识别情况下，正确识别某一语句的时间也有一定的范围。例如，若以语句“早上好”为例，既有在早上7点00分被正确识别的情况，也有在早上7点30分被正确识别的情况，还有在早上8点00分被正确识别的情况。考虑到这一点，在存储器21内根据某个语句被识别的以前的时间数据将对该语句识别得最多的时刻的该语句的最大加权系数值存储起来，并且把离该时刻越远其值越小的系数值也存储起来。
例如，若以“早上好”语句为例进行说明，假如根据以前的统计该“早上好”语句在早上7点00分被识别得最多，那么与“早上好”的识别数据相乘的系数便设定成在早上7点00分的时间数据时最大、离早上7点00分越远的时间系数越小。即，设定成早上7点00分时的系数为1.0、早上8点时的系数为0.9、早上9点时的系数为0.8。这样，设定系数的时间数据就不仅仅是过去的1个时间数据，而是以几个时间数据为基础进行统计设定。此外，最开始的初始设定时的系数是以相对于预先决定的时刻的系数作为标准系数来设定的。即，在初始状态下，这里对于“早上好”是使早上7点00分时的加权系数为1.0。
而且最新识别的“早上好”的系数与时间数据一起作为新的系数数据输入存储器21，在存储器21中以该数据和过去的数据为基础按要求更新该语句的系数。
这样，通过使某个语句的系数在以该语句使用最多的时刻为中心取最大值，例如，如果“早上好”语句是早上7点左右发出的，神经网络输出的“早上好”的识别数据则是8.0，从存储器21调出的时刻数据在7点00分时的“早上好”的系数是1.0，所以，“早上好”的最终识别数据便是8.0和系数1.0相乘的值8.0，由于该最终识别数据比其它语句的最终识别数据大4倍以上，所以语音识别部5便能正确地识别“早上好”语句。
这样识别出来的“早上好”语句的最终识别数据输入到语音合成部6和驱动控制部7。输入到语音合成部6的最终识别数据被变换成预先决定的对应的语音合成数据，装在布玩具狗体内的扬声器8对讲话者的“早上好”的问候作出反应，回答预先设定好的语句为“早上好”或“今天起得真早”。
另一方面，当“早上好”语句是中午12点左右发出的时，“早上好”的系数变为很小的值，“早上好”的最终识别数据则成为很低的值，便不能识别出“早上好”。这时，如上述第1实施例所说明的那样，语音合成部6设定有与此对应的语句，布玩具30便会作出例如“什么！真滑稽”这样的应答。
(第3实施例)下面参照图3说明本发明的第3实施例。图3中省去了布玩具狗30和使布玩具的嘴动作的操作机构10等。该第3实施例的构成设有话筒1、语音分析部2、时钟部3、语音识别部5、语音合成部6、驱动控制部7、扬声器8和电源部9等。话筒1从外部输入语音，语音分析部2分析从话筒1输入的语音、产生与语音特征值对应的语音数据模式，时钟部3输出时间数据，语音识别部5根据由上述语音分析部2输出的语音数据模式输出对上述输入语音的识别数据，语音合成部6根据来自该语音识别部5的考虑了上述系数的识别数据输出与该识别数据对应的语音合成数据，驱动控制部7根据与由上述语音识别部5识别的识别数据对应的预先决定的驱动条件驱动使布玩具30嘴动作的操作机构10(参照图1)，扬声器8向外部输出由上述语音合成部6合成的语音内容，电源部9用于使以上各部分工作。进而还设有应答内容级别产生部31、应答内容级别存储部32、应答内容生成部33。
上述语音识别部5作为识别方法在这里是以使用把非特定的讲话者作为对象的神经网络的情况为例进行说明的，但是，作为识别方法并不限于以非特定的讲话者为对象的方法，也可以采用以特定讲话者为对象的方式、DP匹配或HMM等其它众所周知的识别方法。
上述应答内容级别产生部31是用来产生应答级别值的，该应答级别值用于使应答内容的级别随着时间的推移或语音识别部5中识别次数的增加而提高，上述应答内容级别存储器32是用来存储应答内容级别产生部31产生的应答级别和时间的关系的。例如，使购入该布玩具开始接通工作开关时的级别为1、从该时起经过24小时后的级别为2、再经过24小时后的级别为3，就这样来存储时间的推移和级别值的关系。
上述应答内容生成部33当输入来自语音识别部5的最终识别数据后便访问上述应答内容级别产生部31以决定与该应答内容级别值对应的应答内容。这时，应答内容级别产生部31从应答内容级别存储部32读取与时间数据对应的应答内容级别。例如，如上所述如果是在初次开关接通后的24小时之内，则作为应答内容级别读出级别1，若在24小时之后48小时之内，则读取级别2。
应答内容生成部33根据来自语音识别部5的识别数据生成与读出的应答内容级别对应的应答内容识别数据。例如，对于“早上好”的识别数据，当应答内容级别(以下简称级别)为1时应答内容是“汪、汪”、级别为2时是“早-上-好”这样象小孩学语一样的不清楚的句子，级别为3时变成“早上好”，级别再住上当级别为n时就成为“早上好，您今天的心情真好”，随着时间的推移，提高回答内容的逐级。该应答内容生成部33生成的应答数据由语音合成部6进行语音合成，从扬声器8发出。
例如，现在由非特定的讲话者发出的“早上好”语句输入到话筒1，该讲话者的“早上好”语句的特征由语音分析部2进行分析，并作为语音数据模式输入到语音识别部5。
这样一来，输入到语音识别部5的神经网络中的上述“早上好”的语音数据模式不作为二进制数据而是作为具有某个值的识别数据从神经网络输出部输出。而且，如果对“早上好”语句的识别数据相对于其它语句的识别数据具有占优先的值，则在语音识别部5中将讲话者发出的“早上好”正确地识别成“早上好”。
这样识别出来的“早上好”语句的识别数据被输入到回答内容作成部33。而且，在该应答内容生成部33中，根据输入的识别数据和应答内容级别产生部31的内容决定对输入的识别数据的应答内容。
来自上述应答内容级别产生部31的应答级别值为上所述是针对讲话者的问话使应答内容逐级提高的值，在这里，是根据时钟部3的时间数据随着时间的推移使应答内容逐步升级。但是，该级别的升高不仅仅根据时间的推移、也可以根据识别的语句数量和种类使级别值发生变化，或者也可以根据时间的推移以及识别的语句数量和种类的组合来使级别值变化。
该第3实施例的特征在于，给人留下一个印象即布玩具就象活的动物一样随着时间推移而慢慢长大。即，购入该布玩具的第1天对“早上好”的问候语句的应答级别是比较低的级别1，所以只能回答“汪、汪”，到2天就升到级别2、对“早上好”的问候语句就能回答“早-上-好”这样象小孩学语一样的不清楚句子了，进而，再经过几天，级别更提高了，对“早上好”的问候便能回答“早上好、您今天的心情真好”这样的句子了。
但是，应答内容提高1个级别需要的时间在以上的说明中是以1天(24小时)左右为例进行说明的，但不限于此，提高1个级别需要的时间也可以更长一些、或者可以更短一些。再有，如果设有复位开关能使升级复位，则在升级过程中可以复位。例如，在升到级别3时复位再返回到初始值。
上面的说明是就对“早上好”的问候的应答进行了说明，但不限于此，当然对于“请休息”、“我走了”等的客套话也可以使回答内容升级。例如，若以“请休息”为例，在级别1中，布玩具对“请休息”的回答是“咕、咕”，升到级别2时就变成“请-休-息”这样的回答内容了。
通过这种应答内容的升级，可以看到真好象是布玩具狗在长大，根据其长大的程度应答内容慢慢发生变化。而且，由于在识别了相同的问候语句“早上好”的情况下、随着时间的推移作出不同的回答，所以可以象真的活的动物那样作出反应。另外，由于对讲话者的同样的问候语句作出不同的应答，所以不会使人感到厌烦。
该第3实施例也适合于当应答内容级别低时讲话者进行训练，使讲话者知道自己用什么样的方式讲话才能使自己讲的话得到高的识别率。即，当讲话者问候“早上好”时，在对讲话的方式不习惯的情况下，难以识别出“早上好”，多数刚开始时识别率很低。这时，如果对“早上好”的问候回答“汪、汪”也就能对“早上好”进行识别了，如果在开始的阶段用这种可以识别的讲话方式来训练的话，因为记住了讲话者用什么样的讲话方式才能被识别，所以即便是在应答内容级别高的情况下，对讲话者说的话也必然能以高的识别率识别，从而可以进行自然的对话。
(第4实施例)下面参照图4说明本发明的第4实施例。图4省略了图1所示的布玩具狗30和使布玩具的嘴动作的操作机构10。在该第4实施例中，检测出温度作为影响对话内容的变动数据之一，通过该温度的变化来改变上述第3实施例中示出的应答内容生成处理部33的应答内容，在图4中设有温度传感器34，其余与图3相同的部分标以相同的符号。上述应答内容生成部33输入从语音识别部5来的识别数据，根据该识别数据和温度传感器的温度数据来决定布玩具30的应答内容。下面叙述这些具体处理内容。
图4中，从话筒1输入的语音由语音分析部2进行分析生成与输入的语音的特征值相应的语音模式。该语音模式输入到预先设在语音识别部5中的神经网络的输入部并进行语音识别。
例如，现在由非特定讲话者所说的“早上好”语句输入话筒1，该讲话者的“早上好”语句的特征由语音分析部2进行分析并作为语音模型输入到语音识别部5。
这样一来，输入到语音识别部5的神经网络的“早上好”的上述语音模式数据不作为二进制数据而作为具有某个值的识别数据从神经网络的输出部输出。而且，如果“早上好”的识别数据比其它语句的识别数据具有优先的值，语音识别部5对讲话者所说的“早上好”便能正确地识别成“早上好”。
这样识别了的“早上好”语句的识别数据输入到应答内容生成部33。而且在该应答内容生成部33中，根据输入的识别数据和来自温度传感器的温度数据来决定对输入的识别数据的应答内容。
由此，便可以生成使与语音识别部5输出的识别数据对应的应答内容和这时的温度对应起来的应答数据。例如，假如通过语音识别部5对讲话者的“早上好”的问候正确地识别成“早上好”，应答内容生成部33在这时的温度是低值的情况下针对该“早上好”的识别数据生成“早上好，有点冷吧”的应答数据。但是，当温度上升温度数据值变大时，对于同样的“早上好”的识别数据则生成“早上好，有点热吧”的应答数据。由该应答内容生成部33生成的应答数据输入到语音合成部6和驱动控制部7。输入语音合成部6的讲话数据被变换成语音合成数据，通过装在布玩具狗体内的扬声器8发出。驱动控制部7根据与输入的识别数据预先对应决定的驱动条件来驱动操作机构10(参照图1)，布玩具的嘴只在输出应答内容时才动作。
这样随着环境温度的变化可以看到布玩具狗就象真的似的能感觉环境温度的变化并作出与温度相应的应答。而且，即便是在识别出是相同的“早上好”的问候语的情况下，也能象真的活的动物那样作出反应，根据温度的变化作出不同的回答。另外，由于对讲话者说的同样的语句作出不同的回答，所以不会使人感到厌烦。
(第5实施例)下面参照图5详细说明本发明的第5实施例。图5省略了图1所示的布玩具狗30和使布玩具的嘴动作的操作机构10等的图示。该第5实施例检测出气压作为影响对话内容的变动数据，根据气压的变化(天气好坏)来改变上述第3实施例中示出的应答内容生成部33的应答内容，在图5中，设有气压传感器35，其余与图3相同的部分标以相同的符号。上述应答内容生成部33从语音识别部5输入识别数据，根据该识别数据和气压传感器的气压数据决定布玩具的应答内容。要改变应答内容，下面讲述其具体的处理内容。
图5中，输入话筒1中的语音经语音分析部2分析后生成与输入的语音的特征值相应的语音模式。该语音模式输入到预先设在语音识别部5中的神经网络的输入部并进行语音识别。
例如，现在由非特定讲话者所说的“早上好”语音输入到话筒1中，该讲话者的“早上好”语句的特征由语音分析部2进行分析并作为语音模式数据输入到语音识别部5中。
这样一来，输入到语音识别部5的神经网络里的上述“早上好”的语音模式数据不作为二进制数据而是作为具有某个值的识别数据从神经网络的输出部输出。而且，如果该“早上好”语句的识别数据比其它语句的识别数据具有优先的值，则语音识别部5将讲话者所说的“早上好”正确地识别成“早上好”。
这样识别出来的“早上好”语句的识别数据输入到应答内容生成部33。而且，在该应答内容生成部33中根据输入的识别数据和来自气压传感器35的气压数据决定对输入的识别数据的应答内容。
因此，可以生成使与语音识别部5输出的识别数据对应的应答内容和这时的气压对应起来的应答数据。例如，当通过语音识别部5对讲话者的“早上好”的问候正确识别成“早上好”时，应答内容生成部33在这时气压变低的情况下对该“早上好”的识别数据生成“早上好，今天天气不好呵”的应答数据。与此相反，当气压变高时，则对“早上好”的识别数据生成“早上好，今天天气不错呵”的应答数据。由该应答内容生成部33生成的应答数据输入到语音合成部6和驱动控制部7。输入到语音合成部6的回答数据变换成语音合成数据，由装在布玩具狗体内的扬声器8发出。此外，驱动控制部7根据与输入的识别数据预先对应决定的驱动条件驱动操作机构10(参照图1)，布玩具的嘴只在输出应答内容时动作。
这样根据气压的变化，可以使人看到布玩具狗象真的似的能感觉环境天气的变化并作出与天气的好坏相应的应答。而且，即使对于识别出相同的“早上好”的问候语句的情况也能象真的活的动物那样根据气压的变化作出反应从而给出不同的应答。此外，由于对讲话者说的同样的语句能给出不同的回答，所以不会使人感到厌烦。
(第6实施例)下面参照图6说明本发明的第6实施例。图6中省略了图1所示的布玩具狗30和使布玩具的嘴动作的操作机构10等的图示。该第6实施例检出日历数据作为影响对话内容的变动数据之一，根据该日历数据的变化(月日变化)来改变应答内容，图6的构成与图4或图5的不同之点在于设置日历部36来代替温度传感器34或气压传感器35，与图4或图5相同的部分标以相同的符号。上述日历部36图中未示出，它是通过参照来自时钟部的时间数据更新日历数据的。该第6实施例中的应答内容生成部33从语音识别部5输入识别数据，并根据该识别数据和从日历部36来的日历数据来决定布玩具的应答内容。下面讲述这些具体的处理内容。
图6中，从话筒1输入的语音经语音分析部2进行分析并生成与输入的语音的特征值相应的语音模式。该语音模式输入到预先设在语音识别部5中的神经网络的输入部并进行语音识别。
例如，现在由非特定讲话者所说的“早上好”语句输入话筒1，该讲话者的“早上好”语句的特征由语音分析部2进行分析并作为语音模式数据输入语音识别部5。
这样一来，输入到语音识别部5的神经网络的上述“早上好”的语音模式数据便不作为二进制数据而是作为具有某个值的识别数据从神经网络的输出部输出。而且，如果对该“早上好”语句的识别数据相对于其它语句的识别数据具有优先的值，语音识别部5便将讲话者所说的“早上好”正确地识别成“早上好”。
这样识别的“早上好”语句的识别数据输入到应答内容生成部33。而且在该应答内容生成部33中根据输入的识别数据和来自日历部36来的日历数据(日期信息当然可以包括年的数据)决定对输入的识别数据的应答内容。
由此，可以生成使与语音识别部5输出的识别数据对应的应答内容和这时的日期对应起来的应答数据。例如，当由语音识别部5对讲话者的“早上好”的问候正确地识别成“早上好”时，如果日历数据是4月1日，则应答内容生成部33便对该“早上好”的识别数据生成例如“早上好，请带我去赏花吧”。再有，若日历数据是12月23日，对同样的“早上好”的识别数据则作成“早上好，圣诞节到啦”的应答数据。当然，如果有年的数据，则可以作出与去年不同的应答。
该应答内容生成部33生成的应答数据输入到语音合成部6和驱动控制部7。输入到语音合成部6的应答数据被变换成语音合成数据，由装在布玩具狗体内的扬声器8发出。此外，驱动控制部7根据与输入的识别数据对应的事先决定的驱动条件驱动操作机构10(参照图1)，只有在布玩具的嘴输出讲话内容时才动作。
这样根据月日的变化可以看到布玩具狗象真的似的能感觉日月的变化并给出与其相应的应答。而且，即使在识别了同样的“早上好”的问候语句的情况下，通过根据月日的变化给出不同的应答可以象真的活的动物那样作出反应。而且，由于即使识别出是相同的语句也给出不同的回答，所以不会使人厌烦。
以上通过几个实施例对本发明进行了说明，但是，本发明不仅仅是在上面实施例中已说明过的玩具，可以广泛地用于携带式电子笔记本、对话式游戏机以及其它日常用的电子设备等。此外，在第3实施例之后的实施例中，语音识别部5也可以通过在第1实施例和第2实施例中已说明过的方法由考虑了讲话者的讲话内容和时间等变动数据的合理性的加权系数得出最终的识别数据，或者，也可以用除此以外的其它方法来得到最终识别数据。例如，如果通过第1实施例和第2实施例得到最终识别数据、象第3～第6实施例说明的那样处理对该最终识别数据的应答内容，则可以以高的识别率识别讲话者所讲的话、而且对讲话者的问话能够作出更加合乎情理的回答。进而，通过将第3～第6实施例中说明过的应答处理全部或者按需要使几个相互组合起来使用，则可以进行更加合情合理的对话。例如，将第2实施例和第3实施例组合起来、进而设置在第4实施例之后的实施例中已说明过的温度传感器、气压传感器、日历部等，可以进行考虑了讲话者的讲话内容和时间的合理性的正确语音识别，可以随着时间的推移欣赏布玩具应答内容的级别变化，而且还可以进行交换温度、天气、日期等信息的对话，从而可以实现很高级的语音识别对话装置。
如上所述的本发明的语音识别对话装置，如果按照本发明的第一方面，与各识别对象语音的内容对应产生随变动数据的变化而变化的加权系数，从语音识别装置输出考虑了该加权系数的识别数据，所以即使在识别对象语音中有与输入语音的语音数据模式类似的语音数据模式，也能够通过上述加权系数使输入语音的识别数据比其它登录的识别数据具有优先性，例如，对于象问候、寒喧语句那样的与时间、天气、温度、日期等有关的语句，因为进行的识别是考虑了当时的状况和环境的，所以可以大幅度提高识别率。
如果按照本发明的第2方面，在使用时间数据作为变动数据的情况下，与各识别对象语音的内容对应产生随时间数据变化而变化的加权系数，从语音识别装置输出考虑了该加权系数的识别数据，所以，可以大幅度提高对于日常生活中常用的“早上好”、“请休息”等一类与时间有关的问候语句的识别率。
如果按照本发明的第3方面，在使用时间数据作为变动数据的情况下，每当某一个输入语音被上述语音识别装置正确识别出来的时候，从上述计时装置得到该识别时间，根据正确地识别出的时间数据使对该语音的识别数据的加权系数随时间变化，算出考虑了该加权系数的识别数据，由此进行输入语音的识别，所以，与上述权利要求2一样，可以大幅地提高对日常生活使用非常多的“早上好”、“请休息”等一类与时间有关的问候语句的识别率，进而，在该权利要求3中，不断地检测对某一语句正确识别出的时间，以过去该语句的识别时间为基础来决定加权系数，所以可以与实际使用状况对应设定加权系数。
如果按照本发明的第4方面，输入时间数据和由上述语音识别装置正确识别了的识别次数数据当中的至少1个，在输入的数据的基础上产生使输入语音的应答内容变化的应答内容级别，输出与该应答级别对应的应答内容，所以对于讲话者的问话可以使应答内容级别逐级变化。例如，当使用本发明的布制玩具的玩具时，通过使应答内容的级别提高，可以使人看到布玩具象真的似的在长大，并随着其长大的程度改变应答的内容。而且，例如，在识别了是同样的问候语“早上好”的情况下，通过随着时间的推移给出不同的回答，可以象真的活的动物一样作出反应。再有，由于对讲话者的相同的问话作出不同的回答，所以可以产生不会令人厌烦等的良好效果。进而，当应答内容级别低时，通过讲话者本身练习可以识别的讲话方式，在应答内容级别高的情况下，必然提高对讲话者的语言的识别率，从而可以取得能够进行自然的对话的效果。
如果按照本发明的第5方面，检出影响应答内容的变动数据，并输出考虑了该变动数据的应答内容，所以可以进行与各种情况变化相对应的高级对话。
如果按照本发明的第6方面，通过测定使用环境的温度作为上述变动数据并输出考虑了该温度数据的应答内容，可以进行关于气温的应答，从而可以进行高级的对话。
如果按照本发明的第7方面，通过测定使用环境的气压作为上述变动数据并输出考虑了该气压数据的应答内容，可以进行与天气好坏有关的应答，从而可以进行高级的对话。
如果按照本发明的第8方面，通过检测日历作为上述变动数据并输出考虑了该日历数据的应答内容，可以进行关于日期的应答，从而可以进行高级的对话。
权利要求
1.一种语音识别对话装置，对输入的语音进行分析以与登录的语音数据模式进行比较从而识别语音并根据识别的语音进行应答，其特征在于，它备有语音分析装置，用于对输入的语音信号进行分析、生成语音数据模式；语音识别装置，用于根据从该语音分析装置输出的语音数据模式输出上述输入语音的识别数据；计时装置，用于产生时间数据；应答内容级别产生装置，用于输入该计时装置的时间数据和由上述语音识别装置正确识别的识别次数数据中的至少1个数据，根据输入的数据产生用于改变对输入语音的应答内容的应答内容级别；应答内容级别存储装置，用于存储由上述应答内容级别产生装置得到的应答级别；应答内容生成装置，用于根据来自上述语音识别部的识别数据决定与来自上述应答内容级别产生装置的应答级别相对应的应答内容，并输出与此对应的应答内容数据；语音合成装置，用于根据来自该应答内容生成装置的应答内容数据输出与该应答内容数据对应的语音合成数据；语音输出装置，用于将来自该语音合成装置的输出向外部发出。
2.一种语音识别对话装置，对输入的语音进行分析，以与登录的语音数据模式进行比较从而识别语音并根据识别的语音进行应答，其特征在于，它备有语音分析装置，用于对输入的语音进行分析并生成语音数据模式；语音识别装置，用于根据该语音分析装置输出的语音数据模式输出对上述输入语音的识别数据；变动数据检测装置，用于检出影响对话内容的变动数据；应答内容生成装置，用于输出来自该变动数据检测装置的变动数据和来自上述语音识别装置的识别数据，根据该识别数据输出考虑了上述变动数据内容的应答内容数据；语音合成装置，用于根据来自该应答内容生成装置的应答内容数据输出与该应答内容数据对应的语音合成数据；语音输出装置，用于将来自该语音合成装置的输出向外部发出。
3.根据权利要求2所述的语音识别对话装置，其特征在于上述变动数据检测装置是测定使用环境的温度并输出其温度数据的温度传感器，上述应答内容生成装置输出考虑了该温度数据的应答内容数据。
4.根据权利要求2所述的语音识别对话装置，其特征在于上述变动数据检测装置是测定使用环境的气压并输出其气压数据的气压传感器，上述应答内容生成装置输出考虑了该气压数据的应答内容数据。
5.根据权利要求2所述的语音识别对话装置，其特征在于上述变动数据检测装置是检出日历数据并输出该日历数据的日历数据检出装置，上述应答内容生成装置输出考虑了该日历数据的应答内容数据。
全文摘要
一种语音识别对话装置，对输入的语音进行分析以与登录的语音数据模式进行比较从而识别语音并根据识别的语音进行应答，其特征在于，它备有语音分析装置，语音识别装置，计时装置，应答内容级别产生装置，应答内容生成装置，用于根据来自上述语音识别部的识别数据决定与来自上述应答内容级别产生装置的应答级别相对应的应答内容，并输出与此对应的应答内容数据；语音合成装置，用于根据来自该应答内容生成装置的应答内容数据输出与该应答内容数据对应的语音合成数据；语音输出装置，用于将来自该语音合成装置的输出向外部发出。
文档编号A63H13/02GK1516112SQ0313119
公开日2004年7月28日申请日期1996年2月29日优先权日1995年3月1日
发明者枝常伊佐央申请人:精工爱普生株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：枝常伊佐央
技术所有人：精工爱普生株式会社
我是此专利的发明人