辞典修正方法、辞典修正程序、声音处理装置以及机器人与流程

文档序号:14406122阅读:304来源:国知局
辞典修正方法、辞典修正程序、声音处理装置以及机器人与流程

本公开涉及对声音处理装置中使用的辞典进行修正的辞典修正方法、辞典修正程序、声音处理装置以及机器人。



背景技术:

以往的声音识别系统或文字串变换系统中,存在如下问题:未登记于辞典的单词会无法识别或会发生误识别。对此,存在如下技术:通过追加来向辞典中登记单词的含义或读法等信息,或登记如校正被误识别的单词的规则,从而提高识别精度。

但是,在辞典中通过追加登记了信息的情况下,在存储区域有限制的环境中,存在能够追加登记的容量有限制这一问题。以往,作为针对以上问题的技术,例如在专利文献1中公开了在对辞典追加登记了信息的情况下删除旧的信息的技术。另外,例如在专利文献2中公开了如下技术:追加登记于辞典的信息被按照使用频度从高到低的顺序排列,删除最不被使用的信息。

现有技术文献

专利文献1:日本特开2001-22374号公报

专利文献2:日本特开9-185616号公报



技术实现要素:

发明要解决的问题

但是,处于语言学习阶段的幼儿随着成长其词汇数量不断增加而不断掌握正确的说法,因此,需要与由于成长而变化的幼儿的词汇或者说话特性相匹配地更新辞典。因此,当简单地按照从旧到新或者从利用频度低到高的顺序删除所追加登记的单词或校正规则时,有可能会误删除还无法掌握正确的说法的单词或者校正规则。

本公开是为解决上述问题而完成的,提供一种能够与说话者的语言学习阶段相匹配地修正声音处理装置中使用的辞典、能够使声音识别的精度提高的辞典修正方法、辞典修正程序、声音处理装置以及机器人。

用于解决问题的技术方案

本公开的一个技术方案涉及的方法是对声音处理装置所使用的辞典进行修正的方法,包括:从由与所述声音处理装置对应的麦克风收集到的声音提取对象说话者的话语;推定构成所述话语的话语音素串;使用第1辞典算出所述话语音素串与登记于所述第1辞典的第1单词所对应的第1音素串之间的匹配度,所述第1辞典存储于所述声音处理装置所具备的存储器,表示所述第1单词与所述第1音素串之间的对应关系;从所述第1辞典提取与最高的所述匹配度对应的所述第1单词来作为所述对象说话者所说的话语单词;基于所述最高的匹配度来修正第2辞典,所述第2辞典表示第2单词与第3单词之间的对应关系,所述第3单词对应于所述对象说话者意图表达所述第2单词而说的言语单位;通过修正与所述话语单词一致的所述第3单词和与所述第3单词对应的所述第2单词之间的对应关系,从而修正所述第2辞典。

发明的效果

根据本公开,能够与说话者的语言学习阶段相匹配地修正声音处理装置中所使用的辞典,能够提高声音识别的精度。

附图说明

图1是表示本实施方式1的声音对话系统的整体结构的一例的图。

图2是表示本实施方式1的幼儿词汇辞典的一例的图。

图3是表示本实施方式1的误识别校正辞典的一例的图。

图4是表示本实施方式1的识别历史表的一例的图。

图5是表示本实施方式1的校正历史表的一例的图。

图6是用于对本实施方式1的声音识别处理进行说明的流程图。

图7是用于对本实施方式1的修正误识别校正辞典的处理进行说明的流程图。

图8是用于对本实施方式1中的登记未登记于误识别校正辞典的误识别单词以及校正单词的处理进行说明的第1流程图。

图9是用于对本实施方式1中的登记未登记于误识别校正辞典的误识别单词以及校正单词的处理进行说明的第2流程图。

图10是表示本实施方式1中的对象幼儿与声音对话系统的具体对话的一例的图。

图11是表示本实施方式1的校正历史表的其他例的图。

图12是表示本实施方式1的识别历史表的其他例的图。

图13是用于对本实施方式2中的修正在声音识别的误识别的校正中使用的误识别校正辞典的辞典修正方法进行说明的流程图。

图14是本公开的实施方式3涉及的机器人的外观立体图。

图15是本公开的实施方式3涉及的机器人的内部立体图。

图16是表示本公开的实施方式3涉及的机器人的结构的框图。

标号说明

1机器人

20cpu

30存储器

100声音输入部

101壳体

200声音对话处理装置

201话语提取部

202对象幼儿判定部

203声音识别部

204意图理解部

205应答生成部

206声音合成部

207历史信息更新部

208校正规则登记部

209辞典更新部

211显示部

212壳体驱动轮

214壳体驱动轮控制部

215驱动机构控制部

216扬声器

217麦克风

218驱动机构

230主控制部

231移动控制部

234声音对话处理部

235显示信息输出控制部

236存储器

300声音输出部

301幼儿词汇辞典

302误识别校正辞典

303识别历史表

304校正历史表

具体实施方式

(成为本公开的基础的见解)

研究了关于如下的声音对话系统的技术,该声音对话系统从用户所说的声音解析说话内容,根据解析结果来返回自然的应答,由此实现与用户的自然的对话,提供设备的控制或者信息提供等服务。在声音对话系统中,通过将要让声音对话系统识别的单词信息作为知识来保存在辞典中,能够对用户所说出的声音进行识别。另一方面,用户所说的单词存在不一致性,存在难以将全部单词信息登记于辞典这一问题。

针对这样的问题,在前述的专利文献1涉及的技术中公开了如下技术:通过将声音对话系统要处理的单词信息随时追加登记到辞典中,从旧的单词信息开始进行删除,从而使得能够识别有可能被说出的新的单词。另外,在前述的专利文献2涉及的技术中,对象技术不是声音识别而是文字串变换,针对发生了误变换的文字串,将修正后的信息作为校正信息登记到辞典中。由此,专利文献2涉及的技术防止了下次以后的误变换。另外,在专利文献2涉及的技术中,公开了使用频度少的单词被从辞典中删除的技术。

但是,在声音对话的对象是处于语言学习的过程中阶段的幼儿的情况下,随着成长而所说的词汇会增加,会变为能够正确说出单词,因此,需要与幼儿的成长相匹配地更新辞典。例如,在以前幼儿无法说出“おいしい”(音素串为“oishi:”,含义为“好吃”)而说出“おいてぇー”(音素串为“oite:”,与“おいしい”的音素串相近,幼儿有可能想表达“好吃”的意思而却说出了“oite:”)、声音对话系统误识别为“置いて”(日语平假名表达为“おいて”,是从幼儿所说的“おいてぇー”识别出来的,含义为“放置”)的情况下,向辞典中登记将“置いて”变换为“おいしい”这一规则。由此,声音对话系统能够将“置いて”校正为“おいしい”,识别“おいしい”这一声音。然后,在从幼儿成长了的说话者变为能够正确地说出“おいしい”的情况下,即使该说话者以正确的含义说出了“置いて”(含义为“放置”),声音对话系统也有可能将“置いて”错误地校正为“おいしい”(含义为“好吃”)。因此,关于幼儿掌握了正确的说法的单词的校正规则,为了抑制误校正,需要将其删除。

但是,如现有技术那样,在从登记旧的信息或者仅是使用频度低的信息开始依次进行删除的情况下,存在尽管幼儿尚未掌握正确的说法、但却将校正规则删除的可能性。关于这样的考虑了幼儿的语言学习状况的辞典的更新,以往并未进行研究。因此,发明人研究了以下的改善方案。

(1)本公开的一个技术方案的方法是对声音处理装置所使用的辞典进行修正的方法,包括:从由与所述声音处理装置对应的麦克风收集到的声音提取对象说话者的话语;推定构成所述话语的话语音素串;使用第1辞典算出所述话语音素串与登记于所述第1辞典的第1单词所对应的第1音素串之间的匹配度,所述第1辞典存储于所述声音处理装置所具备的存储器,表示所述第1单词与所述第1音素串之间的对应关系;从所述第1辞典提取与最高的所述匹配度对应的所述第1单词来作为所述对象说话者所说的话语单词;基于所述最高的匹配度来修正第2辞典,所述第2辞典表示第2单词与第3单词之间的对应关系,所述第3单词对应于所述对象说话者意图表达所述第2单词而说的言语单位;通过修正与所述话语单词一致的所述第3单词和与所述第3单词对应的所述第2单词之间的对应关系,从而修正所述第2辞典。

根据该构成,从由与声音处理装置对应的麦克风收集到的声音提出对象说话者的话语。推定构成话语的话语音素串。使用第1辞典算出话语音素串和与登记于第1辞典的第1单词所对应的第1音素串的匹配度。第1辞典存储于声音处理装置所具备的存储器,表示第1单词与第1音素串的对应关系。从第1辞典提取与最高的匹配度对应的第1单词来作为对象说话者所说的话语单词。基于最高的匹配度修正第2辞典。第2辞典表示第2单词与第3单词的对应关系。第3单词对应于对象说话者意图表达第2单词而说的言语单位。通过对与话语单词一致的第3单词和与第3单词对应的第2单词的对应关系进行修正,从而修正第2辞典。

因此,算出从对象说话者的话语推定的话语音素串和与第1单词对应的第1音素串之间的匹配度,基于最高的匹配度修正与对象说话者所说的话语单词一致的第3单词和与第3单词对应的第2单词之间的对应关系,所以能够与说话者的语言学习阶段相匹配地修正声音处理装置中所述使用的辞典,能够提高声音识别的精度。

(2)在上述技术方案中,也可以为,在所述话语单词包含在所述第2辞典中、所述最高的匹配度为第1阈值以上的情况下,通过从所述第2辞典删除与所述话语单词一致的所述第2单词和与所述第2单词对应的所述第3单词的组合,从而修正所述第2辞典。

根据该构成,在话语单词包含于第2辞典、最高的匹配度为第1阈值以上的情况下,通过从第2辞典删除与话语单词一致的第2单词和与第2单词对应的第3单词的组合,从而修正第2辞典。

因此,能够在最高的匹配度为第1阈值以上的情况下,从第2辞典删除与话语单词一致的第2单词和与第2单词对应的第3单词的组合。

(3)在上述技术方案中,也可以为,所述第2辞典还包含所述对象说话者说出与所述话语单词一致的所述第3单词的频度和所述第2单词之间的对应关系,在所述话语单词作为所述第2单词而登记于所述第2辞典、所述最高的匹配度为第1阈值以上、与所述话语单词一致的所述第2单词所对应的所述第3单词的所述频度为第2阈值以下的情况下,通过从所述第2辞典删除与所述话语单词一致的所述第2单词和与所述第2单词对应的所述第3单词的组合,从而修正所述第2辞典。

根据该构成,第2辞典还包含对象说话者说出与话语单词一致的第3单词的频度和第2单词之间的对应关系。在话语单词作为第2单词而登记于第2辞典、最高的匹配度为第1阈值以上、与话语单词一致的第2单词所对应的第3单词的频度为第2阈值以下的情况下,从第2辞典删除与话语单词一致的第2单词和与第2单词对应的第3单词的组合,由此修正第2辞典。

因此,在最高的匹配度为第1阈值以上、与话语单词一致的第2单词所对应的第3单词的频度为第2阈值以下的情况下,从第2辞典删除与话语单词一致的第2单词和与第2单词对应的第3单词的组合,所以能够更准确地从第2辞典删除说话者已掌握的第2单词和第3单词的组合。

(4)在上述技术方案中,也可以为,所述对象说话者是作为所述声音处理装置的声音识别的对象的对象幼儿,通过对从所述话语提取的声纹与预先存储于所述存储器的所述对象幼儿的声纹进行比较,判断所述说话者是否为所述对象幼儿,在判断为所述说话者为所述对象幼儿的情况下,推定所述话语音素串。

根据该构成,对象说话者是作为声音处理装置的声音识别的对象的对象幼儿。通过对从话语说话提取的声纹和预先存储于存储器的对象幼儿的声纹进行比较,判定说话者是否为对象幼儿。在判定为说话者是对象幼儿的情况下,推定话语音素串。

因此,能够与幼儿的语言学习阶段相匹配地修正声音处理装置中所使用的辞典。

(5)在上述技术方案中,也可以为,所述存储器还存储有表示所述第1单词和所述匹配度之间的对应关系的历史表,在反复进行了预定次数的如下处理的情况下,基于所述历史表的所述匹配度,修正登记于所述第2辞典的所述第2单词和所述第3单词之间的对应关系,由此修正所述第2辞典,该处理为使与所述最高的匹配度对应的所述第1单词与所述匹配度相对应地记录到所述历史表的处理。

根据该构成,存储器还存储有表示第1单词和匹配度之间的对应关系的历史表。在在反复进行了预定次数的如下处理的情况下,基于历史表的匹配度,修正登记于第2辞典的第2单词和第3单词之间的对应关系,由此修正第2辞典,该处理为使与最高的匹配度对应的第1单词与匹配度相对应地记录到历史表。

因此,通过反复进行预定次数的使与最高的匹配度对应的第1单词与匹配度相对应地记录到历史表这一处理,能够算出更准确的匹配度,能够准确地修正声音处理装置中所使用的辞典。

(6)本公开的其他技术方案的程序是辞典修正程序,对声音处理装置所使用的辞典进行修正,用于使处理器执行:从由与所述声音处理装置对应的麦克风收集到的声音提取对象说话者的话语的步骤;推定构成所述话语的话语音素串的步骤;使用第1辞典来算出所述话语音素串与登记于所述第1辞典的第1单词所对应的第1音素串之间的匹配度的步骤,所述第1辞典存储于所述声音处理装置所具备的存储器,表示所述第1单词与所述第1音素串之间的对应关系;从所述第1辞典提取与最高的所述匹配度对应的所述第1单词来作为所述对象说话者所说的话语单词的步骤;基于所述最高的匹配度来修正第2辞典的步骤,所述第2辞典表示第2单词与第3单词之间的对应关系,所述第3单词对应于所述对象说话者意图表达所述第2单词而说的言语单位;通过对与所述话语单词一致的所述第3单词和与所述第3单词对应的所述第2单词之间的对应关系进行修正,从而修正所述第2辞典的步骤。

根据该构成,从由与声音处理装置对应的麦克风收集到的声音提取对象说话者的话语。推定构成话语的话语音素串。使用第1辞典来算出话语音素串与登记于第1辞典的第1单词所对应的第1音素串之间的匹配度。第1辞典存储于声音处理装置所具备的存储器,表示第1单词与第1音素串之间的对应关系。从第1辞典提取与最高的匹配度对应的第1单词来作为对象说话者所说的话语单词。基于最高的匹配度来修正第2辞典。第2辞典表示第2单词与第3单词的对应关系。第3单词对应于对象说话者意图表达第2单词而说的言语单位。通过对与话语单词一致的第3单词和与第3单词对应的第2单词之间的对应关系进行修正,从而修正第2辞典。

因此,算出从对象说话者的话语推定的话语音素串和与第1单词对应的第1音素串之间的匹配度,基于最高的匹配度修正与对象说话者所说的话语单词一致的第3单词和与第3单词对应的第2单词之间的对应关系,所以能够与说话者的语言学习阶段相匹配地修正声音处理装置中所述使用的辞典,能够提高声音识别的精度。

(7)本公开的其他技术方案的声音处理装置,具备处理器和存储器,所述处理器,从由与所述声音处理装置对应的麦克风收集到的声音提取对象说话者的话语;推定构成所述话语的话语音素串;使用第1辞典来算出所述话语音素串与登记于所述第1辞典的第1单词所对应的第1音素串之间的匹配度,所述第1辞典存储于所述存储器,表示所述第1单词与所述第1音素串之间的对应关系;从所述第1辞典提取与最高的所述匹配度对应的所述第1单词来作为所述对象说话者所说的话语单词;基于所述最高的匹配度来修正第2辞典,所述第2辞典表示第2单词与第3单词之间的对应关系,所述第3单词对应于所述对象说话者意图表达所述第2单词而说的言语单位;通过对与所述话语单词一致的所述第3单词和与所述第3单词对应的所述第2单词之间的对应关系进行修正,从而修正所述第2辞典。

根据该构成,声音处理装置具备处理器和存储器。从由与声音处理装置对应的麦克风收集到的声音提取对象说话者的话语。推定构成话语的话语音素串。使用第1辞典来算出话语音素串与登记于第1辞典的第1单词所对应的第1音素串的匹配度。第1辞典存储于存储器,表示第1单词与第1音素串的对应关系。从第1辞典提取与最高的匹配度对应的第1单词来作为对象说话者所说的话语单词。基于最高的匹配度来修正第2辞典。第2辞典表示第2单词与第3单词的对应关系,第3单词对应于对象说话者意图表达第2单词而说的言语单位。通过对与说话单词一致的第3单词和与第3单词对应的第2单词的对应关系进行修正,从而修正第2辞典。

算出从对象说话者的话语推定的话语音素串和与第1单词对应的第1音素串之间的匹配度,基于最高的匹配度修正与对象说话者所说的话语单词一致的第3单词和与第3单词对应的第2单词之间的对应关系,所以能够与说话者的语言学习阶段相匹配地修正声音处理装置中所述使用的辞典,能够提高声音识别的精度。

(8)本公开的其他技术方案的机器人具备上述的声音处理装置、内置上述声音处理装置的壳体以及使上述壳体移动的移动机构。

根据该构成,能够将上述的声音处理装置应用于机器人。

另外,本公开不仅可以作为执行如以上所述的特征性处理的辞典修正方法来实现,也可以作为具备用于执行辞典修正方法所包含的特征性步骤的处理部的声音处理装置等来实现。另外,还可以作为使计算机执行如上所述的辞典修正方法所包括的特征性的各步骤的计算机程序来实现。并且,当然也可以使那样的计算机程序经由cd-rom等计算机能够读取的非瞬时性记录介质或互联网等的通信网络来流通。

以下参照附图对本公开的实施方式进行说明。此外,以下说明的实施方式均表示本公开的一个具体例。在以下的实施方式中表示的数值、形状、构成要素、步骤、步骤的顺序等为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也可以组合各自的内容。

(实施方式1)

图1是表示实施方式1的声音对话系统的整体结构的一例的图。图1所示的声音对话系统具备声音输入部100、声音对话处理装置200以及声音输出部300。

声音输入部100例如是指向性麦克风等,也可以组装在安装了声音对话处理装置200的终端或者机器人中。另外,声音输入部100例如也可以是手持麦克风、微型麦克风或者桌上麦克风任意的集音装置,也可以通过有线或者无线方式与安装了声音对话处理装置200的终端连接。另外,声音输入部100也可以使用智能手机或者平板电脑终端等具有集音以及通信功能的装置来输入声音。

声音对话处理装置200具备cpu(中央运算处理装置)20以及存储器30。cpu20具备话语提取部201、对象幼儿判定部202、声音识别部203、意图理解部204、应答生成部205、声音合成部206、历史信息更新部207、校正规则登记部208以及辞典更新部209。存储器30具备幼儿词汇辞典301、误识别校正辞典302、识别历史表303以及校正历史表304。

进行声音对话的处理的程序存储在组装于实施声音对话的机器人或者终端的存储器30中,由cpu20等运算装置执行。另外,构成声音对话处理装置200的全部要素既可以安装于同一终端,又可以个别地安装于经由光纤、无线或者公用电话线路等任意的网络而连接的独立的终端或者服务器上,也可以通过声音对话处理装置200与其他的终端或者服务器彼此进行通信来实现声音对话处理。

话语提取部201从由声音输入部100收集到的声音中提取对象说话者的话语。

对象幼儿判定部202判定由话语提取部201提取到的话语的说话者是否为作为声音识别的对象的对象说话者。此外,对象说话者是作为声音识别的对象的对象幼儿。另外,幼儿例如是满1岁以上且上学前的幼儿或者是未满6岁的幼儿。对象幼儿判定部202通过对从话语提取到的声纹与预先存储在存储器30中的对象幼儿的声纹进行比较,判定说话者是否为对象幼儿。存储器30存储有对象幼儿的声纹。

幼儿词汇辞典(第1辞典)301是登记有一般的幼儿所说的单词的辞典。图2是表示本实施方式1的幼儿词汇辞典的一例的图。幼儿词汇辞典301表示单词(第1单词)与音素串(第1音素串)的对应关系。如图2所示,幼儿词汇辞典301中,单词(第1单词)与构成单词的音素串(第1音素串)相对应地登记在该幼儿词汇辞典301中。例如,“りんご”这一单词与“ringo”这一登记音素串相对应(关联)。

误识别校正辞典(第2辞典)302是将误识别单词与作为校正误识别单词后的结果的校正单词的组合作为校正规则来登记的辞典。图3是表示本实施方式1的误识别校正辞典的一例的图。误识别校正辞典302表示校正单词(第2单词)与对象说话者意图表达校正单词而说的言语单位所对应的误识别单词(第3单词)之间的对应关系。如图3所示,在误识别校正辞典302中,误识别单词与校正单词相对应地登记于该误识别校正辞典302中。例如,对“置いて”(音素串为“oite”)这一误识别单词对应有“おいしい”(音素串为“oishi”,与“置いて”的音素串相近)这一校正单词。即,在对象幼儿意图表达“おいしい”(中文含义为“好吃”)的想法无法用正确的话语说出而说出了与“おいしい”不同的言语单位、声音识别部203根据幼儿词汇辞典301输出“置いて”这一识别结果的情况下,“置いて”这一误识别单词被变换为“おいしい”这一校正单词。

声音识别部203由声音输入部100接受输入声音数据,通过参照幼儿词汇辞典301和误识别校正辞典302,识别对象幼儿的话语单词。

声音识别部203在通过对象幼儿判定部202判定为说话者是对象幼儿(对象说话者)的情况下,从话语推定构成话语的音素串。声音识别部203使用幼儿词汇辞典301,算出音素串(话语音素串)和与登记于幼儿词汇辞典(第1辞典)301的单词(第1单词)对应的音素串(第1音素串)的匹配度。匹配度通过计算推定出的音素串与登记于幼儿词汇辞典301的单词的登记音素串的相似度来得到。例如,匹配度可以使用基于莱文斯坦距离(levenshteindistance)等编辑距离或者动态时间规整法(dynamictimewarping)的相似度。

声音识别部203从幼儿词汇辞典(第1辞典)301提取与最高的匹配度对应的单词(第1单词)来作为对象幼儿(对象说话者)所说的话语单词。

声音识别部203判断从幼儿词汇辞典301提取的单词是否作为误识别单词被登记于误识别校正辞典302。在判断为从幼儿词汇辞典301提取的单词作为误识别单词被登记于误识别校正辞典302的情况下,声音识别部203将从幼儿词汇辞典301提取的单词变换为与所提取的单词相同的误识别单词所对应的校正单词,输出校正单词来作为识别结果。另外,在判断为从幼儿词汇辞典301提取的单词未被作为误识别单词而登记于误识别校正辞典302的情况下,声音识别部203输出从幼儿词汇辞典301提取的单词来作为识别结果。

意图理解部204根据通过声音识别部203得到的识别结果,解析用户所说的内容是什么样的内容。作为意图理解的方式,可以采用基于为了判定能够由声音对话系统执行的任务而预先决定的规则来理解说话内容的规则库的方式、或者使用机器学习等统计方法来理解说话内容的方式等。

应答生成部205根据由意图理解部204输出的意图理解结果,生产用于对用户进行应答的应答话语的文本信息。

声音合成部206将由应答生成部205生成的应答话语的文本信息通过声音合成处理变换为声音数据。

历史信息更新部207在由声音识别部203执行了声音识别处理时,更新识别历史表303及校正历史表304。

识别历史表303中登记有单词和作为对象幼儿将该单词掌握到何种程度的基准的熟练度。图4是表示本实施方式1的识别历史表的一例的图。声音识别处理结果所包含的单词的匹配度被作为熟练度使用。识别历史表303表示从幼儿词汇辞典301提取的单词与熟练度(匹配度)的对应关系。

声音识别部203将从幼儿词汇辞典301提取的单词和该单词的匹配度输出给历史信息更新部207。历史信息更新部207使由声音识别部203从幼儿词汇辞典301提取的单词(与匹配度最高的登记音素串对应的第1单词)和该单词的匹配度相对应并将它们存储在识别历史表303中。如图4所示,在识别历史表303中,单词与熟练度(匹配度)相对应地登记在该识别历史表303中。例如,与“置いて”这一单词对应有“0.5”这一熟练度。

校正历史表304中登记有登记于误识别校正辞典302的校正规则和表示该校正规则应用在了声音识别时的日期的时间戳。图5是表示本实施方式1的校正历史表的一例的图。校正历史表304中,误识别单词、校正单词、将误识别单词变换为了校正单词的时间戳相对应。此外,时间戳也可以是对象幼儿(对象说话者)意图表达校正单词而说出了误识别单词的日期。在图5中,作为误识别单词的“ぶーぶ”的音素串为“bu:bu”,是模仿车喇叭的声音,其对应的校正单词为“車”(中文含义“车”),另外,作为误识别单词的“知る”(中文含义为“知道”)的音素串为“shiru”,其对应的校正单词为“する”(音素串为“suru”,与“知る”的音素串相近,中文含义为“做”)。

声音识别部203在将误识别单词变换为了校正单词的情况下,将误识别单词及校正单词输出给历史信息更新部207。历史信息更新部207在通过声音识别部203而误识别单词被变换为了校正单词的情况下,使误识别单词、校正单词、表示将误识别单词变换为校正单词的日期的时间戳相对应而将它们存储在校正历史表304。如图5所示,校正历史表304中,误识别单词、校正单词、时间戳相对应地登记在该表中。例如,对于“置いて”这一误识别单词及“おいしい”这一校正单词,对应有“20160401”这一表示2016年4月1日的时间戳。

此外,在本实施方式中,校正历史表304使误识别单词、校正单词、以及时间戳相对应地加以存储,但本公开不特别限定于此,也可以是误识别校正辞典302使误识别单词、校正单词以及时间戳相对应地将它们进行存储。

校正规则登记部208根据意图理解部204的意图理解的结果判断与对象幼儿的对话是否成立。校正规则登记部208在判断为与对象幼儿的对话不成立的情况下,对对话不成立的说话内容进行录音。进一步,校正规则登记部208对对象幼儿的例如家长播放录音的声音数据,询问对话不成立的说话内容,由此理解对象幼儿的说话内容,取得误识别部分的更正内容。由此,校正规则登记部208获得校正误识别的校正规则,在误识别校正辞典302中登记校正规则。

辞典更新部209根据记录在识别历史表303及校正历史表304的信息,在误识别校正辞典302中删除对象幼儿已掌握的单词的校正规则。辞典更新部209基于最高的匹配度,修正误识别校正辞典(第2辞典)302。通过对与话语单词一致的误识别单词和与误识别单词对应的校正单词之间的对应关系进行修正,从而使误识别校正辞典302得到修正。辞典更新部209在话语单词包含在误识别校正辞典(第2辞典)302中、且最高的匹配度为第1阈值以上的情况下,将与话语单词一致的误识别单词和与误识别单词对应的校正单词的组合从误识别校正辞典(第2辞典)302中删除。此外,对于误识别校正辞典302的更新方法,将使用图7在后面进行描述。

声音输出部300例如是扬声器,输出通过声音合成部206生成的声音数据。声音输出部300既可以组装在安装有声音对话处理装置200的终端或者机器人中,也可以通过有线或者无线方式与安装有声音对话处理装置200的终端连接。另外,声音输出部300也可以是搭载于智能手机或者平板电脑终端等具有集音及通信功能的装置的扬声器。

图6是用于对本实施方式1的声音识别处理进行说明的流程图。使用图6对对象幼儿的声音识别处理进行说明。

首先,话语提取部201判断从声音输入部100是否输入了声音信号(步骤s1)。在此,在判断为未输入声音信号的情况下(步骤s1中“否”),反复进行步骤s1的处理直到输入声音信号。

另一方面,在判断为输入了声音信号的情况下(步骤s1中“是”),话语提取部201从声音信号提取话语(步骤s2)。

接着,对象幼儿判定部202判定由话语提取部201提取到的话语的说话者是否为对象幼儿(步骤s3)。此时,对象幼儿判定部202通过对从话语提取的声纹与预先存储在存储器30的对象幼儿的声纹进行比较,判定说话者是否为对象幼儿。在此,在判定为说话者不是对象幼儿的情况下(步骤s3中“否”),返回步骤s1的处理。

另一方面,在判断为说话者是对象幼儿的情况下(步骤s3中“是”),声音识别部203根据音响模型推定构成话语的音素串(步骤s4)。例如,在对象幼儿说出了“りんごおいてー”的情况下,所推定的音素串成为“ringooite:”。

接着,声音识别部203对所推定出的音素串与登记于幼儿词汇辞典301的登记音素串进行比较,从幼儿词汇辞典301提取与所推定的音素串的匹配度最高的登记单词串所对应的单词(步骤s5)。声音识别部203将所提取的单词作为识别结果进行输出。例如,在图2所示的幼儿词汇辞典301中,在将莱文斯坦距离用于匹配度的情况下,作为所推定的音素串的“oite:”与作为登记单词串的“oite”(日文“置いて”的音素串)的莱文斯坦距离为0.2,作为所推定的音素串的“oite:”与作为登记单词串的“oishi:”(日文“おいしい”的音素串)的莱文斯坦距离成为0.6。莱文斯坦距离的值越小,两个音素串的相似度越高,因此,“りんご置いて”成为识别结果。

接着,历史信息更新部207将从幼儿词汇辞典301提取的单词的匹配度作为与所提取的单词相同的单词相对应的熟练度进行登记,更新识别历史表303(步骤s6)。例如,在将莱文斯坦距离用于匹配度的情况下,莱文斯坦距离的值越小,相似度越高。因此,历史信息更新部207为了使得值越大则相似度越高,将从1减去莱文斯坦距离而得到的值作为熟练度进行登记。此外,在使单词与熟练度相对应的条目未存储在识别历史表303中的情况下,历史信息更新部207将使单词与熟练度相对应的新的条目制作到识别历史表303中。

接着,声音识别部203搜索误识别校正辞典302,判定所提取的单词在误识别校正辞典302中是否被作为误识别单词而登记(步骤s7)。在此,在判断为所提取的单词登记在误识别校正辞典302中的情况下(步骤s7中“是”),历史信息更新部207将校正历史表304的与误识别单词对应的时间戳变更为当前的日期,更新校正历史表304(步骤s8)。此外,在使误识别单词、校正单词以及时间戳相对应的条目未存储在校正历史表304中的情况下,历史信息更新部207将使误识别单词、校正单词以及时间戳相对应的新的条目制作到校正历史表304中。

接着,声音识别部203将从幼儿词汇辞典301提取的单词变换为与所述提取的单词相同的误识别单词所对应的校正单词,将变换后的校正单词作为识别结果进行输出(步骤s9)。此外,步骤s8的处理和步骤s9的处理也可以互换。

另一方面,在判断为所提取到的单词未登记在误识别校正辞典302中的情况下(步骤s7中“否”),声音识别部203将从幼儿词汇辞典301提取的单词作为识别结果进行输出(步骤s10)。

图7是用于对本实施方式1中的修正误识别校正辞典的处理进行说明的流程图。使用图7对通过辞典更新部209进行的登记于误识别校正辞典302的校正规则的删除进行说明。

首先,辞典更新部209从声音识别部203取得识别结果(步骤s21)。

接着,辞典更新部209参照识别历史表303,取得包含于识别结果的每个单词的熟练度(步骤s22)。例如,在识别结果为“りんごおいしい”(中文含义“苹果好吃”)的情况下,辞典更新部209对“りんご”(中文含义苹果)及“おいしい”(中文含义“好吃”)的各个单词参照识别历史表303,取得各个单词的熟练度。在图4的识别历史表303的例子中,“りんご”熟练度为0.9,“おいしい”的熟练度为0.8。

接着,辞典更新部209判读是否存在所取得的熟练度为阈值以上的单词(步骤s23)。在此,在判断为不存在熟练度为阈值以上的单词的情况下(步骤s23中“否”),使处理结束。

另一方面,在存在熟练度为阈值以上的单词的情况下(步骤s23中“是”),辞典更新部209判断熟练度为阈值以上的单词中是否存在作为校正单词而登记于误识别校正辞典302中的单词(步骤s24)。辞典更新部209将为阈值以上的单词判断为幼儿变得大体能够说了,将该单词作为校正规则的删除候选。例如,在将判断为幼儿变得大体能够说出单词的熟练度的阈值设为0.7的情况下,在图4的识别历史表303的例子中,“りんご”及“おいしい”的单词的熟练度都为0.7以上,所以两个单词成为校正规则的删除候选。对于成为了校正规则的删除候选的单词,确认是否在误识别校正辞典302中被作为校正单词而登记。

在此,在判断为不存在作为校正单词而登记于误识别校正辞典302的单词的情况下(步骤s24中“否”),由于在误识别校正辞典302中未登记有校正规则,因此,使处理结束。例如,在图3的误识别校正辞典302的情况下,“りんご”被判断为未被作为校正单词而登记,“おいしい”被判断为作为校正单词而被登记。

另一方面,在判断为存在作为校正单词而被登记于误识别校正辞典302的单词的情况下(步骤s24中“是”),辞典更新部209从校正历史表304取得与作为校正单词而被登记于误识别校正辞典302的单词对应的时间戳(步骤s25)。时间戳表示上次应用了校正规则的日期。

接着,辞典更新部209判断所取得的时间戳中是否存在预先设定的预定期间以前的时间戳(步骤s26)。在此,在判断为不存在预定期间以前的时间戳的情况下(步骤s26中“否”),使处理结束。

另一方面,在判断为存在预定期间以前的时间戳的情况下(步骤s26中“是”),辞典更新部209判断为与预定期间的时间戳对应的误识别单词及校正单词未被利用,将与该时间戳对应的误识别单词及校正单词从误识别校正辞典302中删除(步骤s27)。判断为校正规则(与预定期间以前的时间戳对应的误识别单词及校正单词)未被利用的预定期间例如是一个月期间。

例如,在图3的误识别校正辞典302的情况下,作为校正单词的“おいしい”与作为误识别单词的“置いて”相对应地登记于该误识别校正辞典302中,因此,辞典更新部209参照校正历史表304。与记录在图5的校正历史表304中的“おいしい”这一校正单词对应的时间戳是“20160401”(2016年4月1日)。在当前的日期是2016年6月20日的情况下,辞典更新部209判断为校正规则一个月以上未被应用,删除将“置いて”校正为“おいしい”的校正规则。

此外,在将莱文斯坦距离等的识别音素串与辞典登记单词的音素串之间的距离用作熟练度的情况下,判断为距离短的是相似的。因此,也可以在熟练度比步骤s23中设定的阈值小的情况下,判断为掌握了正确的说法,是否掌握了正确的说法的判断基准依赖于作为熟练度所采用的值来决定。

图8是用于对本实施方式1中的对在误识别校正辞典中未登记的误识别单词及校正单词进行登记的处理进行说明的第1流程图,图9是用于对本实施方式1中的对在误识别校正辞典中未登记的误识别单词及校正单词进行登记的处理进行说明的第2流程图。使用图8及图9对通过校正规则登记部208进行的未登记于误识别校正辞典302的误识别单词及校正单词的登记进行说明。

首先,校正规则登记部208根据意图理解部204的意图理解的结果判断与对象幼儿的对话是否成立(步骤s31)。在此,在判断为对话成立了的情况下(步骤s31中“是”),使处理结束。

另一方面,在判断为对话不成立的情况下(步骤s31中“否”),校正规则登记部208受理对话不成立的话语的再输入(步骤s32)。校正规则登记部208使声音输出部300输出催促对象幼儿的声音,以使得再次说出对话不成立的话语。对象幼儿按照从声音输出部300输出的声音,再次说出对话不成立的话语。

接着,话语提取部201判断是否从声音输入部100输入了声音信号(步骤s33)。在此,在判断为未输入声音信号的情况下(步骤s33中“否”),返回步骤s32的处理,反复进行步骤s32及步骤s33的处理直到输入声音信号。

另一方面,在判断为输入了声音信号的情况下(步骤s33中“是”),校正规则登记部208开始从声音输入部100输入的声音信号的录音(步骤s34)。录音数据被存储在存储器30。

接着,校正规则登记部208从声音识别部203取得识别结果(步骤s35)。此时,从声音信号被输入后到声音识别部203输出识别结果为止的处理与图6的从步骤s2到步骤s5的处理相同。即,话语提取部201从声音信号提取话语,对象幼儿判定部202判断由话语提取部201提取的话语的说话者是否为对象幼儿。在判断为说话者是对象幼儿的情况下,声音识别部203根据音响模型推定构成话语的音素串。接着,声音识别部203对推定出的音素串与登记于幼儿词汇辞典301的登记音素串进行比较,从幼儿词汇辞典301提取与推定出的音素串的匹配度最高的登记单词串对应的单词。并且,声音识别部203将所提取的单词作为识别结果进行输出。

接着,校正规则登记部208判断作为识别结果的识别单词的匹配度是否大于阈值(步骤s36)。此时,阈值优选比在图7的步骤s23的判断处理中使用的阈值小。即,在图7的步骤s23的判断处理中使用的阈值例如为0.7的情况下,在步骤s36的判断处理中使用的阈值例如优选为0.4。

在此,在判断为识别单词的匹配度为阈值以下的情况下(步骤s36中为“否”),校正规则登记部208判断为识别单词是已知的单词,废弃录音数据(步骤s37)。

另一方面,在判断为识别单词的匹配度大于阈值的情况下(步骤s36中为“是”),校正规则登记部208判断识别单词是否作为误识别单词而登记于误识别校正辞典302(步骤s38)。在此,在判断为识别单词作为误识别单词而登记于误识别校正辞典302的情况下(步骤s38中为“是”),转移到步骤s37的处理。

另一方面,在判断为识别单词未被作为误识别单词而登记于误识别校正辞典302的情况下(步骤s38中为“否”),校正规则登记部208判断为识别单词是未登记于误识别校正辞典302的未知的单词,对录音数据进行保存(步骤s39)。这样,包含在误识别校正辞典302中应该作为误识别单词而登记的单词的对象幼儿所说的录音数据得到保存。

接着,校正规则登记部208播放录音数据(步骤s40)。此外,步骤s40的处理不需要接着步骤s39的处理来进行,只要是在保存了录音数据之后,什么时候进行都可以。例如,对象幼儿的家长聆听播放的录音数据,说出校正了对象幼儿所说的单词的校正单词。

接着,话语提取部201判断是否从声音输入部100输入了声音信号(步骤s41)。在此,在判断为未输入声音信号的情况下(步骤s41中“否”),反复进行步骤s41的处理,直到输入声音信号。

另一方面,在判断为输入了声音信号的情况下(步骤s41中“是”),校正规则登记部208从声音识别部203取得识别结果(步骤s42)。此时,话语提取部201从声音信号提取话语。由于说话者不是对象幼儿,因此,不进行通过对象幼儿判定部202进行的说话者是否为对象幼儿的判定。声音识别部203根据声响模型推定构成说话的音素串。接着,声音识别部203对所推定出的音素串与登记于幼儿词汇辞典301的登记音素串进行比较,从幼儿词汇辞典301提取与所推定出的音素串的匹配度最高的登记单词串所对应的单词。并且,声音识别部203输出所提取的单词来作为识别结果。

接着,校正规则登记部208将在步骤s35中取得的识别单词作为误识别单词,将在步骤s42中取得的识别结果即识别单词作为校正单词,使误识别单词和校正单词相互对应地(关联)地登记于误识别校正辞典302(步骤s43)。

图10是表示本实施方式1中的对象幼儿与声音对话系统的具体对话的一例的图。在图10中,示出对象幼儿与声音对话系统的对话不成立的情况下的例子。在图10中,对象幼儿的说话由“c”表示,声音对话系统的应答由“s”表示。

首先,在话语c1中,对象幼儿以“りんごおいしい”这一含义(即“苹果好吃”)说话,但实际上说为了“りんごおいてー”(即如上所述,将“おいしい”说成了“おいてー”)。另一方面,声音对话系统误识别为“りんご置いて”(中文含义为“苹果放置”),因此,在应答s1中,声音对话系统成为“りんごを置くの?”这一应答(即“要放苹果?”)。此时,对于对象幼儿来说,由于应答内容与自身说话的意图不同,因此,在话语c2中进行“ちがう”(即“不对”)这一否定的说话。对此,在应答s2中,声音对话系统再问为“もう一度言って”(即“请再说一遍”)。接着,在话语c3中,对象幼儿再次说出“りんごおいてー”。声音对话系统在再次识别为“りんご置いて”的情况下,判断为该识别结果是误识别。

此时,校正规则登记部208在进行再问的时刻对与对象幼儿的会话内容进行录音。在判断为是误识别的情况下,校正规则登记部208对其家长播放所录音的声音,并说出“‘りんご置いて’といっているのではないのですか?‘りんご置いて’の正しい含义を教えてください”(即“不是说‘りんご置いて’么?请告诉我‘りんご置いて’的正确含义”),向家长询问正确的含义的话语。通过家长说出“りんごおいしい”(即“苹果好吃”)这一正确的含义的单词,声音对话系统学习“置いて”(即“放置”)是“おいしい”(即“好吃”)这一知识,校正规则登记部208将把“置いて”校正为“おいしい”的校正规则登记于误识别校正辞典302。

根据以上所述的本实施方式1的声音对话系统,通过辞典更新部209基于记录于识别历史表303的单词的熟练度与记录于校正历史表304的校正频度,判断对象幼儿是否掌握了正确的单词的说法,在判断为对象幼儿掌握了正确的说法的情况下,删除登记于误识别校正辞典302的校正规则(误识别单词及校正单词)。由此,能够避免在对象幼儿尚未掌握单词的正确的说法的阶段删除校正规则这一危险性。

此外,辞典更新部209也可以并不是删除使登记于误识别校正辞典302的误识别单词与校正单词相对应的校正规则中的、判断为掌握了的单词的校正规则,而也可以通过标记等来使与校正规则对应的条目无效化,也可以在追加登记新的校正规则的情况下对无效化了的条目进行覆盖。

另外,在本实施方式1中,校正历史表304作为判断对象幼儿是否掌握了单词的正确的发音的基准,保存有表示应用了校正规则的日期的时间戳,但本公开不特别限定于此。图11是表示本实施方式1的校正历史表的其他例子的图。如图11所示,校正历史表既可以保存表示利用了校正规则的频度的校正频度,也可以保存例如1个月期间被校正了的次数来作为校正频度。在校正频度变为了所定的阈值以下的时候,校正规则被作为删除候选来存储。辞典更新部209也可以在作为删除候选所存储的校正规则进一步在预定的期间未被应用的情况下,将该删除规则删除。这样,通过使删除的判断以阶段性的方式进行,能够删除对象幼儿已确实不说误识别单词的校正规则。

此外,也可以不是校正历史表包含与对象幼儿(对象说话者)意图表达校正单词而说出了误识别单词的频度之间的对应关系,而是误识别校正辞典302包含对象幼儿(对象说话者)说出了与话语单词一致的误识别单词的频度与误识别单词之间的对应关系。并且,辞典更新部209也可以为,在话语单词作为校正单词而登记于误识别校正辞典(第2辞典)302、最高的匹配度为第1阈值以上、与话语单词一致的误识别单词所对应的频度为第2阈值以下的情况下,从误识别校正辞典(第2辞典)302删除与话语单词一致的误识别单词和与误识别单词对应的校正单词的组合。

另外,在本实施方式1中,识别历史表303作为判断对象幼儿是否掌握了单词的正确的发音的基准,使单词与熟练度相对应来进行保存,但本公开不特别限定于此。图12是表示本实施方式1的识别历史表的其他例子的图。如图12所示,识别历史表也可以还保存有熟练度超过了阈值的话语的说话频度,也可以保存例如1个月期间熟练度超过了阈值的次数来作为说话频度。辞典更新部209也可以在熟练度超过了预定的阈值的单词被说了预定次数以上的情况下,使用校正历史表304判断是否删除包含该单词的校正规则。由此,能够删除包含成为了对象幼儿能够更准确地说的单词的不需要的校正规则。

另外,辞典更新部209也可以不是在得到了声音识别结果的时候更新误识别校正辞典302,而是定期地检查登记于识别历史表303的单词的熟练度,对熟练度超过阈值的全部单词判断校正规则是否能够删除。即,辞典更新部209也可以为,在反复进行了预定次数的对最高的匹配度所对应的第1单词对应(关联)匹配度并向识别历史表303(历史表)记录的处理的情况下,基于识别历史表303(历史表)的匹配度,修正登记于误识别校正辞典(第2辞典)302的误识别单词(第2单词)与校正单词(第3单词)之间的对应关系,由此修正误识别校正辞典(第2辞典)。由此,能够减轻声音识别时的处理负荷。

另外,本实施方式1中的对象说话者是对象幼儿,但本公开不特别限定于此,对象说话者也可以是无法准确对单词进行发音的特定人物。例如,对象说话者也可以是学习外语的特定人物。

另外,在本实施方式1中,对日语的声音识别中的误识别的校正所使用的辞典进行修正,但本公开不特别限定于此,例如也可以对用于在英语或汉语等日语以外的语言的声音识别中校正误识别的辞典进行修正。

(实施方式2)

实施方式2的声音对话处理装置200的结构是从图1的实施方式1的声音对话处理装置200的结构省略了历史信息更新部207、识别历史表303及校正历史表304的结构,因此,省略其说明。

图13是用于对本实施方式2中的修正声音识别中的误识别的校正所使用的误识别校正辞典的辞典修正方法进行说明的流程图。

步骤s51~步骤s55的处理与图6所示的步骤s1~步骤s5的处理相同。

接着,辞典更新部209判断所提取的单词的匹配度是否超过了预定阈值(步骤s56)。在此,在判断为所提取的单词的匹配度未超过预定阈值的情况下(步骤s56中“否”),结束处理。

另一方面,在判断为所提取的单词的匹配度超过了预定阈值的情况下(步骤s56中“是”),辞典更新部209判断所提取的单词是否在误识别校正辞典302中登记为校正单词(步骤s57)。在此,在判断为所提取的单词未被作为校正单词登记于误识别校正辞典302中的情况下(步骤s57中“否”),结束处理。

另一方面,在判断为所提取的单词被作为校正单词登记于误识别校正辞典302中的情况下(步骤s57中“是”),辞典更新部209判断为作为所提取的单词的校正单词和与该校正单词对应的误识别单词变为不被利用,从误识别校正辞典302删除该误识别单词及该校正单词(步骤s58)。

(实施方式3)

图14是本公开实施方式3涉及的机器人的外观立体图。机器人1如图14所示具备球体状的壳体101。壳体101例如由透明部件或者半透明的部件构成。

图15是本公开的实施方式3涉及的机器人的内部立体图。

在图15中,框架102配置于壳体101的内侧部。框架102具备第1转动板103及第2转动板104。第1转动板103相对于第2转动板104而位于上方。

如图15所示,第1显示部105及第2显示部106安装于第1转动板103的上表面。另外,第3显示部107安装于第2转动板104的上表面。第1显示部105、第2显示部106及第3显示部107例如由多个发光二极管构成。第1显示部105、第2显示部106及第3显示部107显示机器人的表情的显示信息。具体而言,第1显示部105、第2显示部106及第3显示部107通过个别地控制多个发光二极管的点亮,如图14所示,显示机器人1的脸部的一部分例如眼和/或口。在图14的例子中,第1显示部105显示右眼的图像,第2显示部106显示左眼的图像,第3显示部107显示口的图像。并且,左眼、右眼、口的图像透过由透明或者半透明的部件形成的壳体101,放射至外部。

如图15所示,摄像头108设置于第1转动板103的上表面。摄像头108取得机器人1的周边环境的影像。如图14所示,摄像头108构成机器人1的脸部的一部分例如鼻。因此,摄像头108光轴成为朝向机器人1的前方。由此,摄像头108能够拍摄出现在正面的识别对象物。

麦克风217取得机器人1的周边环境的声音。麦克风217设置于框架102,将声音转换为电信号,输出至主控制部230。麦克风217例如既可以安装在第1转动板103的上表面,也可以装置在第2转动板104的上表面。如图14所示,麦克风217配置在机器人1的额头的位置,在与机器人1的额头相当的位置的壳体101形成有小孔。

扬声器216设置于框架102以使得其输出面朝向正面,将声音的电信号转换为物理震动。如图14所示,扬声器216配置在机器人1的下巴的位置,在与机器人1的下巴相当的位置的壳体101形成有多个小孔。主控制部230通过使预定声音从扬声器216输出,从而使机器人1说话。

如图15所示,控制电路109设置在第1转动板103的上表面。控制电路109控制机器人1的各种动作。控制电路109的详细将会参照图16来在后面进行描述。

第1驱动轮110及第2驱动轮111分别设置在第2转动板104的下表面,与壳体101的内周面接触。另外,第1驱动轮110具有使第1驱动轮110驱动的第1马达112。同样地,第2驱动轮111具有使第2驱动轮111驱动的第2马达113。即,第1驱动轮110及第2驱动轮111由分别独立的个别的马达来驱动。第1驱动轮110及第2驱动轮111构成一组驱动轮。

当使第1驱动轮110及第2驱动轮111向前方方向转动时,利用其动力,壳体101向前方方向转动。由此,机器人1前进。相反,当使第1驱动轮110及第2驱动轮111向后方方向转动时,机器人1后退。

另外,当使第1驱动轮110及第2驱动轮111向彼此相反的方向转动时,利用其动力,壳体101进行沿着通过其中心的铅直轴的转动动作。即,机器人1在其位置向左转或向右转。机器人1通过这样的前进、后退或者转动动作来移动。

配重114设在第1转动板103与第2转动板104之间。配重114位于从壳体101的中心稍稍靠下方的位置。因此,机器人1的重心位于距壳体101的中心靠下方的位置。由此,能够使机器人1的动作稳定。

机器人1还具备省略图示的电源。机器人1由省略图示的充电器来充电。

接着,参照图16对本公开的实施方式3涉及的机器人1的内部电路的详细情况进行说明。图16是表示本公开的实施方式3涉及的机器人的构成的框图。

如图16所示,机器人1具备控制电路109、显示部211、壳体驱动轮控制部214、壳体驱动轮212、配重驱动机构控制部215、配重驱动机构218、麦克风217、扬声器216及摄像头108。

控制电路109包括存储器236、由cpu等处理器构成的主控制部230、显示信息输出控制部235。

存储器236例如由非易失性的能够重写的存储装置构成,存储机器人1的控制程序等。

主控制部230执行存储器236所存储的机器人1的控制程序。由此,主控制部230作为移动控制部231及声音对话处理部234发挥功能。

声音对话处理部234具备图1所示的话语提取部201、对象幼儿判定部202、声音识别部203、意图理解部204、应答生成部205、声音合成部206、历史信息更新部207、校正规则登记部208及辞典更新部209。另外,存储器236具备图1所示的幼儿词汇辞典301、误识别校正辞典302、识别历史表303及校正历史表304。另外,麦克风217具备图1所示的声音输入部100的功能,扬声器216具备图1所示的声音输出部300的功能。

声音对话处理部234识别来自麦克风217的说话者的声音,根据识别结果理解说话内容的意图,生成与说话内容的意图相应的应答话语,从扬声器216输出所生成的应答话语。

本实施方式3的声音对话处理部234的工作与实施方式1的声音对话处理装置200的工作相同,因此省略说明。

如在图15中说明过的那样,摄像头108拍摄机器人1前方的图像,将拍摄到的图像(以下称为拍摄图像)输出至主控制部230。主控制部230从由摄像头108取得的拍摄图像识别用户脸部的有无、位置、及大小,将脸部识别结果储存在存储器236中,由此管理脸部识别结果。

移动控制部231控制机器人1的移动。移动控制部231基于声音识别结果和/或脸部识别结果生成指令,并输出至显示信息输出控制部235、壳体驱动轮控制部214及配重驱动机构控制部215等。

显示信息输出控制部235使与从移动控制部231发送来的命令相应的机器人1的表情的显示信息显示于显示部211。显示部211由在图15中说明过的第1显示部105、第2显示部106及第3显示部107构成。

壳体驱动轮控制部214根据从移动控制部231发送来的命令,使机器人1的壳体驱动轮212动作。壳体驱动轮控制部214由在图15中说明过的第1马达112及第2马达113构成。壳体驱动轮212由在图15中说明过的第1驱动轮110及第2驱动轮111构成。壳体驱动轮212及壳体驱动轮控制部214相当于移动机构的一例。

配重驱动机构控制部215根据从移动控制部231发送来的命令,使机器人1的配重驱动机构218工作。配重驱动机构控制部215由内置于配重114的未图示的配重驱动用马达构成。配置驱动机构218通过使配重114的位置移动,控制机器人1的姿势。

在本公开中,单元、装置、部件或者部的全部或者一部分、或者图示的框图的功能块的全部或者一部分可以通过包含半导体器件、半导体集成电路(ic)或者lsi(largescaleintegration,大规模集成电路)的一个或者多个电子电路来执行实现。lsi或者ic既可以集成在一个芯片,也可以组合多个芯片来构成。例如,存储元件以外的功能块也可以集成在一个芯片。在此,虽然称为lsi、ic,根据集成的程度,称呼是变化的,也可以是称为系统lsi、vlsi((verylargescaleintegration,超大规模集成电路)、或者ulsi(ultralargescaleintegration,特大规模集成电路)的器件。在lsi的制造后编程的现场可编程门阵列(fpga)、或者能够进行lsi内部的接合关系的重构或者lsi内部的电路区划的配置(setup)的可重新配置的逻辑器件(reconfigurablelogicdevice)也可以根据相同目的来加以使用。

进一步,单元、装置、部件或者部的全部或者一部分的功能或者操作可以通过软件处理来执行。在该情况下,软件记录于一个或者多个rom、光盘、硬盘驱动器等非瞬时性的记录介质,当软件通过处理装置(processor,处理器)执行时,由该软件确定的功能通过处理装置(processor)以及外围装置来执行实现。系统或者装置也可以具备记录有软件的一个或者多个非瞬时性的记录介质、处理装置(processor)以及所需的硬件装置例如接口。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1