语音通信系统和方法、及机器人装置的制作方法

文档序号：2821757阅读：383来源：国知局

专利名称：语音通信系统和方法、及机器人装置的制作方法
技术领域：
本发明涉及一种语音通信系统和方法、以及机器人装置，尤其是，例如适合应用于娱乐型机器人。
背景技术：
最近，用于一般用户的各种娱乐型机器人已经生产。一些娱乐型机器人设置了各种外部传感器，例如电荷耦合器件(CCD)照相机和麦克风，以便根据所述外部传感器的输出来识别环境条件直至根据识别结果自主行为。
另外，建议一些娱乐型机器人提供脸部识别功能以便跟踪脸部并在捕捉的图像中提取人脸并识别特定的人、或语音通信功能以便与用户进行会话，像人们通常做的那样(例如，参考日本专利申请公开2003-062777(第二至第三部分，图1))。
顺便说一下，这样的娱乐型机器人必须一直确认在通话时会话伙伴在那里并且确定机器人现在是否与他/她进行通话。
在黑暗的地方，机器人不能清楚的识别会话伙伴的脸部颜色和轮廓，而导致脸部识别功能的不充分识别。在这种情况下，机器人可能会确定对象不在这里并停止会话，尽管会话伙伴在机器人的面前。
此外，在会话期间电视或收音机被打开的情况下，因为语音通信功能不能在电视或收音机与会话伙伴的声音之间进行辨别，所以机器人可能继续说话，即使伙伴没有对机器人说话。
因此，如果机器人能在任何环境下确切地识别会话伙伴的存在，那么机器人可以像人那样举止自然，以使作为娱乐型机器人的机器人能大大提高其娱乐性。这是非常强烈地愿望。

发明内容
鉴于前面所述，本发明的目的是提供一种能大大提高娱乐性的语音通信系统和方法、以及机器人设备。
本发明的前述目的和其他目的通过提供具有与会话伙伴进行会话功能的语音通信系统来实现。此系统包括用于识别会话伙伴语音的语音识别装置；根据语音识别装置的识别结果控制与会话伙伴会话的会话控制装置；用于识别会话伙伴脸部的图像识别装置；基于图像识别装置的识别结果和语音识别装置的识别结果中的一个或两个来跟踪会话伙伴的存在的跟踪控制装置。该会话控制装置继续会话的同时保持跟踪控制装置的跟踪。
结果，根据该语音通信系统，通过在跟踪会话伙伴的存在的同时与会话伙伴会话，基于各种识别过程的识别结果综合确定会话伙伴的存在。因此，会话伙伴的存在能在不受当前环境的影响下被完全识别，致使像人一样自然的会话。因此能够实现能大大提高娱乐性的语音通信系统。
而且，本发明提出具有与会话伙伴会话功能的语音通信方法。该语音通信方法包括第一步骤，基于识别会话伙伴的语音而获得的语音识别结果和识别会话伙伴的脸部而获得的图像识别结果中的一个或两个来跟踪会话伙伴的存在；以及第二步骤，继续与基于语音识别结果确定的会话伙伴会话，同时保持跟踪。
结果，根据该语音通信方法，通过在跟踪会话伙伴的存在时与会话伙伴会话，基于各种识别过程的识别结果综合确定会话伙伴的存在。因此，会话伙伴的存在能在不受当前环境的影响下被完全识别，致使像人一样自然的会话。因此能够实现能大大提高娱乐性的语音通信方法。
此外，本发明提出一种包含语音通信系统的机器人装置，该语音通信系统具有与会话伙伴会话的功能。该机器人装置包括用于识别会话伙伴语音的语音识别装置；基于语音识别装置的识别结果控制与会话伙伴会话的会话控制装置；用于识别会话伙伴脸部的图像识别装置；基于图像识别装置的识别结果和语音识别装置的识别结果中的一个或两个来跟踪会话伙伴的存在的跟踪控制装置。该会话控制装置继续该会话的同时保持跟踪控制装置的跟踪。
结果，该机器人装置通过在跟踪会话伙伴的存在的同时与会话伙伴会话，基于各种识别过程的识别结果综合确定会话伙伴的存在。因此，机器人装置能在不受当前环境的影响下完全识别会话伙伴的存在，致使像人一样自然的会话。因此能够实现可大大提高娱乐性的机器人装置。

在附图中图1是根据本发明的实施例显示机器人功能结构的示意性框图；图2是显示控制单元构造的框图；图3是显示机器人软件结构的框图；图4是解释所获信息的记录格式的概念图；图5是关于会话控制功能和跟踪功能的主要部件的概念图；图6是解释会话创建过程的概念图；图7是解释声音方向识别过程的概念图；图8是解释会话伙伴确认过程的流程图。
具体实施例方式
本发明的优选实施例将参考附图进行描述。
(1)根据本发明的实施例的机器人1的构造(1-1)机器人1的硬件结构图1原理性的示出了根据该实施例的机器人1的功能结构。如图1所示，机器人1包括用于控制全部操作和其它数据处理的控制单元2、输入/输出组3、驱动组4和电源5。
所述输入/输出组3包括，对应于机器人1眼部的电荷耦合器件(CCD)照相机10、对应于其耳朵的麦克风11、设置在诸如头部和背部部件上用于感测用户接触的接触传感器13、和用于五管感觉的其它各种传感器作为输入组。另外，作为输出组，包括对应于其嘴的扬声器12、以及通过闪烁的组合和时间安排来表达感觉的LED指示器(眼光)14。除了用腿的机械运动输出组能够通过例如声音和光的闪烁的方式向用户表达来自机器人1的反馈。
驱动组4是根据由控制单元2指示的规定运动模式来实现机器人1的身体运动的功能块，并通过动作控制被控制。驱动组4是用于实现机器人1的每个关节的自由度的功能模块，并包括排列在关节中的滚轴、俯仰轴、和偏航轴上的多个驱动单元151到15n。每个驱动单元151到15n包括围绕指定轴旋转的电动机161到16n、用于检测电动机161到16n旋转位置的编码器171到17n、和基于所述编码器171到17n的输出自适应控制电动机161到16n的旋转位置和旋转速度的驱动器181到18n。
根据驱动单元的组合，机器人1能被构造成诸如双腿行走型或四腿行走型的腿型移动机器人，举例来说。
电源5是用于向机器人1中的每个电路输送电源的功能模块。根据本实施例的机器人1是一种利用电池的自主驱动机器人。电源5包括充电电池19、和用于控制所述充电电池19的充电和放电的充电/放电控制单元20。
所述充电电池19包含于例如称为“电池组”的套筒中，该电池组包含多个锂离子二次电池单元。
另外，充电/放电控制单元20通过测量终端电压和电池19的充电/放电量以及电池19周围的温度来确定电池19的剩余电平，以便确定充电的开始时间和结束时间。充电/放电控制单元20通知控制单元2所确定的充电开始/结束时间，所述控制单元2是机器人1的充电操作开始和结束的触发器。
所述控制单元2相当于“大脑”并安装在机器人1的头或身体中，举例来说。
所述控制单元2如下设置，作为主控制器的中央处理器(CPU)21通过总线与存储器、其他电路元件、和相关设备相连，如图2所示。总线27是包括数据总线、地址总线、和控制总线的公共信号传送路径。在总线27上的每个设备被指派一个唯一的地址(存储器地址或I/O地址)。通过指示其地址，CPU 21能与总线27上的一个特定设备进行通信。
读取存储器(RAM)22是可写存储器，包括非易失性存储器例如动态RAM(DRAM)，并被用于装载由CPU 21执行的程序代码及用于临时存储被执行的程序的操作数据。
只读存储器(ROM)23是用于永久存储程序和数据的只读存储器，存储在ROM 23中的程序代码包括在机器人1加电时执行的自我诊断测试程序和规定机器人1的操作的控制程序。
机器人1的控制程序包括“传感器输入/识别处理程序”，用于处理来自诸如CCD照相机10和麦克风11的传感器的输入并识别它们为符号；“动作控制程序”，用于在控制存储操作例如短期存储和长期存储时，根据传感器的输入和规定动作控制模型控制机器人1的动作；以及“驱动控制程序”，用于根据动作控制模型控制关节电动机的驱动和扬声器12的声音输出。
非易失性存储器24包括电可擦和电可写的存储元件，如电可擦及可编程ROM(EEPROM)，并被用于以非易失方式存储偶尔更新的数据。所述偶尔更新的数据包括代码键、其他安全信息、以及在出厂后应被安装的设备的控制程序。
除了控制单元2接口25连接到其他设备以便进行数据通信。所述接口25与输入/输出组3的相机10、麦克风11和扬声器12进行数据通信。另外，接口25向/从驱动组4的驱动器181到18n输入/输出数据和命令。
另外，接口25提供使计算机连接到周围设备的通用接口，例如推荐标准(RS)-232C的串行接口、例如电气电子工程师协会(IEEE)1284并行接口、通用串行总线(USB)接口、i-Link(IEEE1394)接口、小型计算面系统接口(SCSI)、和用于包含PC卡或记忆棒的存储卡接口(插卡槽)，以便与本地相连的外部设备进行程序和数据的传送。
另外，作为其他接口25，可以安装红外线通信(IrDA)接口以便通过无线电通信与外部设备进行数据通信。
另外，控制单元2包括无线电通信接口26和网络接口卡(NIC)28，以便执行短距离无线电数据通信例如蓝牙、和经由无线网络例如IEEE802.11b、或广域网例如互联网、与不同的外部主机的数据通信。
利用机器人1和主机之间的数据通信，可以计算机器人1的复杂操作控制并通过远程计算机资源来执行远程控制。
(1-2)机器人1的软件结构图3示意示出由存储在ROM 23中的控制程序组构成的机器人1的动作控制系统30的功能结构。机器人1根据外部刺激的识别结果和内部状态的变化控制动作。另外，机器人1具有长期存储功能以结合并存储内部状态和外部状态，以便根据外部刺激的识别结果和内部状态的变化控制动作。
动作控制系统30安装了面向对象程序。在这种情况下，在称为“对象”的模块的基础上处理每个软件，在对象中数据和数据处理彼此关联。另外，每个对象可用于数据通信并利用消息通信和共享存储器调用交互对象通信方法。
该动作控制系统30具有视觉识别功能单元31、语音识别功能单元32、以及接触识别功能单元33，用于依据输入/输出组3的CCD照相机10，麦克风11和接触传感器13的传感器输出来识别外部环境。
依据包括CCD照相机10的传感器输出的视频信号，视觉识别功能单元31执行操作例如脸部识别和颜色识别的图像识别以及特征提取。视觉识别功能单元31输出作为脸部识别结果的包括对每个人唯一的脸部标识(ID)和脸部区域的位置及大小的信息、以及作为颜色识别结果的包括颜色区域的位置、大小和特征量的信息。
依据包括麦克风11的传感器输出的音频信号，语音识别功能单元32执行各种关于声音的识别操作，例如语音识别和发声者识别。语音识别功能单元32基于声学特性输出作为语音识别结果的已识别语句的字符串信息、对人来说是唯一的发声者ID信息。
接触识别功能单元33基于包括接触传感器13的传感器输出的压力检测信号识别外部刺激例如“敲击”或“轻拍”，并输出识别结果。
基于由视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33识别的外部刺激，内部状态管理单元34管理包括本能和感觉的数值模型形式的各种情绪，并管理例如本能和机器人1的情感的内部状态。
另一方面，动作控制系统30具有随时间消失的短期存储的短期存储单元35和用于信息的相对长期存储的长期存储单元36，以便根据外部刺激的识别结果和内部状态的改变控制动作。存储机制的分类即短期存储和长期存储基于神经心理被确定。
短期存储单元35是用于短时间存储由视觉识别功能单元31，语音识别功能单元32，和接触识别功能单元33识别的对象和事件的功能模块。例如，来自CCD照相机10的输入图像被短时间存储约15秒。
长期存储单元36用于长时间存储例如通过学习获得的对象名称的信息，并且控制单元2的RAM 22和非易失性存储器24(图2)用于该目的。
另外，通过动作控制系统30产生的机器人1的动作被分为由反射动作单元39实现的“反射动作”，由状态依赖动作层38实现的“状态依赖动作”、和由预期动作层37实现的“预期动作”。
反射动作单元39是响应由视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33识别的外部刺激，来实现反射身体运动的功能模块。
基本上，反射动作是通过直接接收从传感器输入的外部信息的识别结果来直接确定输出动作的动作。例如，希望追踪人的脸部和点头都设为反射动作。
状态依赖动作层38基于短期存储单元35和长期存储单元36存储的内容、以及内部状态管理单元34管理的内部状态控制适合机器人1的当前状态的动作。
状态依赖动作层38依据先前动作和状态为每个动作准备状态机，对从传感器输入的外部信息的识别结果进行分类，并表达身体的动作。另外，状态依赖动作层38实现一个动作(自动动态平衡动作)以在一定范围内保持内部状态。在内部状态超出指定范围的情况下，该层38激活返回到所述范围内的内部状态的动作，以便动作容易表达(实际上，既可考虑内部状态也可考虑外部环境来选择动作)。与反射动作相比，状态依赖动作需要一个长响应时间。
预期动作层37基于短期存储单元35和长期存储单元36的存储内容产生机器人1的相关长期动作计划。
预期动作是通过假设、并依据指定状态或人的命令产生实现该假设的计划而产生的动作。例如，从机器人位置到目标位置的路径搜索是一个预期动作。与机器人1的响应时间相比，该假设和计划可以要求处理时间和运算负载(即，它占用处理时间)来保持交互作用。因此，尽管实时采用反射动作和状态依赖动作，但对于预期动作，采用假设和计划。
预期动作层37，状态依赖动作层38，和反射动作单元39被描述为独立于机器人1的硬件结构的上层应用程序。另一方面，根据来自上层应用程序的指令，硬件依靠分级控制单元40从输入/输出组3的扬声器12输出声音，以规定方式使LED14闪烁，并且驱动在驱动组4中的相关驱动单元151到15n。
(1-3)内部状态管理单元34的结构与动作控制系统30的结构元件不同，下面将描述直接涉及后面描述的会话控制功能的内部状态管理单元34的结构。
内部状态管理单元34管理如上所描述以数值模型形成的本能和感觉，并且根据由视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33识别的外部刺激改变本能和感觉。
在这种情况下，作为构成本能的本能要素存在九种本能要素疲劳、体温、疼痛、饥饿、口渴、影响、好奇心、排泄、性欲。作为构成感觉的感情要素存在18种感情要素高兴、悲伤、生气、吃惊、厌恶、害怕、受挫、厌倦、梦幻、社交、忍耐、紧张、放松、警戒、内疚、敌视、忠诚、谦恭、和嫉妒。
内部状态管理单元34将这些本能要素和感情要素保存为显示要素强度的参数，并根据视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33的识别结果和消逝时间定时更新要素的参数值，以此改变机器人1的本能和感觉。
具体地说，对于每个本能要素，利用基于视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33的识别结果和消逝时间用预定算法计算的本能要素的变化量ΔI[k]、本能要素的当前参数值I[k]，以及代表本能要素的敏感度的系数ki，内部状态管理单元34根据下面的表达式(1)以指定的间隔计算下个循环中的本能要素的参数值I[k+1]。
I[k+1]＝I[k]+ki×ΔI[k] ............(1)该计算结果代替本能要素的当前参数值I[k]以更新本能要素的参数值。
另外，对于每个感情要素，利用基于视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33的识别结果、以及此时机器人的动作和从上次更新起经过的时间用预定算法计算的感情要素的变量ΔE[t]、感情要素的当前参数值E[t]，以及代表感情要素敏感度的系数ke，该内部状态管理单元34根据下面的表达式(2)计算下个循环中感情要素的参数值E[t+1]。
E[t+1]＝E[t]+k0×ΔE[t] ............(2)该计算的值替换感情要素的当前参数值，以便更新感情要素的参数值。
注意，视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33的识别结果的作用类型对每个本能要素和感情要素是预先确定的。例如，由接触识别功能单元33得到的“敲击”的识别结果对本能要素“爱情”的参数值的变化量ΔI[k]和感情要素“高兴”的参数值的变化量ΔE[t]有很大影响。
(2)在机器人1中通过跟踪的会话控制功能机器人1具有与用户会话的会话控制功能和跟踪作为会话伙伴的用户的跟踪功能，以便在不受当前环境的影响下准确地识别会话伙伴的存在。
(2-1)机器人1的会话控制功能首先描述在机器人1中安装的会话控制功能。
机器人1具有会话控制功能，通过与用户会话获得诸如名字、生日、和用户和其他对象(下文统称为用户)的爱好等预定项目的信息(在下文中，称为项目值)，以如图4所示的一预定格式存储所述信息，举例来说，并且使用存储的项目值与用户进行会话。
参考图4，存储对应于各种预定项目(“名字”、“种类”、“脸部ID”、“发声者ID”、“生日”、“爱好”、和“朋友”)的项目值(““Yukiko”，“人”，“0”，“1”，“73/5/2”，“茶”，“Kazumi”)。在每一行中的第一数值表示一个对象的ID(对象ID)，该对象ID在该对象首次注册时指派。
图4示出了对象的所有项目值被获得之后的状态。通过与用户对话，语音识别功能单元32的通过各种语音识别过程获得上述所有项目中的“名字”，“发音者ID”，“生日”，“爱好”，和“朋友”项目并储存。在与用户会话期间，视觉识别功能单元31通过各种图像识别过程得到“脸部ID”和“种类”项目并储存。
另外，在图4中写于项目值右侧的数值是项目值的印象级别。这些印象值是用于确定机器人1是否能用一个项目值作为以后谈话主题的索引。例如，在图4的例子中，印象级别越高，印象越好(该项目值则应作为下次谈话的主题)。相反，印象级别越低，印象越差(该项目值不被使用)。
在本实施例中，根据在项目值刚获得之前内部状态管理单元34的“喜爱”参数值和获得项目值之后的“喜爱”参数值之间的差别，为项目值提供一个印象级别。
参考图3如上所述，该会话控制功能主要是通过动作控制系统30中依靠状态动作层38的处理来执行。并且如图5所示，该会话控制功能由状态动作层38的会话控制单元38A来执行。
会话控制单元38A的处理内容按功能分为存储采集会话产生单元50，用于产生会话(在下文中，称为采集会话)，用于获得用户上每个项目的值；存储使用会话产生单元51，通过使用获得的用户上每个项目的值来产生会话(在下文中，称为使用会话)；和状态确定单元52，用于控制这些存储采集会话产生单元50和存储使用会话产生单元51，如图5所示。
在这种情况下，当状态确定单元52识别可能是会话伙伴的用户的存在性时，根据经由短期存储单元35获得的视觉识别功能单元31的识别结果和语音识别功能单元32的识别结果(图3)，该单元52发送用户脸部ID和发声者ID到存储采集会话产生单元50和存储使用会话产生单元51，这些ID是视觉识别功能单元31和语音识别功能单元32获得的识别结果，单元52并询问存储采集会话产生单元50和存储使用会话产生单元51是否它们能创建采集会话或使用会话(步骤SP1A，步骤SP1B)。
这时，根据指定的主题产生标准和主题使用确定标准，存储采集会话产生单元50和存储使用会话产生单元51为主题的产生和主题的使用执行会话创建过程，该过程指明怎样使用创建的主题来产生采集会话或使用会话(步骤SP2A，步骤SP2B)。
在本实施例的情况中，有七个标准作为主题产生标准。
第一主题产生标准是选择相同目标的不同项目作为下个主题，该相同目标作为在以前会话中使用的主题。在这个实施例中，较高印象级别的项目被顺序的选择。例如，在先前会话的主题是图4中的“目标ID1”的“生日”的情况下，不同于相同“目标ID1”的其它项目的最高印象级的项目被选作下次会话的主题。
第二主题产生标准是选择相同目标的相关项目作为下个主题，该相同目标作为在先前会话中使用的主题。例如，在先前会话的主题是图4中的“目标ID1”的“爱好”，“目标ID1”的“嫌恶”被选作下次会话的主题。
第三主题产生标准是根据之前会话中使用的主题项目值选择可被指定的目标的项目作为下个主题。在这个实施例中，具有较高印象级别的目标被顺序选择作为下个目标。例如，在之前会话的主题是图4中的“目标ID1”的“朋友”的情况下，“目标ID2”的任何项目，“朋友”，被作为下次会话的主题。
第四主题产生标准是选择作为之前会话使用的主题的相同目标的相同项目作为下个主题。例如，在之前会话的主题是图4中的“目标ID1”的“生日”的情况下，相同“目标ID1”的相同“生日”被选作下次会话的主题。
第五主题产生标准是选择具有作为之前会话使用的主题的相同项目值的不同目标的相同项目。例如，在之前会话的主题是图4中的“目标ID1”的“爱好”的情况下，具有相同“爱好”值“茶”的“目标ID3”的“爱好”被选作下次会话的主题。
第六主题产生标准是选择不同目标的项目作为下个主题，该不同目标具有与之前会话使用的主题项目值有关的项目值。例如，在之前会话的主题是图4中的“目标ID2”的“爱好”的情况下，基于“马”的“爱好”，选择“爱好”是“赛马”的“目标ID6”，并且该“目标ID6”的“爱好”被选作下次会话的主题。
第七主题产生标准是从之前会话使用的主题的目标中选择不同目标的相同项目。例如，在之前会话的主题是图4中的“目标ID1”的“爱好”的情况下，“目标ID2”的“爱好”被选作为下次会话的主题。
应该注意，第一到第七主题产生标准中的第一到第三主题产生标准既能被用作采集会话的产生也能用作使用会话的产生。然而，第四到第七主题产生标准不能用于采集会话的产生，而对采集会话的产生是有效的。
因此，存储采集会话产生单元50在第一到第三主题产生标准中随机地选择一个标准，并且存储使用会话产生单元51在第一到第七主题产生标准中随机地选择一个标准。根据选择的主题产生标准，例如，在之前会话的主题是“目标ID1的爱好”的情况下，“目标ID1的朋友”，“目标ID1的嫌恶”，“目标ID2的生日”，“目标ID1的生日”，“目标ID3的爱好”，或“目标ID6的爱好”被选作下次会话的主题。
另一方面，在该实施例中，存在三种标准作为主题使用确定标准。
第一个主题使用确定标准是通过利用存储在长期存储单元36中的相应项目值产生会话。例如，当“目标ID1的爱好”被确定为主题时，如“Yukiko的爱好是喝茶，不是吗。”或“你的爱好是什么”的会话被产生。
第二个主题使用确定标准是对于有关内容，基于存储在长期存储单元36中的相应项目值搜索数据库，并利用该内容产生会话。例如，当“目标ID1的生日”被确定为主题时，根据搜索周年纪念数据库，该“73/5/2”是“生日”的项目值，作为关键字，并通过利用获得的内容“通讯通告”(TRAFFIC NOTIFICATION)，会话如“你知道5月2日是通信通告的日子吗。”被产生。
第三个主题使用确定标准是对于相关内容，基于通过从存储在长期存储单元36中的相应项目值计算和假设获得的相关项目值搜索数据库，并利用该内容产生会话。例如，当“目标ID1的生日”被确定为主题时，根据从“73/5/2”得到的“金牛座”搜索占星学数据库，“73/5/2”是“生日”的项目值，作为关键字，并通过利用得到的内容“忍耐”，会话如“你知道金牛座的人都很有耐心吗。”被产生。
除了第一到第三主题使用确定标准，第一主题使用确定标准用于采集会话的产生和使用会话的产生。第二和第三主题使用确定标准不能用于采集会话的产生但对使用会话的产生是有效的。
因此，存储采集会话产生单元50选择第一主题使用确定标准，而存储使用会话产生单元51随机地选择第一到第三主题使用确定标准中的一个。根据所选的主题使用确定标准，获得信息的会话或利用获得的信息的会话被产生。
当存储采集会话产生单元50和存储使用会话产生单元51产生一主题并确定使用主题产生程序，它们向状态决定单元52通报该内容、主题和它的使用。即使不能产生主题，状态决定单元52也被通报该内容(步骤SP3A，步骤SP3B)。
当存储采集会话产生单元50和存储使用会话产生单元51向状态确定单元52通报主题已经产生并已确定对其使用，根据一第一比率和一第二比率选择存储采集会话产生单元50和存储使用会话产生单元51中的一个，第一比率是指尚没有获得值的项目数量与会话伙伴所有的项目数量的比率，第二比率是指已经获得值的项目数量与会话伙伴所有的项目数量的比率(步骤SP4)。
更具体地，当第一比率等于第二比率或更大时，状态确定单元52选择存储采集会话产生单元50，当第一比率小于第二比率时，状态确定单元52选择存储使用会话产生单元51。
当状态决定单元52以如此方式选择它们中任何一个时，根据主题及对主题的使用，它给所选择的存储采集会话产生单元50或存储使用会话产生单元51一个指令来启动该过程(在下文中，称为会话产生过程)以便产生采集会话或使用会话。
另一方面，当存储采集会话产生单元50和存储使用会话产生单元51中的一个对状态确定单元52通报了主题及对主题的使用时，根据主题及对主题的使用，该状态确定单元给所选择的存储采集会话产生单元50或存储使用会话产生单元51一个指令来开始会话产生过程(步骤SP5)。
所以，响应该指令，存储采集会话产生单元50或存储使用会话产生单元51开始会话产生过程，访问内部状态管理单元34以获得不同于本能要素的参数值“影响”，从而根据上述的主题及对主题的使用，顺序的发送字符串数据D1到依靠硬件动作控制单元40的音频合成单元40A中，用于实现采集会话或使用会话，该会话包括用于获取信息的会话(在下文中，称为采集会话)或利用获取的信息的会话(在下文中，称为使用会话)，其中字符串数据D1包括一系列会话的内容结果，根据字符串数据D1，在音频合成单元40A中产生音频信号S1并指定给扬声器12(图1)，从而输出形成采集会话的会话内容的声音，该采集会话包含一系列包括采集会话“Yukiko的爱好是什么？”的会话，或输出形成使用会话的会话内容的声音，该使用会话包含一系列包括使用会话“Yukiko的爱好是喝茶，不是吗！”的会话(步骤SP6)。
直到这时，通过麦克风11收集用户对这个主题的回复并指定给动作控制系统30(图3)的语音识别功能单元32，并被该单元32识别。
因此在步骤SP4中，在选择存储采集会话产生单元50的情况下，该存储采集会话产生单元50基于采集会话，并基于语音识别功能单元32的语音识别结果提取对问题(即，期待获得的项目值)的答复，该答复来自用户对采集会话的响应，并以参考图4所述的格式将它存储在长期存储单元36中(步骤SP6)。
而且，同时，该存储采集会话产生单元50访问内部状态管理单元34以获得“影响”的当前参数值，计算获得的参数值与会话前刚获得的相同“影响”的参数值之间的差值，并且在长期存储器34中存储计算结果，通过将该值与项目值相关，该结果作为如上所述为用户获得的项目值的印象等级。
当存储采集会话产生单元50或存储使用会话产生单元51完成采集会话或使用会话，它将该事情通知给状态确定单元52(步骤SP7)。响应该通知，该状态确定单元52通知该存储采集会话产生单元50和存储使用会话产生单元51该主题和它的用途，该用途在步骤SP3A或步骤SP3B由步骤SP4中选择的存储采集会话产生单元50或存储使用会话产生单元51指定(步骤SP8A，步骤SP8B)。
因此，该存储采集会话产生单元50和存储使用会话产生单元51存储该指定话题和它的用途作为会话历史(步骤SP9A，步骤SP9B)，并以上述方式产生采集会话或使用会话，以便在具有相同会话伙伴的一对一会话中不产生相同的会话，直到会话结束(步骤SP10A-步骤SP1A到步骤SP10A，步骤SP10B-步骤SP1B到步骤SP10B)。
如上所述，机器人1自然地通过获得和使用用户的各种信息能够与用户具有唯一会话，并自然和顺序的改变话题。
(2-2)机器人1的跟踪功能下面，将描述提供给机器人1的跟踪功能。
机器人1具有跟踪功能，能安全的跟踪存在的会话伙伴。该跟踪功能主要通过参考图3所描述的行动控制系统30的状态-依赖动作等级38的处理来实现。该跟踪功能通过状态-依赖动作等级38的跟踪控制单元38B来实现，如参考图5所述。
跟踪控制单元38B的处理内容在功能上分类为用于整合视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33的识别结果的识别整合单元55和基于识别整合单元55的综合结果来预测会话伙伴的位置的预测单元56。
在该情况下，识别整合单元55根据视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33的识别结果，考虑会话伙伴的脸部图像、语音声音和接触状态来识别存在的会话伙伴。
就是说，在图像识别过程之外，该过程基于包括CCD照相机10的传感器输出的视频信号来执行，视觉识别功能单元31逐步按照皮肤色彩识别过程，脸部识别过程和身体识别过程的顺序，执行三种识别过程，即皮肤色彩识别、脸部识别和身体识别，并将识别过程的结果发送给识别整合单元55。
诸如皮肤色彩识别、脸部识别和身体识别的这些识别过程具有不同的识别等级以识别个人脸部。该身体识别过程指定谁是具有最高识别等级的目标人物。该脸部识别过程识别图像是否是个人脸部或具有中等识别等级的类似体。该皮肤具有最低识别等级的色彩识别过程是最容易的识别。
特别地，该视觉识别功能单元31从基于视频信号的图像中检测肤色区域，并根据检测结果确定图像中的目标对象是否是人脸。当视觉识别功能单元31确定该人脸时，基于脸部区域的图像指定谁是会话伙伴，并发送该识别结果给识别整合单元55。
该语音识别功能单元32执行声音方向识别过程，以识别声音来自哪个方向，此外基于包括麦克风11的传感器输出的音频信号来执行的各种有关声音的识别过程，并且将该识别结果发送给识别整合单元55。
例如，在输入/输出组3(图1)中提供多个麦克风11的情况下，多个麦克风11被用来设定输入声音事件的声源的方向。尤其是，例如在“acoustic systemdigital processing”Oga，Yamazaki，Kaneda(电子信息通信协会)p197”中公开的，通过使用声源与多个麦克风接收信号的时间差之间的一对一关系来预测声源的方向。
就是说，如图7所示，在排列在距离d处的两个麦克风M1和M2接收来自θs方向的平面波的情况下，在麦克风M1和M2接收的信号x1(t)和x2(t)间存在如下关系。
X2(t)＝x1(t-Ts) ...(3)Ts＝(dsinθs)/c ...(4)在表达式(1)、(2)中c是声音的速率，并且τs是两个麦克风M1和M2接收的信号的时间差。
因此，如果可以获得接收信号x1(t)和x2(t)间的时间差τs，则下面的表达式(5)θs＝sin-1(cTs/d) ...(5)可用来获得声音来自的方向，这就是声源方向。
现在，根据下面的表达式(6)12(T)＝E[x1(t)·x2(t+T)] ...(6)从接收的信号x1(t)和x2(t)间的互相关函数12(τ)中获得时间差τs，在表达式(4)中的E[·]是期望值。
根据上述表达式(1)和表达式(4)，该互相关函数12(τ)表示如下(7)12(T)＝E[x1(t+T-Ts)]＝11(T-Ts)...(7)在此，表达式(5)中的11(τ)是接收的信号x1(t)的自相关函数。
基于表达式(5)，当知道τ＝0时，可知该自相关函数11(τ)具有最大值，当τ＝τs时，该互相关函数具有最大值。因此，当计算互相关函数112(τ)获得产生最大值的τ时，可获得τs。然后通过在表达式(3)中取代它，可获得该声波来自的方向，即声源方向。
该语音识别功能单元22(图5)能确定由麦克风11收集的声音事件是否是话音。尤其是，根据Hidden Markov Model(HMM)方法通过统计模拟话音和非话音并比较它们的似然值，可以确定音频事件是否为话音。另外，该语音识别功能单元根据由“F.Asano，H.Asoh and T.Matsui，”Sound Source Localization andSeparation in Near Field”.IEICE Trans.Fundamental，Vol.E83-A，No.11，2000”公开的技术，通过计算到声源的预测距离能粗略的确定该声源是不是接近了。
而且，该接触识别功能单元33执行接触识别程序以识别是否用户被接触，此外根据接触传感器13的传感器输出的压力检测信号来执行有关外部刺激的识别程序。然后该接触识别功能单元将识别结果发送给识别整合单元55。
该识别整合单元55整合视觉识别功能单元31、语音识别功能单元和接触识别功能单元的识别结果。该整合在此意味着对于某一图像相同区域的信息的整合，例如，尽管不能识别人，但它导致脸部和肤色被确认。即，在视觉识别功能单元31、语音识别功能单元32和接触识别功能单元33的每个识别上接收信息是成功的，并且由于该识别是成功的，该识别信息作为识别结果被发送的情况下，该识别整合单元55从规定的识别结果或该识别结果之外的一个或多个识别结果中假设会话伙伴的方向。
因此，根据识别结果，该识别整合单元55随后向依靠硬件的动作控制单元40的动作产生单元40B发送跟踪动作数据D2，该跟踪动作数据D2表示用于跟踪会话伙伴存在的动作内容。
因此，基于跟踪动作数据D2，在动作产生单元40B中产生动作确定信号S2，并指定驱动组4(图1)的相关驱动单元151至15n，由此移动机器人1的脖颈关节，以使会话伙伴脸部重心的中心定位在输入图像的中心，例如。
当个人识别过程失败时，该识别整合单元55使用其他脸部识别过程、肤色识别过程、声音方向识别过程和接触识别过程中的任何识别结果来继续跟踪。例如，通过使用脸部识别过程来预测会话伙伴脸的方向(位置)。即，尽管不能指定人，该脸部识别过程是成功的，并且在已经确认脸部的情况下，假设已经被跟踪的人具有同一个人的脸部，并且控制该驱动组4使得该脸部区域放置在输入图像的中央。例如，当脸部识别结果失败时，使用该肤色识别过程的识别结果。当肤色识别结果也失败时，使用声音方向识别过程的识别结果，并且控制驱动组以便该机器人1面向声音方向。
一种确定方法，那一种识别结果能利用优先级预置在识别整合单元55中，或者由该机器人1能够进行的适当选择。例如，刚刚在个人识别过程失败前，最接近会话伙伴位置(方向)的识别过程的识别结果被使用。
当预测单元56从识别整合单元55接收识别整合结果并且由于识别过程的不可靠识别结果(在识别失败的情况下)不能暂时识别目标时，该预测单元56预测目标的位置。例如，如果所有识别过程的识别结果失败时，该预测单元56根据获得的识别结果预测目标的当前位置(方向)，直到失败。
当预测单元56一直从识别整合单元55接收识别整合结果并且上述跟踪控制单元不能识别该目标时，该预测单元56被控制，以便开始目标位置的预测，或在规定期间内等候各种识别过程恢复。作为替换方式，当不能识别目标时，该识别整合单元55可以发送识别结果给预测单元56，指示预测单元56预测目标位置，直到失败。
然后，该预测单元56刚刚在不能识别目标之前根据识别结果预测目标方向，并且将预测的方向发送给驱动组4(图1)。即，需要机器人跟踪图像的环境识别经常不稳定，并且该环境识别对光亮和人的脸部角度敏感。当光亮和脸部角度变化很小时，该视觉识别功能单元31对各种识别过程无效。另外，当目标诸如移动很快的球，该球在不均匀光亮的情况下移动，因此识别变得困难。而且，自主型机器人1根据外部状态和内部刺激一直选择动作。例如，在具有比跟踪操作更高的优先级的其他操作发生的情况下，可能停止该跟踪操作，并可以开始其他操作。例如，考虑这样一种情形，由于机器人1在与个人A会话期间被其他个人B呼叫，该机器人1与个人B进行简短会话，然后恢复与个人A会话。在这种情况中，跟踪被停止之后，应当恢复跟踪。尽管原则上可以存储个人A的位置，但由于个人A移动很小造成不可靠识别，可能不恢复该跟踪。
甚至在该情况中，当目标是移动物体时，通过根据以前的移动量预测该当前位置(方向)来获得预测的方向。另外，刚刚在识别失败之前的规定期间内识别目标物体是稳定的情况下，该目标的方向仅在此之前被确定为预测的位置。
然后，依靠硬件的动作控制单元40的动作产生单元40B根据来自识别整合单元55或预测单元56的控制信息产生跟踪动作数据D2，并经由驱动组4输出。即，关于在机器人1关节处的驱动单元151至15n，计算该旋转角度和旋转位置通过每个滚筒、螺距，或作为中心的偏航轴来旋转每个关节，并且被控制的相关马达161至16n被驱动，因此使得机器人1通过，例如旋转机器人1的脖子，来跟踪目标的移动。
注意，尽管当所有识别过程都失败时预测单元56预测目标方向，但识别整合单元55的上面描述的部分过程可由预测单元56执行。就是说，当具有最高级的个人识别过程失败时，由预测单元56执行一个通过使用具有较低等级的脸部识别过程的识别结果和声音方向识别结果的继续跟踪过程。
(3)会话伙伴确认过程当机器人1通过麦克风获得用户语音时，该控制单元2启动图8所示的从步骤SP20开始的会话伙伴确认过程RT1。在下一步SP21，该控制单元2复位一计数器(未示出)并进行到步骤SP22来确定根据上述跟踪功能是否能跟踪会话伙伴的存在性。
当在步骤SP22中得到肯定结果时，这意味着会话伙伴在机器人1的前方。在这种情况下，该控制单元2进行到步骤SP23并返回到步骤SP21以重复上述过程，此时与会话伙伴继续会话。
当在步骤SP22中得到否定结果时，相反，意味着不能识别会话伙伴的存在性。在该情况下，该控制单元2进行到步骤SP24来确定接触传感器13是否已经接触若干秒(两到三秒)。
当在步骤SP24中获得肯定结果时，意味着会话伙伴刚好在机器人1的前方。在该情况下，该控制单元2进行到步骤SP23并返回到步骤SP21以重复上述过程，此时继续与会话伙伴的会话。
当在步骤SP24中得到否定结果时，相反，意味着不能识别会话伙伴的存在性。在该情况下，该控制单元2进行到步骤SP25来启动一计时器计数(未示出)，并确定用户是否响应。
当在步骤SP25中得到肯定结果时，意味着通过麦克风11收集到一些语音。在该情况下，该控制单元2进行到步骤SP26来确定收集的语音内容是否与预测的响应内容相同。
当在步骤SP25中得到否定结果，相反，意味着通过麦克风11没有收集到任何语音。在该情况下，该控制单元2进行到步骤SP27来确定自计时器启动时是否规定时间已经过去(例如，5至7秒)。
当在步骤SP27中得到肯定结果，该控制单元2确定该时间结束，并进行到步骤SP28。相反，当得到否定结果时，它确定该时间没有结束，并返回步骤SP25重复上述过程。
当在步骤26中得到肯定结果时，意味着通过麦克风11收集的语音内容与预测的响应内容相同。在该情况下，控制单元2确定会话伙伴刚好在机器人1的前面，并进行到步骤SP23并返回到步骤SP21，以重复上述过程，此时继续与会话伙伴会话。
当在步骤26中的到否定结果时，相反，意味着通过麦克风11收集的语音内容与预测的响应内容不同。在该情况下，该控制单元2确定没有识别会话伙伴的存在性，并进行到步骤SP28。
在步骤SP28，该控制单元2检查在步骤SP21复位的计数器的数值。当该值小于N(N是某个整数)，该控制单元2进行到步骤SP29，并进行到步骤SP30，此时同用户讲相同意图的内容，催促他/她响应，计数器增加1，然后返回到步骤SP22重复上述过程。
当控制单元2在步骤SP28确定计数器的数值是N倍或较大，该控制单元2进行到步骤SP31要求用户触摸该接触式传感器13并启动计时器计数，然后进行到步骤SP32。
在步骤SP32，该控制单元2确定在开始同用户讲话之后，是否已经在规定期间内(例如，在5秒内)触摸该接触式传感器13。当得到肯定结果时，意味着会话伙伴正好在机器人1的前面。该控制单元进行到步骤SP23，返回到步骤SP21继续与会话伙伴会话，并重复上述过程。
当在步骤SP23得到否定结果时，意味着在规定期间内没有确认会话伙伴的存在性。在该情况下，控制单元2进行到步骤SP33产生结束该会话的语音，并进行到步骤SP34终止会话伙伴确认程序RT1。
如上所述，该机器人1能确认会话伙伴的存在性，而且在与用户会话期间能执行跟踪。因此，如果用户的会话内容与预测的响应内容不相同时，该机器人1催促用户响应机器人1并继续会话，因此继续与用户的会话。
例如，当机器人1接收用户响应“嗯...”以响应机器人1的问题“YUKIKO最喜欢什么？”，该机器人1产生语音“告诉我YUKIKO最喜欢的东西”。如果机器人1从用户接收到“什么？”，它产生语音“请回答它是....”，以接收用户响应诸如“苹果”。
即使机器人1在与用户会话期间不能完成跟踪，但用户对机器人1的问题的响应适合该问题时，该机器人1也可以确定作为会话伙伴的用户在机器人1的前面，并继续与用户会话。
例如，在机器人1产生语音“YUKIKO最喜欢的食物是什么？”后，尽管它不能跟踪用户的存在性，但它能从用户接收预期的响应诸如“苹果”时，该机器人1确定用户在机器人1的前面，并继续该会话。
而且，在与用户会话期间机器人1不能执行跟踪，并且不能接收预期的响应或不能识别声音的情况下，该机器人重复询问语音规定次数。当机器人1不能接收预期响应时，它确定会话伙伴已经离开并能完成不自然的会话。
例如，在机器人1产生语音“YUKIKO最喜欢的食物是什么？”后，机器人1在规定期间内从用户没有接收到任何响应的情况下，而且在产生具有相同内容的语音“告诉我YUKIKO最喜欢的食物是什么”后机器人1在规定期间内从用户没有接收到任何响应的情况下，该机器人1通过例如自言自语产生语音“嗯...他已经离开了？”来完成不自然的会话，结束该会话。
(4)本实施例的工作及作用在上述配置中，基于各种识别过程的识别结果，该机器人1执行与用户具有唯一会话的会话控制功能，而且执行跟踪功能来跟踪是会话伙伴的用户的存在性。
在该情况下，尽管机器人1能在与用户会话期间跟踪用户的存在性，当继续会话时它确定它能证实会话伙伴的存在性并催促用户响应机器人1，因此继续与用户的自然会话，像人类那样做。
当由于黑暗的环境，机器人1不能跟踪作为会话伙伴的用户的存在性时，只有当用户的会话内容与机器人1所预期的响应内容相同时，该机器人1确定会话伙伴在机器人1的前面并继续与用户会话，因此有可能有效的防止机器人1错误确定用户不存在并停止会话，而毫不在意用户是否在机器人1的前面。
而且，在与用户会话期间机器人1不能执行跟踪并且不能接收机器人1预测的响应内容的情况下，该机器人1在规定次数内重复催促用户响应相同会话内容。当机器人1不能接收预期响应内容时，它确定用户已经离开，并停止与用户会话。这防止继续像自言自语这样不自然的会话。另外，可以预先避免响应诸如电视或无线电等噪音。
根据上述配置，基于各种识别过程的识别结果，机器人1执行会话控制功能使得会话的主题对用户专用，而且执行跟踪功能来跟踪是会话伙伴的用户的存在性，因此全面证实会话伙伴的存在性而不受当前环境的影响。因而，机器人1能像人一样自然的进行会话，并可大大的改善娱乐特性。
(5)其他实施例上述实施例已经描述了本发明应用于娱乐机器人构造的情况，如图1至3所示。然而，本发明不限于此，并且能广泛的应用于具有其他结构的娱乐机器人，以及除这些以外的机器人，除机器人以外的各种设备，以及其他能控制与用户会话的各种会话控制装置中。另外，本发明能广泛的用于各种软件，诸如用于TV游戏的软件。
而且，上述实施例已经参考图4描述了在每次获得这些项目的项目值时确定项目的印象等级，并且以后不再更新。本发明不限于此，并且可以更新印象等级。通过这样，主题的出现频率可以改变，并可以产生取决情形的会话，这可以重大的改善机器人1的娱乐特性。
而且，上述实施例已经参考图4描述了在项目的项目值获得前后，基于存储在内部状态管理单元34中的“影响”的参数值之间的差别计算每个项目的印象等级的情况。然而，本发明不限于此，并且根据存储在内部状态管理单元34中的其他本能要素或感情要素的参数值可计算该等级，或通过其他技术计算。
而且，根据上述实施例，在语音通信系统中具有与会话伙伴通信的功能，该语音识别功能单元32被用作语音识别装置以识别会话伙伴的语音，该视觉识别功能单元31用作图像识别装置以识别会话伙伴的脸部，并且接触识别功能单元33用作接触识别装置以识别来自会话伙伴的接触。然而，本发明不限于此，并且可以广泛的应用具有其他各种结构的各种识别装置，使得该会话伙伴的声音，脸部和接触可被识别。
而且，上述实施例已经描述了状态-依赖动作等级38的会话控制单元38A在控制单元2控制下被用作会话控制装置，根据语音识别功能单元(语音识别装置)32的识别结果，来控制与会话伙伴的会话的情况。然而，本发明不限于此，并且可以应用其他各种结构，根据通过识别会话伙伴语音获得的语音识别结果来控制与会话伙伴的会话。
而且，上述实施例已经描述了在控制单元状态-依赖动作等级38的跟踪控制单元38B在控制单元2的控制下用作跟踪控制装置，基于视觉识别功能单元(图像识别装置)31的识别结果和语音识别功能单元(语音识别装置)32的识别结果的一个或两个来跟踪会话用户的存在性。然而，本发明不限于此，并且可以应用其他各种结构，根据一个或两个通过识别会话伙伴的脸获得的图像识别结果和通过识别会话伙伴的语音获得的语音识别结果，来跟踪会话伙伴。
在该情况下，该跟踪控制单元(跟踪控制装置)38B能基于语音识别功能单元(语音识别装置)32的识别结果，视觉识别功能单元(图像识别装置)31的识别结果，和接触识别功能单元(接触识别功能单元)33的识别结果的预计组合来跟踪会话伙伴的存在性。
而且，上述实施例已经描述了甚至当跟踪控制单元(跟踪控制装置)38B不能成功跟踪时，当作为语音识别功能单元(语音识别装置)32的识别结果的所得到的会话伙伴的语音内容与预期的响应内容相同时，该会话控制单元(会话控制装置)38A继续会话的情况。然而，本发明不限于此，可以采用各种控制方法，例如即使在非常黑暗的环境中，此时机器人1确定会话伙伴不在机器人1的前面而毫不在意该伙伴是否就在机器人1的前面时，该方法可有效的防止该会话被停止。
在该情况下，甚至当跟踪控制单元(跟踪控制装置)38B不能执行跟踪时，该会话控制单元(会话控制装置)38A继续会话，在该情况下，该会话伙伴的接触被确认为接触识别功能单元(接触识别装置)33的识别结果，因此获得与上面描述的相同效果。
而且，上述实施例已经描述了甚至当跟踪控制单元(跟踪控制装置)38B不能执行跟踪时，并且会话伙伴的语音内容与预期的响应内容不相同时，并且在催促会话伙伴进行响应的语音进行规定次数后从会话伙伴中不能获得该响应内容时，该会话控制单元(会话控制装置)38A完成该会话的情况。然而，本发明不限于此，可以采用各种方法，例如即使机器人重复催促会话伙伴进行响应也不能获得预期响应的情况下，此时会话伙伴已经离开时，该方法可以防止继续像自言自语的非自然会话。
在该情况下，在跟踪控制单元(跟踪控制装置)38B不能执行跟踪，并且会话伙伴的语音内容与预期内容不相同，并且如果在催促会话伙伴进行响应的语音进行规定次数后从会话伙伴中不能获得该响应内容的情况下，该会话控制单元(会话控制装置)38A刚刚在会话结束之前要求会话伙伴触摸该接触识别功能单元(接触识别装置)33，并且在接触识别功能单元(接触识别装置)33识别该会话伙伴的接触作为识别结果的情况下，该会话控制单元(会话控制装置)38A继续该会话，因此也导致获得与上述相同的效果。
而且，上述实施例已经描述了当会话伙伴的语音在规定时间内容不能获得时，会话控制单元(会话控制装置)38A设置超时以及催促会话伙伴进行响应的情况。如所希望的那样，可以将超时设置为希望的时间，作为等候预期响应内容的时间。
一种语音通信系统和方法，以及机器人装置可用于娱乐机器人、照顾机器人，等等。
尽管已经结合本发明的优选实施例进行了描述，很显然本领域技术人员可以进行变化和修改，因而，覆盖附加权利要求的所有变化和修改将落入本发明的真实精神和范围内。
权利要求
1.一种具有与会话伙伴会话功能的语音通信系统，包括用于识别会话伙伴的语音的语音识别装置；根据语音识别装置的识别结果控制与会话伙伴会话的会话控制装置；用于识别会话伙伴的脸部的图像识别装置；根据图像识别装置的识别结果和语音识别装置的识别结果中的一个或两个来跟踪会话伙伴的存在的跟踪控制装置；其中，所述会话控制装置根据跟踪控制装置的跟踪继续该会话。
2.根据权利要求1的语音通信系统，其中当作为语音识别装置的识别结果获得的会话伙伴的语音内容与预测的响应内容相同时，即使跟踪控制装置跟踪失败，该会话控制装置也继续该会话。
3.根据权利要求2的语音通信系统，其中在跟踪控制装置跟踪失败并且会话伙伴的语音内容与预测的响应内容不相同的情况下，即使重复通知规定次数来催促会话伙伴产生响应内容，也不能从会话伙伴获得响应内容时，该会话控制装置完成该会话。
4.根据权利要求3的语音通信系统，其中当在规定期间内没有获得会话伙伴的语音时，该会话控制装置进行通知催促会话伙伴产生响应内容。
5.根据权要求1的语音通信系统，还包括用于识别会话伙伴的触摸的接触识别装置，其中，根据语音识别装置的识别结果、图像识别装置的识别结果和接触识别装置的识别结果的特定组合，该所述跟踪控制装置跟踪会话伙伴的存在。
6.根据权利要求5的语音通信系统，其中当接触识别装置的识别结果表示会话伙伴的触摸存在时，即使跟踪控制装置跟踪失败，该会话控制装置继续该会话。
7.根据权利要求5的语音通信系统，其中在跟踪控制装置跟踪失败并且会话伙伴的语音内容与预测的响应内容不同时，在通知规定次数来催促会话伙伴做出响应内容之后仍不能获得响应内容的情况下，就在会话受到控制以便结束之前、发出通知要求会话伙伴触摸该接触识别装置之后，如果作为所述接触识别装置的识别结果会话伙伴的触摸被证实，则所述会话控制装置继续该会话。
8.一种具有与会话伙伴会话功能的语音通信方法，包括第一步骤，根据通过识别会话伙伴的语音获得的话音识别结果和通过识别会话伙伴的脸部获得的图像识别结果中的一个或两个来跟踪会话伙伴的存在；第二步骤，根据获得的语音识别结果继续与会话伙伴会话，同时保持跟踪。
9.根据权利要求8的语音通方法，其中在第二步骤中，当作为语音识别结果获得的会话伙伴的语音内容与预测的响应内容相同时，即使在第一步骤中不执行跟踪，该会话也继续。
10.根据权利要求9的语音通方法，其中在第二步骤中，在第一步骤中不执行跟踪、并且会话伙伴的语音内容与预测的响应内容不相同的情况下，即使通知规定次数来催促会话伙伴做出响应内容，还不能从会话伙伴获得响应内容时，完成该会话。
11.根据权利要求10的语音通方法，其中在第二步骤中，当在规定期间内没有获得会话伙伴的语音时，进行通知以催促会话伙伴产生响应内容。
12.根据权利要求8的语音通方法，其中在第一步骤中，根据语音识别结果、图像识别结果和通过识别会话伙伴的接触获得的接触识别结果的特定组合，跟踪会话伙伴的存在。
13.根据权利要求12的语音通方法，其中在第二步骤中，当会话伙伴的接触被证实为接触识别结果时，即使在第一步骤中不能执行跟踪，也继续该会话。
14.根据权利要求12的语音通方法，其中在第二步骤中，在第一步骤中不能执行跟踪并且会话伙伴的语音内容与预测的响应内容不相同的情况下，甚至在通知规定次数以催促会话伙伴产生响应内容后也不能从会话伙伴中获得响应内容，则在会话受到控制以便完成之前，在要求会话伙伴触摸以获得接触识别结果的通知产生之后，当作为接触识别结果会话伙伴的接触被征实时，继续该会话。
15.一种具有语音通信系统的机器人装置，该语音通信系统具有与会话伙伴会话的功能，该机器人装置包括用于识别会话伙伴的语音的语音识别装置；根据语音识别装置的识别结果控制与会话伙伴会话的会话控制装置；用于识别会话伙伴的脸部的图像识别装置；根据图像识别装置的识别结果和语音识别装置的识别结果中的一个或两个来跟踪会话伙伴的存在的跟踪控制装置；其中，所述会话控制装置根据跟踪控制装置的跟踪继续该会话。
全文摘要
本发明实现语音通信系统和方法，以及能够大大改善娱乐特性的机器人装置。一种具有与会话伙伴进行会话功能的语音通信系统具有用于识别会话伙伴语音的语音识别装置，根据语音识别装置的识别结果控制与会话伙伴会话的会话控制装置，用于识别会话伙伴的脸部的图像识别装置，和基于图像识别装置的识别结果和语音识别装置的识别结果中的一个或两个来跟踪会话伙伴的存在的跟踪控制装置。该会话控制装置依靠跟踪控制装置的跟踪控制会话继续。
文档编号G10L15/24GK1591569SQ200410085508
公开日2005年3月9日申请日期2004年7月2日优先权日2003年7月3日
发明者青山一美, 下村秀树申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：青山一美;下村秀树
技术所有人：索尼株式会社
我是此专利的发明人