控制方法和控制器与流程

文档序号：12368739阅读：251来源：国知局

本公开涉及在利用语音对话控制预定设备时，基于用户的视线信息，选择用于语音对话的词典进行控制的控制方法和控制器。

背景技术：

有利用语音输入对位于家庭中的电子设备的状态进行确认和操作的系统。例如，在这样的系统中，由便携式麦克风取得的人的说话(发声)内容被传送给电视机等电子设备。电子设备解析用户发出的语言(语句)，并执行基于说话的处理。由此，可实现电子设备的状态的确认或操作。

在专利文献1中公开了如下技术：通过按每台设备准备词典，根据用户发声时的头部方向，确定作为操作对象的设备，并切换为与该操作对象对应的词典和语法，从而提高语音识别的精度。

在先技术文献

专利文献

专利文献1：日本特开2009-210956号公报

技术实现要素：

发明要解决的问题

然而，上述专利文献1需要进一步的改善。

用于解决问题的技术方案

一种与第一设备、第二设备、相机以及麦克风连接的控制器中的控制方法，所述第一设备设置在第一空间的第一位置，所述第二设备设置在第二空间的第二位置，所述相机检测用户的视线方向，所述麦克风检测所述用户的说话，所述第一空间是所述用户能够视觉识别的空间，所述第二空间是所述用户不能视觉识别的空间，从所述相机取得视线信息，所述视线信息包含表示所述检测出的用户的视线方向的信息，基于所述视线信息，判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置，从所述麦克风取得语音数据，所述语音数据表示所述检测出的用户的说话，在判断为所述用户的视线方向指示所述第三位置的情况下，从所述控制器或与所述控制器连接的服务器具备的多个词典中选择与所述第二设备对应的第二词典，使用所述选择出的第二词典，生成与所述取得的语音数据对应的第二控制指令，向所述第二设备发送所述生成的第二控制指令。

发明的效果

根据上述一个技术方案，能够实现进一步的改善。

附图说明

图1A是表示在实施方式中对话信息提供系统提供的服务的整体画面的图。

图1B是表示在实施方式中设备制造商相当于数据中心运营公司的例子的图。

图1C是表示在实施方式中设备制造商和管理公司这两方或某一方相当于数据中心运营公司的例子的图。

图2是表示实施方式1中的对话信息提供系统的构成的图。

图3是表示实施方式1中的对话信息提供系统的工作的流程图。

图4A是表示实施方式1中的设备管理信息的一例的图。

图4B是表示实施方式1中的统合控制词典的一例的图。

图4C是表示实施方式1中的单独控制词典的一例的图。

图4D是表示实施方式1中的单独控制词典的一例的图。

图5是实施方式1中的对话信息提供系统所包含的各装置的框图。

图6是表示实施方式1中的对话信息提供系统的工作例的图。

图7是表示实施方式1中的对话信息提供系统的工作例的图。

图8是表示实施方式1中的设备的工作的流程图。

图9是表示实施方式1中的声音收集装置的工作的流程图。

图10是表示实施方式1中的家庭网关的工作的流程图。

图11是实施方式1中的词典选择处理的流程图。

图12是表示实施方式1中的语音对话处理的工作例的图。

图13是实施方式1中的语音对话处理的流程图。

图14是表示实施方式1中的语音识别处理的工作例的图。

图15是实施方式1中的语音识别处理的流程图。

图16是表示实施方式1中的意图理解处理的工作例的图。

图17是实施方式2中的词典选择处理的流程图。

图18是表示实施方式2中的对话信息提供系统的工作例的图。

图19是实施方式3中的第一设备和第二设备的框图。

图20A是表示实施方式3中的设备管理信息的一例的图。

图20B是表示实施方式3中的设备管理信息的一例的图。

图20C是表示实施方式3中的设备管理信息的一例的图。

图21是实施方式3中的对象设备设定处理的流程图。

图22是实施方式4中的对象设备设定处理的流程图。

图23是表示实施方式5中的对话信息提供系统的构成的图。

图24是表示实施方式5中的设备管理信息的一例的图。

图25是实施方式5中的对象设备设定处理的流程图。

图26是实施方式6中的语音对话服务器的框图。

图27A是表示实施方式6中的统合控制词典的一例的图。

图27B是表示实施方式6中的脚本信息的一例的图。

图27C是表示实施方式6中的单独控制词典的一例的图。

图28是实施方式7中的词典选择处理的流程图。

图29是表示对话信息提供系统的变形例的构成的图。

图30是表示对话信息提供系统的变形例的构成的图。

图31是表示对话信息提供系统的变形例的构成的图。

图32是表示对话信息提供系统的变形例的构成的图。

图33是表示对话信息提供系统的变形例的构成的图。

图34是表示服务类型1(自己公司数据中心型云服务)中的信息管理系统提供的服务的整体画面的图。

图35是表示服务类型2(IaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。

图36是表示服务类型3(PaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。

图37是表示服务类型4(SaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。

标号说明

1010、1020 用户

1100、1100A、1100B、1100C、1100D、1100E 组

1101 多台设备

1102、1102A、1102B 家庭网关

1110 数据中心运营公司

1111 云服务器

1120 服务提供商

1121 服务器

1201 应用

1202 OS

1203 数据中心

2001 第一空间

2002 第二空间

2011、2011A、2011B 第一设备

2012、2012A、2012B 第二设备

2013、2013B、2014 声音收集装置

2013A 视线检测装置

2020、2021 网络

2100、2100A 语音对话服务器

2101、2101A、2147 统合控制词典

2102、2102A、2102B、2102C、2115、2125、2148 单独控制词典

2103 脚本信息

2111、2121、2131、2151 视线检测单元

2112、2122、2134、2145 设备通信单元

2113、2123 设备命令执行单元

2114、2124 距离检测单元

2132、2152 声音收集单元

2133 信息提示单元

2141 词典选择单元

2142、2142A、2142B、2142C、2142D 设备管理信息

2143 语音对话单元

2144 设备管理单元

2146 云通信单元

2155 用户信息

具体实施方式

(成为本发明的基础的见解)

正在研究用于提供如下服务的技术：按照来自用户的说话，对家庭内的多台设备的状态进行确认或操作。

在这样的系统中，装置通过确定用户的说话开始到结束的区间，取得仅是用户的说话内容的语音数据。并且，装置通过解析语音数据，决定用户想确认或操作的电子设备和该确认或操作内容。

另外，作为取得用户的说话内容的方法，提出了如下方法：利用仅选择特定方向的声音的波束成形(beamforming)处理或识别回声并削减回声的回声消除(Echo cancellation)处理等进行降噪。但是，降噪处理也有限，在已有的利用了降噪的构成中，实现足够水平的语音识别精度是困难的。

另外，作为确定想确认或操作的电子设备和该确认或操作内容的方法，有如下槽位填充(Slot filling)技术：解析用户的说话，并将该结果填入框架(模板)，由此使对话进行。例如，框架包含“设备”、“操作”以及“场所”这三个信息。用户说“接通电源”时，在框架的“操作”中设定“power_on”，但其他“设备”和“场所”的框架不填充。在该情况下，系统通过对用户反问“想接通哪台设备的电源？”、“想接通位于哪里的哪台设备的电源？”等，由此使对话继续。通过用户再次说“空调”或“起居室的空调”等而填充空着的“设备”和/或“场所”的框架。但是，由于需要对用户进行反问，并催促用户说话直到填满框架为止，所以有可能使用户焦躁。另外，有可能误识别反问时的说话而进一步反复反问，或陷入不希望的结果。

作为解决这样的问题的方法，有按每台成为确认或操作对象的设备准备词典的方法。这样一来，由于用户仅传达确认或操作的内容即可，所以能将用户的说话次数抑制为少。由此，能够防止上述问题。

另外，当制作与全部设备对应的通用性词典时，该辞典很可能变得大规模且复杂，且维护性恶化。特别是在存在许多专用于一部分设备的功能的情况下，不期望词典因此而变大。因此，可认为：如果能够按成为对象的设备分别制作词典，则专用于特定设备的内容能够记载在单独的词典中，仅将与共通功能和设备合作功能等相关的内容记载在通用性词典中等，对词典制作者来说也具有优点。但是，在存在多个词典的情况下，要求适当地选择要使用的词典。

另外，用户会抵触对着设备说话，另一方面，什么也不看就说话会感觉到不自然。另外，在无法识别说话的内容或存在多台设备的情况下，为了确定作为操作对象的设备，用户被要求重新说话多次，有时也会感觉很难用。关于用于满足这些需求的技术解决对策，尚未进行研究。

例如，在用户利用尚未与特定的电子设备关联的虚拟化身(avatar)、天花板麦克风或可穿戴麦克风等说话的情况下，会难以确定应该选择哪个词典。

这样，在存在多台作为操作对象的设备的情况下，在用户的说话中除了操作内容以外，还需要包含用于确定作为操作对象的设备的信息。由此，由于用户的说话变长，所以很可能发生由于噪声等影响无法正确掌握用户的说话内容的状况。进而，用户为了设备操作而需要发出许多词句，另外，在不能确定对象设备的情况下会发生反问。由此，存在用户的便利性下降这一问题。

(1)本公开的一个技术方案涉及的方法是一种控制方法，是与第一设备、第二设备、相机以及麦克风连接的控制器中的控制方法，所述第一设备设置在第一空间的第一位置，所述第二设备设置在第二空间的第二位置，所述相机检测用户的视线方向，所述麦克风检测所述用户的说话，所述第一空间是所述用户能够视觉识别的空间，所述第二空间是所述用户不能视觉识别的空间，从所述相机取得视线信息，所述视线信息包含表示所述检测出的用户的视线方向的信息，基于所述视线信息，判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置，从所述麦克风取得语音数据，所述语音数据表示所述检测出的用户的说话，在判断为所述用户的视线方向指示所述第三位置的情况下，从所述控制器或与所述控制器连接的服务器具备的多个词典中选择与所述第二设备对应的第二词典，使用所述选择出的第二词典，生成与所述取得的语音数据对应的第二控制指令，向所述第二设备发送所述生成的第二控制指令。

由此，在用户的视线朝向设备存在的位置以外的特定区域的情况下，选择存在于对用户来说不能视觉识别的空间中的设备的词典。由此，即使在用户的说话内容中不包含确定对象设备的信息的情况下，也能够确定对象设备。因此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(2)在上述技术方案中，也可以进一步基于所述视线信息判断所述用户的视线方向是否指示所述第二位置，在判断为所述用户的视线指示所述第二位置的情况下，从所述多个词典中选择与所述第一设备对应的第一词典，使用所述选择出的第一词典，生成与所述取得的语音数据对应的第一控制指令，向所述第一设备发送所述生成的第一控制指令。

由此，在用户将视线朝向某设备的情况下，选择该设备的词典。由此，即使在用户的说话内容中不包含确定对象设备的信息的情况下，也能够确定对象设备。因此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(3)在上述技术方案中，所述第三位置也可以是设置有所述控制器的位置。

由此，在用户的视线朝向家庭网关等控制装置的情况下，选择存在于对用户来说不能视觉识别的空间中的设备的词典。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(4)在上述技术方案中，所述控制器也可以具备所述相机。

由此，能够以简单的构成精度良好地检测出用户的视线是否朝向控制装置。

(5)在上述技术方案中，所述第三位置也可以是设置有所述麦克风的位置。

由此，在用户的视线朝向尚未与特定设备进行关联的天花板麦克风或可穿戴麦克风等声音收集装置的情况下，选择存在于对用户来说不能视觉识别的空间中的设备的词典。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(6)在上述技术方案中，所述麦克风也可以具备所述相机。

由此，能够以简单的构成精度良好地检测出用户的视线是否朝向声音收集装置(麦克风)。

(7)在上述技术方案中，在所述第一空间中也可以配置有物体(object)，所述第三位置也可以是配置了所述物体的位置。

由此，在用户的视线朝向尚未与特定设备进行关联的特定物体(例如填充玩偶)的情况下，选择存在于对用户来说不能视觉识别的空间中的设备的词典。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(8)在上述技术方案中，也可以具备所述相机。

由此，能够以简单的构成精度良好地检测出用户的视线是否朝向物体。

(9)在上述技术方案中，所述物体也可以包含人偶。

由此，能够以简单的构成提供物体。

(10)在上述技术方案中，也可以在所述第一空间中投影有假想物体，所述第三位置也可以是投影了所述假想物体的位置。由此，在用户的视线朝向尚未与特定设备关联的假想物体(例如虚拟化身)的情况下，选择存在于对用户来说不能视觉识别的空间中的设备的词典。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(11)在上述技术方案中，所述假想物体也可以包含虚拟化身和全息图。

由此，能够以简单的构成提供假想物体。

(12)在上述技术方案中，也可以进一步，向所述用户通知所述第二控制指令的操作内容。

由此，由于能够基于用户的说话内容，在对存在于用户不能视觉识别的空间的设备进行操作之前向用户确认操作内容，所以能够防止进行用户不希望的操作。

(13)在上述技术方案中，也可以在使用所述第二词典不能生成所述第二控制指令的情况下，要求所述用户输入为了生成所述第二控制指令所需的补充信息。

由此，能够基于用户的说话内容，切实地生成用于操作存在于用户不能视觉识别的空间中的电子设备的控制命令。

(14)在上述技术方案中，所述多个词典也可以包含第三词典，所述第三词典表示多台设备和与所述多台设备对应的控制指令的对应关系，所述控制方法中，还可以包含：能够使用所述选择出的第二词典生成所述第二控制指令且在能够使用所述第三词典生成所述第二控制指令的情况下，使用所述第三词典生成所述第二控制指令。

由此，在能够通过用户的说话内容确定作为操作对象的设备的情况下，使用户的说话内容优先。因此，能够抑制用户不希望的设备被错误地选择为操作对象。

另外，本公开不仅能够作为执行以上的特征性处理的控制方法而实现，也能够作为用于执行控制方法所包含的特征性步骤的控制器等而实现。另外，也能够作为使计算机执行这样的控制方法所包含的各特征性步骤的计算机程序而实现。而且，当然能够使这样的计算机程序经由CD-ROM等计算机可读取非暂时性记录介质或互联网等通信网络流通。

此外，以下说明的实施方式均为表示本公开的一个具体例的实施方式。在以下的实施方式中所示的数值、形状、构成要素、步骤、步骤的顺序等均是一个例子，并没有限定本公开的意图。另外，关于以下的实施方式中的构成要素中的、表示最上位概念的独立权利要求中没有记载的构成要素，作为任意的构成要素进行说明。另外，在全部实施方式中，也能够将各个内容进行组合。

(提供的服务的整体画面)

首先，说明本实施方式中的信息管理系统提供的服务的整体画面。

图1A是表示本实施方式中的信息管理系统提供的服务的整体画面的图。信息管理系统具备组1100、数据中心运营公司1110以及服务提供商(service provider)1120。

组1100例如是企业、团体或家庭等，其规模不限。组1100具备：包含第一设备和第二设备的多台设备1101和家庭网关1102。多台设备1101包含：能够与互联网连接的设备(例如智能手机、个人计算机(PC)或电视机等)和其自身不能与互联网连接的设备(例如照明、洗衣机或冰箱等)。多台设备1101也可以包含即使其自身不能与互联网连接，但能够经由家庭网关1102与互联网连接的设备。另外，用户1010使用组1100内的多台设备1101。

数据中心运营公司1110具备云服务器1111。云服务器1111是经由互联网与各种设备合作的假想化服务器。云服务器1111主要管理难以用通常的数据库管理工具等处理的巨大数据(大数据)等。数据中心运营公司1110进行数据的管理、云服务器1111的管理以及进行这些管理的数据中心的运营等。后面将说明数据中心运营公司1110进行的劳务的详细情况。

在此，数据中心运营公司1110不限于仅进行数据的管理或云服务器1111的管理的公司。例如，如图1B所示，在开发或制造多台设备1101中的一台设备的设备制造商进行数据的管理或云服务器1111的管理等的情况下，设备制造商相当于数据中心运营公司1110。另外，数据中心运营公司1110不限于一个公司。例如，如图1C所示，在设备制造商和管理公司共同或分担而进行数据的管理或云服务器1111的管理的情况下，这两方或某一方相当于数据中心运营公司1110。

服务提供商1120具备服务器1121。在此所说的服务器1121不限其规模，例如也包含个人用PC内的存储器等。另外，也存在服务提供商1120不具备服务器1121的情况。

此外，在上述信息管理系统中，家庭网关1102不是必需的。例如，在云服务器1111进行全部数据管理等情况下，无需家庭网关1102。另外，像家庭内的全部设备与互联网连接的情况那样，也有不存在其自身不能与互联网连接的设备的情况。

接着，说明上述信息管理系统中的信息的流动。

首先，组1100的第一设备或第二设备分别将各日志信息发送给数据中心运营公司1110的云服务器1111。云服务器1111集积第一设备或第二设备的日志信息(图1A的箭头1131)。在此，日志信息是表示多台设备1101的例如运转状况或工作日期和时间等的信息。例如，日志信息包含电视机的收看历史记录、录像机的录像预约信息、洗衣机的运转日期和时间、洗过的衣服的量、冰箱的开闭日期和时间或冰箱的开闭次数等，但不限于这些信息，也可以包含能够从各种设备取得的各种信息。此外，日志信息也可以经由互联网从多台设备1101本身直接提供给云服务器1111。另外，日志信息也可以从多台设备1101暂时集积于家庭网关1102，并从家庭网关1102提供给云服务器1111。

接着，数据中心运营公司1110的云服务器1111以一定的单位，将已集积的日志信息提供给服务提供商1120。在此，一定的单位既可以是数据中心运营公司1110能够对已集积的信息进行整理并提供给服务提供商1120的单位，也可以是服务提供商1120要求的单位。另外，虽然以一定的单位提供，但也可以不以一定的单位提供，提供的信息量可以根据状况而变化。日志信息根据需要保存在服务提供商1120保有的服务器1121中(图1A的箭头1132)。

然后，服务提供商1120将日志信息整理成与提供给用户的服务相适合的信息，并提供给用户。被提供信息的用户既可以是使用多台设备1101的用户1010，也可以是外部的用户1020。作为向用户1010和1020的信息提供方法，例如，也可以从服务提供商1120直接向用户1010和1020提供信息(图1A的箭头1133和1134)。另外，作为向用户1010的信息提供方法，例如，也可以再次经由数据中心运营公司1110的云服务器1111而将信息提供给用户1010(图1A的箭头1135和1136)。另外，数据中心运营公司1110的云服务器1111也可以将日志信息整理成与提供给用户的服务相适合的信息，并提供给服务提供商1120。

此外，用户1010既可以与用户1020不同，也可以相同。

(实施方式1)

在本实施方式中，示出用户利用天花板麦克风等这样具有声音收集功能的设备，通过说话对设备的状态进行确认和操作的情况的一例。

在本实施方式中，在用户的视线朝向某设备的情况下，选择该设备的词典。另外，在用户的视线朝向没有设备的空间(例如，朝向声音收集装置)的情况下，选择不在用户的视觉识别范围内的设备的词典。

图2是表示本实施方式中的对话信息提供系统的构成的图。该对话信息提供系统包含组1100和数据中心运营公司1110内的语音对话服务器2100。组1100与语音对话服务器2100经由网络2020连接。

组1100包含第一空间2001和第二空间2002。例如，组1100为家庭(住宅)，第一空间2001和第二空间2002为起居室或卧室等房间。此外，空间也可以包含多个房间。例如，空间也可以是住宅的一楼或二楼等。另外，空间也可以是一个房间的某个空间(区域)。

另外，组1100包含第一设备2011、第二设备2012、声音收集装置2013以及家庭网关1102。第一设备2011、声音收集装置2013以及家庭网关1102配置在第一空间2001中，第二设备2012配置在第二空间2002中。另外，第一设备2011、第二设备2012、声音收集装置2013以及家庭网关1102经由网络2021连接。网络2021为能够进行设备间通信的装置即可，如有线LAN、无线LAN、Bluetooth(注册商标)、或特定小功率无线等。

在此，第一设备2011和第二设备2012为空调或照明等家电设备，是基于与用户的对话来操作或控制其工作的设备。

首先，说明本实施方式涉及的对话信息提供系统的工作的概略。图3是本实施方式涉及的对话信息提供系统中的选择词典的处理的流程图。

此外，以下的处理由对话信息提供系统所包含的控制装置进行。在此，控制装置例如是家庭网关1102。此外，如后所述，以下处理既可以由组1100所包含的一台或多台设备来进行，也可以由组1100所包含的一台或多台设备和经由网络与该设备连接的外部设备(例如语音对话服务器2100)进行分散处理。

首先，控制装置判定用户的视线是否朝向某一台设备(S101)。具体而言，控制装置取得与用户的视线朝向的方向相关的视线信息。接着，控制装置基于该视线信息，判断用户的视线是否朝向存在于该用户能够视觉识别的空间的多台设备所包含的第二设备。另外，控制装置基于该视线信息判断用户的视线是否朝向第一区域，所述第一区域是该用户能够视觉识别的空间中的一部分区域，且与多台设备存在的位置不同。在此，能够视觉识别的空间是指用户在当前的位置能够视觉识别的空间。

在用户的视线没有朝向任一台设备的情况下，也就是说，在判断为用户的视线朝向上述第一区域的情况下(在S101中为否)，控制装置选择多台设备中的、存在于该用户不能视觉识别的空间中的第一设备的单独控制词典2102(S103)。在此，不能视觉识别的空间是指用户在当前的位置不能视觉识别的空间。

此外，后面将说明详细情况，但是词典表示与用户的说话内容对应的设备的控制命令，并且用于将用户的说话内容转换成设备的控制命令。另外，存在统合控制词典2101和单独控制词典2102，所述统合控制词典2101是用于存在多个可成为控制对象的设备的情况下的词典，所述单独控制词典2102是按每台可成为控制对象的设备而设置的词典。换句话说，在统合控制词典2101中，由于多台设备成为对象，所以有时在说话内容中需要确定设备的信息。另一方面，在单独控制词典2102中无需确定设备的信息。此外，统合控制词典2101也可以是在空调和照明这样的多种设备中共通地使用的词典。同样地，单独控制词典2102也可以按每种设备的类别设置。

另一方面，在用户的视线朝向某一台设备的情况下，也就是说，在判断为用户的视线朝向上述第二设备的情况下(在S101中为是)，选择该第二设备的单独控制词典2102(S102)。

接着，控制装置使用统合控制词典2101，判定是否能够将用户的说话内容转换成控制命令(S104)。在能够使用统合控制词典2101将说话内容转换成控制命令的情况下(在S104中为是)，控制装置使用统合控制词典2101将说话内容转换成控制命令(S105)。

另一方面，在不能使用统合控制词典2101将说话内容转换成控制命令的情况下(在S104中为否)，控制装置判定是否能够使用在步骤S102或S103中选择的单独控制词典2102，将说话内容转换成控制命令(S106)。在能够使用单独控制词典2102将说话内容转换成控制命令的情况下(在S106中为是)，控制装置使用单独控制词典2102将说话内容转换成控制命令(S107)。

也就是说，在能够使用选择出的单独控制词典2102将用户的说话内容转换成控制命令，并且能够使用统合控制词典2101将用户的说话内容转换成控制命令的情况下，控制装置使用统合控制词典2101将用户的说话内容转换成控制命令。如上所述，在统合控制词典2101中，由于需要根据说话内容确定对象设备，所以上述工作相当于在用户的说话内容包含确定对象设备的信息的情况下，使用户的说话内容优先。

另一方面，在使用统合控制词典2101和单独控制词典2102的任一个都不能将说话内容转换成控制命令的情况下(在S106中为否)，控制装置向用户进行用于确认控制命令的反问对话(S111)，对通过该对话得到的用户的说话内容再次进行步骤S101以后的处理。

接着，控制装置向用户确认控制命令是否正确(S108)。具体而言，控制装置对用户通知已被确定的控制命令，并得到其回答。此外，控制命令也可以包含控制内容和对象设备。

在已确定的控制命令被用户承认的情况下(在S108中为是)，控制装置用控制命令操作对象设备(S109)。具体而言，控制装置向对象设备发送控制命令。

另一方面，在控制命令没有被用户承认的情况下(在S108中为否)，控制装置向用户进行用于确认控制命令的反问对话(S111)，对通过该对话得到的用户的说话内容再次进行步骤S101以后的处理。

以上，在用户的视线朝向设备存在的位置以外的特定区域的情况下，选择存在于对用户来说不能视觉识别的空间中的设备的单独控制词典2102。由此，即使在根据说话内容不能确定对象设备的情况下，有时也能够确定对象设备。因此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

例如，用户位于起居室中，在起居室中设置有照明，在卧室中设置有空调。在该情况下，在用户想控制起居室的照明的情况下，用户将视线朝向起居室的照明，通过说“接通电源”，能够控制起居室的照明。

进一步，在用户想控制卧室的空调的情况下，用户通过在没有将视线朝向配置在起居室中的任一台设备的状态下进行上述说话，能够控制卧室的空调。

这样，通过本实施方式涉及的方法，即使在对象设备存在于用户的视觉识别范围外的情况下，也能够基于用户的视线确定对象设备。由此，在这样的情况下，由于能够缩短用户的说话内容，所以能够提高用户的便利性，并且能够抑制由于噪声等的影响而对说话内容无法识别或错误地解释。

此外，在图3中，控制装置在步骤S108和S109中进行了控制命令的确认，但也可以不进行这些处理。或者，也可以仅在步骤S105和S107的某一个之后进行控制命令的确认。例如，在基于统合控制词典2101选择了控制命令的情况下(S105之后)，也可以不进行控制命令的确认。

另外，步骤S101～S103的一系列的处理和步骤S104和S105的处理的顺序为一例，既可以以相反的顺序进行这些处理，也可以并行地进行至少一部分。例如，在步骤S104中为否的情况下，也可以进行步骤S 101～S103。

以下，详细说明各设备的构成和工作的一例。

如图2所示，第一设备2011具备视线检测单元2111，第二设备2012具备视线检测单元2121。视线检测单元2111、2121以及2131(后述)检测用户的视线方向。具体而言，视线检测单元2111、2121以及2131具备红外线相机或可视相机，解析用这些相机得到的影像，并利用脸部识别等检测用户的视线是否朝向本设备。此外，视线检测单元2111、2121以及2131既可以检测用户面部的朝向作为视线的朝向，也可以检测用户的眼球的朝向作为视线的朝向。

此外，在此，叙述了各设备检测用户的视线是否朝向本设备的例子，但也可以通过对配置在组1100内的一台以上相机拍摄到的影像进行解析来检测用户的视线方向，也可以利用其他方法检测用户的视线方向。

另外，在以下说明中，叙述了将该视线检测作为触发(trigger)判定用户是否开始说话的例子，但作为用户的说话开始的触发，除了视线检测以外或也可以代替视线检测而使用口唇检测、手势检测或“打开麦克风”这样的固定言词的说话检测等。口唇检测是根据由相机拍摄到的图像检测用户的嘴的动作，即检测口唇动作，并基于口唇动作判定用户是否开始说话。手势检测基于用户进行了拍手或举手等预先决定的动作时由相机拍摄到的图像或语音数据，判定用户是否开始说话。

声音收集装置2013具备视线检测单元2131和声音收集单元2132。声音收集单元2132取得周围的语音，并将该语音所包含的用户的说话内容保持一定期间。具体而言，声音收集单元2132基于由相机等得到的用户的位置信息确定说话声源(用户)的方向，使用说话声源的方向从得到的语音中减少周围噪声，由此提取用户的说话内容。

此外，声音收集装置2013只要是具有声音收集的功能、且具有能够传送进行声音收集得到的数据的功能的设备即可。例如，声音收集装置2013是设置于天花板的天花板麦克风、用户穿戴的可穿戴麦克风或具备声音收集的功能的填充玩偶等。

家庭网关1102具备词典选择单元2141和语音对话单元2143。另外，家庭网关1102保持有设备管理信息2142。词典选择单元2141在用第一设备2011、第二设备2012以及声音收集装置2013的某一个的视线检测单元2111、2121以及2131检测出用户的视线时，利用设备管理信息2142确定作为操作对象的对象设备，并选择所确定的对象设备的单独控制词典2102。

设备管理信息2142表示各设备的设置场所和视线检测功能的有无等(详细情况将在后面叙述)。语音对话单元2143进行语音对话处理。具体而言，语音对话单元2143通过向声音收集装置2013发出声音收集开始指示命令而取得包含用户的说话内容的语音数据，并将取得的语音数据向语音对话服务器2100传送。语音对话单元2143从语音对话服务器2100取得基于语音数据所包含的说话内容的控制命令，并将控制命令发送给对象设备。

此外，在本实施方式中，家庭网关1102和声音收集装置2013各自分别存在，但也可以在家庭网关1102内包含声音收集装置2013的功能。

语音对话服务器2100是云服务器1111之一，并保持有统合控制词典2101和单独控制词典2102。该语音对话服务器2100通过语音数据解析，根据语音数据来确定说话内容，并利用统合控制词典2101和单独控制词典 2102根据说话内容来确定控制命令。

在统合控制词典2101和单独控制词典2102中记载了用于根据说话内容(文本)确定控制命令的规则(详细情况将在后面叙述)。此外，在本实施方式中，语音对话服务器2100和家庭网关1102各自分别存在，但也可以在家庭网关1102内包含语音对话服务器2100的功能。另外，也可以在家庭网关1102内包含语音对话服务器2100的功能的一部分。

图4A是表示本实施方式中的设备管理信息2142的一例的图。

设备管理信息2142包括：唯一地确定设备的识别符信息、表示设备是否为家庭网关的属性信息、表示设备保有的功能的种类的类别信息、表示设备是否保有声音收集能力的声音收集信息、表示设置有设备的场所的设置场所信息、表示设备是否为检测出用户的说话开始触发(视线)的设备的说话信息。

识别符信息例如在WiFi或Bluetooth等的配对(pairing)时根据设备的MAC地址和随机数生成。或者，识别符信息可利用ECHONET Lite的实例列表通知所包含的识别符。

在支持ECHONET Lite等家电设备控制协议的情况下，属性信息和类别信息利用该家电设备控制的种类信息而设定。

声音收集信息基于在WiFi或Bluetooth等的配对时通知的声音收集功能有无而设定。设置场所信息由用户利用家庭网关1102的设定菜单等设定。设定说话信息在从第一设备2011、第二设备2012以及声音收集装置2013的某一个的视线检测单元2111、2121以及2131检测出用户的说话开始触发(视线)时被设定。

图4B是表示本实施方式中的统合控制词典2101的一例的图。图4C和图4D是表示作为本实施方式中的单独控制词典2102的一例的单独控制词典2102A和2102B的图。

统合控制词典2101和单独控制词典2102包含：表示语音识别后得到的字符串信息(说话内容)的说话识别文本信息、用于根据说话识别文本确定控制命令的行动(action，作用)信息。

统合控制词典2101是在存在多个可成为控制对象的设备的情况下使用的词典，作为行动信息，包含：表示根据说话识别文本确定的控制命令的控制命令信息、表示对象设备的类别(属性)的设备信息以及表示设置有对象设备的场所的场所信息。

例如，在用户说了“打开起居室的照明”的情况下，通过“起居室”、“照明”、“打开”的关键词匹配，填充全部框架(控制命令(power_on)、设备(照明)、场所(起居室))作为行动信息。由此，进行将设置在起居室中的照明的电源设为接通的处理。

另外，在用户说了“打开空调”的情况下，通过“空调”、“打开”的关键词匹配，填充场所以外的框架(控制命令(power_on)、设备(空调))作为行动信息。在该情况下，在用户家中只设置有一台空调的情况下，进行将该空调的电源设为接通的处理，但在设置有两台以上的情况下，通过反问道“接通哪里的空调的电源？”，并由用户指定场所，最终确定将要进行接通电源处理的对象空调。

另外，在用户说了“打开制冷”的情况下，虽然没有说确定设备本身的内容，但由于说了设备固有的操作指示内容，所以使用统合控制词典2101补充设备信息。另外，在用户说了“接通电源”或“加热”的情况下，作为行动信息，只填充控制命令(power_on、heating_on)。因此，需要由用户指示设备或场所的信息。

另外，如用户说了“一并关闭”的情况那样，有时即使只填充了行动信息中的控制命令(all_poff)也能够进行操作。

另一方面，单独控制词典2102是在唯一地确定了成为控制对象的设备的情况下使用的词典，作为行动信息，仅包含控制命令信息。图4C和图4D分别表示操作对象为空调的情况和操作对象为照明的情况的例子。使用单独控制词典2102的情况是指已经确定了成为控制对象的对象设备的种类和场所的情况。因此，例如，如果用户说“加热”，则进行将相应的空调设定为供暖的处理，无需确定设备信息和场所信息。

图5是表示本实施方式中的对话信息提供系统所包含的各设备的构成例的框图。

除了上述视线检测单元2111以外，第一设备2011还具备设备通信单元2112和设备命令执行单元2113。除了上述视线检测单元2121以外，第二设备2012还具备设备通信单元2122和设备命令执行单元2123。

设备通信单元2112是ECHONET Lite等家电设备控制的协议栈(protocol stack)。具体而言，设备通信单元2112对家庭网关1102进行：启动第一设备2011时的通知等实例列表通知、接通或断开电源的变化的通知等设备状态的通知、来自家庭网关1102的电源接通设定等控制命令的接收和解释、以及控制命令的执行结果的响应。

另外，向家庭网关1102进行视线检测结果的通知既可以利用该通知功能进行，也可以利用独自的协议进行。

设备命令执行单元2113将从设备通信单元2112接受到的控制命令转换为设备的硬件命令并执行。

此外，视线检测单元2121、设备通信单元2122以及设备命令执行单元2123的功能与视线检测单元2111、设备通信单元2112以及设备命令执行单元2113的功能相同。

除了上述视线检测单元2131和声音收集单元2132以外，声音收集装置2013还具备信息提示单元2133和设备通信单元2134。

信息提示单元2133对由视线检测单元2131检测出的用户提示各种信息。例如，信息提示单元2133对用户输出“请说话”这样的语音或使LED灯发光而催促用户说话。

设备通信单元2134的功能与上述设备通信单元2112和2122相同。

除了上述词典选择单元2141和语音对话单元2143以外，家庭网关1102还具备设备管理单元2144、设备通信单元2145以及云通信单元2146。

设备通信单元2145的功能与上述的设备通信单元2112、2122以及2134的功能相同。云通信单元2146在利用对话功能时，管理用户是否同意利用许可，在用户同意了利用许可的情况下，建立与语音对话服务器2100的连接，并与语音对话服务器2100收发信息。

图6是表示本实施方式中的用户对对象设备说话的情况下的对话信息提供系统中的工作例的图。例如，第一设备2011是设置在第一空间2001(一楼起居室)中的照明，第二设备2012是设置在第二空间2002(二楼卧室)中的空调，声音收集装置2013是设置在第一空间2001(一楼起居室)的天花板上的麦克风。用户在第一空间2001中将视线朝向第一设备2011并说“接通电源”。

由此，第一设备2011检测出用户的视线朝向了本设备这一情况(S301)，并向家庭网关1102通知检测结果(S302)。家庭网关1102从统合控制词典2101和多个单独控制词典2102中选择要使用的词典(S303)。在该情况下，由于用户的视线朝向了第一设备2011，所以家庭网关1102选择第一设备2011的单独控制词典2102。

接着，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行语音对话处理(S304)。语音对话处理是根据对语音数据进行解析后得到的字符串信息、统合控制词典2101以及单独控制词典2102确定用户试图的家电操作，并向用户通知该结果的处理，所述语音数据是对用户的说话进行声音收集而成的数据。在图4B中的统合控制词典2101的例子中，不能根据说话识别文本“接通电源”确定控制命令。另一方面，在本实施方式中，在步骤S303中选择单独控制词典2102，由此能够使用该单独控制词典2102，根据说话识别文本“接通电源”来确定控制命令。

接着，家庭网关1102基于语音对话处理的结果，向第一设备2011发送控制命令(S305)。第一设备2011执行接收到的控制命令(S306)。

通过这样的流程，即使是在用户没有进行确定设备的内容的说话的情况下，也能够确定设备并进行操作。

此外，在用户在说话内容中加入确定设备的要素的情况下，使由用户的说话内容确定的设备比由步骤S303确定的设备优先，并将由用户的说话内容确定的设备决定为对象设备。例如，在看着起居室的照明(第一设备2011)说了“打开空调”的情况下，接通卧室的空调的电源，而不是起居室的照明。

图7是表示本实施方式中的用户对声音收集装置2013说话的情况下的对话信息提供系统中的工作例的图。用户将视线朝向声音收集装置2013并说“接通电源”。

声音收集装置2013检测用户的视线朝向本设备这一情况(S311)，并向家庭网关1102通知检测结果(S312)。家庭网关1102从统合控制词典2101和多个单独控制词典2102中选择要使用的词典(S313)。在该情况下，由于用户的视线朝向了声音收集装置2013，所以家庭网关1102选择第一设备2011和第二设备2012的单独控制词典2102中存在于用户的视觉识别范围外的第二设备2012的单独控制词典2102。此外，在此，用户存在于第一空间2001(起居室)，选择作为对象设备配置于与第一空间2001不同的第二空间2002(卧室)的第二设备2012的单独控制词典2102。

接着，与步骤S304同样地，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行语音对话处理(S314)。然后，家庭网关1102基于语音对话处理的结果，向第二设备2012发送控制命令(S315)。第二设备2012执行接收到的控制命令(S316)。

通过这样的流程，即使在用户没有进行确定设备的内容的说话，且用户对尚未与设备关联的声音收集装置2013说话的情况下，也能够确定设备并进行操作。

接着，说明各装置的工作。图8是表示第一设备2011的工作流程的流程图。此外，第二设备2012的工作也同样如此。

首先，第一设备2011通过检测用户的视线是否朝向了本设备来检测用户的说话开始(S201)。第一设备2011在检测出用户的视线的情况下(在S201中为是)，向家庭网关1102发送表示检测出用户的视线的视线检测通知(S202)。

另外，第一设备2011在从家庭网关1102接收到控制命令的情况下(在S203中为是)，执行接收到的控制命令(S204)。

图9是表示声音收集装置2013的工作流程的流程图。首先，声音收集装置2013通过检测用户的视线是否朝向本设备，检测用户的说话开始 (S211)。声音收集装置2013在检测出用户的视线的情况下(在S211中为是)，向家庭网关1102发送表示检测出用户的视线的视线检测通知(S212)。

图10是表示家庭网关1102的工作流程的流程图。家庭网关1102在从第一设备2011、第二设备2012或声音收集装置2013接收到视线检测通知的情况下(在S221中为是)，基于由哪个装置检测出视线，从统合控制词典2101和多个单独控制词典2102中选择要使用的词典(S222)。接着，家庭网关1102进行语音对话处理(S223)。接着，家庭网关1102向对象设备发送由语音对话处理确定的控制命令(S224)。

以下，说明家庭网关1102中的词典选择处理(S222)的详细情况。图11是表示词典选择处理(S222)的详细情况的流程图。

家庭网关1102选择统合控制词典2101作为默认的对话词典(S230)。

接着，家庭网关1102参照设备管理信息2142，判定作为视线检测通知的发送源的装置是否为家电设备(S231)。在此，家电设备是作为利用语音对话进行操作的对象的设备。

在作为视线检测通知的发送源的装置为家电设备的情况下(在S231中为是)，除了由步骤S230选择出的统合控制词典2101以外，家庭网关1102还选择作为视线检测通知的发送源的装置的单独控制词典2102(S232)。另一方面，在作为视线检测通知的发送源的装置不是家电设备的情况下(在S231中为否)，家庭网关1102参照设备管理信息2142，判定在用户的视觉识别范围外是否存在设备(S233)。

具体而言，检测用户存在于哪个空间。例如，家庭网关1102判断为用户存在于与作为视线检测通知的发送源的装置相同的空间(例如房间)内。此外，家庭网关1102也可以判定为用户存在于与取得了用户语音的声音收集装置2013相同的空间内。另外，家庭网关1102也可以判断为用户存在于作为视线检测通知的发送源的装置的附近。或者，家庭网关1102也可以根据由设置于组1100内的相机得到的信息判定用户的位置。

家庭网关1102参照设备管理信息2142，将存在于与用户存在的空间(例如房间)不同的空间内的设备判断为用户的视觉识别范围外的设备。此外，在此，基于用户和设备是否存在于相同的空间(例如房间)，判定各设备是在用户的视觉识别范围内还是在视觉识别范围外，但家庭网关1102也可以更详细地判定各设备和用户的位置，并且使用用户存在的空间的详细的布局信息等，根据用户的位置确定实际上能够视觉识别的设备，将确定出的设备以外的设备判定为用户的视觉识别范围外的设备。

在设备存在于用户的视觉识别范围外的情况下(在S233中为是)，除了步骤S230中选择的统合控制词典2101以外，家庭网关1102还选择用户的视觉识别范围外的设备的单独控制词典2102(S234)。

另一方面，在用户的视觉识别范围外不存在设备的情况下(在S233中为否)，家庭网关1102不选择单独控制词典2102，仅选择在步骤S230中选择的统合控制词典2101作为要使用的词典。

另外，也可以在步骤S234中选择多个单独控制词典2102。另外，在该情况下，在多个单独控制词典2102中也可以设定优先级。

以下，说明图6和图7所示的语音对话处理(S304和S314)的详细情况。图12是表示语音对话处理(S304和S314)的工作例的图。

首先，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行将说话内容转换成文本的语音识别处理(S321)。接着，家庭网关1102和语音对话服务器2100进行如下意图理解处理：基于统合控制词典2101和单独控制词典2102，根据作为语音识别处理的结果得到的识别文本输出对设备的控制命令(S322)。在通过该意图理解处理不能够确定对象设备或控制命令的情况下(S323)，家庭网关1102向声音收集装置2013指示以向用户进行反问(S324)。当声音收集装置2013接收到反问的指示时，对用户进行用于确定对象设备或控制命令的反问(S325)。

对通过该反问得到的说话内容再次进行语音识别处理(S326)和意图理解处理(S327)。在通过该意图理解处理能够确定对象设备和控制命令的情况下(S328)，家庭网关1102向声音收集装置2013发送使声音收集装置2013提示语音对话的结果的指示(S329)。当声音收集装置2013接收到结果显示的指示时，对用户提示语音对话结果的信息(S330)。

图13是家庭网关1102的语音对话处理(图10的S223)的流程图。首先，家庭网关1102进行语音识别处理(S241)和意图理解处理(S242)。接着，家庭网关1102判断是否能够确定对象设备(S243)。在能够确定设备的情况下(在S243中为是)，家庭网关1102判断是否能够确定控制命令(S244)。在能够确定控制命令的情况下(在S244中为是)，家庭网关1102向声音收集装置2013发送使声音收集装置2013显示语音对话的结果的指示(S245)。

另一方面，在判断为不能够确定对象设备的情况下(在S243中为否)或判断为不能够确定控制命令的情况下(在S244中为否)，家庭网关1102向声音收集装置2013指示以向用户进行反问(S246)。

在此，在语音识别处理中，利用通过词典选择处理选择出的单独控制词典2102，由此有可能能够减少误识别的风险。例如，在用户说了“加热”(あたためて)的情况下，在提取语音识别结果时，可考虑“あたためて”、“暖めて”、“温めて”、“アタタメテ”等多个候选。在此，在选择了空调的单独控制词典2102的情况下，选择“暖めて”作为最有力候选。另外，在选择了微波炉的单独控制词典2102的情况下，选择“温めて”。另外，在仅选择了统合控制词典2101的情况下，例如选定“あたためて”较好。

另外，即使进行反问，也不一定通过理想次数的说话就能进行用户希望的设备操作。例如，在用户说了“接通电源”的情况下，在图4B所示的统合控制词典2101中，如果通过反问请用户说出设备和场所这两个信息，则处理应该完毕。只是，实际上，并不能保证用清楚且很大的声音，仅仅说出“空调”作为设备，说出“卧室”作为场所。也会存在混入杂音，用户说了多余的语言，或者用户用很小且不清楚的声音说话的情况。这样，由于很可能识别失败，所以通过词典选择处理以尽可能少的说话进行设备操作，由此用户的便利性会提高。在误识别的发生太过分的情况下，可以通过对用户提示容易识别的说话例子而实现误识别率的降低，或者也可以通过使可爱的角色等道歉而缓和用户的焦躁。

图14是表示语音识别处理(图12的S321)的工作例的图。首先，家庭网关1102对声音收集装置2013指示保持语音(S351)，对语音对话服务器2100指示开始语音识别(S352)。

接受到指示的声音收集装置2013开始保持用户说出的语音数据(S353)。之后，声音收集装置2013向用户提示用于诱导说话的信息(S355)。另一方面，接受到指示的语音对话服务器2100开始对语音数据的语音识别(S354)。

接着，家庭网关1102取得声音收集装置2013保持着的语音数据(S356)，并向语音对话服务器2100传送语音数据(S357)。语音对话服务器2100对传送来的语音数据进行语音识别处理(S358)。反复进行该一系列处理直到用户的说话结束。

在用户的说话结束的情况下，家庭网关1102通知声音收集装置2013结束语音数据的保持(S359)，并通知语音对话服务器2100结束语音识别(S360)。

接受到通知的声音收集装置2013结束对用户说出的语音数据的保持(S361)。接受到通知的语音对话服务器2100结束语音识别处理(S362)，向家庭网关1102通知语音识别结果(S363)。

图15是由家庭网关1102进行的语音识别处理(图13的S241)的流程图。

首先，家庭网关1102对声音收集装置2013指示保持语音，对语音对话服务器2100指示开始语音识别(S251)。接着，家庭网关1102取得声音收集装置2013保持着的语音数据(S252)。然后，家庭网关1102基于取得的声音数据判断用户的说话是否结束(S253)。

在判断为用户的说话还在继续的情况下(在S253中为否)，家庭网关1102向语音对话服务器2100传送语音数据(S254)，并返回步骤S252。

另一方面，在判断为用户的说话结束的情况下(在S253中为是)，家庭网关1102通知声音收集装置2013结束语音数据的保持，并通知语音对话服务器2100结束语音识别(S255)。

接着，家庭网关1102接收从语音对话服务器2100发送来的语音识别结果(S256)。

图16是表示意图理解处理(图12的S322和S327)的工作例的图。首先，家庭网关1102对语音对话服务器2100指示开始进行意图理解(S371)。此时，家庭网关1102例如将说话识别文本和利用词典选择处理选择出的词典的信息等作为输入信息发送给语音对话服务器2100。

当接受意图理解开始的指示时，语音对话服务器2100对照说话识别文本、统合控制词典2101以及单独控制词典2102，决定对设备指示的行动(S372)。具体而言，语音对话服务器2100使用单独控制词典2102和统合控制词典2101的每一个，根据说话识别文本来决定行动。然后，语音对话服务器2100对家庭网关1102发送表示所决定的行动的信息(S373)。此外，在基于多个词典决定了多个行动的情况下，发送多个行动。

当接收到多个行动时，家庭网关1102确定对设备的控制命令(S374)。此时，即使用单独控制词典2102生成了行动，在统合控制词典2101中填充了场所和设备的槽位(slot)或成为能够进行设备操作的状态的情况下，家庭网关1102也选择统合控制词典2101的结果。也就是说，在由统合控制词典2101和单独控制词典2102这两方生成了行动的情况下，家庭网关1102使统合控制词典2101的行动优先。由此，例如，在用户朝向照明说出了“打开空调”的情况下，进行接通由说话内容确定的空调的电源的处理，而不接通作为视线目的地的照明的电源。

另外，在利用多个单独控制词典2102生成了行动的情况下，家庭网关1102基于在设备中设定的优先级来确定要使用的行动。此外，该优先级既可以基于后述的距离信息设定，也可以基于其他条件设定。

另外，作为使由根据统合控制词典2101生成的行动确定的命令优先的工作例，也有进行设备的一并控制的事例。例如，第一设备2011为空调，第二设备2012为照明，声音收集装置2013为设置于天花板的麦克风。用户看着声音收集装置2013说出“一并关闭”。在该情况下，通过词典选择处理，选择统合控制词典2101和位于预定空间内的空调的单独控制词典2102。在图4B所示的统合控制词典2101中，通过利用“一并关闭”这样的话填充操作命令，从而成为可操作的状态。由此，通过使统合控制词典2101的行动优先，关闭空调和照明的电源。

此外，在上述说明中，作为检测用户的视线朝向不存在多台设备的区域这一情况的方法，使用了声音收集装置2013具备的视线检测单元2131的检测结果，但也可以使用除此以外的方法。例如，视线检测单元也可以设置在配置有多台设备(第一设备2011和第二设备2012)的区域以外的任意区域。

例如，家庭网关1102也可以具备视线检测单元。或者，也可以在成为用户对话的对象的物体(人偶等)上设置视线检测单元。进一步，成为用户的对话对象的物体也可以是虚拟物体(全息图等)。该情况下，例如，也可以基于由设置在组1100内的相机拍摄到的图像，检测用户的视线方向。另外，在多台设备具备的视线检测单元都没有检测出用户的视线的情况下，也可以判定为用户的视线朝向不存在多台设备的区域。

此外，作为检测用户的视线朝向不存在多台设备的区域这一情况的方法，既可以使用上述的某一种方法，也可以使用两种以上方法。

如上所述，本实施方式涉及的方法由基于声音收集装置2013收集的用户的说话内容来操作多台设备的控制装置(例如家庭网关1102等)进行。此外，如上所述，控制装置不限定于家庭网关1102，可以是系统所包含的任意设备。例如，如后面所述，控制装置也可以包含家庭网关1102、声音收集装置2013以及语音对话服务器2100的功能中的至少一部分。

首先，控制装置取得与用户的视线朝向的方向相关的视线信息。控制装置基于视线信息判断用户的视线是否朝向第一区域，所述第一区域是该用户能够视觉识别的空间中的一部分区域，且与存在多台设备的位置不同(S101，S231)。

例如，第一区域为控制装置存在的区域。具体而言，控制装置具备检测用户的视线是否朝向该控制装置的视线检测单元，并取得该视线检测单元检测出用户的视线朝向控制装置这一情况之意作为视线信息。在视线检测单元检测出用户的视线朝向控制装置的情况下，控制装置判断为用户的视线朝向第一区域。

或者，声音收集装置2013设置在与多台设备不同的位置，第一区域是声音收集装置2013存在的区域。具体而言，声音收集装置2013具备视线检测单元2131，所述视线检测单元2131检测用户的视线是否朝向该声音收集装置2013。控制装置取得视线检测单元2131检测出用户的视线朝向声音收集装置2013这一情况之意作为视线信息。在视线检测单元2131检测出用户的视线朝向声音收集装置2013的情况下，控制装置判断为用户的视线朝向第一区域。

或者，第一区域是作为用户的说话(对话)对象的物体(人偶等)存在的区域。具体而言，物体具备视线检测单元，所述视线检测单元检测用户的视线是否朝向该物体。控制装置取得视线检测单元检测出用户的视线朝向物体这一情况之意作为视线信息。在视线检测单元检测出用户的视线朝向物体的情况下，控制装置判断为用户的视线朝向第一区域。

或者，第一区域是作为用户的说话(对话)对象的假想物体(全息图等)存在的区域。具体而言，控制装置取得由拍摄装置拍摄到的包含用户的图像作为视线信息。控制装置根据该图像解析用户的视线朝向的方向。

在判断为用户的视线朝向所述第一区域的情况下(在S101中为否，在S231中为否)，控制装置从用于将用户的说话内容转换成对应的设备的控制命令的多个单独控制词典2102之中，选择多台设备中与存在于该用户不能视觉识别的空间中的第一设备对应的第一词典(S103、S234)。

接着，控制装置使用选择出的第一词典，将用户的说话内容转换成控制命令(S107)。另外，控制装置向对象设备发送控制命令(S110)。

另外，控制装置向用户通知利用控制命令操作的操作内容(S108)，在承认了操作内容的情况下(在S109中为是)，利用控制命令操作对象设备(S110)。

由此，本实施方式涉及的方法中，在用户的视线朝向设备存在的位置以外的特定区域的情况下，通过选择存在于对用户来说不能视觉识别的空间中的设备的单独控制词典2102，能够将该设备确定为操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

另外，控制装置判断用户的视线是否朝向存在于该用户能够视觉识别的空间中的、多台设备所包含的第二设备(S101、S231)，在判断为用户的视线朝向第二设备的情况下(在S101中为是，在S231中为是)，从多个单独控制词典2102之中选择与该第二设备对应的单独控制词典2102(S102，S232)。另外，控制装置使用选择出的第二词典，将用户的说话内容转换成控制命令(S107)。

由此，本实施方式涉及的方法中，通过在用户将视线朝向某设备的情况下选择该设备的单独控制词典2102，能够确定该设备为操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

另外，在使用选择出的第一词典不能将用户的说话内容转换成控制命令的情况下(在S106中为否)，控制装置催促用户输入为了确定控制命令所需的信息(S111)。

另外，多个词典包含在存在多个可成为控制对象的设备的情况下使用的统合控制词典2101。在能够使用选择出的第一词典(单独控制词典2102)将用户的说话内容转换成控制命令，且能够使用统合控制词典2101将用户的说话内容转换成控制命令的情况下(在S104中为是)，控制装置使用统合控制词典2101将用户的说话内容转换成控制命令(S105)。

由此，即使在基于用户的视线信息选择了单独控制词典2102的情况下，也能够使根据用户的说话内容确定的设备优先作为操作对象。因此，能够抑制用户意想不到的设备被错误地选择为操作对象。

(实施方式2)

在本实施方式中，说明上述实施方式1涉及的对话信息提供系统的变形例。此外，在以下的实施方式中，省略与之前的实施方式重复的说明，主要说明不同之处。

本实施方式涉及的对话信息提供系统相对于实施方式1涉及的对话信息提供系统不同之处在于词典选择处理(图10的S222)。具体而言，在本实施方式中，在用户的视线没有朝向设备的情况下，选择存在于用户附近的设备的单独控制词典2102。

图17是本实施方式涉及的词典选择处理(S222A)的流程图。此外，相对于图10所示的处理，图17所示的处理包含步骤S233A和S234来取代步骤S233和S234。

在作为视线检测通知的发送源的装置不是家电设备的情况下(在S231中为否)，家庭网关1102参照设备管理信息2142，判定在用户附近是否存在设备(S233A)。

具体而言，家庭网关1102参照设备管理信息2142，将存在于与用户存在的空间(例如房间)相同的空间内的设备判断为用户附近的设备。

在用户附近存在设备的情况下(在S233A中为是)，除了在步骤S230中选择出的统合控制词典2101以外，家庭网关1102还选择用户附近的设备的单独控制词典2102(S234A)。

另一方面，在用户附近不存在设备的情况下(在S233A中为否)，家庭网关1102不选择单独控制词典2102，仅选择在步骤S230中选择的统合控制词典2101作为要使用的词典。

另外，也可以在步骤S234A中选择多个单独控制词典2102。另外，在该情况下，在多个单独控制词典2102中也可以设定优先级。

图18是表示本实施方式中的用户对声音收集装置2013说话的情况下的对话信息提供系统中的工作例的图。此外，用户对对象设备说话的情况下的对话信息提供系统中的工作例与图6相同。

例如，用户将视线朝向声音收集装置2013说“接通电源”。

声音收集装置2013检测出用户的视线朝向本设备这一情况(S311)，并向家庭网关1102通知检测结果(S312)。家庭网关1102从统合控制词典2101和多个单独控制词典2102中选择要使用的词典(S313A)。在该情况下，由于用户的视线朝向声音收集装置2013，所以家庭网关1102选择第一设备2011和第二设备2012中存在于用户附近的第一设备2011的单独控制词典2102。此外，在此，用户存在于第一空间2001(起居室)，并选择存在于与用户相同的第一空间2001内的第一设备2011作为对象设备。

接着，与步骤S304同样地，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行语音对话处理(S314)。然后，家庭网关1102基于语音对话处理的结果，向第一设备2011发送控制命令(S315A)。第一设备2011执行接收到的控制命令(S316A)。

通过这样的流程，即使是在用户没有进行确定设备的内容的说话，且用户对尚未与设备关联的声音收集装置2013说话的情况下，也能够确定设备并进行操作。

(实施方式3)

在本实施方式中，说明上述实施方式1涉及的对话信息提供系统的变形例。在本实施方式中，第一设备2011和第二设备2012进一步具有检测与用户的距离的功能。对话信息提供系统基于检测出的设备与用户的距离，确定用户的视觉识别范围外的设备。

图19是表示本实施方式中的第一设备2011A和第二设备2012A的一例的框图。第一设备2011A和第二设备2012A除了实施方式1涉及的第一设备2011和第二设备2012的构成要素以外，还具备检测用户与本设备的距离的距离检测单元2114和2124。在此，距离检测单元2114和2124既可以检测用户是否存在于距本设备预定距离以内，也可以检测用户与本设备的距离(值)。

图20A～图20C是表示本实施方式中的设备管理信息2142的一例的图。在图20A所示的设备管理信息2142A的例子中，家庭网关1102、作为第一设备2011的照明、作为声音收集装置2013的天花板麦克风设置在起居室内，作为第二设备2012的空调设置在卧室内。另外，作为由距离检测单元2114和2124取得的用户与设备的距离信息，示出了由第一设备2011检测出用户这一情况。

在图20B所示的设备管理信息2142B的例子中，虽然存在家庭网关1102、作为第一设备2011的照明、作为第二设备2012的空调以及作为声音收集装置2013的天花板麦克风，但未设定各装置的设置场所。另外，作为由距离检测单元2114和2124取得的用户与设备的距离信息，示出了由第一设备2011检测出用户这一情况。

在图20C所示的设备管理信息2142C的例子中，家庭网关1102和作为第二设备2012的空调设置在起居室内，作为第一设备2011的微波炉和作为声音收集装置2013的声音收集麦克风设置在厨房内。另外，作为由距离检测单元2114和2124取得的用户与设备的距离信息，示出了由第一设备2011检测出用户这一情况。

此外，在此，作为距离信息示出了由哪台设备检测出用户，但也可以示出数值信息以知道距离的远近。另外，作为该数值信息，也可以使用表示与设备的通信时间的信息。由此，在存在检测出用户的多台设备的情况下，能够判定哪台设备与用户最接近。

图21是表示图11所示的处理中将用户的视觉识别范围外的设备设定为对象设备的处理(S233和S234)的详细情况的流程图。

首先，家庭网关1102判定在设备管理信息2142中是否设定有设置场所信息(S401)。在设定有设置场所信息的情况下(在S401中为是)，家庭网关1102选择设置在与用户不同的空间(例如不同的房间)中的设备的单独控制词典2102(S402)。

另一方面，在未设定设置场所信息的情况下(在S401中为否)，家庭网关1102基于距离信息，选择离用户预定距离以上的设备的单独控制词典2102(S403)。例如，家庭网关1102选择检测出用户的设备以外的设备的单独控制词典2102。

另外，在步骤S402和S403中，在选择了多个单独控制词典2102的情况下(在S404中为是)，家庭网关1102对多个单独控制词典2102设定优先级以使得距用户的距离越远优先级越高(S405)。

以下，用图20A和图20B的例子说明该处理的具体例。

在图20A所示的例子中，第一设备2011为设置在起居室中的照明，第二设备2012为设置在卧室中的空调，声音收集装置2013为设置在天花板上的麦克风。用户在起居室中未将视线朝向设备(例如将视线朝向声音收集装置2013)说了“接通电源”的情况下，设置在与用户不同的房间内的卧室的空调被选择为对象设备。此外，在不同的房间中设置有多台空调的情况下，既可以选择这些空调的全部，也可以仅选择距用户最远的设备。

另外，在图20B所示的例子中，按距用户的距离从近到远的顺序存在第一设备2011、第二设备2012。第一设备2011为照明，第二设备2012为空调，声音收集装置2013为设置在天花板上的麦克风。在用户在起居室中未将视线朝向设备而说出“接通电源”的情况下，开始距用户距离最远的卧室的空调的运转。

(实施方式4)

在本实施方式中，说明对上述实施方式2涉及的对话信息提供系统应用了与实施方式3同样的变形例的情况。此外，第一设备2011A和第二设备2012A、设备管理信息2142的构成与实施方式3相同。

图22是表示图17所示的处理中将用户附近的设备设定为对象设备的处理(S233A和S234A)的详细情况的流程图。

首先，家庭网关1102判定在设备管理信息2142中是否设定有设置场所信息(S401)。在设定有设置场所信息的情况下(在S401中为是)，家庭网关1102选择设置在与用户相同的空间(例如相同的房间)中的设备的单独控制词典2102(S402A)。

另一方面，在未设定设置场所信息的情况下(在S401中为否)，家庭网关1102基于距离信息，选择存在于距用户预定距离以内的设备的单独控制词典2102(S403A)。例如，家庭网关1102选择检测出用户的设备的单独控制词典2102。

另外，在步骤S402A和S403A中，在选择了多个单独控制词典2102的情况下(在S404中为是)，家庭网关1102对多个单独控制词典2102设定优先级以使得距用户的距离越近优先级越高(S405A)。

以下，用图20A～图20C的例子说明该处理的具体例。

在图20A所示的例子中，第一设备2011为设置在起居室中的照明，第二设备2012为设置在卧室中的空调，声音收集装置2013为设置在天花板上的麦克风。在用户在起居室中未将视线朝向设备而说了“接通电源” 的情况下，设置在与用户相同的房间内的起居室的空调被选择为对象设备。此外，在起居室中设置有多台空调的情况下，既可以选择这些空调的全部，也可以仅选择距用户最近的设备。

另外，在图20B所示的例子中，按距用户的距离从近到远的顺序存在第一设备2011、第二设备2012。第一设备2011为照明，第二设备2012为空调，声音收集装置2013为设置在天花板上的麦克风。在用户在起居室中未将视线朝向设备而说出“接通电源”的情况下，距用户的距离最近的起居室照明的电源被接通。由此，能够向用户提供更加舒适的环境。

另外，在图20C所示的例子中，第一设备2011为设置在厨房中的微波炉，第二设备2012为设置在起居室中的空调，声音收集装置2013为设置在厨房中的具有麦克风功能的显示设备。在用户在厨房中利用显示设备一边检索菜谱一边说了“加热”的情况下，也同样地选择微波炉，所述微波炉是与正在说话的用户的距离为阈值以内的设备。或者，在将用户所在的场所确定为厨房时，不仅根据距离的远近，还通过使作为厨房家电种类的设备的微波炉优先而有可能更容易推定用户的意图。

(实施方式5)

在本实施方式中，说明上述实施方式4的变形例。另外，在本实施方式中，说明用户利用自己专用的填充玩偶、虚拟化身(Avatar)或可穿戴麦克风等，通过说话来确认或操作家电设备的状态的情况。具体而言，在用户不将视线朝向设备而说话且由用户专用的声音收集装置取得了说话的情况下，选择与该用户建立了关联的设备(例如，设置在该用户的房间中的设备)。

图23是表示本实施方式中的对话信息提供系统的一例的图。相对于图2所示的对话信息提供系统，图23所示的对话信息提供系统中，组1100A的构成与组1100不同。具体而言，组1100A还包含声音收集装置2014。声音收集装置2014具备视线检测单元2151和声音收集单元2152。视线检测单元2151和声音收集单元2152的功能与声音收集装置2013具备的视线检测单元2131和声音收集单元2132相同。声音收集装置2014进一步保持用户信息2155。用户信息2155表示使用声音收集装置2013的用户(所有者)的名称或识别符等。

图24是表示本实施方式中的设备管理信息2142的一例的图。在图24所示的设备管理信息2142D的例子中，家庭网关1102、作为第一设备2011的照明、作为声音收集装置2013的天花板麦克风设置在起居室内，作为第二设备2012的空调设置在儿童房间内。另外，儿童将作为声音收集装置2014的可穿戴麦克风戴在身上并想要说话。

图25是表示将用户附近的设备设定为对象设备的处理(图17的S233A和S234A)的详细情况的流程图。图25所示的处理相对于图22所示的处理追加了步骤S406和S407。

在设定有设置场所信息的情况下(在S401中为是)，家庭网关1102判定用户是否利用像天花板麦克风那样的设置场所被固定的设置麦克风进行了说话(S406)。在用户利用设置麦克风说话了的情况下(在S406中为是)，与实施方式4同样地，进行步骤S402A以后的处理。

另一方面，在用户没有利用设置麦克风说话的情况下，也就是说，利用与该用户关联的可穿戴麦克风等便携麦克风说话了的情况下(在S406中为否)，家庭网关1102选择设置在用户的房间中的设备的单独控制词典2102(S407)。

在图24的例子中说明该处理的具体例。

在图24的例子中，第一设备2011为设置在起居室中的照明，第二设备2012为设置在用户的房间中的空调，声音收集装置2014为用户专用的可穿戴麦克风。在用户在起居室中利用可穿戴麦克风说出“接通电源”的情况下，选择设置在用户的房间中的第二设备2012的单独控制词典2102。

这样，即使在像“接通电源”那样用户没有说出确定设备的情况下，也能够确定设备并控制相应的设备。

此外，也可以预先对用户设定优先级。由此，在多个用户同时说话的情况下，使优先级更高的用户的说话优先。例如，也可以在家人中，将大人的优先级设定为比儿童高。或者，也可以将家人的优先级设定为高，将来客等未预先登记的用户的优先级设定为低。

此外，在此，作为实施方式4的变形例，说明了本实施方式的工作，但对其他实施方式也能够应用同样的变形例。

如上所述，控制装置基于通过多个声音收集装置2013和2014的某一个收集的用户的说话来操作对象设备。多个声音收集装置2013和2014包含与用户预先关联的第一声音收集装置2014。在由第一声音收集装置2014收集到用户的说话的情况下，控制装置选择多台设备(第一设备2011和第二设备2012)的单独控制词典2102中的、与用户预先建立了关联的设备的单独控制词典2102。

由此，能够使与用户关联的设备优先作为操作对象。因此，能够抑制用户意想不到的设备被错误地选择为操作对象。

(实施方式6)

在本实施方式中，说明上述实施方式5涉及的对话信息提供系统的变形例。

图26是表示本实施方式中的语音对话服务器2100A的一例的框图。语音对话服务器2100A除了语音对话服务器2100的构成以外，还保持有记载了控制脚本的脚本信息2103，所述控制脚本包括多个行动信息的组。另外，统合控制词典2101A的构成与统合控制词典2101不同。

图27A、图27B以及图27C分别是表示本实施方式中的统合控制词典2101A、脚本信息2103以及单独控制词典2102C的一例的图。

脚本信息2103包含：相当于控制脚本的名称的作为字符串的标签、表示能够使用该控制脚本的用户的对象用户信息以及该控制脚本所包含的多个行动信息(控制命令、设备信息以及场所信息的组)的列表。

对象用户信息是与声音收集装置2014保持的用户信息2155同样的信息。也就是说，仅对由对象用户信息表示的用户适用控制脚本。

例如，分配了“晚安”这样的标签的控制脚本是在用户的就寝时自动进行空调控制的控制脚本。通过从上到下按顺序执行所记载的行动信息，进行如下控制：在适当的定时切断用户房间的空调的电源，另外，在起床时，在成为舒适的环境的定时接通用户房间的空调的电源。此外，在此，作为行动，记载了场所和设备的种类，但在多台设备存在于同一空间的情况下，既可以操作该全部设备，也可以选择性地操作某一台代表设备。另外，也可以通过向位于同一空间的各设备分配能够唯一地确定各设备的识别符，并在脚本信息2103中记载该识别符，从而单独地操作各设备。

在统合控制词典2101A中记载了说话识别文本与脚本的对应关系。具体而言，统合控制词典2101A包含：表示与说话识别文本对应的控制脚本的脚本信息和表示能够使用该控制脚本的用户的对象用户信息。

在用户说了“晚安”的情况下，对于行动信息没有填充任一个框架，但填充了脚本的框架。由此，从脚本信息2103所包含的控制脚本中，执行与上述“晚安”这样的标签对应的控制脚本。

此外，这样的用户专用的规则是用户能够任意追加和删除的规则。例如，家庭网关1102具备液晶显示器等画面输出单元和触摸面板等信息输入单元。用户使用它们输入设备的控制内容和用于执行这些控制内容的说话文本的信息。家庭网关1102向语音对话服务器2100发送被输入的信息，语音对话服务器2100向统合控制词典2101A反映该信息。由此，用户能够将用户专用的规则设定为统合控制词典2101A。

另外，用户专用规则也可以由服务提供商或词典制作者追加。也就是说，用户专用规则也可以由对话服务器2100自动地追加。例如，也可以分析用户具有的属性或系统利用倾向，并追加更适合于用户的规则。例如，在根据用户的出生地信息或说话历史记录知道了用户使用特定方言的情况下，通过向词典追加使用了该方言的规则，容易实现用户期待的设备控制。

另外，除了以下这一点，本实施方式中的对话信息提供系统的工作流程与实施方式1中的工作相同。在图16所示的步骤S371中的意图理解开始时，家庭网关1102一起发送说话了的用户的用户信息。在步骤S372中，语音对话服务器2100对照接收到的用户信息和统合控制词典2101A内的对象用户信息。由此，语音对话服务器2100能够仅生成相应的用户设定好的行动。因此，即使用户A以外的用户说了“晚安”，由于说话了的用户的用户信息与在统合控制词典2101A中记载的对照用户信息不一致，所以不生成行动。另外，即使用户A使用未保持用户信息2155的声音收集装置2013并说了“晚安”，由于语音对话服务器2100不能取得说话了的用户的信息，所以不能进行对照，不生成行动。

以下，说明工作例。第一设备2011为设置在起居室中的空调，第二设备2012为设置在用户A的房间中的空调，声音收集装置2014为保持有用户A的用户信息2155的可穿戴麦克风。

在用户A利用可穿戴麦克风并说了“晚安”的情况下，利用图27A和图27B所示的统合控制词典2101A和脚本信息2103，控制用户A的房间和起居室的空调的定时器。在此，当想要使用图27C所示的单独控制词典2102C进行同样的设定时，用户需要对起居室的空调说“切断电源”和“在6：30接通电源”，对卧室的空调说“在0：00切断电源”和“在6：30接通电源”。这样，通过使用统合控制词典2101A，用户能够以更简单的说话来实现复杂的操作。

另外，同样地，通过向声音收集装置2014登记每个用户的信息或为各用户准备与声音收集装置2014同样的声音收集装置并向统合控制词典2101A补记规则，由此，例如即使在用户说了“晚安”的情况下，也能够按用户执行不同的设备控制。

如上所述，在多个词典(统合控制词典2101A和单独控制词典2102)所包含的第三词典中，将用户的说话内容和针对多台设备中的一台以上设备的多个控制命令进行关联。控制装置使用第三词典，将用户的说话内容转换成多个控制命令。

由此，不仅能够以少的说话执行复杂的控制，还能够执行适合于各个用户的设备控制。

(实施方式7)

在本实施方式中，说明上述实施方式1的变形例。在本实施方式中，对话信息提供系统诱导用户以使得在开始声音收集时让用户明示地指示想操作的设备。具体而言，对话信息提供系统催促用户朝向对象设备的方向说话。

图28是词典选择处理(S222)的变形例(S222B)的流程图。图28所示的处理相对于图11所示的处理追加了步骤S235和S236。

在作为视线检测通知的发送源的装置不是家电设备的情况下(在S231中为否)，家庭网关1102判定是否进行了让用户将视线朝向对象设备说话的通知(S235)。在没有进行通知的情况下(在S235中为否)，家庭网关1102向具有向用户提示信息的信息提示能力的声音收集装置2013等指示以向用户传递消息(S236)。例如，该消息是“请朝向想操作的设备并说话”等。

由此，能够更明确地确定用户想操作的设备。

(其他变形例)

此外，在上述实施方式中说明的技术例如也可利用以下构成来实现。

在图29中，视线检测单元2131和声音收集单元2132分离为不同的设备。也就是说，图29所示的组1100B具备视线检测装置2013A和声音收集装置2013B来取代声音收集装置2013，所述视线检测装置2013A具备视线检测单元2131，所述声音收集装置2013B具备声音收集单元2132。通过设为这样的构成，不仅能够降低设备的单价，还因能够使设备小型化和轻量化而使设备能够容易携带。由此，能够提高视线检测的精度。

在图30所示的组1100C中，家庭网关1102A保持有统合控制词典2147和单独控制词典2148。通过设为这样的构成，在电波不良或有线LAN缆线脱落的情况下等通信切断时，也能够实施利用说话进行的设备控制。另外，由于在能够进行通信的情况下也能够减少通信的额外开销，所以能够提高响应性。

此外，在该情况下，也可以由家庭网关1102A和语音对话服务器2100这两方实施意图理解处理。在该情况下，由于可以设想家庭网关1102A保有的统合控制词典2147和单独控制词典2148与语音对话服务器2100保有的统合控制词典2101和单独控制词典2102产生差异的情况，所以只用某一方就可能得到期望的结果。

在图31所示的例子中，在家庭网关1102A中保持统合控制词典2147和单独控制词典2148，且不存在语音对话服务器2100。通过设为这样的构成，即使在不与互联网连接的环境中也能够实施利用说话进行的设备控制。

在图32所示的组1100D中，将家庭网关1102和声音收集装置2013一体化。组1100D所包含的家庭网关1102B具备视线检测单元2131和声音收集单元2132。通过设为这样的构成，由于无需用设备间通信进行视线检测通知等，所以可减少通信的额外开销，因此能够提高对用户的响应性。

在图33所示的组1100E中，各设备保持与该设备对应的单独控制词典。具体而言，第一设备2011B保持与该第一设备2011B对应的单独控制词典2115，第二设备2012B保持与该第二设备2012B对应的单独控制词典2125。这是提供专用于设备的单独控制词典的一个方式。

语音对话服务器2100在未保持与这些设备对应的单独控制词典的情况下，在控制这些设备时只能使用统合控制词典2101。因此，家庭网关1102与更新设备管理信息2142的定时等相匹配而收集各设备具有的词典的信息。并且，在语音对话服务器2100中没有相应的词典或在语音对话服务器2100中保持的单独控制词典2102的版本很旧的情况下，家庭网关1102将收集到的词典上传到语音对话服务器2100。由此，语音对话服务器2100能够使用专用于这些设备的最新的单独控制词典2102。但是，这些单独控制词典2102应该仅对成为上传源的设备所属的组中的说话使用。

此外，在上述技术方案中说明的技术例如能够在以下的云服务类型中实现。但是，实现在上述技术方案中说明的技术的云服务的类型不限于此。

(服务类型1：自己公司数据中心型云服务)

图34是表示服务类型1(自己公司数据中心型云服务)中的信息管理系统提供的服务的整体画面的图。在本类型中，服务提供商1120从组1100取得信息，并对用户提供服务。在本类型中，服务提供商1120具有数据中心运营公司的功能。即，服务提供商1120保有管理大数据的云服务器1111。因此，不存在数据中心运营公司。

在本类型中，服务提供商1120运营和管理数据中心(云服务器)1203。另外，服务提供商1120管理操作系统(OS)1202和应用1201。服务提供商1120使用服务提供商1120管理的OS1202和应用1201而提供服务(箭头1204)。

(服务的类型2：IaaS利用型云服务)

图35是表示服务类型2(IaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。在此，IaaS是Infrastructure-as-a-Service(基础设施即服务)的简称，是将用于构建计算机系统并使之工作的基础本身作为经由互联网的服务而提供的云服务提供模型。

在本类型中，数据中心运营公司1110运营和管理数据中心(云服务器)1203。另外，服务提供商1120管理OS1202和应用1201。服务提供商1120使用服务提供商1120管理的OS1202和应用1201而提供服务(箭头1204)。

(服务的类型3：PaaS利用型云服务)

图36是表示服务类型3(PaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。在此，PaaS是Platform-as-a-Service(平台即服务)的简称，是将平台作为经由互联网的服务而提供的云服务提供模型，所述平台成为用于构建软件并使之工作的基础。

在本类型中，数据中心运营公司1110管理OS1202，并运营和管理数据中心(云服务器)1203。另外，服务提供商1120管理应用1201。服务提供商1120使用数据中心运营公司1110管理的OS1202和服务提供商1120管理的应用1201提供服务(箭头1204)。

(服务的类型4：SaaS利用型云服务)

图37是表示服务类型4(SaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。在此，SaaS是Software-as-a-Service(软件即服务)的简称。SaaS利用型云服务例如是具有如下功能的云服务提供模型：不保有数据中心(云服务器)的公司或个人等利用者能够经由互联网等网络，使用保有数据中心(云服务器)的平台提供者提供的应用。

在本类型中，数据中心运营公司1110管理应用1201，管理OS1202，并运营和管理数据中心(云服务器)1203。另外，服务提供商1120使用数据中心运营公司1110管理的OS1202和应用1201提供服务(箭头1204)。

以上，在任一种云服务的类型中，都是服务提供商1120提供服务。另外，例如服务提供商或数据中心运营公司也可以自己开发OS、应用或大数据的数据库等，另外，也可以外包给第三者。

以上，说明了本公开的实施方式涉及的对话信息提供系统，但本公开不限定于该实施方式。

另外，上述实施方式涉及的对话信息提供系统所包含的各处理单元典型地以作为集成电路的LSI实现。这些各处理单元可以分别形成为独立的单片，也可以形成为包含一部分或全部处理单元的单片。

并且，集成电路化的方法不限于LSI，也可以以专用电路或通用处理器来实现。在LSI制造后，也可以利用可编程的FPGA(Field Programmable Gate Array：现场可编程门阵列)或利用能够将LSI内部的电路单元的连接以及设定重新构建的可重构处理器(Reconfigurable processor)。

此外，在上述各实施方式中，各构成要素可由专用硬件构成，也可以通过执行适于各构成要素的软件程序来实现。各构成要素也可以通过CPU或处理器等程序执行单元读出并执行记录在硬盘或半导体存储器等记录介质中的软件程序来实现。

而且，本公开既可以是上述程序，也可以是记录有上述的程序的非暂时性计算机可读取记录介质。并且，上述程序当然能够经由互联网等传输介质流通。

另外，框图中的功能块的分割为一例，可以将多个功能块作为一个功能块而实现，将一个功能块分割为多个，或将一部分功能转移到其他功能块。另外，也可以是单一的硬件或软件以并行或时分方式处理具有类似功能的多个功能块的功能。

另外，执行上述流程图等所示的多个步骤的顺序是为了具体说明本公开而例示的顺序，也可以是上述以外的顺序。并且，上述步骤的一部分也可以与其他的步骤同时(并行)执行。

以上，基于实施方式说明了一个或多个技术方案涉及的对话信息提供系统，但本公开不限定于该实施方式。只要不脱离本公开的主旨，对本实施方式实施了本领域技术人员能够想到的各种变形而得到实施方式、以及组合不同的实施方式中的构成要素而构建的实施方式均包含在一个或多个技术方案的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：神田裕士;大久保雅文;田中敬一;中村智典;
技术所有人：松下电器（美国）知识产权公司;
我是此专利的发明人

上一篇：一种便携式多用途剪刀的制作方法与工艺
上一篇：一种语音交互方法及系统、以及智能语音播报终端与流程