信息处理装置、信息处理终端、信息处理方法、以及程序与流程

文档序号：20621356发布日期：2020-05-06 20:51阅读：194来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及一种信息处理装置、信息处理终端、信息处理方法、以及程序。

背景技术：

通常，提出了用于调节音频装备(equipment)的输出特征的各种各样的技术。

例如，下述专利文献1公开了如下技术：在使用免提电话使车辆中的多个人与电话呼叫对方进行互相通话的情景中，调节车辆中当前正在通话的人的声音质量。

引用列表

专利文献

专利文献1：jp2011-205389a

技术实现要素：

技术问题

然而，在专利文献1描述的技术中，不考虑控制语音的输出以使其适应用户的行动目的的特征。

相应地，本公开提议一种能够控制语音的输出以使其适应用户的行动目的、且新型和改进的信息处理装置、信息处理终端、信息处理方法、以及程序。

问题的解决方案

根据本公开，提供一种信息处理装置，包括：推测单元，其基于由一个或多个传感器感测的结果来推测用户的行动目的；和输出控制单元，基于推测单元的推测结果控制由音频输出单元执行的对用户的语音输出。

而且，根据本公开，提供一种信息处理终端，包括：接收单元，其接收推测用户的行动目的的推测结果，基于由一个或多个传感器感测的结果来推测用户的行动目的；和输出控制单元，基于所接收的推测用户的行动目的的推测结果来控制用户的语音输出。

而且，根据本公开，提供一种信息处理方法，包括：基于由一个或多个传感器感测的结果来推测用户的行动目的；并且基于推测结果来控制由音频输出单元执行的对用户的语音输出。

而且，根据本公开，提供一种程序，其使计算机用作：推测单元，基于由一个或多个传感器感测的结果来推测用户的行动目的；和输出控制单元，基于推测单元的推测结果来控制由音频输出单元执行的对用户的语音输出。

发明的有利效果

如上所述，根据本公开，能够控制语音输出以使其适应用户的行动目的。应注意，此处描述的效果不一定必须受限制并且可以是本公开中描述的任意一种效果。

附图说明

[图1]是示出由本公开的各个实施方式共享的信息处理系统的配置例的说明图。

[图2]是示出根据第一实施方式的终端20的配置例的功能框图。

[图3]是示出根据第一实施方式的服务器10的配置例的功能框图。

[图4]是示出根据第一实施方式的处理流程的流程图。

[图5]是示出根据第二实施方式的服务器10的配置例的功能框图。

[图6]是示出房间的使用情况与目标讲话模式之间的对应关系的实施例的简图。

[图7]是示出根据第二实施方式的处理流程的一部分的流程图。

[图8]是示出根据第二实施方式的处理流程的一部分的流程图。

[图9]是示出由各个实施方式所共享的服务器10的硬件配置例的说明图。

具体实施方式

下面将参考所附附图对本公开的优选实施方式进行详细描述。应注意，此处描述及附图中的具有大致相同功能配置的部件设置有相同的参考标号，并且将不重复其说明。

此外，将根据下面示出的各项的顺序描述“用于完成本发明的实施方式”。

1.信息处理系统的配置

2.第一实施方式

3.第二实施方式

4.硬件配置

5.变形例

<<1.信息处理系统的配置>>

首先，将参考图1对由本公开的各个实施方式共享的信息处理系统的配置例进行描述。如图1中示出的，根据各个实施方式的信息处理系统包括服务器10、终端20、以及通信网络22。

<1-1.服务器10>

服务器10是根据本公开的信息处理装置的实施例。服务器10是控制下述终端20的语音输出的装置。例如，服务器10通过通信网络22向终端20发送指令以输出例如提供诸如天气信息等各种信息的通知的语音、与用户通话所使用的语音等。此处，例如，语音可以是通过文本转语音(tts)等的合成语音或记录语音。下面将聚焦于其中语音是合成语音的实施例进行说明。

<1-2.终端20>

终端20是根据本公开的信息处理终端的实施例。例如，终端20是固定式设备、便携式设备、可佩戴式设备等。下面将聚焦于其中终端20是固定式设备的实施例进行说明。

在各个实施方式中，能够将终端20布置在预定空间内(例如，预定设施中的单独房间(房屋、办公建筑等)、车辆、室外等)。此外，终端20能够根据例如服务器10的控制向位于其中布置有终端20的空间中的用户输出各种语音。例如，终端20通过tts将服务器10通过指令给出的字符串转换成语音并且然后输出所转换的语音。

<1-3.通信网络22>

通信网络22是从连接至通信网络22的装置发送的信息的有线或无线传输路径。例如。通信网络22可以包括：诸如电话网络、互联网、以及卫星通信网络等公共网络；包括以太网(注册商标)的各种各样的局域网(lan)和广域网(wan))等。此外，通信网络22可以包括诸如互联网协议-虚拟私有网(ip-vpn)等租赁网。

<1-4.问题组织>

上面已经对各个实施方式所共享的信息处理系统的配置进行了说明。顺便提及，通常，房间的声学特征可以根据环境声音和用户的行动状态进行改变。因此，根据房间的类别和状态，实际被传送至用户的语音的声学特征可能与预设的声学特征不同。相应地，为了将与预设声学特征相符合的语音传送至用户，考虑其中对终端20所在的空间的声学特征每次进行详细测量并且同时通过使用测量结果对语音输出进行调节的方法。然而，该方法需要一定长度的操作时间。因此，在其中向用户派发通知的情景中，存在丢失即时性的可能性。

作为另一问题，在其中输出与例如音频等不同的语音(讲话)的情景中，所需声学特征可能因用户的行动目的而不同。

相应地，将上述所述情形作为一个观点考虑，设计了根据各个实施方式的服务器10。服务器10基于由终端20感测的结果而推测用户的行动目的，并且然后，基于推测结果控制由终端20执行的对用户的语音输出。这能够使得将语音输出控制为适应于用户的行动目的。下面将依次对诸如上述所述各个实施方式的内容进行详述。

<<2.第一实施方式>>

<2-1.配置：终端20>

首先，将对第一实施方式进行描述。图2是示出根据第一实施方式的终端20的配置例的功能框图。如图2中示出的，终端20包括控制单元200、通信单元220、传感器单元222、输出单元224、以及存储单元226。

{2-1-1.传感器单元222}

例如，传感器单元222可以包括相机(图像传感器)、麦克风等。例如，传感器单元222的相机捕捉相机镜头前方的视频图像。此外，传感器单元222的麦克风采集终端20周围的声音。

{2-1-2.控制单元200}

例如，控制单元200可以包括诸如中央处理单元(cpu)和图形处理单元(gpu)等处理单元。控制单元200全面控制终端20的操作。此外，如图2中示出的，控制单元200包括传输控制单元202和输出控制单元204。

{2-1-3.传输控制单元202}

传输控制单元202控制各种各样的信息到其他装置的传输。例如，传输控制单元202使下述通信单元220将通过传感器单元222感测的各种信息发送至服务器10。

{2-1-4.输出控制单元204}

输出控制单元204控制通过下述输出单元224执行的信息输出。例如，输出控制单元204使输出单元224根据从服务器10接收的控制信息而输出语音。作为实施例，输出控制单元204通过tts将从服务器10接收的控制信息以指令形式给出的字符串转换成语音，并且随后，使输出单元224根据控制信息以指令形式给出的声学特征输出所转换的语音。

此处，语音的声学特征可以是语音的物理特征。例如，语音的声学特征包括语音的音量、语音的音高、语音的速度等。

{2-1-5.通信单元220}

通信单元220是根据本公开的接收单元的实施例。例如，通信单元220通过通信网络22将信息发送至其他装置/从其他装置接收信息。例如，通信单元220从服务器10接收控制信息，控制信息用于使输出语音。

{2-1-6.输出单元224}

输出单元224根据输出控制单元204的控制输出各种信息(语音、视频图像等)。输出单元224能够包括音频输出单元。例如，音频输出单元包括扬声器、耳机、耳麦等。音频输出单元根据输出控制单元204的控制输出声音。

而且，输出单元224能够包括显示单元。例如，显示单元包括液晶显示器(lcd)、有机发光二极管(oled)等)、投影仪等。

{2-1-7.存储单元226}

存储单元226存储各种各样的数据及各种各样的软件。

<2-2.配置：服务器10>

接着，将参考图3对根据第一实施方式的服务器10的配置进行描述。图3是示出根据第一实施方式的服务器10的配置例的功能框图。如图3中示出的，服务器10包括控制单元100、通信单元120、以及存储单元122。

{2-2-1.控制单元100}

例如，控制单元100能够包括诸如下述cpu150和gpu等处理电路。控制单元100全面控制服务器10的操作。此外，如图3中示出的，控制单元100包括辨别单元102、推测单元104、以及输出控制单元106。

{2-2-2.辨别单元102}

辨别单元102使从终端20接收的感测结果经过各种辨别处理。例如，辨别单元102基于从终端20接收的感测结果来执行单独对象辨别处理、用户辨别处理、空间辨别处理、以及声音辨别处理。

(2-2-2-1.单独对象辨别处理)

首先，将对“单独对象辨别处理”的内容进行描述。例如，辨别单元102通过使用存储在存储单元122中的一般对象辨别信息db124而使从终端20接收的图像经过一般对象辨别并且由此对图像中包括的各个对象的类别进行辨别。此处，一般对象辨别信息db124可以是存储用于识别对象类别(例如，家具、墙壁、窗户等)的信息的数据库。

(2-2-2-2.用户辨别处理)

接着，将对“用户辨别处理”的内容进行描述。例如，在从终端20接收的图像(移动图像等)包括用户的情况下，辨别单元102通过使用存储在存储单元122中的行动模式信息db128而对图像进行分析并且由此辨别用户的行动(行动模式等)和用户的状态。而且，例如，辨别单元102能够通过使用存储在存储单元122中的用户识别信息db126而识别用户是谁。

(2-2-2-3.空间辨别处理)

接着，将对“空间辨别处理”的内容进行描述。例如，辨别单元102基于从终端20接收的图像及(通过辨别单元102)对用户的行动模式进行辨别的辨别结果对其中终端20所在的空间的类别(例如，房间)进行辨别。例如，在辨别空间中存在床并且辨别用户在午夜时区在空间中的停留时间长度长于或等于预定时间的情况下，辨别单元102可以辨别空间是“卧室”。此外，在辨别空间中存在桌子并且辨别主要是儿童停留在空间中的情况下，辨别单元102可以辨别空间是“儿童房”。而且，在辨别空间中存在较大屏幕的电视接收器并且较多数量的人停留在空间中的情况下，辨别单元102可以辨别空间是“起居室”。进一步地，在辨别空间是封闭空间并且同时感测空间的位置信息发生改变的情况下，辨别单元102可以辨别空间是“车辆内部”。进一步地，在空间中未检测到家具或顶棚的情况下，辨别单元102可以辨别空间是“室外”。

(2-2-2-4.声音辨别处理)

接着，将对“声音辨别处理”的内容进行描述。例如，辨别单元102通过对从终端20接收的声音采集结果进行分析而进一步辨别其中终端20所在的空间中的环境声音和用户的讲话。例如，辨别单元102通过使用存储在存储单元122中的声音来源识别信息db130对声音采集结果进行分析而识别所采集的声音的声音来源。此外，辨别单元102使所采集的语音经过语音辨别，并且由此将语音转换成字符串。此处，例如，声音来源识别信息db130可以是存储各种声音来源的频率、持续时间、以及音量、每个时区的声音出现频率信息等的数据库。

应注意，每次从终端20接收感测结果时，辨别单元102可以基于新接收的感测结果依次执行各个辨别处理。

{2-2-3.推测单元104}

推测单元104基于由辨别单元102辨别的辨别结果而推测用户的行动目的。例如，基于辨别单元102对用户的行动的辨别结果及辨别单元102对其中用户所在的房间的类别的辨别结果，推测单元104推测用户的行动目的。例如，在辨别其中用户所在的房间的类别是“书房”并且用户“坐在椅子上并且拿着一支铅笔”作为用户的行动的情况下，可以推测用户的行动目的是“学习”。此外，在辨别其中用户所在的房间的类别是“起居室”并且用户在“学习”作为用户的行动的情况下，可以推测用户的行动目的是“学习”。可替代地，在辨别用户参考书籍的情况下，推测单元104可以基于辨别书籍的标题、内容等的辨别结果推测用户的行动目的。例如，在辨别用户所参考的书籍是教科书、学术书籍等的情况下，可以推测用户的行动目的是“学习”。

应注意，每次从终端20接收感测结果时，推测单元104可以基于新接收的感测结果根据由辨别单元102执行的辨别处理而依次推测用户的行动目的。

(2-2-3-1.变形例)

作为变形例，在难以从用户的行动辨别结果推测用户的行动目的的情况下，推测单元104可以推测用户所在的空间的使用情况作为用户的行动目的，通过辨别单元102对空间的使用情况进行辨别。例如，在用户所在的空间是“书房”的情况下，推测单元104可以推测用户的行动目的是“学习”(即，使用“书房”)。

{2-2-4.输出控制单元106}

(2-2-4-1.声学特征的改变)

输出控制单元106基于由推测单元104推测的结果而控制通过终端20输出的语音。例如，输出控制单元106基于由推测单元104推测的结果而使通过终端20的(输出单元224)输出的语音的声学特征改变。例如，在推测用户的行动目的是“睡觉”的情况下(或在辨别用户所在的空间是“卧室”的情况下)，输出控制单元106可以使通过终端20输出的语音的音量低于标准并且可以使音高低于标准。因此，即使在用户处于卧室的情况下，也能够以不使用户感觉被输出语音打扰的方式对声学特征进行调节。

此外，在推测用户的行动目的是“学习”的情况下(或在辨别用户所在的空间是“书房”的情况下)，输出控制单元106可以使通过终端20输出的语音速度慢于标准。这能够使得作为儿童的用户容易听清楚输出语音。

进一步地，在推测用户的行动目的是“聚会”、“幸福的家庭炉边”等的情况下(或在辨别用户所在的空间是“室外”、或“起居室”并且多个用户位于空间中的情况下)，输出控制单元106可以使通过终端20输出的语音的音量高于标准、可以使音高高于标准、并且可以使速度慢于标准。可替代地，在这种情况下，输出控制单元106可以使通过终端20输出的语音的音高和速度的值的变量范围比常规值宽。这能够实现夸大的表达方式。因此，各个用户能够容易听清楚语音，或能够进行更主动的呈现。

-变形例1

作为变形例，输出控制单元106可以使基于与用户所在的地方出现的声音有关的信息(声音采集结果等)而进一步改变通过终端20输出的语音的声学特征。例如，可以基于房间提前记录通常发生的环境声音的声学特征(例如，各种电子设备(空调、电视接收器等)的声音、烹饪声音等)及用户讲话的声学特征。在这种情况下，输出控制单元106可以使基于所记录的信息而改变通过终端20输出的语音的声学特征。例如，在用户所在的地方是“厨房”的情况下并且在通过终端20输出的语音的时区是烹饪时区的情况下，输出控制单元106可以使通过终端20输出的语音的声学特征与烹饪声音不同并且可以使音量高于标准。

通常，在“卧室”、午夜“起居室”等中，环境声音稳定地趋于较小。相应地，在用户所在的地方是“卧室”的情况下或在时区是午夜并且同时用户所在的地方是“起居室”的情况下，输出控制单元106可以使通过终端20输出的语音的音量低于标准、可以使速度慢于标准、并且同时可以使音高低于标准。

此外，在一个房间中存在的用户的数量较小的情况下，输出控制单元106可以使通过终端20输出的语音的音量低于标准。进一步地，相对于其中多个室内用户彼此讲话的频率趋于较低的房间或具有这种趋势的时区，输出控制单元106可以使通过终端20输出的语音的音量低于标准。

-变形例2

作为另一变形例，输出控制单元106还可以根据感测用户讲话的感测结果而使通过终端20输出的语音的声学特征改变。例如，在感测用户对终端20讲话的音量或用户彼此讲话的音量较低的情况下(例如，低声通话)，输出控制单元106可以使终端20输出“低声”语音。此外，在辨别正在讲话的用户是儿童的情况下，输出控制单元106可以使终端20输出具有孩子气讲话特征的语音(例如，速度慢于标准)。

-变形例3

作为另一变形例，输出控制单元106还可以根据与用户的语音输出对应的主题而使通过终端20输出的语音的声学特征改变。例如，当通过终端20输出语言训练的内容时，输出控制单元106还可以对通过终端20输出的(内容的)语音的声学特征的强度改变进行强化。此外，在通知用户紧急安排的情况下，输出控制单元106可以使通过终端20输出的语音速度比标准更快。

(2-2-4-2.主题改变)

而且，输出控制单元106还能够基于由推测单元104推测的结果而使与通过终端20输出的语音对应的主题改变。例如，在推测用户的行动目的是“幸福的家庭炉边”或“外出”的情况下(或在辨别用户所在的空间是“起居室”或“室外”的情况下)，输出控制单元106不需要使终端20输出与用户的隐私信息、安排等对应的语音。此外，在推测用户的行动目的是“幸福的家庭炉边”的情况下(或在辨别用户所在的空间是“起居室”的情况下)，输出控制单元106可以使终端20输出提议访问目的地的备选项的语音、或提议与允许用户从现在加入家庭成员的事件有关的事件信息的语音。具体地，在时区是晚间或更晚并且多个用户位于“起居室”中的情况下，输出控制单元106可以使终端20输出提议多个用户的访问目的地的备选项的语音。

此外，在推测用户的行动目的是“学习”的情况下(或在辨别用户所在的空间是“儿童房”的情况下)，输出控制单元106不需要使终端20输出与成年人导向信息对应(例如，经济新闻等)的语音。可替代地，在辨别用户所在的空间是“(用户的)私人房间”的情况下，输出控制单元106可以使终端20输出与用户的隐私信息、安排等对应的语音。

(2-2-4-3.讲话长度的改变)

而且，输出控制单元106还能够基于由推测单元104推测的结果而使通过终端20执行的每个语音输出的语音长度改变。例如，在推测用户的行动目的是“幸福的家庭炉边”的情况下(或在辨别用户所在的空间是“起居室”的情况下)，输出控制单元106可以使通过终端20执行的每个语音输出的语音长度长于标准。

(2-2-4-4.感测频率的改变)

而且，输出控制单元106还能够基于由推测单元104推测的结果而使通过终端20(的传感器单元222)感测的感测频率改变。通常，在厨房中，噪音的音量改变和变量趋于较大。相应地，在推测用户的行动目的是“烹饪”的情况下(或在辨别用户所在的空间是“厨房”的情况下)，输出控制单元106可以使通过终端20感测的感测频率高于标准。此外，在推测用户的行动目的是“睡觉”的情况下(或在辨别用户所在的空间是“卧室”的情况下)，输出控制单元106可以使通过终端20感测的感测频率低于标准。

{2-2-5.通信单元120}

通信单元120是根据本公开的接收单元的实施例。通信单元120能够包括下述通信装置162。例如，通信单元120通过通信网络22将信息发送至其他装置/从其他装置接收信息。例如，通信单元120从终端20接收通过终端20感测的感测结果。此外，根据输出控制单元106的控制，通信单元120将用于使输出语音的控制信息发送至终端20。

{2-2-6.存储单元122}

存储单元122能够包括下述存储装置160。存储单元122存储各种各样的数据和各种各样的软件。例如，如图3中示出的，存储单元122存储一般对象辨别信息db124、用户识别信息db126、行动模式信息db128、声音来源识别信息db130、以及讲话类别信息db132。应注意，本发明并不局限于该实施例。作为存储在服务器10中的可替代数据库，可以将这些数据库中的至少一个数据库存储在能够与服务器10通信的其他装置中。

<2-3.处理流程>

上面已经对第一实施方式的配置进行了说明。接着，将参考图4对根据第一实施方式的处理流程的实施例进行描述。

如图4中示出的，首先，终端20的控制单元200确定是否已将终端20重新安装在特定的房间中或是否已将终端20移至另一房间(s101)。在确定终端20持续地位于同一房间中的情况下(s101：否)，运行下述s115的处理。

同时，在确定已经重新安装终端20或已将终端20移至另一房间的情况下(s101：是)，终端20的传感器单元222在移动之后捕捉房间的图像。然后，通信单元220根据传输控制单元202的控制将所捕捉的图像发送至服务器10(s103)。

而且，传感器单元222对位于房间中的用户的行动进行感测。然后，通信单元220根据传输控制单元202的控制将感测结果发送至服务器10(s105)。

而且，传感器单元222对房间中的声音进行采集。然后，通信单元220根据传输控制单元202的控制将声音采集结果发送至服务器10(s107)。

随后，服务器10的辨别单元102使在s103、s105、以及s107接收的感测结果经过各种辨别处理。然后，推测单元104基于辨别处理的结果推测用户的行动目的(s109)。

而且，服务器10的辨别结果102使在s103、s105、以及s107接收的感测结果经过各种辨别处理并且由此识别房间中的声学特征的改变模式(s111)。

随后，输出控制单元106基于s109中的推测结果及在s111中识别的改变模式确定是否需要改变语音输出设置(s113)。相对于通过终端20执行的语音输出，在确定不需要改变语音输出设置的情况下(s113：否)，输出控制单元106参考与当前输出设置有关的信息(s115)。随后，输出控制单元106执行下述s119的处理。

同时，在确定需要改变语音输出设置的情况下(s113：是)，输出控制单元106基于s109中的推测结果及在s111中获得的改变模式改变与语音输出设置有关的信息(s117)。

然后，输出控制单元106基于与s115中所参考的输出设置有关的信息或基于与s117中的改变之后的输出设置有关的信息生成用于使终端20输出语音的控制信息。此外，通信单元120根据输出控制单元106的控制将控制信息发送至终端20。随后，终端20的输出控制单元204根据所接收的控制信息使输出单元224输出语音(s119)。

<2-4.效果>

如上所述，根据第一实施方式的服务器10基于由终端20感测的结果推测用户的行动目的并且随后基于推测结果来控制由终端20执行的对用户的语音输出。这能够使得控制语音输出使其适应于用户的行动目的。

例如，服务器10能够根据所推测的用户的行动目的对通过终端20输出的语音的声学特征进行适当地改变。因此，即使在改变终端20所在的地方的情况下，也能够对通过终端20输出的语音的声学特征(音量等)进行自动和适当地改变。因此，不需要再次手动设置语音的声学特征。例如，在其中向用户派发通知的情景中，服务器10能够及时地使终端20输出具有适当声学特征的语音。

此外，例如，即使在出现噪音、用户移动改变等的情况下，也能够对通过终端20输出的语音的声学特征进行自动和适当地设置(或改变)。

<2-5.变形例>

{2-5-1.变形例1}

第一实施方式并不局限于上述所述实施例。作为变形例，在通过终端20感测噪音的情况下并且在辨别临时出现噪音的情况下，输出控制单元106可以使通过终端20执行的语音输出停止，直至噪音停止。

{2-5-2.变形例2}

作为另一变形例，服务器10还能够根据从终端20接收的感测结果的准确度控制终端20的感测。例如，在辨别障碍物或墙壁位于终端20的相机视角内的情况下，通过相机感测的准确度将降低。相应地，在这种情况下，服务器10可以通过使得由终端20的麦克风感测的频率减少的方式来控制终端20的感测。可替代地，在这种情况下，在从终端20接收的感测结果之中，服务器10可以增加所感测的声音、而非所感测的图像的使用程度(或置信程度)。

通常，在终端20布置在其中静止噪音或噪音改变较大的地方的情况下，通过终端20的麦克风感测的准确度会下降。相应地，在这种情况下，服务器10可以通过使得由终端20的相机感测的频率减少的方式来控制终端20的感测。可替代地，在这种情况下，在从终端20接收的感测结果之中，服务器10可以增加所感测的图像、而非所感测的声音的使用程度(或置信程度)。

{2-5-3.变形例3}

作为另一变形例，输出控制单元106还能够还基于用户的行动目的是否是商业性的及用户的数量而控制由终端20执行的语音输出。例如，在用户的行动目的是“会议”的情况下(或在用户所在的空间是“会议室”的情况下)，输出控制单元106可以使通过终端20输出的语音的音量高于标准或可以限制与形式内容的语音对应的主题。应注意，例如，服务器10基于对由终端20感测的各个用户的讲话内容进行分析的分析结果及对由终端20捕捉的图像进行分析的分析结果而辨别房间的大小及房间中存在的用户的数量，并且由此能够推测用户的行动目的是否是“会议”。

<<3.第二实施方式>>

上面已经对第一实施方式进行了说明。顺便提及，用户所期望的气氛(例如，用户的心理状态等)可能因用户的行动目的而不同。此外，通常还会出现其中用户所期望的气氛与用户的当前气氛之间存在差异的情形。

接着，将对第二实施方式进行描述。如后面描述的，根据第二实施方式，通过终端20输出的语音的输出模式能够逐渐地改变成适应于用户的行动目的。因此，能够产生将用户引导至用户所期望的气氛方向的效果。

<3-1.配置：终端20>

根据第二实施方式的终端20的配置与第一实施方式中的配置相似。

<3-2.配置：服务器10>

图5是示出根据第二实施方式的服务器10的配置例的功能框图。如图5中示出的，与第一实施方式相比较，根据第二实施方式的服务器10还设置有询问单元108。下面将仅对与第一实施方式相比较具有不同功能的各个部件进行描述。

{3-2-1.询问单元108}

在通过推测单元104不能充分推测用户的行动目的的情况下，询问单元108使终端20输出用于针对用户的行动目的向用户进行询问的语音。例如，在通过推测单元104推测用户的行动目的的可靠性低于预定的阈值的情况下，询问单元108使终端20输出用于针对用户的行动目的向用户进行询问的语音。

{3-2-2.输出控制单元106}

(3-2-2-1.改变声学特征的实施例)

每次通过终端20输出语音时，根据第二实施方式的输出控制单元106基于与由推测单元104推测的用户的行动目的对应的目标讲话模式而使终端20输出至用户的语音的输出模式逐渐改变。例如，输出控制单元106基于用户的讲话模式(通过从终端20接收的用户讲话的声音采集结果而识别的模式)与和用户的行动目的对应的目标讲话模式之间的比较而使由终端20输出的语音输出模式逐渐改变。例如，输出控制单元106以这样一种方式控制终端20，即，通过终端20输出的语音的声学特征(例如，音高、音量、以及速度等)从用户的第一次讲话的声学特征(通过从终端20接收的用户讲话的声音采集结果而识别的)逐渐改变成与用户的行动目的对应的目标声学特征。应注意，能够将指示用户的行动目的与目标讲话模式之间的对应关系的数据存储在讲话策略db134中。例如，如图5中示出的，能够将讲话策略db134存储在存储单元122中。

例如，首先，输出控制单元106基于第一次从终端20接收的用户讲话的声音采集结果(例如，用户对终端20的讲话、用户之间的讲话等)对用户讲话的声学特征进行识别。接着，输出控制单元106将所识别的用户讲话的声学特征设置为第一次通过终端20输出的语音的声学特征。然后，输出控制单元106以这样一种方式控制通过终端20输出的语音，即，通过终端20输出的语音的声学特征从用户讲话的声学特征改变成与(通过推测单元104推测的)用户的行动目的对应的目标声学特征。

此处，将参考图6对上述所述功能进行更为详细的描述。图6是示出房间的使用情况与在用户位于房间中的情况下所应用的目标讲话模式之间的对应关系的实施例的简图。图6中示出的实施例基于用户的第一次讲话模式是与图6中示出的点“a”对应的模式的假设(换言之，音高、音量、以及速度值全部是“适中的”)。

如图6中示出的，在用户所在的空间是“卧室”的情况下，每次通过终端20输出语音时，输出控制单元106可以使通过终端20输出的语音的音量、音高、以及速度全部逐渐下降。因此，能够实现使得用户容易放松的气氛。此外，如图6中示出的，在用户所在的空间是“书房”的情况下，每次通过终端20输出语音时，输出控制单元106可以使通过终端20输出的语音的速度逐渐增加，并且同时可以使语音的音高逐渐下降。因此，能够实现其中学习安静地进行的气氛。此外，如图6中示出的，在用户所在的空间是“起居室”的情况下，每次通过终端20输出语音时，输出控制单元106可以使通过终端20输出的语音的音高逐渐增加，并且同时可以使语音的速度逐渐下降。因此，能够实现其中用户享受通话的气氛。进一步地，如图6中示出的，在多个用户位于“室外”的情况下，例如，输出控制单元106可以将通过终端20输出的语音的音高和速度的上限值(改变范围)设置得比“起居室”的高。这能够使得实现夸大的表达方式。

通常，当一人与伙伴通话时，该人往往将他/她自身讲话的模式调谐成伙伴的讲话模式。根据上述所述控制例，将通过终端20输出的语音模式逐渐改变成与用户的行动目的对应的目标讲话模式。因此，例如，预期与终端20通话的用户的讲话模式还逐渐改变成与通过终端20执行的语音输出调谐的目标讲话模式。因此，预期实现与用户的行动目的对应的气氛，换言之，用户所预期的气氛。

(3-2-2-2.改变其他参数的实施例)

而且，相对于也与通过终端20输出的语音有关的声学特征(例如，语音的输出频率、语音的长度、以及与语音对应的主题等)之外的其他各种参数，输出控制单元106还能够根据由推测单元104推测的用户的行动目的而使该等参数改变。例如，输出控制单元106可以使通过终端20输出的语音的输出频率从用户的第一次讲话的频率(通过从终端20接收的用户讲话的声音采集结果而识别的)逐渐改变成与用户的行动目的对应的目标讲话频率。可替代地，输出控制单元106可以使通过终端20执行的每个语音输出的语音长度(通过从终端20接收的用户讲话的声音采集结果而识别的)逐渐改变成与用户的行动目的对应的目标讲话长度。

可替代地，输出控制单元106可以使与通过终端20输出的语音对应的主题从用户的第一次主题(通过从终端20接收的用户讲话的声音采集结果而识别的)逐渐改变成与用户的行动目的对应的目标主题。应注意，在用户的第一次主题与目标主题之间的差异较大的情况下，输出控制单元106在改变主题的处理中可以使通过终端20输出语音的次数大于初始次数。因此，能够平缓地(自然地)改变主题，从而能够避免给用户不自然的印象。

(3-2-2-3.变形例1：每次输出的改变量的调节)

作为变形例，输出控制单元106还能够对通过终端20输出的语音的输出模式的每一次改变量进行动态调节。例如，输出控制单元106可以根据用户的讲话频率(通过从终端20接收的用户讲话的声音采集结果而识别的)对通过终端20输出的语音的输出模式的每一次改变量进行调节。例如，由于用户的讲话频率增加，输出控制单元106可以使通过终端20输出的语音的输出模式的每一次改变量更小。

可替代地，输出控制单元106可以根据用户的讲话长度(通过从终端20接收的用户讲话的声音采集结果而识别的)对通过终端20输出的语音的输出模式的每一次改变量进行调节。例如，由于用户的讲话长度增加，输出控制单元106可以使通过终端20输出的语音的输出模式的每一次改变量更小。

(3-2-2-4.变形例2：根据空间状态的输出控制)

作为另一变形例，输出控制单元106还能够根据用户所在的空间(房间等)的状态调节通过终端20输出的语音的输出模式的(最终)改变量。例如，输出控制单元106可以根据用户所在的空间的噪音水平调节通过终端20输出的语音的输出模式的(最终)改变量。例如，由于空间中所感测的噪音的噪音水平增加，输出控制单元106可以将最终目标音量设置成比初始目标音量更大的值。这能够防止用户在听清通过终端20输出的语音时遇到困难。

可替代地，输出控制单元106可以根据用户所在的空间的亮度调节通过终端20输出的语音的输出模式的(最终)改变量。例如，空间内部越暗，输出控制单元106越可以进一步降低通过终端20输出的语音的目标音量。

(3-2-2-5.变形例3：根据用户讲话改变的输出控制)

作为另一变形例，输出控制单元106还能够基于用户的讲话模式针对终端20对用户的每个语音输出而改变的改变程度对通过终端20执行的语音输出进行控制。例如，每次一旦通过终端20向用户输出语音，服务器10则对输出之后的用户讲话模式的改变进行识别，并且然后能够记录识别结果。在这种情况下，在通过终端20向用户多次输出语音之后，通过参考所记录的信息，输出控制单元106可以对用于将用户讲话模式改变成目标讲话模式的更为有效的语音输出方法进行识别。此外，输出控制单元106可以通过之后的优先级采用所识别的输出方法。

<3-3.处理流程>

上面已经对第二实施方式的配置进行了说明。接着，将参考图7和图8对根据第二实施方式的处理流程的实施例进行描述。

如图7中示出的，首先，终端20的控制单元200确定是否已将终端20重新安装在特定的房间中或是否已将终端20移至另一房间(s201)。在确定终端20持续地位于同一房间中的情况下(s201：否)，运行下述s213的处理。

同时，在确定已重新安装终端20或已将终端20移至另一房间的情况下(s201：是)，首先，运行与第一实施方式中的s103至s109的处理相似的处理(s203至s209)。

在s209之后，服务器10的输出控制单元106通过参考讲话策略db134对与s209中推测的用户的行动目的对应的目标讲话模式进行识别(s211)。

随后，辨别单元102基于s207中的声音采集结果对用户的讲话进行检测(s213)。

随后，输出控制单元106基于在s213中检测的讲话对用户的讲话模式进行识别。此外，输出控制单元106以这样一种方式设置通过终端20输出的语音输出模式，即，语音输出模式与所识别的讲话模式一致或近似(s215)。

此处，将参考图8对s215之后的处理流程进行描述。如图8中示出的，在s215之后，输出控制单元106确定在s211中识别的目标讲话模式与通过终端20的当前语音输出模式之间是否存在差异(s221)。在确定其间不存在差异的情况下(s221：否)，服务器10执行下述s225的处理。

同时，在确定其间存在差异的情况下(s221：是)，输出控制单元106以这样一种方式改变通过终端20输出的语音的输出模式的设置，即，目标讲话模式与通过终端20输出的语音的输出模式之间的差异降低至一定的范围(s223)。

随后，输出控制单元106根据在s223中已经改变的输出模式生成用于使终端20输出语音的控制信息。此外，通信单元120根据输出控制单元106的控制将控制信息发送至终端20。随后，终端20的输出控制单元204使输出单元224根据所接收的控制信息输出语音(s225)。

随后，在终端20的语音输出继续的情况下(s227：是)，再次重复s221及之后的处理。同时，在终端20的语音输出不继续的情况下(s227：否)，处理流程结束。

<3-4.效果>

如上所述，根据第二实施方式的服务器10基于通过终端20的传感器单元222感测的感测结果而推测用户的行动目的，并且然后，每次通过终端20输出语音时，基于与所推测的用户的行动目的对应的目标讲话模式，服务器10使终端20输出至用户的语音的输出模式逐渐改变。因此，能够将通过终端20输出的语音的输出模式逐渐改变成适应于用户的行动目的。因此，能够将用户引导至用户所预期的气氛方向。例如，用户重复与终端20通话能够使得实现用户所预期的气氛。

<3-5.变形例>

{3-5-1.变形例1：根据用户的行动目的改变的输出控制}

第二实施方式并不局限于上述所述实施例。例如，还考虑到服务器10辨别用户的行动目的已经改变或推测用户的行动目的的推测结果是错误的。相应地，作为变形例，服务器10(推测单元104)能够基于从终端20新接收的感测结果而识别改变之后的用户行动目的或用户的真实行动目的。然后，输出控制单元106可以基于与新识别的用户行动目的对应的目标讲话模式而使通过终端20输出的语音的输出模式改变。

可替代地，在服务器10(推测单元104)难以识别“改变之后的用户行动目的或用户的真实行动目的”的情况下，询问单元108可以通过终端20向用户询问用户的行动目的。然后，在已经从用户获得询问回答的情况下，首先，输出控制单元106能够识别与回答对应的目标讲话模式。此外，输出控制单元106可以基于所识别的目标讲话模式而使终端20输出至用户的语音的输出模式逐渐改变。

可替代地，在这种情况下，输出控制单元106可以使终端20以与和通过推测单元104临时推测的“改变之后的用户行动目的或用户的真实行动目的”对应的目标讲话模式相同或近似的模式输出预定的声音。接着，服务器10可以基于终端20的新感测结果而辨别用户对声音的反应。此外，在基于辨别结果确定“临时推测的用户行动目的”是正确的情况下，服务器10可以基于与该行动目的对应的目标讲话模式而使通过终端20输出的语音的输出模式逐渐改变。

{3-5-2.变形例2：终端20的语音输出频率的调节}

通常，例如，在用户与终端20通话的情况下，在用户的讲话频率与通过终端20输出的语音的输出频率在很大程度上不同的情况下，用户可能具有不自然的印象。相应地，作为另一变形例，输出控制单元106可以基于采集从终端20接收的用户讲话的声音采集结果而识别用户的讲话频率，并且然后，可以使通过终端20输出的语音的输出频率与所识别的讲话频率一致或近似。

可替代地，可以基于房间(或基于用户的行动目的)记录用户的讲话频率。在这种情况下，输出控制单元106可以通过参考所记录的信息而识别适合于用户所在的房间的讲话频率(或用户的行动目的)，并且随后可以使通过终端20输出的语音的输出频率与所识别的频率一致或近似。

{3-5-3.变形例3：终端20的语音长度的调节}

类似地，在用户的讲话长度与通过终端20输出的语音长度在很大程度上不同的情况下，用户可能具有不自然的印象。相应地，作为另一变形例，输出控制单元106可以基于采集从终端20接收的用户讲话的声音采集结果而识别用户的讲话长度，并且然后可以使通过终端20输出的语音长度与所识别的讲话长度一致或近似。

可替代地，可以基于房间(或基于用户的行动目的)记录用户的讲话长度。在这种情况下，输出控制单元106可以通过参考所记录的信息而识别适合于用户所在的房间的讲话长度(或用户的行动目的)，并且然后可以使通过终端20输出的语音长度与所识别的长度一致或近似。

<<4.硬件配置>>

接着，将参考图9对由各个实施方式共享的服务器10的硬件配置例进行描述。如图9中示出的，服务器10设置有cpu150、只读存储器(rom)152、随机访问存储器(ram)154、总线156、接口158、存储装置160、以及通信装置162。

cpu150用作计算处理装置和控制装置并且根据各种各样的程序控制服务器10中的整体操作。此外，cpu150实现服务器10中的控制单元100的功能。应注意，通过诸如微处理器等处理器形成cpu150。

例如，rom152存储由cpu150使用的程序并且控制诸如计算参数等数据。

例如，ram154临时存储由cpu150运行的程序、正在使用的数据等。

通过cpu总线等形成总线156。该总线156与cpu150、rom152、以及ram154互相连接。

接口158将存储装置160和通信装置162连接至总线156。

存储装置160是用作存储单元122的数据存储装置。例如，存储装置160包括存储介质、用于将数据记录在存储介质上的记录装置、用于从存储介质中读取数据的读出装置、用于删除存储介质上所记录的数据的删除装置等。

例如，通信装置162是用于连接至通信网络22等并且通过通信装置(例如，网卡等)等形成的通信接口。此外，通信装置162可以是无线lan支持的通信装置、长期演进(lte)支持的通信装置、或执行有线通信的有线通信装置。该通信装置162用作通信单元120。

<<5.变形例>>

上面已经参考所附附图对本公开的优选实施方式进行了详细描述。然而，本公开并不局限于上述所述实施例。显而易见，本公开所属技术领域的普通技术人员能够在权利要求规定的技术理念的范围内构思各种校正例或变形例。应当理解的是，当然，这些实施例还属于本公开的技术范围。

<5-1.变形例1>

例如，上述所述各个实施方式示出了其中服务器10的输出控制单元106基于推测用户的行动目的的推测结果控制终端20执行的对用户的语音输出的实施例。然而，本发明并不局限于该实施例。例如，服务器10将推测用户的行动目的的推测结果发送至终端20，并且随后，终端20的输出控制单元204可以基于所接收的推测结果控制由输出单元224执行的对用户的语音输出。换言之，终端20的输出控制单元204可以使基于所接收的推测用户的行动目的的推测结果而改变通过输出单元224输出的语音的声学特征。在该变形例中，终端20的输出控制单元204可以根据上述所述各个实施方式而还包括输出控制单元106的大致全部功能。

<5-2.变形例2>

作为另一变形例，尽管图1仅示出了一个服务器10，然而，本发明并不局限于该实施例。通过使多个计算机协作操作可以实现根据各个实施方式的服务器10的功能。

<5-3.变形例3>

作为另一变形例，根据本公开的信息处理装置并不局限于服务器10。信息处理装置可以是具有根据各个实施方式的控制单元100的功能的其他种类的装置。例如，信息处理装置可以是通用个人计算机(pc)、平板式终端、游戏机、诸如智能手机等便携式电话、便携式音乐播发器、扬声器、投影仪、可佩戴装置(例如，头戴显示器(hmd)、智能手表等)、车载装置(汽车导航装置等)、或机器人(例如，人形机器人、无人机等)。

<5-4.变形例4>

作为另一变形例，作为被配置成单独装置的可替代装置，服务器10和终端20可以被配置成集成装置。例如，终端20的控制单元200可以被配置为包括根据上述所述各个实施方式的服务器10的控制单元100中包含的全部部件，并且同时可以排除服务器10。在这种情况下，根据本公开的信息处理装置可以是终端20。

<5-5.变形例5>

此外，不需要始终根据上述所述顺序运行上述所述各个实施方式的处理流程中的各个步骤。例如，可以按照根据需要改变的顺序运行各个步骤。此外，作为按照时间序列运行的可替代方式，可以部分并行或单独运行各个步骤。而且，可以省去上述所述步骤的一部分，或可以向上述所述步骤添加另一步骤。

此外，根据上述所述各个实施方式，还能够提供使诸如cpu150、rom152、以及ram154等硬件提供与根据各个实施方式的服务器10的各个配置等同的功能的计算机程序。进一步地，还提供具有其上所记录的计算机程序的存储介质。

进一步地，仅将本描述中所描述的效果解释为描述性或示出性、而非限制性。换言之，从本描述的陈述中，根据本公开的技术能够与上述效果一起或替代上述效果实现对本领域技术人员显而易见的其他效果。

应注意，下列配置也属于本公开的技术范围。

(1)一种信息处理装置，包括：

推测单元，该推测单元基于由一个或多个传感器感测的结果来推测用户的行动目的；和

输出控制单元，该输出控制单元基于推测单元的推测结果控制由音频输出单元执行的至用户的语音的输出。

(2)根据(1)所述的信息处理装置，其中，

所述输出控制单元基于所述推测单元的所述推测结果而使由所述音频输出单元输出的所述语音的声学特征改变。

(3)根据(2)所述的信息处理装置，其中，

所述一个或多个传感器中的至少一个传感器对所述用户所在的地方出现的声音进行感测；并且

所述输出控制单元还基于对所述用户所在的地方处的声音进行感测的感测结果而使由所述音频输出单元输出的所述语音的所述声学特征改变。

(4)根据(2)或(3)所述的信息处理装置，其中，

所述输出控制单元还根据与向所述用户输出的所述语音对应的主题而使由所述音频输出单元输出的所述语音的所述声学特征改变。

(5)根据(2)至(4)中任一项所述的信息处理装置，其中，

所述输出控制单元还基于所述用户的行动目的是否是商业性的以及所述用户的数量而控制由所述音频输出单元执行的至所述用户的语音的输出。

(6)根据(2)至(5)中任一项所述的信息处理装置，其中，

所述输出控制单元还基于所述推测单元的所述推测结果而使由所述一个或多个传感器中的至少一个传感器感测的频率改变。

(7)根据(2)至(6)中任一项所述的信息处理装置，其中，

所述输出控制单元还基于所述推测单元的所述推测结果而使与由所述音频输出单元输出的所述语音对应的主题改变。

(8)根据(2)至(7)中任一项所述的信息处理装置，其中，

所述输出控制单元还基于所述推测单元的所述推测结果而使每次向所述用户输出的语音的语音长度改变。

(9)根据(1)至(8)中任一项所述的信息处理装置，其中，

所述输出控制单元基于与由所述推测单元推测的所述用户的所述行动目的对应的目标讲话模式而针对由所述音频输出单元每次输出的语音使由所述音频输出单元输出至所述用户的所述语音的输出模式逐渐改变。

(10)根据(9)所述的信息处理装置，还包括：

接收单元，所述接收单元接收采集所述用户的讲话的声音采集结果；其中，

所述输出控制单元基于通过采集所述用户的讲话的声音采集结果识别的所述用户的讲话模式与和所述用户的所述行动目的对应的目标讲话模式之间的比较而使由所述音频输出单元输出的所述语音的所述输出模式逐渐改变。

(11)根据(10)所述的信息处理装置，其中，

所述输出控制单元以如下方式使由所述音频输出单元输出的所述语音的所述输出模式逐渐改变，：由所述音频输出单元输出的所述语音的所述输出模式从通过采集所述用户的讲话的所述声音采集结果识别的所述用户的所述讲话模式改变成与所述用户的所述行动目的对应的所述目标讲话模式。

(12)根据(11)所述的信息处理装置，其中，

所述输出控制单元以如下方式使由所述音频输出单元输出的所述语音的所述声学特征逐渐改变：由所述音频输出单元输出的所述语音的所述声学特征从通过采集所述用户的讲话的声音采集结果识别的所述用户的讲话的所述声学特征改变成与所述用户的所述行动目的对应的目标声学特征。

(13)根据(11)或(12)所述的信息处理装置，其中，

所述推测单元在每次获得由所述一个或多个传感器感测的感测结果时连续推测所述用户的行动目的；并且

在由所述推测单元推测与由所述推测单元初始推测的所述用户的第一行动目的不同的第二行动目的的情况下，所述输出控制单元基于与所述第二行动目的对应的目标讲话模式而使由所述音频输出单元输出的所述语音的所述输出模式逐渐改变。

(14)根据(11)至(13)中任一项所述的信息处理装置，其中，

每次由所述音频输出单元输出语音时都对所述用户的讲话模式的改变进行识别；并且

所述输出控制单元还基于所述用户的所述讲话模式针对向所述用户的每次语音输出所改变的改变程度而使由所述音频输出单元输出至所述用户的所述语音的所述输出模式逐渐改变。

(15)根据(11)至(14)中任一项所述的信息处理装置，还包括：

询问单元，所述询问单元在由所述推测单元推测的所述用户的所述行动目的的可靠性低于预定阈值的情况下，向所述用户询问所述用户的所述行动目的，其中，

所述输出控制单元基于与所述用户对由所述询问单元进行的询问的回答对应的目标讲话模式而使由所述音频输出单元输出至所述用户的所述语音的所述输出模式逐渐改变。

(16)根据(11)至(15)中任一项所述的信息处理装置，还包括：

辨别单元，所述辨别单元基于由所述一个或多个传感器感测的感测结果来辨别所述用户的行动，其中，

所述推测单元基于所述辨别单元的辨别结果来推测所述用户的行动目的。

(17)根据(16)所述的信息处理装置，其中，

所述推测单元还基于与所述用户所在的房间对应的用途而推测所述用户的行动目的，基于由所述一个或多个传感器感测的结果对所述用途进行识别。

(18)一种信息处理终端，包括：

接收单元，接收推测用户的行动目的的推测结果，所述用户的所述行动目的是基于由一个或多个传感器感测的结果推测出的；和

输出控制单元，基于所接收的推测所述用户的所述行动目的的推测结果而控制所述用户的语音输出。

(19)一种信息处理方法，包括：

基于由一个或多个传感器感测的结果来推测用户的行动目的；并且

基于所述推测结果控制由音频输出单元执行的至所述用户的语音的输出。

(20)一种程序，使计算机用作：

推测单元，基于由一个或多个传感器感测的结果推测用户的行动目的；和

输出控制单元，基于所述推测单元的推测结果来控制由音频输出单元执行的至所述用户的语音的输出。

参考标号列表

10服务器

20终端

22通信网络

100,200控制单元

102辨别单元

104推测单元

106,204输出控制单元

108询问单元

120,220通信单元

122存储单元

124一般对象辨别信息db

126用户识别信息db

128行动模式信息db

130声音来源识别信息db

132讲话类别信息db

134讲话策略db

202传输控制单元

222传感器单元

224输出单元

226存储单元。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：斋藤真里;岩濑広;河野真一;滝祐平
技术所有人：索尼公司
我是此专利的发明人

上一篇：一种冲泡饮品智能贩卖系统及一种制茶机的制作方法
上一篇：一种大型直线轴承的防尘圈半自动装备设备的制作方法