信息处理装置的制造方法

文档序号：10598386阅读：286来源：国知局

信息处理装置的制造方法
【专利摘要】实现与发话者的自然对话。本发明的对话机器人(100)具备：输入管理部(21)，其将属性信息与语音相对应地存储到存储部(12)，接受语音输入；短语输出部(23)，其提示与语音对应的短语；以及输出与否判断部(22)，其在提示与第1语音对应的第1短语之前输入了第2语音的情况下，基于1个以上的属性信息来判断是否需要第1短语的提示。
【专利说明】
信息处理装置
技术领域
[0001]本发明涉及响应于发话者发出的语音对该发话者提示规定的短语的信息处理装置等。【背景技术】
[0002]以往广泛研究了能使人类与机器人对话的对话系统。例如，专利文献1公开了能使用新闻和会话的数据库来使与发话者的对话继续进行并展开的对话型信息系统。另外，专利文献2公开了一种在处理多个对话脚本的多重对话系统中，为了防止发话者的混乱而在切换对话脚本时保持响应模式的连续性的对话方法、对话装置。专利文献3公开了一种语音对话装置，其更换所输入的语音的顺序来执行识别处理，由此提供不让发话者感到不协调、带来压力的语音对话。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献1:日本国公开专利公报“特开2006-171719号公报(2006年6月29日公开)”
[0006]专利文献2:日本国公开专利公报“特开2007-79397号公报(2007年3月29日公开)” [〇〇〇7] 专利文献3:日本国公开专利公报“特开平10-124087号公报(1998年5月15日公开)”
[0008]专利文献4:日本国公开专利公报“特开2006-106761号公报(2006年4月20日公开)”
【发明内容】

[0009]发明要解决的问题
[0010]在以专利文献1?4公开的技术为首的现有技术中，终究是以“提问/回答服务”(假定发话者等待直到机器人对提问的回答结束为止)中的一问一答的交流为前提的。因此，存在无法实现与人对人的对话相近的自然对话的问题。
[0011]具体地说，如在人对人的对话中也会发生的那样，假定在对话系统中，与发话者对机器人的在先呼叫(语音)对应的在先响应(短语)发生延迟，在该响应未输出前就输入下一呼叫。在这种情况下，会发生在先响应输出与对下一呼叫的在后响应输出交错的现象。为了实现自然(类人)对话，需要按照对话的状况对这些交错的响应输出进行适当处理。然而，现有技术是以一问一答的交流为前提的，不存在能应对上述要求的现有技术。
[0012]本发明是鉴于上述问题而完成的，其目的在于在接连输入语音的情况下，也能实现与发话者的自然对话的信息处理装置、对话系统以及信息处理装置的控制程序。
[0013]用于解决问题的方案
[0014]为了解决上述问题，本发明的一个方式的信息处理装置响应于用户发出的语音而对该用户提示规定的短语，具备:接受部，其将上述语音或者识别该语音后的结果与表示该语音的属性的属性信息相对应地存储到存储部，由此接受该语音的输入;提示部，其提示与由上述接受部接受的语音对应的短语；以及判断部，其在由上述提示部提示与先输入的第1 语音对应的第1短语之前输入了第2语音的情况下，根据上述存储部中存储的1个以上的属性信息中的至少1个判断是否需要上述第1短语的提示。[〇〇15] 发明效果
[0016]根据本发明的一个方式，能实现如下效果:在接连输入语音的情况下，也能实现与发话者的自然对话。【附图说明】
[0017]图1是示出本发明的实施方式1?5的对话机器人和服务器的主要部分构成的图。
[0018]图2是概略示出本发明的实施方式1?5的对话系统的示意图。
[0019]图3的(a)是示出实施方式1的语音管理表的具体例的图，(b)是示出实施方式1的阈值的具体例的图，(c)是示出语音管理表的其它具体例的图。
[0020]图4是示出实施方式1的对话系统中的处理流程的流程图。
[0021]图5的(a)?(c)是示出实施方式2的语音管理表的具体例的图，(d)是示出实施方式2的阈值的具体例的图。[〇〇22]图6的(a)?(c)是示出上述语音管理表的具体例的图。
[0023]图7是示出实施方式2的对话系统中的处理流程的流程图。
[0024]图8的(a)是示出实施方式3的语音管理表的具体例的图，(b)是示出实施方式3的发话者DB的具体例的图。
[0025]图9是示出实施方式3的对话系统中的处理流程的流程图。
[0026]图10的(a)是示出实施方式4的语音管理表的其它具体例的图，(b)是示出实施方式4的阈值的具体例的图，(c)是示出实施方式4的发话者DB的具体例的图。
[0027]图11是示出实施方式4的对话系统中的处理流程的流程图。
[0028]图12是示出实施方式4中的对话机器人和服务器的主要部分构成的其它例的图。【具体实施方式】 [〇〇29]《实施方式1》
[0030]根据图1?图4说明本发明的实施方式1。
[0031]〔对话系统的概要〕
[0032]图2是概略示出对话系统300的示意图。如图2所示，对话系统(信息处理系统)300 包括对话机器人(信息处理装置)1〇〇和服务器(外部装置)200。根据对话系统300,发话者将使用自然语言的语音(例如语音la、语音lb……)输入对话机器人100,收听(或者阅读)作为其响应的从对话机器人100提示的短语(例如短语4a、短语4b……)。由此，发话者能与对话机器人100进行自然对话，得到各种信息。具体地说，对话机器人100是响应于发话者发出的语音而对该发话者提示规定的短语(答复语)的装置。发挥作为对话机器人100的功能的本发明的信息处理装置只要是能输入语音，能基于所输入语音提示上述规定的短语的机器即可，不限于对话机器人(例如，上述对话机器人100也能利用平板终端、智能电话、个人计算机等实现)。
[0033]服务器200是响应于发话者对对话机器人100发出的语音，向对话机器人100提供短语从而对该发话者提示规定的短语的装置。此外，如图2所示，对话机器人100和服务器 200相连接，能按规定的通信方式通过通信网5进行通信。
[0034]在本实施方式中，作为一个例子，对话机器人100具有识别所输入的语音的功能，将语音识别结果作为请求2发送到服务器200,由此向服务器200请求与该语音对应的短语。服务器200根据从对话机器人100发送的语音识别结果，生成与它对应的短语，将生成的短语作为回应3返回给对话机器人100。此外，短语的生成方法没有特别限定，也可以采用现有的技术。例如，能从与语音识别结果相对应地保存于存储部的短语集取得适当的短语，或者从保存于存储部的短语的素材集将符合语音识别结果的素材适当地组合，由此生成与语音对应的短语。
[0035]以下说明将用对话机器人100进行语音识别的对话系统300用作具体例来说明本发明的信息处理装置的功能，但这只不过是用于说明的一个例子，不限定本发明的信息处理装置的构成。[〇〇36]〔对话机器人的构成〕[〇〇37]图1是示出对话机器人100和服务器200的主要部分构成的图。对话机器人100具备控制部10、通信部11、存储部12、语音输入部13以及语音输出部14。[〇〇38] 通信部11通过沿用规定的通信方式的通信网5与外部装置(服务器200等)进行通信。只要具备实现与外部装置的通信的本质功能即可，不限定通信线路、通信方式或者通信介质等。例如，通信部11能用以太网(注册商标)适配器等设备构成。另外，通信部11例如能利用IEEE802.1l无线通信、蓝牙(注册商标)等通信方式、通信介质。在本实施方式中，通信部11至少包括:向服务器200发送请求2的发送部；以及从服务器200接收回应3的接收部。
[0039]语音输入部13由从对话机器人100的周围采集语音(发话者的语音la、lb……等) 的麦克风构成。从语音输入部13采集的语音被变换为数字信号输入语音识别部20。语音输出部14由将在控制部10的各部处理并输出的短语(例如，短语4a、4b……)变换为声音而向外部输出的扬声器构成。语音输入部13和语音输出部14也可以分别内置于对话机器人100，也可以通过外部连接端子而外置，也可以是可通信地连接。
[0040]存储部 12包括R0M(Read Only Memory:只读存储器)、NVRAM(Non_Volat i 1 e Random Access Memory:非挥发性存储器)、闪存等非易失性的存储装置，在实施方式1中，保存有语音管理表40a和阈值41a(例如图3)。
[0041]控制部10统一控制对话机器人100所具有的各种功能。控制部10的功能模块至少包括输入管理部21、输出与否判断部22和短语输出部23,根据需要包括语音识别部20、短语请求部24和短语接收部25。功能模块能通过如下方式实现:由CPU(Central Processing Unit:中央处理单元)等将存储于非易失性的存储装置(存储部12)的程序读出到未图示的 RAM(Random Access Memory:随机存取存储器)等来执行。[〇〇42]语音识别部20对通过语音输入部13输入的语音的数字信号进行解析，将语音内的术语变换为文本数据。上述文本数据作为语音识别结果由对话机器人100或者服务器200下游的各部处理。语音识别部20只要适当采用公知的语音识别技术即可。[〇〇43]输入管理部(接受部)21管理由发话者输入的语音及其输入履历。具体地说，输入管理部21针对输入的语音，将能唯一确定该语音的信息(例如，语音ID、上述语音识别结果或者语音的数字信号(以下称为语音数据))和表示该语音的属性的属性信息(在图3中详述)中的至少1个相对应，一起保存于语音管理表40a。
[0044]输出与否判断部(判断部)22判断是否将对所输入的语音的答复(以下称为短语) 输出到后述的短语输出部23。具体地说，输出与否判断部22在语音被接连输入的情况下，根据由输入管理部21按每个语音赋予的属性信息判断是否需要短语的输出。由此，在非一问一答的交流方式而是发生多个语音不等待逐一答复而接连输入对话机器人100的状况的对话中，省略不必要的短语的输出，能维持对话的自然流畅。
[0045]短语输出部(提示部)23根据输出与否判断部22的判断，用发话者能认知的形式提示与发话者输入的语音对应的短语，不提示由输出与否判断部22判断为不需要输出的短语。作为提示短语的方法的一个例子，短语输出部23将文本形式的短语变换为语音数据，输出到语音输出部14,用声音使发话者认知。但是不限于此，短语输出部23也可以构成为将文本形式的短语输出到未图示的显示部，将该短语作为文字供发话者视觉识别。
[0046]短语请求部(请求部)24向服务器200请求与输入对话机器人100的语音对应的短语。作为一个例子，短语请求部24将包含上述语音识别结果的请求2通过通信部11发送到服务器200。[〇〇47]短语接收部(接收部)25接收从服务器200提供的短语。具体地说，短语接收部25接收与请求2对应地从服务器200发送的回应3。短语接收部25分析回应3的内容，通知输出与否判断部22接收到了与哪个语音对应的短语，并且将接收到的短语提供给短语输出部23。 [〇〇48]〔服务器的构成〕[〇〇49] 如图1所示，服务器200具备控制部50、通信部51和存储部52。通信部51基本上是与通信部11同样的构成，与对话机器人100进行通信。通信部51至少包括:从对话机器人100接收请求2的接收部；以及向对话机器人100发送回应3的发送部。存储部52基本上是与存储部 12同样的构成，存储服务器200所处理的各种信息(短语集或者短语素材集80等)。
[0050]控制部50统一控制服务器200所具有的各种功能。控制部50包括作为功能模块的短语请求接收部60、短语生成部61和短语发送部62。功能模块例如能通过如下方式实现:由 CPU等将存储于非易失性的存储装置(存储部52)程序读出到未图示的RAM等而执行。短语请求接收部(接受部)60从对话机器人100接收请求短语的请求2。短语生成部(生成部)61根据接收到的请求2中包含的语音识别结果生成与该语音对应的短语。短语生成部61从短语集或者短语素材集80取得与语音识别结果相对应的短语或者短语的素材从而能以文本形式生成短语。短语发送部(发送部)62将包含所生成的短语的回应3发送到对话机器人100作为对请求2的响应。[〇〇511〔关于信息〕[〇〇52]图3的(a)是示出存储部12中存储的实施方式1的语音管理表40a的具体例的图， (b)是示出存储部12中存储的实施方式1的阈值41a的具体例的图。另外，(c)是示出语音管理表40a的其它具体例的图。图3是为了易于理解而示出由对话系统300处理的信息的一个具体例，不限定对话系统300的各装置的构成。另外，在图3中，以表形式表示信息的数据结构是一个例子，不意味着将该数据结构限定为表形式。以后，在用于说明数据结构的其它图中也同样。[〇〇53]参照图3的(a)，实施方式1的对话机器人100所保持的语音管理表40a是针对所输入的1个语音至少与用于识别该语音的语音ID和属性信息相对应而保存的结构。如图3的 (a)所示，语音管理表40a也可以还保存所输入的语音的语音识别结果和与该语音对应的短语。另外，虽未图示，语音管理表40a也可以除了(或者代替)语音ID、语音识别结果和短语，还保存所输入的语音的语音数据。语音识别结果由语音识别部20生成，用于由短语请求部 24生成请求2。短语由短语接收部25接收，由短语输出部23进行处理。
[0054]在实施方式1中，属性信息包括输入时刻和提示准备完成时刻。输入时刻指语音被输入的时刻。作为一个例子，输入管理部21取得用户发出的语音被输入语音输入部13的时刻作为输入时刻。或者，输入管理部21也可以取得语音识别部20将语音识别结果保存到语音管理表40a的时刻作为输入时刻。提示准备完成时刻指在对话机器人100中取得与所输入的上述语音对应的短语，成为能输出该短语的状态的时刻。作为一个例子，输入管理部21取得短语接收部25从服务器200接收到上述短语的时刻作为提示准备完成时刻。
[0055]根据输入时刻和提示准备完成时刻，按每个输入的语音算出从语音输入到能输出对应的短语为止所需的时间。上述所需时间也可以作为属性信息的一部分由输入管理部21 保存于语音管理表40a。或者也可以构成为输出与否判断部22根据输入时刻和提示准备完成时刻，按照需要来算出所需时间。输出与否判断部22将上述所需时间用于判断是否需要短语的输出。[〇〇56] 考虑如果对话机器人100答复用户自己的呼叫需要时间而在对话中出现空隙，则用户会关于其它话题接连输入语音的情况。参照图3的(a)具体地进行说明。在由短语输出部23输出与先输入的第1语音(Q002)对应的第1短语“今天晴朗哦。”之前输入了第2语音 (Q003)。在这种情况下，输出与否判断部22使用对应的第1语音的所需时间来判断是否需要上述第1短语的输出。更详细地说，存储部12中保存有阈值41a(图3的(b)所示的例子中为5 秒)。输出与否判断部22算出第1语音的所需时间为提示准备完成时刻(7:00:17)-输入时刻 (7:00:10) =7秒，与阈值41a(5秒)进行比较。然后，在所需时间超过阈值41a的情况下，判断为不需要输出第1短语。也就是说，输出与否判断部22判断为不需要输出与第1语音(Q002) 对应的第1短语。因此，短语输出部23中止“今天晴朗哦。”的输出。由此，能避免在从输入“今天天气如何?”起经过长时间(7秒)后再输入不同话题的第2语音“那么今天几号? ”后，输出不自然的响应“今天晴朗哦。”的情况。此外，在上述第1短语被省略后，没有接着输入其它语音前，对话机器人100与上述第2语音对应地输出“是15日哦。”等第2短语来继续进行与用户的对话。[〇〇57]另一方面，考虑用户会关于同一个话题以非常短的间隔接连输入2个语音的情况。参照图3的(c )，具体说明其它例子。在由语音输出部23输出与先输入的第1语音(Q002)对应的第1短语之前，第2语音(Q003)被输入。在这种情况下，输出与否判断部22使用第1语音的所需时间来判断是否需要第1短语的输出。在图3的(c)所示的具体例中，所需时间为3秒。所需时间不超过阈值41a(5秒)，因此输出与否判断部22判断为需要输出第1短语。由此，短语输出部23在第2语音“然后明天的天气呢?”输入后也会输出第1短语“今天晴朗哦。”。第1语音“今天天气如何? ”输入后没过多久(仅3秒)，并且以短间隔接连输入的第2语音也是同样的天气话题。因此，在第2语音输入后输出第1短语也不会不自然。此外，此后，在没有接下来输入其它语音之前，对话机器人100与上述第2语音对应地输出“明天是多云哦。”等短语来继续进行与用户的对话。
[0058]〔处理流程〕[〇〇59]图4是示出实施方式1的对话系统300中的各装置的处理流程的流程图。在对话机器人100中，当从语音输入部13输入发话者的语音时(S101中为是)，语音识别部20输出该语音的语音识别结果(S102)。输入管理部21取得输入上述语音的输入时刻Ts(S103)，将上述输入时刻与确定所输入的语音的信息(语音ID、上述语音识别结果或者语音数据)相对应地存储于语音管理表40a(S104)。另一方面，短语请求部24生成包含上述语音识别结果的请求 2,发送到服务器200,向服务器200请求与输入的上述语音对应的短语(S105)。
[0060]此外，为了在从服务器200接到短语时能简易并且准确地确定是与哪个语音对应的短语，优选在请求2中包含语音ID。另外，在语音识别部20被设于服务器200的情况下，省略S 102,生成包含语音数据的请求2,语音数据代替语音识别结果。[0061 ]在服务器200中，当短语请求接收部60接收请求2时(S 106中为是)，短语生成部61 根据请求2中包含的语音识别结果生成与输入的语音对应的短语(S 107)。短语发送部62将包含生成的短语的回应3发送到对话机器人100(S108)。在此，优选短语发送部62将上述语音ID包含于回应3。[〇〇62]在对话机器人100中，当短语接收部25接收回应3时(S 109中为是)，输入管理部21 取得回应3的接收时刻作为提示准备完成时刻Te，与语音ID相对应地存储到语音管理表40a (S110)〇
[0063]接下来，输出与否判断部22判断在接收回应3中包含的短语前(或者短语输出部23 输出该短语以前)是否新输入了其它的语音(S111)。具体地说，输出与否判断部22参照语音管理表40a(图3的(a))，判断是否存在比与接收到的短语(例如，“今天晴朗哦。”)对应的语音(Q002)的输入时刻(7:00:10)靠后输入并且比上述短语的提示准备完成时刻(7:00:17) 靠前输入的语音。在存在满足条件的语音(图3的(a)的例子中，为Q003的语音)的情况下 (S111中为是)，输出与否判断部22读出与在S109中接收到的语音ID对应的输入时刻Ts和提示准备完成时刻Te，取得答复所需时间Te_Ts(S112)。
[0064]输出与否判断部22将阈值41a与上述的所需时间进行比较，在所需时间不超过阈值41a的情况下(S113中为否)，判断为需要输出上述接收到的短语(S114)。短语输出部23根据上述需要输出的判断，输出接收到的与语音ID对应的上述短语(S116)。另一方面，在所需时间超过阈值41a的情况下(S113中为是)，判断为不需要输出上述接收到的短语(SI 15)。短语输出部23根据上述不需要输出的判断，不输出接收到的与语音ID对应的上述短语。在此判断为不需要输出的短语可以由输出与否判断部22从语音管理表40a删除，也可以与未图示的不需要输出的标志一起保存下去。
[0065]此外，在不存在满足S111的条件的语音的情况下(S111中为否)，一问一答的交流成立，不用判断是否需要输出。因此在这种情况下，只要短语输出部23输出在S109中接收到的短语即可(S116)。
[0066]《实施方式2》[〇〇67]〔对话机器人的构成〕[〇〇68]根据图1、图5?图7说明本发明的实施方式2。此外，为了便于说明，对具有与在上述实施方式中说明的构件相同的功能的构件标注相同的附图标记，省略其说明。在以后的实施方式中也同样。首先，以下说明图1所示的实施方式2的对话机器人100中与实施方式1的对话机器人100不同的点。存储部12中保存有语音管理表40b来代替语音管理表40a，保存有阈值41b来代替阈值41a。图5的(a)?(c)和图6的(a)?(c)是示出实施方式2的语音管理表40b的具体例的图，图5的(d)是示出实施方式2的阈值41 b的具体例的图。[〇〇69]实施方式2的语音管理表40b与实施方式1的语音管理表40a不同，是保存作为属性信息的接受顺序的结构。接受顺序表明语音输入的顺序，数字越小意味着越早输入。因此，在语音管理表40b中，接受顺序的值最大的语音被确定为最新的语音。在实施方式2中，输入管理部21在语音输入时，将该语音的语音ID与接受顺序相对应地保存到语音管理表40b。输入管理部21在对语音赋予接受顺序后，递增1来使下一个语音输入具备最新的接受顺序。
[0070]此外，图5和图6所示的语音管理表40b中包含的“输出结果” 一栏是为了容易理解发明而记载的，在语音管理表40b中不一定要包含上述栏。此外，输出结果的“已”表示判断为与语音对应的短语需要输出而已经输出，空栏表示短语尚未准备好(无法输出)，“不需要输出”表示短语的准备已完成但是判断为不需要输出而没有输出的情况。在用语音管理表 40b管理输出结果的情况下，该栏由输出与否判断部22更新即可。
[0071]在实施方式2中，输出与否判断部22算出要判断是否需要短语输出的对象语音的接受顺序Nc与最新的语音的接受顺序Nn的差作为新鲜度。新鲜度是将对象语音和所对应的短语的收发的新旧数值化得到的，新鲜度的值(上述差)越大，意味着在时间序列上为越旧的收发。然后，输出与否判断部22将新鲜度用于判断是否需要短语的输出。
[0072]具体地说，新鲜度足够大表示在对象语音输入后到最新的语音输入之间，进行了多次对话机器人100与发话者的收发(至少是从发话者向对话机器人100的呼叫)。因此，在对象语音被输入的时点到当前时点(对话的最新的时点)之间，认为话题切换又经过了足够的时间。也就是说，对象语音和对应的短语的内容不符合最新的收发的内容而变旧的可能性高。输出与否判断部22控制短语输出部23,不输出根据新鲜度判断为答复过旧的短语，能维持对话的自然流畅。另一方面，在新鲜度足够小的情况下，对象语音和所对应的短语的内容与最新的收发的内容没怎么变的可能性高。因此，输出与否判断部22判断为输出上述短语也不会损害对话的流畅，许可短语输出部23输出该短语。
[0073]首先，参照图5的(a)?(d)具体说明判断为需要输出短语的情形。3个语音(Q002? Q004)没有等待对话机器人100的答复而接连输入。输入管理部21对这3个语音依次赋予接受顺序，与语音识别结果一起进行保存(图5的(a))。其中，最早由短语接收部25接收到的是与Q003的语音对应的短语“是30日哦。”(图5的(b))。在此，对象语音是Q003的语音，输出与否判断部22对所对应的上述短语判断是否需要输出。输出与否判断部22读出最新的接受顺序Nn (图5的(b)的时点中为4)和对象的接受顺序Nc (3 )，根据它们的差“4-3”算出新鲜度 “1”。输出与否判断部22将图5的(d)所示的阈值41b“2”与新鲜度“1”进行比较，判断为新鲜度未超过阈值。即，新鲜度的值足够小，收发没有多到认为切换了话题的程度，输出与否判断部22判断为需要输出上述短语“是30日哦。”。根据该判断，短语输出部23输出上述短语 (图 5的(c))。
[0074]接下来，参照图6的(a)?(d)具体说明判断为不需要输出短语的情形。在输出了与上述Q003的语音对应的短语之后，尚未输出与Q002的语音对应的短语之前，由用户又输入了Q005的语音(图6的(a))。此后，由短语接收部25接收到与Q002的语音对应的短语“晴朗哦。”(图6的(b))。输出与否判断部22如下判断是否需要对象语音Q002的上述短语的输出。输出与否判断部2 2读出最新的接受顺序Nn (图6的(b)的时点中为5)和对象的接受顺序Nc ⑵，根据它们的差“5-2”算出新鲜度“3”。输出与否判断部22将阈值41 b (图5的⑷的例子中为2)与新鲜度“3”进行比较，判断为新鲜度超过阈值。即，新鲜度的值足够大，收发多到认为切换了话题的程度，输出与否判断部22判断为不需要输出上述短语“晴朗哦。”(图6的(c))。按照该判断，短语输出部23中止上述短语的输出。由此，能避免尽管在对话的最新的时点关于今日的事件提出了话题，而在该时点从对话机器人100输出关于天气的话题的短语的情况。[〇〇75]〔处理流程〕[〇〇76]图7是示出实施方式2的对话系统300中的各装置的处理流程的流程图。[〇〇77]在对话机器人100中，与实施方式1同样，语音被输入，对语音进行识别(S201， S202)。输入管理部21对上述语音赋予接受顺序(S203)，将上述接受顺序与上述语音的语音 ID(或者语音识别结果)相对应地存储到语音管理表4013(3204)。3205?S209与实施方式1的 S105?S109是同样的。[〇〇78]输入管理部21将在S209中接收到的短语与同样接收到的语音ID相对应地保存到语音管理表40b(S210)。在语音管理表40b中没有保存短语的栏的情况下，也可以省略S210。或者，上述短语也可以不保存到语音管理表40b(存储部12)，而是暂时保存到作为挥发性存储装置的未图示的临时存储部。
[0079]接下来，输出与否判断部22判断在接收回应3中包含的短语之前是否新输入了其它的语音(S211)。具体地说，输出与否判断部22参照语音管理表40b(图5的(b))判断与接收到的短语对应的对象语音的接受顺序是否最新。如果对象语音不是最新的语音(S211中为是)，则输出与否判断部22读出最新的语音的接受顺序Nn和对象语音的接受顺序Nc，算出对象语音及其短语的新旧，也就是说，算出新鲜度Nn-Nc(S212)。
[0080]输出与否判断部22将阈值41b与新鲜度进行比较，在新鲜度未超过阈值41b的情况下(S213中为否)，判断为需要输出上述接收到的短语(S214)。另一方面，在新鲜度超过阈值 41b的情况下(S213中为是)，判断为不需要输出上述接收到的短语(S215)。以后的处理 (S211中为否和S216)与实施方式1(S111中为否和S116)同样。此外，阈值41b是大于等于0的数值。
[0081]〔变形例〕[〇〇82]也可以在上述实施方式2中省略图7的S211所示的处理。根据该构成，基于以下理由，能得到与上述实施方式2中的图7所示的处理同样的结果。[〇〇83]在执行图7的S212所示的处理的时点，在接收回应3前未输入其它语音的情况下，最新的语音的接受顺序Nn与对象语音的接受顺序Nc相等。即，新鲜度为0。因此，新鲜度不超过作为〇以上的数值的阈值42b(S213中为否)，因此判断为需要输出回应3中包含的短语 (S214)。即，与在图7的S211所示的处理中判断为对象语音是最新的语音的情况(S211中为否)同样，输出回应3中包含的短语。
[0084]另外，在执行图7的S212所示的处理的时点，在对象语音不是最新的语音的情况下，执行图7的S212以后的处理。这是与在图7的S211所示的处理中判断为对象语音不是最新的语音的情况(S211中为是)同样的处理。
[0085]因此，在上述的构成中，在与对象语音对应的回应3中包含的短语被短语输出部23提示前输入了最新的语音的情况下，由输出与否判断部22根据上述存储部中存储的语音的接受顺序判断是否需要提示回应3中包含的短语。[〇〇86]《实施方式3》[〇〇87]〔对话机器人的构成〕
[0088]根据图1、图8和图9说明本发明的实施方式3。首先，以下说明图1所示的实施方式3 的对话机器人100中与实施方式1和2的对话机器人100不同的点。存储部12中保存有语音管理表40c来代替语音管理表40a、b。在实施方式3中，不保存阈值41a、b。在实施方式3中，存储部12中保存有发话者数据库(DB)42c。图8的(a)是示出实施方式3的语音管理表40c的具体例的图，图8的(b)是示出实施方式3的发话者DB42c的具体例的图。[〇〇89]实施方式3的语音管理表40c与实施方式1和2的语音管理表40不同，是保存作为属性信息的发话者信息的结构。发话者信息是确定发出了语音的发话者的信息。发话者信息只要是能唯一识别发话者的信息即可，可以是任何信息。例如发话者信息能使用发话者ID、发话者姓名或者发话者的头衔或者昵称(父、母、兄、某某)等。
[0090]在实施方式3中，输入管理部21具有确定输入的语音的发话者的功能，作为发话者确定部而发挥功能。作为一个例子，输入管理部21解析所输入的语音的语音数据，根据声音的特征确定发话者。如图8的(b)所示，发话者DB42c中与发话者信息相对应地登记有声音的样本数据420。输入管理部21将输入的语音的语音数据与各样本数据420进行比较，确定该语音的发话者。或者，在对话机器人100具备照相机的情况下，输入管理部21也可以将照相机所取得的发话者的视频与发话者的脸的样本数据421进行比较，通过脸识别来确定发话者。此外，确定上述发话者的方法可以采用已经公知的技术，省略确定方法的详细说明。
[0091]在实施方式3中，输出与否判断部22根据对象语音的发话者信息Pc与最新的语音的发话者信息Pn是否一致来判断是否需要输出与对象语音对应的短语。参照图8的(a)进行具体说明。设为在对话机器人100中，在接连输入语音Q002和Q003后，从服务器200接收到与语音Q002对应的短语。根据图8的(a)所示的语音管理表40c，对象语音Q002的发话者信息Pc 为“B先生”，最新的语音Q003的发话者信息Pn为“A先生”。发话者信息Pc与发话者信息Pn不一致，因此输出与否判断部22判断为不需要输出与对象语音Q002对应的短语“晴朗哦。”。另一方面，在最新的发话者信息Pn是“B先生”的情况下，对象的发话者信息Pc与上述最新的发话者信息Pn—致，因此输出与否判断部22判断为需要输出上述短语。[〇〇92]〔处理流程〕
[0093]图9是示出实施方式3的对话系统300中的各装置的处理流程的流程图。在对话机器人100中，与实施方式1和2同样，语音被输入，对语音进行识别(S301，S302)。输入管理部 21参照发话者DB42c确定语音的发话者(S303)，将所确定的发话者的发话者信息与上述语音的语音ID(或者语音识别结果)相对应地存储到语音管理表40〇(3304)。3305?S310与实施方式2的S205?S210是同样的。[〇〇94]当接收从服务器200提供的短语，保存到语音管理表40c时，接下来，输出与否判断部22判断在接收回应3中包含的短语之前是否新输入了其它的语音(S311)。具体地说，输出与否判断部22参照语音管理表40c(图8的(a))，判断在与接收到的短语对应的对象语音 (Q002)之后是否有新输入的语音。在有满足条件的语音(Q003)的情况下(S311中为是)，输出与否判断部22读出对象语音的发话者信息Pc和最新的语音的发话者信息Pn，对它们进行比较(S312)。[〇〇95]输出与否判断部22在发话者信息Pc与发话者信息Pn—致的情况下(S313中为是)，判断为需要输出上述接收到的短语(S314)。另一方面，在发话者信息Pc与发话者信息Pn不一致的情况下(S313中为否)，判断为不需要输出上述接收到的短语(S315)。以后的处理 (S311中为否和S316)与实施方式2(S211中为否和S216)是同样的。[〇〇96]《实施方式4》[〇〇97]〔对话机器人的构成〕
[0098]根据图1、图10?图12说明本发明的实施方式4。首先，以下说明图1所示的实施方式4的对话机器人100中与实施方式3的对话机器人100不同的点。存储部12还保存阈值41 d，并且保存发话者DB42d来代替发话者DB42c。此外，语音管理表与实施方式3同样保存为语音管理表40c(图8的(a))。但是，也可以保存语音管理表40d(图10的(a))来代替语音管理表 40c。图10的(a)是示出实施方式4的语音管理表的其它具体例(语音管理表40d)的图，图10 的(b)是示出实施方式4的阈值41d的具体例的图，图10的(c)是示出实施方式4的发话者 DB42d的具体例的图。
[0099]在实施方式4中，与实施方式3同样，输入管理部21将所确定的发话者的发话者信息作为属性信息与语音相对应地存储到语音管理表40c。或者在其它例子中也可以是如下构成:输入管理部21还从图10的(c)所示的发话者DB42d取得与所确定的发话者相对应的关系值，将该关系值作为属性信息与语音相对应地存储到语音管理表40d(图10的(a))。
[0100]关系值是用数值来表示对话机器人100与发话者的关系的值。关系值是将对话机器人100与发话者之间或者对话机器人100的所有者与发话者之间的关系性套用规定的计算式或者换算规则而算出的。利用上述关系值来使对话机器人100与发话者的关系客观地定量化。即，输出与否判断部22能利用关系值，根据对话机器人100与发话者的关系性判断是否需要短语的输出。在实施方式4中，一个例子是将对话机器人100与发话者亲密性数值化得到的亲密度用作关系值。亲密度是根据是否是对话机器人100的所有者，或者与对话机器人100进行对话的频度等而预先算出的，如图10的(c)所示，与每个发话者相对应地存储。此外，在图示的例子中，亲密度的数值越大，表示对话机器人100与发话者的关系越亲密。但是并不局限于此，也能将亲密度设定为数值越小则关系越亲密。
[0101]在实施方式4中，输出与否判断部22将与对象语音的发话者相对应的关系值Rc与阈值41d进行比较，根据比较结果判断是否需要输出与对象语音对应的短语。参照图8的 (a)、图10的(b)和(c)具体进行说明。设为在对话机器人100中，在语音Q002和Q003接连输入后，从服务器200接收与语音Q002对应的短语。根据图8的(a)所示的语音管理表40c，对象语音Q002的发话者信息Pc为“B先生”。因此，输出与否判断部22从发话者DB42d(图10的(c))，取得与发话者信息“B先生”相对应的亲密度“50”。输出与否判断部22将上述亲密度与阈值 41d(图10的(b)中为“60”)进行比较。上述亲密度不到阈值。也就是说，判明了对象语音的发话者“B先生”与对话机器人100的关系不亲密。因此，输出与否判断部22判断为不需要输出与不亲密的B先生的语音(对象语音Q002)对应的短语“晴朗哦。”。另一方面，在对象语音 Q002的发话者为“A先生”的情况下，取得对应的亲密度“100”。由此，上述亲密度超过阈值 “60”，判明了对象语音的发话者“A先生”与对话机器人100的关系亲密。因此，输出与否判断部22判断为需要输出上述短语。
[0102]〔处理流程〕
[0103]图11是示出实施方式4的对话系统300中的各装置的处理流程的流程图。在对话机器人100中，S401?S411与实施方式3的S301?S311是同样的。此外，在存储部12中是保存语音管理表40d(图10的(a))而非语音管理表40c的构成，输入管理部21在S404中，将在S403中确定的发话者的关系值(亲密度)作为属性信息保持于语音管理表40d来代替发话者信息。
[0104]在S411中存在满足条件的语音(图8的(a)中为Q003)的情况下(S411中为是)，输出与否判断部22从发话者DB42d取得与对象语音的发话者信息Pc相对应的关系值Rc(S412)。 [〇1〇5]输出与否判断部22将阈值41d与关系值Rc进行比较，在关系值Rc(亲密度)超过阈值41d的情况下(S413中为否)，判断为需要输出在S409中接收到的短语(S414)。另一方面，在关系值Rc不到阈值41d的情况下(S413中为是)，判断为不需要输出上述接收到的短语 (S415)。以后的处理(S411中为否和S416)与实施方式3(S311中为否和S316)是同样的。 [〇1〇6]《实施方式5》
[0107]在上述的各实施方式1?4中，输出与否判断部22构成为在接连输入多个语音的情况下，对在先的语音判断是否需要与该语音对应的短语的输出。在实施方式5中，进一步优选输出与否判断部22在判断为需要输出与上述在先语音对应的短语的情况下，对在后语音未完成短语的输出的情况下，在输出在先语音的基础上，还判断是否需要与该在后语音对应的短语的输出。是否需要输出的判断与各实施方式1?4同样，用与对在先语音进行的判断同样的方法执行即可。
[0108]根据上述构成，能解决以下的问题。例如有时会有在先的第1语音、在后的第2语音接连输入的情况，假定在输出(决定为输出)针对第1语音的第1短语的情况下，然后如果输出针对第2语音的第2短语会导致对话变得不自然的情况。在实施方式1?4的构成中，只要接下来没有接连输入第3语音，就不会判断是否需要第2短语的输出，因此无法可靠地避免上述不自然的对话。
[0109]因此，在实施方式5中，在输出了针对第1语音的第1短语的情况下，即使没有第3语音的输入，也会判断是否需要与第2语音对应的短语的输出。由此，能避免在第1短语输出后必定输出第2短语的情况。因此，能根据状况省略不自然的短语的输出，能进一步实现发话者与对话机器人100的自然对话。
[0110]《变形例》
[0111]〔关于语音识别部20〕
[0112]设于对话机器人100的语音识别部20也可以设于服务器200。在这种情况下，语音识别部20在服务器200的控制部50中设置在短语请求接收部60与短语生成部61之间。另外，在这种情况下，在对话机器人100的语音管理表40(a?d)中，不保存所输入的语音的语音识别结果，而是保存语音ID和语音数据以及属性信息。并且，在服务器200的第2语音管理表81 (a?d)中，按输入的每个语音保存语音ID、语音识别结果和短语。具体地说，短语请求部24 将输入的语音作为请求2发送到服务器200,短语请求接收部60进行语音识别，短语生成部 61进行与该语音识别结果相符的短语的生成。在具有上述构成的对话系统300中，也能得到与上述各实施方式同样的效果。
[0113]〔关于短语生成部61〕
[0114]而且，对话机器人100也能构成为不与服务器200进行通信，而在本地生成短语的对话机器人100。即，设于服务器200的短语生成部61也可以设置于对话机器人100。在这种情况下，短语集或者短语素材集80保存于对话机器人100的存储部12。另外，在对话机器人 100中能省略通信部11、短语请求部24和短语接收部25。即，对话机器人100能单独实现短语的生成和控制本发明的对话的方法。
[0115]〔关于输出与否判断部22〕
[0116]在实施方式4中，设于对话机器人100的输出与否判断部22也可以设于服务器200。图12是示出实施方式4中的对话机器人100和服务器200的主要部分构成的其它例的图。在图12所示的本变形例的对话系统300中，与实施方式4的对话系统300不同的点如下。对话机器人100的控制部10不具备输出与否判断部22,而服务器200的控制部50具备输出与否判断部(判断部)63。阈值41d被保存于存储部52而非保存于存储部12。而且，存储部52中保存有发话者DB42e。发话者DB42e具有将发话者信息和关系值相对应地进行保存的数据结构。而且，存储部52中保存有第2语音管理表81c(或者81d)。在本变形例中，第2语音管理表81c按所输入的每个语音保存语音ID、语音识别结果和短语，还具有将各语音的属性信息(发话者信息)相对应地保存的数据结构。
[0117]对话机器人100不判断是否需要短语的输出，因此存储部12不需要保持每个发话者的关系值。因此，存储部12保存发话者DB42c(图8的b))来代替发话者DB42d(图10的(c)) 即可。此外，在将输入管理部21所具有的确定发话者的功能(发话者确定部)设于服务器200 的情况下，存储部12也可以不保存发话者DB42c。
[0118]在本变形例中，当向对话机器人100输入语音时，输入管理部21参照发话者DB42c 确定该语音的发话者，将该发话者信息提供给短语请求部24。短语请求部24将包含从语音识别部20提供的上述语音的语音识别结果以及从输入管理部21提供的上述语音的语音ID 和发话者信息的请求2发送到服务器200。
[0119]短语请求接收部60将请求2中包含的语音ID、语音识别结果和属性信息(发话者信息)保存于第2语音管理表81c。短语生成部61按照接收到的上述语音识别结果生成与上述语音对应的短语。生成的短语暂时保存于第2语音管理表81c。[〇12〇]输出与否判断部63与实施方式4的输出与否判断部22同样，在参照第2语音管理表 81c判断为在生成了短语的对象语音之后输入了其它的语音的情况下，进行上述是否需要短语的输出的判断。与实施方式4同样，输出与否判断部63根据与对象语音的发话者相对应的关系值与阈值41d相比较是否满足规定的条件来判断是否需要输出。[〇121]在输出与否判断部63判断为需要输出上述短语的情况下，短语发送部62根据该判断将该短语发送到对话机器人100。另一方面，在输出与否判断部63判断为不需要输出上述短语的情况下，短语发送部62不将生成的上述短语发送到对话机器人100。在这种情况下，短语发送部62也可以将通知不需要输出该短语的意思的消息代替上述短语作为对请求2的回应3发送到对话机器人100。在具有上述构成的对话系统300中，也能得到与实施方式4同样的效果。
[0122]〔关于关系值〕
[0123]在实施方式4中，说明了输出与否判断部22将“亲密度”用作为了判断是否需要输出而利用的“关系值”的例子。但是，本发明的对话机器人100并不局限于此，也能采用其它的关系值。关系值的其它的具体例如以下列举。
[0124]“精神的距离”是将对话机器人100与发话者的亲疏关系数值化的值，值越小距离越近，意味着对话机器人100与发话者的关系越深。输出与否判断部22在与对象语音的发话者的“精神的距离”为规定阈值以上(关系不深)的情况下，判断为不需要输出与该语音对应的短语。如下设定“精神的距离”:例如对话机器人100的所有者为最小的值，接下来为按该所有者的亲戚、友人、所有者几乎不知道的他人……的顺序变大的值。因此，对于对话机器人100(或者所有者)来说关系越深的发话者，短语的答复越优先。
[0125]“物理的距离”是将对话机器人100与发话者在对话时的物理距离数值化的值。例如，输入管理部21在语音输入时根据其音量或者用照相机拍摄的发话者的大小等取得“物理的距离”，作为属性信息与语音相对应地存储到语音管理表40。输出与否判断部22在与对象语音的发话者的“物理的距离”大于等于规定阈值(从远处呼叫)的情况下，判断为不需要输出与该语音对应的短语。因此，优先对在离对话机器人100近处对话的发话者进行答复。
[0126]“类似度”是将对话机器人100中设定的假想性质与发话者的性质的类似性数值化的值。值越大意味着对话机器人1〇〇与发话者的性质越相似。例如，输出与否判断部22在与对象语音的发话者的“类似度”小于等于规定阈值(性质不相似)的情况下，判断为不需要输出与该语音对应的短语。此外，发话者的性质(性格)例如也可以根据发话者预先输入的信息(性别、年龄、职业、血型、星座等)决定，也可以代替这些或者除此以外还根据发话者的言辞、会话速度等决定。将这样决定的发话者的性质(性格)与在对话机器人100中预先设定的假想性质(性格)进行比较，根据规定的计算式求出类似度。通过使用这样算出的“类似度”，能对与对话机器人100性质(性格)相似的发话者优先进行短语的答复。
[0127]〔阈值的调节功能〕
[0128]在实施方式1和2中，也可以不使输出与否判断部22为了判断是否需要输出而参照的阈值41a和41b固定化，而是根据对象语音的发话者的属性而动态调节。发话者的属性能使用例如在实施方式4中采用的“亲密度”等关系值。
[0129]具体地说，输出与否判断部22为了对亲密度高的发话者放松用于判断为需要输出短语(答复)的条件而变更阈值。例如，在实施方式1中，输出与否判断部22在对象语音的发话者的亲密度为100的情况下，也可以将阈值41a的秒数从5秒延长到10秒，判断是否需要短语的输出。由此，能对与对话机器人1〇〇的关系更亲密的发话者优先进行短语的答复。[〇13〇]〔软件的实现例〕
[0131] 对话机器人100(和服务器200)的控制模块(特别是控制部10和控制部50的各部) 也可以利用形成于集成电路(1C芯片)等的逻辑电路(硬件)实现，也可以使用CPU(Central Processing Unit:中央处理单元)来通过软件实现。在后者的情况下，对话机器人100(服务器200)具备执行作为实现各功能的软件的程序的命令的CPU、由计算机(或者CPU)可读取地记录该程序和各种数据的R〇M(Read Only Memory:只读存储器)或者存储装置(将它们称为 “记录介质”)、展开上述程序的RAM(Random Access Memory:随机存取存储器)等。并且，计算机(或者CPU)从上述记录介质读取并执行上述程序，由此实现本发明的目的。上述记录介质能使用“非临时的有形介质”，例如能使用带、盘、卡、半导体存储器、可编程逻辑电路等。另外，上述程序也可以通过能传输该程序的任意的传送介质(通信网络、广播波等)提供给上述计算机。此外，本发明也能以将上述程序通过电子传输而实现的嵌入载波的数据信号的形态实现。
[0132]〔总结〕
[0133]本发明的方式1的信息处理装置(对话机器人100)是响应于用户(发话者)发出的语音而对该用户提示规定的短语的信息处理装置，具备:接受部(输入管理部21)，其将上述语音(语音数据)或者识别该语音后的结果(语音识别结果)与表示该语音的属性的属性信息相对应地存储到存储部(存储部12的语音管理表40)，由此接受该语音的输入;提示部(短语输出部23)，其提示与由上述接受部接受的语音对应的短语；以及判断部(输出与否判断部22)，其在由上述提示部提示与先输入的第1语音对应的第1短语之前输入了第2语音的情况下，根据上述存储部中存储的1个以上的属性信息中的至少1个判断是否需要上述第1短语的提示。
[0134]根据上述的构成，在第1语音和第2语音接连输入的情况下，接受部将第1语音的属性信息和第2语音的属性信息按每个语音存储到存储部。然后，在提示与第1语音对应的第1 短语之前输入了第2语音的上述的情况下，判断部根据上述存储部中存储的属性信息的中至少1个判断是否需要上述第1短语的提示。
[0135]由此，能在第2语音输入后，根据对话的状况中止提示与此前输入的第1语音对应的第1短语。在语音接连输入的情况下，根据状况，假定不答复在先语音而是继续进行在后语音以后的收发在对话中是更自然的情况。本发明的结果是能根据属性信息适当省略不自然的答复，实现用户与信息处理装置之间的更自然(类人)的对话。
[0136]在本发明的方式2的信息处理装置中，优选在上述方式1中，上述判断部在判断为需要提示上述第1短语的情况下，根据上述存储部中存储的上述属性信息中的至少1个来判断是否需要与上述第2语音对应的第2短语的提示。
[0137]根据上述构成，在第1语音和第2语音接连输入的情况下，在判断部判断为需要提示第1短语的情况下，进一步判断是否需要第2短语的提示。由此，能避免在第1短语提示后必定提示第2短语的情况。根据状况，假定在进行了对在先语音的答复后不对在后语音进行答复在对话中是更自然的情况。本发明的结果是能根据属性信息适当省略不自然的答复，实现用户与信息处理装置之间的更自然(类人)的对话。
[0138]在本发明的方式3的信息处理装置中，也可以是在上述方式1或者2中，上述接受部将上述语音输入时的输入时刻或者该语音的接受顺序包含于上述属性信息来进行存储，上述判断部使用上述输入时刻或者上述接受顺序和上述输入时刻或者用上述接受顺序决定的其它属性信息中的至少任意1个来判断是否需要短语的提示。
[0139]根据上述构成，在第1语音和第2语音接连输入的情况下，至少根据语音的输入时刻或者接受顺序或用这些属性信息决定的其它属性信息判断是否需要与这些语音对应的短语的提示。
[0140]由此，在语音输入的定时过旧才对该语音进行答复导致不自然的状况的情况下，能省略这样的答复。对话是随着时间的经过而持续进行的，对旧的输入语音经过长时间后才进行答复，或者在其后发生多次收发后才进行答复会使对话变得不自然。本发明的结果是能避免上述这样的不自然对话。
[0141]在本发明的方式4的信息处理装置中，也可以是在上述方式3中，上述判断部在从上述语音的输入时刻到由本装置生成或者从外部装置(服务器200)取得与该语音对应的短语从而能进行提示的提示准备完成时刻为止的时间(所需时间)超过规定的阈值的情况下，判断为不需要该短语的提示。
[0142]由此，在从语音输入的时点经过太长时间后才进行答复的不自然的情况下，能省略这样的答复的提示。
[0143]在本发明的方式5的信息处理装置中，也可以是在上述方式3中，上述接受部进一步将各语音的接受顺序包含于上述属性信息来进行存储，上述判断部在最新输入的语音的接受顺序(最新的语音的接受顺序Nn)与包含上述第1语音或者第2语音的在先输入的语音的接受顺序(对象语音的接受顺序Nc)的差(新鲜度)超过规定的阈值的情况下，判断为不需要对与该在先输入的语音对应的短语的提示。
[0144]由此，在先语音输入以后，接连输入多个语音(或者对该多个语音的答复变多)后才对上述在先语音进行答复的不自然的情况下，能省略这样的答复的提示。
[0145]在本发明的方式6的信息处理装置中，也可以是在方式1?5中，上述接受部将确定发出了语音的发话者的发话者信息包含于上述属性信息来进行存储，上述判断部使用上述发话者信息和用该发话者信息决定的其它属性信息中的至少任意1个来判断是否需要短语的提示。
[0146]根据上述构成，在第1语和第2语音接连输入的情况下，至少根据确定语音的发话者的发话者信息或者用发话者信息决定的其它属性信息来判断是否需要与这些语音对应的短语的提示。
[0147]由此，根据输入了语音的发话者来省略不自然的答复，能实现用户与信息处理装置的更自然的对话。对话在相同的对手之间继续是自然的。因此，使用发话者信息省略阻碍对话流畅的不自然的答复(例如，来自他人的插话)，能实现更自然的对话。
[0148]在本发明的方式7的信息处理装置中，也可以是在上述方式6中，上述判断部在包含上述第1语音或者第2语音的在先输入的语音的发话者信息(对象语音的发话者信息Pc) 与最新输入的语音的发话者信息(最新的语音的发话者信息Pn)不一致的情况下，判断为不需要与该在先输入的语音对应的短语的提示。
[0149]由此，优先进行与最新的谈话对手的对话，能避免对话的对手频繁更换交错的不自然的状况。
[0150]在本发明的方式8的信息处理装置中，也可以是在上述方式6中，上述判断部根据与上述语音的发话者信息相关联的用数值表示上述发话者与上述信息处理装置之间的关系的关系值相对于规定的阈值是否满足规定的条件来判断是否需要与该语音对应的短语的提示。[〇151]根据上述构成，根据在发话者与信息处理装置之间虚拟设定的关系性，优先对来自关系深的谈话对手的语音进行答复。由此，能避免关系浅的对手插话、对话的对手频繁更换的不自然的状况。此外，作为一个例子，上述关系值也可以是表示用户与信息处理装置之间的亲密性的亲密度。亲密度也可以例如根据用户与信息处理装置的对话频度等决定。
[0152]在本发明的方式9的信息处理装置中，也可以是在上述方式3?5中，上述接受部还将确定发出了语音的发话者的发话者信息包含于上述属性信息来进行存储，上述判断部在用上述输入时刻或者上述接受顺序算出的值(所需时间或者新鲜度)超过规定的阈值的情况下，判断为不需要该短语的提示，根据与上述语音的发话者信息相关联的用数值表示上述发话者与上述信息处理装置之间的关系的关系值来变更上述阈值。
[0153]由此，能优先进行对关系深的谈话对手的答复，并且在语音输入的定时过旧而进行答复不自然的情况下，省略该答复。[〇154]本发明的方式10的信息处理装置在方式1?9中具备:请求部(短语请求部24)，其将上述语音或者识别该语音的结果发送到外部装置，由此向上述外部装置请求与该语音对应的短语；以及接收部(短语接收部25)，其将从上述外部装置返回的短语作为对上述请求部的请求(请求2)的响应(回应3)来接收，提供给上述提示部。
[0155]本发明的方式11的信息处理系统(对话系统300)包括:信息处理装置(对话机器人 100)，其根据用户发出的语音向该用户提示规定的短语；以及外部装置(服务器200)，其将与语音对应的短语提供给上述信息处理装置，上述信息处理装置具备:请求部(短语请求部 24)，其将上述语音或者识别该语音的结果以及表示该语音的属性的属性信息发送到上述外部装置，由此向上述外部装置请求与该语音对应的短语;接收部(短语接收部25)，其将从上述外部装置发送的短语作为对上述请求部的要求(请求2)的响应(回应3)来接收；以及提示部(短语输出部23)，其提示由上述接收部接收到的上述短语，上述外部装置具备:接受部 (短语请求接收部60)，其将从上述信息处理装置发送的上述语音或者识别该语音的结果与该语音的属性信息相对应地存储到存储部(存储部52的第2语音管理表81)，由此接受该语音的输入;发送部(短语发送部62)，其将与由上述接受部接受的语音对应的短语发送到上述信息处理装置；以及判断部(输出与否判断部63)，其在由上述发送部发送与在先输入的第1语音对应的第1短语之前输入了第2语音的情况下，根据上述存储部中存储的1个以上的属性信息中的至少1个判断是否需要上述第1短语的发送。
[0156]根据方式10和方式11的构成，能得到与方式1大致同样的效果。
[0157]本发明的各方式的信息处理装置也可以利用计算机实现，在这种情况下，使计算机作为上述信息处理装置所具备的各部分(软件要素)进行动作从而用计算机实现上述信息处理装置的信息处理装置的控制程序和记录该程序的计算机可读取的记录介质也属于本发明的范畴。
[0158]本发明不限于上述各实施方式，能在权利要求所示的范围中进行各种变更，将不同的实施方式中分别公开的技术手段适当地组合得到的实施方式也包含于本发明的技术范围中。而且，也能通过将各实施方式中分别公开的技术手段组合来形成新的技术特征。
[0159]工业上的可利用性
[0160]本发明应用于能根据用户发出的语音向该用户提示规定的短语的信息处理装置和信息处理系统。
[0161]附图标记说明:
[0162]10:控制部，12:存储部，20:语音识别部，21:输入管理部(接受部)，22:输出与否判断部(判断部)，23:短语输出部(提示部)，24:短语请求部(请求部)，25:短语接收部(接收部)，50:控制部，52:存储部，60:短语请求接收部(接受部)，61:短语生成部(生成部)，62:短语发送部(发送部)，63:输出与否判断部(判断部)，100:对话机器人(信息处理装置)，200: 服务器(外部装置)，300:对话系统(信息处理系统)。
【主权项】
1.一种信息处理装置，响应于用户发出的语音对该用户提示规定的短语，其特征在于，具备:接受部，其将上述语音或者识别该语音后的结果与表示该语音的属性的属性信息相对应地存储到存储部，由此接受该语音的输入；提示部，其提示与由上述接受部接受的语音对应的短语；以及判断部，其在由上述提示部提示与先输入的第1语音对应的第1短语之前输入了第2语音的情况下，根据上述存储部中存储的1个以上的属性信息中的至少1个判断是否需要上述第1短语的提示。2.根据权利要求1所述的信息处理装置，其特征在于，上述判断部在判断为需要提示上述第1短语的情况下，根据上述存储部中存储的上述属性信息中的至少1个来判断是否需要与上述第2语音对应的第2短语的提示。3.根据权利要求1或者2所述的信息处理装置，其特征在于，上述接受部将上述语音被输入时的输入时刻或者该语音的接受顺序包含于上述属性信息来进行存储，上述判断部使用上述输入时刻或者上述接受顺序以及用上述输入时刻或者上述接受顺序决定的其它属性信息中的至少任意1个来判断是否需要短语的提示。4.根据权利要求1至3中的任意一项所述的信息处理装置，其特征在于，上述接受部将确定发出了语音的发话者的发话者信息包含于上述属性信息来进行存储，上述判断部使用上述发话者信息和用该发话者信息决定的其它属性信息中的至少任意1个来判断是否需要短语的提示。5.根据权利要求3所述的信息处理装置，其特征在于，上述接受部还将确定发出了语音的发话者的发话者信息包含于上述属性信息来进行存储，上述判断部在用上述输入时刻或者上述接受顺序算出的值超过规定的阈值的情况下，判断为不需要该短语的提示，按照与上述语音的发话者信息相关联的用数值表示上述发话者与上述信息处理装置之间的关系的关系值来变更上述阈值。
【文档编号】G10L13/00GK105960674SQ201580007064
【公开日】2016年9月21日
【申请日】2015年1月22日
【发明人】本村晓, 荻野正德
【申请人】夏普株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：本村晓;荻野正德;
技术所有人：夏普株式会社;
我是此专利的发明人

上一篇：音频信号解码器中改进的频带扩展的制作方法
上一篇：多个设备上的热词检测的制作方法