对话控制装置和对话控制方法

文档序号：9893667阅读：505来源：国知局

对话控制装置和对话控制方法
【技术领域】
[0001]本发明涉及根据所输入的自然语言进行对话并执行基于用户意图的命令的对话控制装置和对话控制方法。
【背景技术】
[0002]近年来，对人说出的言语进行语音输入并使用其识别结果来执行操作的方法受到关注。该技术被用作便携电话或汽车导航等的语音接口，基本方法如下:预先将系统假定的语音识别结果和操作对应起来，在语音识别结果是假定的语音识别结果的情况下，执行操作。该方法与现有的手动操作相比，能够通过发出语音而直接进行操作，因此，作为快捷功能而有效发挥作用。另一方面，用户需要发出系统等待的言语以执行操作，当系统处理的功能增加时，必须记忆的言语增加。并且，一般情况下，充分理解操作说明书后再使用的用户较少，其结果是，不清楚为了进行操作应该如何说出什么内容，因此，存在除了实际记忆的功能以外无法利用语音进行操作的问题。
[0003]因此，作为对其进行改良后的现有技术，作为即使用户没有记住用于达到目的的命令也能够达到目的的方法，公开有系统通过对话进行引导而达到目的的方法。作为其实现方法之一，存在如下方法:预先将对话脚本构成为树构造，从树构造的根起探寻中间节点(以后将在树构造上进行迀移的情况称作节点激活)，在到达末端节点的时点，用户达到目的。关于探寻对话脚本的树构造的哪里，针对树构造的各节点保持的关键字，根据用户的发话中包含哪个关键字来决定在该时点激活的意图的迀移终点。
[0004]进而，例如在专利文献I所记载的技术中，具有多个这种脚本，各脚本保持对该脚本赋予特征的多个关键字，由此，根据最初的用户的发话决定选择哪个脚本来进行对话。并且，公开有如下方法:在用户发话的内容与当前进行中的脚本的树构造的迀移终点均不一致的情况下，根据对多个脚本赋予的多个关键字选择其它脚本并从根起进行对话，由此切换话题。
[0005]现有技术文献
[0006]专利文献
[0007]专利文献I:日本特开2008-170817号公报

【发明内容】

[0008]发明要解决的课题
[0009]现有的对话控制装置如上所述构成，因此，在不能迀移的情况下，能够选择新的脚本。但是，例如在根据系统的功能设计而生成的树构造的脚本和表示用户假定的功能的表现不同的情况下，在选择某个脚本并利用树构造的脚本的对话中，在用户发话的内容是脚本假定外的发话的情况下，存在其它脚本的可能性，根据发话内容选择似然脚本。在发话的内容暧昧的情况下，优先选择进行中的脚本，因此，存在即使在其它脚本更加似然的情况下也不进行迀移的课题。并且，现有方法无法动态变更脚本自身，因此，存在如下课题:在根据系统的功能设计而生成的树构造的脚本与用户假定的功能构造不同时或用户误解了功能时，无法定制树构造的脚本。
[0010]本发明正是为了解决上述课题而完成的，其目的在于，得到针对假定外的输入也能够进行适当迀移并执行适当命令的对话控制装置。
[0011]用于解决课题的手段
[0012]本发明的对话控制装置具有:意图估计部，其根据将基于自然语言的输入转换成语素串而得到的数据，估计输入的意图；意图估计权重决定部，其根据将意图设为层次构造后的数据和在对象时点激活的意图，决定由意图估计部估计出的意图的意图估计权重;迀移节点决定部，其根据由意图估计权重决定部决定的意图估计权重对意图估计部的估计结果进行修正后，决定要新迀移而激活的意图；对话话轮生成部，其根据由迀移节点决定部激活后的一个或多个意图生成对话的话轮；以及对话控制部，其在通过由对话话轮生成部生成的对话的话轮被赋予了新的基于自然语言的输入的情况下，控制意图估计部、意图估计权重决定部、迀移节点决定部和对话话轮生成部进行的处理中的至少任意处理，通过反复进行该控制，最终执行所设定的命令。
[0013]发明效果
[0014]本发明的对话控制装置决定估计出的意图的意图估计权重，根据该意图估计权重对意图的估计结果进行修正后，决定要新迀移而激活的意图，因此，针对假定外的输入，也能够进行适当迀移并执行适当命令。
【附图说明】
[0015]图1是示出本发明的实施方式I的对话控制装置的结构图。
[0016]图2是示出本发明的实施方式I的对话控制装置的意图层次数据的一例的说明图。
[0017]图3是示出本发明的实施方式I的对话控制装置的对话例的说明图。
[0018]图4是示出本发明的实施方式I的对话控制装置的对话中的意图迀移的说明图。
[0019]图5是示出本发明的实施方式I的对话控制装置的意图估计结果的说明图。
[0020]图6是示出本发明的实施方式I的对话控制装置的对话脚本数据的说明图。
[0021]图7是示出本发明的实施方式I的对话控制装置的对话历史数据的说明图。
[0022]图8是示出本发明的实施方式I的对话控制装置的对话流程的流程图。
[0023]图9是示出本发明的实施方式I的对话控制装置的对话话轮生成处理的流程的流程图。
[0024]图10是示出本发明的实施方式2的对话控制装置的结构图。
[0025]图11是示出本发明的实施方式2的对话控制装置的对话例的说明图。
[0026]图12是示出本发明的实施方式2的对话控制装置的意图估计结果的说明图。
[0027]图13是示出本发明的实施方式2的对话控制装置的命令历史数据的说明图。
[0028]图14是示出本发明的实施方式2的对话控制装置的针对命令历史数据的追加处理的流程的流程图。
[0029]图15是示出本发明的实施方式2的对话控制装置的针对用户判定是否进行确认的处理的流程的流程图。
[0030]图16是示出本发明的实施方式3的对话控制装置的结构图。
[0031]图17是示出本发明的实施方式3的对话控制装置的对话例的说明图。
[0032]图18是示出本发明的实施方式3的对话控制装置的意图估计结果的说明图。
[0033]图19是示出本发明的实施方式3的对话控制装置的追加迀移链路数据的说明图。
[0034]图20是示出本发明的实施方式3的对话控制装置的追加迀移链路的变更处理的流程的流程图。
[0035]图21是示出本发明的实施方式3的对话控制装置的变更后的意图层次数据的说明图。
【具体实施方式】
[0036]下面，为了更加详细地说明本发明，根据附图对用于实施本发明的方式进行说明。
[0037]实施方式I
[0038]图1是示出本发明的实施方式I的对话控制装置的结构图。
[0039]图1所示的对话控制装置具有语音输入部1、对话控制部2、语音输出部3、语音识别部4、语素解析部5、意图估计模型6、意图估计部7、意图层次图数据8、意图估计权重决定部
9、迀移节点决定部10、对话脚本数据11、对话历史数据12、对话话轮生成部13、语音合成部14ο
[0040]语音输入部I是在对话控制装置中受理语音输入的输入部。对话控制部2是控制语音识别部4?语音合成部14进行对话并执行最终对意图分配的命令的控制部。语音输出部3是在对话控制装置中进行语音输出的输出部。语音识别部4是识别从语音输入部I输入的语音并将其转换成文本的处理部。语素解析部5是将由语音识别部4识别出的识别结果分割成语素的处理部。意图估计模型6是用于使用由语素解析部5解析出的语素解析结果来估计意图的意图估计模型的数据。意图估计部7是将由语素解析部5解析出的语素解析结果作为输入并使用意图估计模型6输出意图估计结果的处理部，输出意图和表示该意图的似然性的评分的组的列表。
[0041]例如，意图由“〈主意图〉[〈位置名>=〈位置值〉、…]”这样的形式来表现。作为例子，能够表现成“目的地设定[设施= ?]”或“目的地设定[设施=$设施$( = 〇〇拉面)]”。“目的地设定[设施= ?]”表示希望设定目的地但未决定具体设施名的状态，“目的地设定[设施=$设施$( = 〇〇拉面)]”表示希望将“〇〇拉面”这样的具体设施设定成目的地的状
??τ O
[0042]这里，意图估计部7中的意图估计方式例如能够利用最大熵法等方法。具体而言，能够利用如下方法:针对“希望设定目的地”这样的发话，给出从语素解析结果中提取出“目的地、设定”这样的独立词单词(以下称作素性)而得到的部分和正确意图“目的地设定[设施= ?]”的组，根据大量收集到的素性和意图的组，通过统计手法，针对输入素性的列表

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：藤井洋一;石井纯;
技术所有人：三菱电机株式会社;
我是此专利的发明人