对话管理器的制造方法

文档序号:10475900阅读:210来源:国知局
对话管理器的制造方法
【专利摘要】一种对话管理器,该对话管理器接收先前的用户动作以及先前的观察和当前的观察。假设先前的用户状态和当前的用户状态、先前的用户动作、当前的用户动作、未来系统动作和未来观察。隐藏用户状态、用户动作和用户观察。基于用户状态、系统动作、用户动作和观察来提取特征矢量。使用所述特征矢量,基于对数线性模型来确定每个当前的动作的期望报酬。然后,输出具有最佳期望报酬的当前动作。
【专利说明】
对话管理器
技术领域
[0001 ]本发明总体上设及文本和语音处理,并且更具体地设及对话管理器。
【背景技术】
[0002] 对话管理器是利用口头的或者文本的对话来完成某些任务的系统。对话在用户和 系统之间轮流交替。对话可W包括用户动作和系统动作的序列。用户动作对系统隐藏。系统 根据观察来确定用户动作。用户具有同样对系统隐藏的变化状态。系统基于用户语音或文 本鉴于先前的系统动作和观察使用规划来确定下一个系统动作。下面描述所述规划。
[0003] 对话管理器可W是基于规则的,或使用统计框架(例如,部分可观察马尔可夫决策 过程(P0MDP))。在P0MDP对话系统中,由一组随机变量表示对话。在每轮,对话包括表示用户 说了什么的观察变量、表示到目前为止对话的进程的隐藏状态变量W及所选择的系统动 作。P0MDP模型定义了两个概率相关性:考虑到先前状态和系统动作的当前状态的条件概 率;W及考虑到当前状态和先前系统动作的观察的条件概率。
[0004] 报酬函数针对每轮指定适合性标准(fitness criterion)作为该轮的状态和所选 择的动作的函数。给定回报函数,能够确定提供考虑到在当前时刻对状态分布的了解的最 佳系统动作的策略。然后,该策略可W被用于在对话过程中生成系统动作。选择系统动作W 便使报酬变得最大被称为规划。
[0005] 为了拥有工作系统(working system),需要估计定义P0MDP中的概率的模型参数。 该估计被称为学习。通常使用最大似然(ML)准则而不是使用报酬函数来估计运些参数。例 如,可W使用最大似然动态贝叶斯网络(DBN)。运些方法的主要问题在于使用不同的准则分 别且单独地对规划和学习进行优化。另外,规划和学习是众所周知困难的优化问题,因为推 理在大到足W处理实际问题的变量空间中变得棘手。

【发明内容】

[0006] 本发明的实施方式提供基于统计对话框架的文本和口头对话系统。与传统方法中 使用的生成式模型相比,本发明基于对数线性模型框架使用判别式模型来表示系统动作、 观察W及其它信息之间的关系。然后,考虑到先前的观察和系统动作,对话管理器通过使用 置信传播(BP)过程直接优化期望报酬来输出适当的系统动作。
[0007] 由于本发明使用对数线性模型,在对话期间获得的各种特征可W被并入该模型 中。可W通过使用基于置信传播过程的对话数据来统计训练对数线性模型中的参数W使用 精确的系统动作来提高性能。
[000引实施方式提供一种具有一致的优化准则的优点并且同时对于优化更有效的相干 系统。使用对数线性概率分布来建模对话系统。因此,本发明提供一种对数线性对话管理 器。
[0009]由于条件随机字段(CRF)的引入,对数线性分布已经被用于对序列建模。虽然对数 线性模型通常无法表示所有的分布族(dis化ibution化mi lies),但是它们对特征函数的 灵活使用使得模型能够表示概率模型的广泛的族。由于模型是马尔可夫链,因此针对优化 可W利用有效的过程。尤其是,实施方式优化沿时间轴的报酬的总和。
[0010] 为了表示可能状态、用户动作和系统动作的空间,使用上下文无关文法(CFG),可 能状态、用户动作和系统动作中的每一个都是基于与对话系统的域相关的语义表征的曲线 图。
[0011] 代替成为简单的多项式,随机变量在由CFG生成的分析树的空间中取值。运提供了 能够进行大范围的特征的提取的丰富的结构。由于对数线性模型中固有的对特征的灵活使 用,作为特殊情况,运些特征可W被设计成使得对话系统表现得与基于传统规则的对话系 统完全一样。运是通过将对话系统的规则实现为指示函数特征并初始化参数W使得对数线 性概率分布对应于运些规则来完成的。
【附图说明】
[0012] [图 1]
[0013] 图1是根据本发明的实施方式的对话管理器的规划部分的流程图。
[0014] [图 2]
[0015] 图2是根据本发明的实施方式的对话管理器的学习部分的流程图。
[0016] [图 3]
[0017] 图3是根据本发明的实施方式的示例性分析树。
[001 引[图 4]
[0019] 图4是根据本发明的实施方式的示例性状态的分析树。
[0020] [图 5]
[0021] 图5是用于图4的分析树的示例性产生式规则的框图。
【具体实施方式】
[0022] 规划
[0023] 如图1和图2所示,我们的发明的实施方式提供一种对数线性对话管理器。该系统 包括规划部分100和学习部分200。如现有技术已知的,可W在通过总线连接至存储器和输 入/输出接口的处理器150和250中执行用于运两个部分的方法。可W将处理器150和250组 厶 1=1 〇
[0024] 系统模型
[0025] 我们的概率模型在每个时间步长t具有四个变量。两个变量是可观察变量:系统动 作at 102和观察ot 101。另外两个变量是被推导出的两个潜变量:用户动作ut 201和状态 St 〇
[0026] 对话的每个步骤如下进行。基于直到时刻t-1的所有先前的系统动作和先前的观 察,系统利用询问at-i提示用户。由ot表示用户的响应。在一个实施方式中,ot是由用户说出 的词的序列。然而,应当理解,响应可W是键入的文本,或者响应可W通过其它手段进入系 统。
[0027] 响应的含义由用户动作Ut来表示,用户动作可W根据观察来推断。可W基于系统 动作at-i和用户动作UtW及先前状态st-i来推断新的状态St。在我们的系统中,状态St表示用 户的意图,虽然通常其也可w包括附加的上下文信息。
[002引使用下标冒号来表不序列,例如,so:T = {so, S1,, st},由四个变量序列so:T、ao:T、 01:T、U1:T表示持续时间T的对话会话。
[0029] 图3示出了如由因子图表示的用于对话会话的模型,针对我们的对数线性模型,该 因子图与所述变量的W下联合概率分布相对应。
[0030]
[0031] 其中,Ze是归一化常数,Φ/和Wg是特征函数的矢量,并且和分别是相应模型 参数的矢量。
[003^ 在时亥lJt = T,st+i和Ut+1是未定义的,所W如因子图的因子fT中所示。在时亥lJt = T, 我们将<P/定义为仅其前两个输入的函数。为了简化符号,我们也定义了下面的矢量:
[003引是口(3日:1',日日:了,111:1',01:1')的配分函数。
[0039] 变量空间
[0040] 我们让S、U、A和0分别表示变量空间(即,针对变量st、ut、at和ot的所有可能的值的 集合)。每个观察OE0可W是波形、声学特征、所识别的文本、和/或语言特征。我们使用〇e〇 来表示输入序列,并且我们将变量空间0定义为词汇组V中的词的所有序列的集合。
[0041] 我们使用包括一组产生式规则的上下文无关文法(CFG)来定义变量空间S、U、和A 中的每一个变量空间。每个变量空间都被定义为可W由其CFG生成的所有可能的分析树的 集合。
[0042] 图5示出了定义变量空间S的CFG中的产生式规则中的一些。S中的每个分析树都是 状态St的可能值。图5示出了针对状态St的一个可能值,该值是使用图4中的黑体字所示的产 生式规则生成的S中的一个分析树。在图4中,在引号中括起了末端(terminal),而非末端 (non-terminal)没有用引号括起。变量$4003655$可^利用其它产生式规则进一步扩展或 者作为自由变量保留。
[0043] 特征值
[0044] 如在图3中的因子图W及等式(1)中可见,在我们的模型中存在两种类型的因子。 表示为f的第一类型因子对先前和当前状态、系统动作和用户动作之间的统计依赖关系进 行建模。表示为g的第二类型因子对观察到的词序列与它们的语义解释之间的依赖关系进 行建模。对于使用CFG定义其空间的变量,我们将每个变量值(每个分析树)看作一组活跃的 产生式规则。例如,图5的分析树中活跃的产生式规则在图4的产生式规则中W黑体字示出。
[0045] 假设Gs、Gu和Ga分别是为S(状态)、U(用户动作)和A(系统动作促义变量空间的CFG 中的产生式规则的集合。对于因子g,我们将用户动作中的每个产生式规则与用于相关联的 词序列的语言模型相关联。具体地,考虑到用户动作ut和观察ot,我们拥有形式 1 /(曰,1 i pty e<v/的特征值,其表示指示函数,当且仅当特定产生式规则 k E Gu在用户动作Ut 的分析树中是活跃的并且特定的双字母组Wi-lWi存在于观察ot的词序列中时,该指示函数等 于1。
[0046] 靠近树的根出现的用于产生式规则的语言模型对一般类型的话语进行建模,而靠 近树的叶出现的产生式规则更加专口化。对于因子f,我们可W考虑协同出现的产生式规 贝1J。例如,设及两种特定的产生式规则k,k/ EGs的特征皮'6&当且仅当k在状态st-i中 是活跃的并且k/在状态St中是活跃的时等于1。通常在对话系统中可见的特征类型的另一 种类型是巧也需要产生式规则jEGA在系统动作at-i中是活跃的。该 特征表示特定的系统动作趋向于引起特定的状态转换。
[0047] 规划和学习
[0048] 对话管理器需要解决的两个基本问题是规划100和学习200。我们假设存在评估我 们的模型的报酬函数r:SXA^r。我们现在就报酬函数来描述规划和学习。
[0049] 规划
[0050] 在时刻τ的规划是考虑到所有先前的系统动作ao:T-i和观察οι:τ来确定最佳系统动 作at的问题。假设对话具有持续时间Τ。我们将规划问题定义为确定atW最大化期望报酬Ε作 为目标函数
[0051 ]
巧)
[0052] 期望值是在未给出所有变量(即,所有状态、所有用户动作W及所有未来系统动作 和观察)的情况下获取的。
[0053] 可W通过假设每个动作at、鉴于使用和-积过程的动作确定期望的报酬、W及选择 最大化的期望报酬的动作来精确地优化目标函数。
[0054] 然而,为了便于实现与迅速起见,我们取而代之地优化从詹森(Jensen)的不等式 获得的目标函数的变分下界(objective's variational lower bound)
[0055]
(')
[0056] 其中,丫 t是变分参数,使得It 丫 t=l。虽然可W使用期望最大化化Μ)过程优化 丫 t,但是我们采用丫 t=l/(T+l)来进一步简化计算。
[0057] 该乘积形式具有所述报酬随时间因式分解的优良的性能。换言之,等式(6)可W被 扩展为
[005引

[0059] 其中,Z/是具有给定的ao:T-i、oi:T的P的配分函数。现在,可W通过具有用于报酬的 附加项的图解模型上的传统的和-积过程来确定最佳的at。
[0060] 首先,我们采集从图解模型的两端到时间τ的信度(belief),并且确定使等式(6)最 大化的at。如果我们明确地写出置信传播,则其将变成向前-向后过程。例如,从因子节点ft 到变量节点st+i的向前消,1
通过W下使用时间t到t+1的(非归一化)概率分 布

的求和来确定:
[0061]
[006^ 运里,。/二从变量节点at到因子节点ft的消息。我们可W使用任何分布,包括 其中我们不假设at的任何先验分布的均匀分布
曼从变量节点St到因子节点ft的 消息。>从先前的步骤递归地来确定。
[0063] 从变量节点ut+i到因子节点ft的消息夫
该消息从如下分布被确定 为
[0064]
[00化]因此,我们避免对序歹
也可W有效 地确定其它消息而无需基于置信传播方法计算序列的总和。
[0066]注意,使用和-积过程对特征动作进行平均化不同于寻求最大化未来系统动作的 报酬的传统的P0MDP优化。在对其它变量使用和-积的同时,也可W对at使用最大积过程,W 实现对未来系统动作的最大化。然而,模型本身包含提供对未来动作的预测分布的随机策 略。
[0067] 学习
[0068] 学习部分200类似于规划,区别在于不确定最佳动作,我们对确定最佳模型参数更 感兴趣。换言之,我们期望找到Θ103使得看到所有的系统动作ao:T和所有的观察οι:τ而使期 望报酬最大化 W 例
(g)
[0070] 此外,对未给定的所有变量(即,所有状态和所有用户动作)取期望值。类似于规划 部分,运里我们也可W使用等式(8)的变分下界。
[0071] 我们使用梯度下降来优化学习目标。通常,对于任何效用函数v(x)和基于对数线 性模型的形式的概率分布
[0075] 注意,对于Θ中的每个参数θι,该导数是相应特征φι与效用之间的协方差。因此,当 与效用负相关的运些相应特征减少时,对应于与效用明确相关的特征的参数增加。
[0076] 将该规律应用于我们的模型给出:
[0077] (11)
[007引其中,使用口(3日山山:了|日日:了,01:了)确定期望值。在一般情况下,可能难^确定运些 量。我们使用粒子置信传播。
[0079] 粒子置信传播
[0080] 由于变量空间太大而被边缘化(marginalize),所W我们使用粒子置信传播来解 决该问题。
[0081 ]通过边缘化S t、a t和U t +1,考虑从因子节点f t传递到变量节点S t +1的消息
[0082]
[0083]如果我们利用重要性采样重写总和,则针对通过其确定期望值的一些采样分布Jit (a)、3Tt(U)、3Tt(S),我们获得
[0087] 来近似期望值。
【主权项】
1. 一种对话管理器,所述对话管理器包括以下步骤: 接收先前的用户动作以及先前的观察和当前的观察; 假设先前的用户状态和当前的用户状态、先前的用户动作、当前的用户动作、未来的系 统动作和未来的观察,其中,隐藏所述用户状态、所述用户动作和所述用户观察; 基于所述用户状态、所述系统动作、所述用户动作和所述观察来提取特征矢量; 使用所述特征矢量,基于对数线性模型来确定各个当前的动作的期望报酬;以及 输出具有最佳期望报酬的所述当前的动作,其中,上述步骤在处理器中执行。2. 根据权利要求1所述的对话管理器,其中,概率模型在每个时间步长t具有四个变量, 所述四个变量包括两个可观察变量和两个潜变量,所述两个可观察变量包括所述系统动作 &和所述观察 〇t,并且所述两个潜变量包括所述用户动作ut和所述用户状态st。3. 根据权利要求2所述的对话管理器,其中,由四个变量序列8()1、3(^、011、1111表示持 续时间T的对话会话。4. 根据权利要求3所述的对话管理器,其中,所述对话会话由因子图表示,所述因子图 与联合概率分布相对应,其中,20是归一化常数,Φ/'和是所述特征矢量,并且0£和08分别是相应模型 参数的矢量。5. 根据权利要求1所述的对话管理器,其中,所述观察是口述词语或文本。6. 根据权利要求3所述的对话管理器,其中,S、U、A和0分别表示变量空间,所述变量空 间是针对所述变量st、ut、a t和〇t的所有可能的值的集合。7. 根据权利要求6所述的对话管理器,所述对话管理器还包括以下步骤: 使用包括一组产生式规则的上下文无关文法(CFG)来定义所述变量空间S、U和A。8. 根据权利要求7所述的对话管理器,其中,每个变量空间都被定义为能够由所述CFG 生成的所有可能的分析树的集合。9. 根据权利要求3所述的对话管理器,其中,考虑到所有先前的系统动作ao:^和先前的 观察〇1:τ,所述对话管理器的规划部分确定最佳系统动作10. 根据权利要求3所述的对话管理器,所述对话管理器还包括以下步骤: 使目标函数最大化以确定所述期望报酬。11. 根据权利要求10所述的对话管理器,所述对话管理器还包括以下步骤: 优化所述目标函数上的变分下界。12. 根据权利要求10所述的对话管理器,其中,使用梯度下降来优化所述目标函数。13. 根据权利要求10所述的对话管理器,其中,使用粒子置信传播来优化所述目标函 数。
【文档编号】G06F17/30GK105830058SQ201480068215
【公开日】2016年8月3日
【申请日】2014年11月21日
【发明人】渡部晋治, H·唐
【申请人】三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1