在线对话状态跟踪模型的优化方法及系统与流程

文档序号：16188338发布日期：2018-12-08 05:26阅读：234来源：国知局

本发明涉及智能语音对话领域，尤其涉及一种在线对话状态跟踪模型的优化方法及系统。

背景技术

口语对话系统通常由输入模块、控制模块、输出模块组成，其中由asr(automaticspeechrecognition，自动语音识别)、slu(spokenlanguageunderstanding，口语理解)组成的输入模块，从用户语音信号提取语义级的对话动作；控制模块有两个任务，一种是保持对话状态，这是机器对对话理解的编码，一旦接收到来自输入模块的信息，通过dst(dialoguestatetracking，对话状态跟踪)更新对话状态，另一种是选择语义层机器对话动作来响应用户，这就是对话决策策略；输出模块由nlg(naturallanguagegeneration，自然语言生成)和tts(texttospeech，文本到语音)合成组成，达到对生成的自然语言转化成语音。

由于dstc(thedialogstatetrackingchallenge，对话状态跟踪挑战)提供了标记的对话状态跟踪数据和通用的评估框架和测试平台，因此已经提出了各种用于dst的机器学习方法。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

这些方法严格依赖于标记的脱机数据。由于标记数据是离线的，这些监督学习方法的学习过程在对话策略模块上是独立的。由于缺乏标记，这些方法不容易用于在线更新dst。

而在一些方法中，基于nabc(naturalactorandbeliefcritic，自然主角和信仰评论算法)中使用贝叶斯网络来表示对话状态跟踪模型，导致其在不同的对话任务中都要重新设计基于贝叶斯网络的对话状态跟踪模型。当对话任务复杂度增加时，贝叶斯网络的参数量就会大量增加，使用概率模型来表示参数分布也不一定能够达到预期的优化效果。使得其不适合复杂的对话任务，并且模型的可拓展性不强。

端到端的对话管理系统去掉了对话系统中的slu模块，其直接从人与机器的对话文本中获取对话状态，并选择回复用户的机器动作。这样的端到端的对话系统很难将一些先验知识添加进去，这就需要大量的标注数据来学习这些先验知识，相比较于模块化的对话系统，它的灵活性就大大降低了。由于对话状态模块和对话策略模块是用神经网络直接相连的，在使用深度强化学习优化时会很不稳定。其需要大量标注的语料训练模型，不适合使用对话系统的需求，并且，对于一些符合实际对话的特殊情况不能直接手动添加先验知识，而是需要通过大量的语料来训练才能得到相应的结果，使得训练过程不稳定、灵活性差。

技术实现要素：

为了至少解决现有技术中的训练在线对话状态跟踪模型需要设计复杂的网络，不适合复杂的对话任务，模型的可拓展性不强，需要大量标注的语料训练模型，很难添加先验知识，训练过程不稳定，灵活性差的问题。申请人以外的发现，对话状态跟踪模块输出的是置信度状态，也就是用于强化学习的方法来优化在线对话状态跟踪模块，其动作空间是整个对话状态空间。并通过伴随学习的启发，增加了一个辅助对话状态跟踪模块作为老师模型，对在线跟踪策略发出奖励信号以及惩罚，以此来减小在线对话状态跟踪系统的搜索空间，从而解决上述问题。

第一方面，本发明实施例提供一种在线对话状态跟踪模型的优化方法，包括：

通过强化学习算法预训练辅助对话状态跟踪模型，以确定教师模型，其中，所述辅助对话状态跟踪模型包括：基于统计的对话状态跟踪模型以及基于规则的对话状态跟踪模型，所述基于统计的对话状态跟踪模型包括在线对话状态跟踪模型；

提取用户输入语句的语义特征，根据所述教师模型确定所述语义特征的第一置信状态，根据在线对话状态跟踪模型确定所述语义特征的第二置信状态；

根据所述第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型搜索空间的差距，进而确定正向奖励的基准分数；

根据所述在线置信状态确定所述用户输入语句的反馈对话，利用所述反馈对话的语音时长确定反向奖励的代价分数，其中，所述对话的语音时长与所述代价分数成正比；

基于所述语义特征连同所述基准分数、所述代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，以优化所述在线对话状态跟踪模型的搜索空间以及反馈对话的语音时长。

第二方面，本发明实施例提供一种在线对话状态跟踪模型的优化系统，包括：

教师模型确定程序模块，用于通过强化学习算法预训练辅助对话状态跟踪模型，以确定教师模型，其中，所述辅助对话状态跟踪模型包括：基于统计的对话状态跟踪模型以及基于规则的对话状态跟踪模型，所述基于统计的对话状态跟踪模型包括在线对话状态跟踪模型；

置信状态确定程序模块，用于提取用户输入语句的语义特征，根据所述教师模型确定所述语义特征的第一置信状态，根据在线对话状态跟踪模型确定所述语义特征的第二置信状态；

基准分数确定程序模块，用于根据所述第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型搜索空间的差距，进而确定正向奖励的基准分数；

代价分数确定程序模块，用于根据所述在线置信状态确定所述用户输入语句的反馈对话，利用所述反馈对话的语音时长确定反向奖励的代价分数，其中，所述对话的语音时长与所述代价分数成正比；

优化程序模块，用于基于所述语义特征连同所述基准分数、所述代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，以优化所述在线对话状态跟踪模型的搜索空间以及反馈对话的语音时长。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的在线对话状态跟踪模型的优化方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的在线对话状态跟踪模型的优化方法的步骤。

本发明实施例的有益效果在于：通过增加辅助对话状态跟踪模型作为教师模型，根据所述教师模型对在线对话状态跟踪模型发出奖励信号，对在线对话状态跟踪模型中远离教师模型的对话状态进行惩罚，同时考虑反馈对话的语音时长进行优化，并且根据用户的评价结果确定评估分数，以此来减小在线对话状态跟踪模型的搜索空间，从而提高了在线对话状态跟踪模块的对话策略。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种在线对话状态跟踪模型的优化方法的流程图；

图2是本发明一实施例提供的一种在线对话状态跟踪模型的优化方法的模型结构图；

图3是本发明一实施例提供的一种在线对话状态跟踪模型的优化方法的优化效果数据图；

图4是本发明一实施例提供的一种在线对话状态跟踪模型的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种在线对话状态跟踪模型的优化方法的流程图，包括如下步骤：

s11：通过强化学习算法预训练辅助对话状态跟踪模型，以确定教师模型，其中，所述辅助对话状态跟踪模型包括：基于统计的对话状态跟踪模型以及基于规则的对话状态跟踪模型，所述基于统计的对话状态跟踪模型包括在线对话状态跟踪模型；

s12：提取用户输入语句的语义特征，根据所述教师模型确定所述语义特征的第一置信状态，根据在线对话状态跟踪模型确定所述语义特征的第二置信状态；

s13：根据所述第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型搜索空间的差距，进而确定正向奖励的基准分数；

s14：根据所述在线置信状态确定所述用户输入语句的反馈对话，利用所述反馈对话的语音时长确定反向奖励的代价分数，其中，所述对话的语音时长与所述代价分数成正比；

s15：基于所述语义特征连同所述基准分数、所述代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，以优化所述在线对话状态跟踪模型的搜索空间以及反馈对话的语音时长。

在本实施方式中，对话状态跟踪模型的输出是置信度状态，也就是说用强化学习的方法来在线优化对话状态跟踪模型，其动作空间是整个对话状态空间。仅用对话策略模块中的奖励信号是不能直接学到对话状态跟踪中的跟踪策略。将所述在线对话状态跟踪模型搭载在电子设备中，供用户使用，实时接收用户输入的语音信号。

对于步骤s11，通过强化学习算法预训练辅助对话状态跟踪模型，以确定教师模型，在实施方法中，受到伴随学习的启发，增加辅助对话状态跟踪模型作为老师模型，这个模型可以是任意形式的对话状态跟踪模型，其可以是规则的，也可以是统计的，优化的在线对话状态跟踪模型是用全连接的神经网络表示的。这个辅助对话状态跟踪模型也会给在线的跟踪策略发出奖励信号，对那些离辅助对话状态跟踪模型很远的对话状态进行惩罚，以此来减小优化的在线对话状态跟踪模块的搜索空间。由于所述教师模型可以是任意形式的对话状态跟踪模型，所以教师模型可以由基于统计的对话状态跟踪模型或基于规则的对话状态跟踪模型训练而成。

对于步骤s12，在接收到用户的语音信号后，提取用户输入语音信号中的语句的语义特征，基于所述用户输入的语句的语义特征，通过在步骤s11确定的教师模型确定所述语义特征的辅助置信状态作为第一置信状态，通过在线对话状态跟踪模型确定所述语义特征的在线置信状态作为第二置信状态。例如，确定所述语义特征的辅助置信状态作为第一置信状态为b^at，确定所述语义特征的在线置信状态作为第二置信状态为b^et。

对于步骤s13，根据在步骤s12中确定的第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型的搜索空间的差距，从而确定基准分数，作为优化在线对话状态跟踪模型的正向奖励参数。

对于步骤s14，根据所述在线置信状态确定所述用户输入语句的反馈对话的语音时长，从而确定反向奖励的代价分数。在接收到用户输入的语音信号后，根据在线对话状态跟踪模型确定出置信状态，所述置信状态是由多种反馈对话以及所属反馈对话的置信度组成，从而确定出置信度最佳的反馈对话，由于各反馈对话的长短不同，使得反馈对话的语音时长也就不同。由于不同语音时长的反馈对话都可以解决用户的提问，考虑到时间成本，反馈对话的时间越短，所消耗的时间代价也就越小。从而利用反馈对话的语音时长确定代价分数，作为优化在线对话跟踪模型的反向奖励参数。

对于步骤s15，根据在步骤s12确定的语义特征并连同在步骤s13确定的基准分数、在步骤s14确定的代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，从而优化所述在线对话状态跟踪模型的搜索空间以及反馈对话的语音时长。

通过该实施方法可以看出，通过增加辅助对话状态跟踪模型作为教师模型，根据所述教师模型对在线对话状态跟踪模型发出奖励信号，对在线对话状态跟踪模型中远离教师模型的对话状态进行惩罚，同时考虑反馈对话的语音时长进行优化，以此来减小在线对话状态跟踪模型的搜索空间，从而提高了在线对话状态跟踪模块的对话策略。

作为一种实施方式，在本实施例中，根据所述第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型搜索空间的差距，进而确定正向奖励的基准分数包括：

当所述第一置信状态与所述第二置信状态的差值的绝对值没有超过预设阈值时，所述基准分数为0，

当所述第一置信状态与所述第二置信状态的差值的绝对值超过预设阈值时，将所述差值的绝对值的相反数作为基准分数。

在本实施方式中，根据所述第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型搜索空间的差距，从而确定正向奖励的基准分数r^bs。

当所述第一置信状态与所述第二置信状态的差值的绝对值||b^et-b^at||≤阈值ε，所述正向奖励的基准分数为0。

当所述第一置信状态与所述第二置信状态的差值的绝对值||b^et-b^at||＞阈值ε，所述正向奖励的基准分数为r^bs＝-||b^et-b^at||。

通过以上实施方式可以看出，本实施方式根据增加的辅助对话状态跟踪模型作为的教师模型，对在线状态跟踪模型中距离教师模型较远的对话状态进行惩罚，给出了具体的惩罚方式，从而减小了在线对话状态跟踪模块的搜索空间。

作为一种实施方式，在本实施例中，所述方法还包括：

收集用户对所述反馈对话的评价结果；

根据所述评价结果确定正向奖励的评估分数；

基于所述语义特征连同所述评估分数、所述基准分数、所述代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，以优化所述在线对话状态跟踪模型的搜索空间、反馈对话的语音时长以及反馈效果。

在本实施方式中，当搭载所述在线对话状态跟踪模型的电子设备在根据用户输入的语句反馈后，收集用户对所述反馈对话的评价结果。其中，所述反馈对话的评价结果可以由在线对话状态跟踪模型提供，例如，在所述在线对话状态跟踪模型反馈对话后，继续向用户提供一个反馈对话评价框，其中，所述评价框中预设评价选项，例如，可以包括：“很赞！”、“满意”、“一般”、“答非所问”等一系列评价选项。在用户对此进行评价后，收集用户对所述反馈对话的评价结果。

根据所述评价结果确定评估分数，例如，当评价结果为“很赞！”时，评估分数会相对较高一些，当评价结果为“一般”时，评估分数相对会较低一些。

根据确定的语义特征并连同确定的评估分数、基准分数、代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，从而优化所述在线对话状态跟踪模型的搜索空间以及反馈对话的语音时长以及反馈效果。

通过以上实施方式可以看出，本实施方式提供了另外一个方面的参数来约束在线对话状态跟踪模型，根据用户的评价结果确定评估分数，从而判断反馈的对话是否达到用户的目标，从而进一步优化在线对话状态跟踪模型的搜索空间，从而提高了在线对话状态跟踪模块的对话策略。

作为一种实施方式，在本实施例中，所述强化学习算法包括：深度确定性策略梯度算法和/或深度增强网络算法。

在本实施方式中，由于对话状态是连续的，所以采用ddpg(deepdeterministicpolicygradient，深度确定性策略梯度算法)来优化在线对话状态模型的跟踪策略的网络参数，以限制惩罚的空间梯度。直到在线对话状态跟踪模块收敛以后，接下来是联合对话策略进行优化。采用dqn(deepq-learning，深度增强网络算法)，对深度神经网络产生有效的不确定性估计，也可扩展到大规模的并行系统，在多个时间步骤上对信息进行排序，保证其多样性，计算成本低，学习效率高，性能表现优异。

通过该实施方式可以看出，使用具体的强化学习算法对在线对话状态跟踪模型进行优化，可以进一步限制在线对话状态跟踪模型的搜索空间。

下面说明所述方案的整体效果，鉴别机器学习方法是dst(dialoguestatetracking，对话状态跟踪)中的最新技术。但是，这些方法有一些限制。首先，它们是sl(supervisedlearning，监督学习)方法，需要大量的离线数据注释。这不仅昂贵，而且在线学习也不可行。其次，给定有限的标记数据，sl方法可能容易发生过度调整，导致泛化能力差，再次，由于基于sl的dst方法独立于对话策略，所以dst模块不能动态适应用户的习惯。这些限制禁止dst模块进行在线更新。为了解决这个问题，通过使用在线交互进行dst优化的深度强化学习drl(deepreinforcementlearning，深度强化学习)框架。

rl(reinforcementlearning，强化学习)在面向任务的对话系统中更新对话策略模块已经很流行。但是，除了几个dst和政策的联合学习模式外，rl尚未专门用于dst模块。在rl框架下，将dst作为代理，称为跟踪代理，将对话系统的其他部分视为环境。从而使用专门用于在线dst优化强化学习框架。

与政策代理不同，跟踪代理做出的决策(在线状态)是连续的。因此，dst被视为连续控制问题。由于连续在线状态既是连续的也是高维的，因此现有的rl算法直接应用效果不佳。

在此，通过借助同伴教学理念构建一个新的dst框架。在这里，辅助训练有素的对话状态跟踪器，例如传统的跟踪器通过离线培训，被用作教师来知道实际dst代理的优化过程，以避免过度调节并实现稳健和快速的收敛。如图2所示，其中，b^at是辅助dst模型产生的辅助在线状态，b^et是跟踪代理产生的探索在线状态。b^at和b^et之间的差值将被馈送到回报信号中以显著减少跟踪代理的搜索空间。此框架的模块化结构允许使用更灵活和可解释的对话管理模型。例如，可解释的对话政策(基于规则的政策)可以轻松的与任意dst模型一起使用。这种灵活性实际上非常有用。其次，由于使用了教师dst模型，跟踪代理的优化过程需要很少的对话数据，并且训练更加稳健。

为了避免与政策代理的概念混淆，在此分别替换了跟踪代理的状态和行为的输入和输出。在这项工作中，只考虑了语义层次的对话管理器。因此，输入是从系统工作，slu(spokenlanguageunderstanding，口语理解)输出和前一回合的上下文中提取的每个插槽的语义特征。跟踪代理的输出是当前转弯处相应槽的置信状态。与政策代理的系统行为相反，跟踪代理的输出即在线状态是连续的。在图2中，跟踪代理的输出用st表示，输出用b^et表示。

跟踪策略表示st和b^et之间的映射函数，其旨在最大化期望的积累奖励。由于跟踪代理的搜索空间是连续的，因此像机器人控制问题那样，使用确定性强化学习算法(例如ddpg算法)来优化跟踪策略。

上文中所述，积累奖励中的对话系统奖励通常被定义为轮数惩罚和成功奖励的组合。使用这两个奖励信号可以有效地优化策略代理。然而对于跟踪代理来说，由于连续输出引起的大搜索空间，这两个信号不足以实现快速且鲁棒的收敛。为了解决这个问题，还提供了一个基本分数奖励信号来约束跟踪代理的搜索空间。因此，跟踪代理的整体奖励包括三种信号：

(1)轮数惩罚，表示为r^tp，是一个负面的常数值来惩罚长时间的对话。在此这是更倾向于短时间的对话。

(2)成功奖励，表示为r^sr，是对最后一回合的整个对话的延迟奖励。当用户和机器之间的会话结束时，用户给出评估值以判断对话系统的性能。如果整个谈话没有达到用户的目标，成功奖励将为0。否则，成功奖励将会是一个正值。

(3)基本得分，表示为r^bs，用于减少跟踪代理的搜索空间。使用辅助的教师dst。使用辅助在线状态b^at来指导跟踪代理的探索。如果探索在线状态b^et远离辅助在线状态并且超过阈值，那么基本得分按照公式：

r^bs＝-||b^et-b^at||给出惩罚。

在同伴教学rl-dst框架中，辅助dst可以利用任意训练良好的dst模型，并且可以通过任何确定性强化学习算法优化跟踪代理。在此，对所述对话任务以及具体算法的实现进行说明。

通过评估某一领域任务导向对话系统的建议框架。这些系统是基于插槽的对话系统。有三种插槽类型：目标约束、请求插槽和搜索方法。目标限制是用户正在寻找的某一领域信息的限制。搜索方法描述用户尝试与系统进行交互的方式。请求槽是用户发出的请求。在此，只考虑目标约束，并且对搜索方法和请求时隙的扩展是直接的。因此，使用目标跟踪代理而不是多项式目标跟踪方法。搜索方法和请求时隙的跟踪方法都是多项式的。最终的总体输出只是目标跟踪代理和其他两个多项式方法的输出。

辅助多项式跟踪器：多项式跟踪器被用作辅助dst。它也被称为cmbp(constrainedmarkovbayesianpolynomial，约束马尔科夫贝叶斯多项式)，它是一种结合数据驱动和基于规则的模型的混合模型。cmbp参数少，泛化能力强。在cmbp中，当前回合的在线状态被认为取决于当前回合的观察和前一回合的在线状态。

某一领域中的三种类型插槽(目标，请求，方法)不会相互影响。因此，考虑所述某一领域任务中的dst跟踪代理的目标约束部分，目标跟踪代理的形式是深层神经网络而不是多项式。

为了优化具有连续和高维输出空间的目标跟踪代理，在此使用ddpg(deepdeterministicpolicygradient，深层确定性政策梯度)算法，该算法是基于确定性策略梯度的演员-评论者，该算法将演员评论方法与具有重放缓冲区并采用软更新策略的dqn(deepq-learning，深度强化学习)算法结合。

在目标跟踪代理的培训期间，有一个目标跟踪代理的经验存储。内存中数据的格式是st，b^et，rt，其中，st是时隙特征向量，b^et是相应时隙的探索在线状态。直接奖励rt由奖励函数r(st，b^et，b^at)产生，每个回合在部分奖励中呈现。

在跟踪代理的学习过程中，对话策略是固定的，跟踪器不断变化。对于dst是对话策略代理的环境的一部分，所以当跟踪代理被优化时，对话策略代理的环境也被改变。因此，我们可以选择进一步优化政策，以进一步提高对话体系的绩效。

如图3所示，分别针对于三种类型插槽(目标，请求，方法)，以及三种类型结合，在使用ddpg算法后，进一步使用dqn算法进行优化，可以看到针对于这几种方法优化的效果，有着显著地提升，从而导致对话管理的回报值有了进一步的提升。其中：

ta_g是dst跟踪代理，它只估计目标约束的在线状态，另外两个在线状态部分由多项式跟踪器产生

ta_r是dst跟踪代理，它只估计请求时隙的在线状态，另外两个在线状态部分由多项式跟踪器产生

ta_m是dst跟踪代理。它只估计搜索方法的在线状态，另外两部分在线状态由多项式跟踪器产生

ta_all是dst跟踪代理，这里，整个在线状态是由上述三个跟踪代理直接产生的。

如图4所示为本发明一实施例提供的一种在线对话状态跟踪模型的优化系统的结构示意图，本实施例的技术方案可适用于对设备的在线对话状态跟踪模型的优化方法，该系统可执行上述任意实施例所述的在线对话状态跟踪模型的优化方法，并配置在终端中。

本实施例提供的一种在线对话状态跟踪模型的优化系统包括：教师模型确定程序模块11，置信状态确定程序模块12，基准分数确定程序模块13，代价分数确定程序模块14和优化程序模块15。

其中，教师模型确定程序模块11用于通过强化学习算法预训练辅助对话状态跟踪模型，以确定教师模型，其中，所述辅助对话状态跟踪模型包括：基于统计的对话状态跟踪模型以及基于规则的对话状态跟踪模型，所述基于统计的对话状态跟踪模型包括在线对话状态跟踪模型；置信状态确定程序模块12用于提取用户输入语句的语义特征，根据所述教师模型确定所述语义特征的第一置信状态，根据在线对话状态跟踪模型确定所述语义特征的第二置信状态；基准分数确定程序模块13用于根据所述第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型搜索空间的差距，进而确定正向奖励的基准分数；代价分数确定程序模块14用于根据所述在线置信状态确定所述用户输入语句的反馈对话，利用所述反馈对话的语音时长确定反向奖励的代价分数，其中，所述对话的语音时长与所述代价分数成正比；优化程序模块15用于基于所述语义特征连同所述基准分数、所述代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，以优化所述在线对话状态跟踪模型的搜索空间以及反馈对话的语音时长。

进一步地，所述基准分数确定程序模块用于：

当所述第一置信状态与所述第二置信状态的差值的绝对值没有超过预设阈值时，所述基准分数为0，

当所述第一置信状态与所述第二置信状态的差值的绝对值超过预设阈值时，将所述差值的绝对值的相反数作为基准分数。

进一步地，所述系统还包括：

评估分数确定程序模块，用于收集用户对所述反馈对话的评价结果，

根据所述评价结果确定正向奖励的评估分数；

优化程序模块，用于基于所述语义特征连同所述评估分数、所述基准分数、所述代价分数，通过强化学习算法对所述在线对话状态跟踪模型优化，以优化所述在线对话状态跟踪模型的搜索空间、反馈对话的语音时长以及反馈效果。

进一步地，所述强化学习算法包括：深度确定性策略梯度算法和/或深度增强网络算法。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的在线对话状态跟踪模型的优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

提取用户输入语句的语义特征，根据所述教师模型确定所述语义特征的第一置信状态，根据在线对话状态跟踪模型确定所述语义特征的第二置信状态；

根据所述第一置信状态与所述第二置信状态的差值确定所述教师模型与所述在线对话状态跟踪模型搜索空间的差距，进而确定正向奖励的基准分数；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的在线对话状态跟踪模型的优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的在线对话状态跟踪模型的优化方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：俞凯;陈志
技术所有人：苏州思必驰信息科技有限公司;上海交通大学
我是此专利的发明人

上一篇：一种适用于窗沿的花草栽培装置的制作方法
上一篇：一种平面连杆皮带张紧装置的制作方法