跨领域对话策略的迁移方法及装置、设备、可读存储介质与流程

文档序号：17642195发布日期：2019-05-11 00:45阅读：203来源：国知局

本发明涉及计算机技术领域，尤其涉及一种跨领域对话策略的迁移方法及装置、设备、可读存储介质。

背景技术：

对话系统是人机交互领域的重要组成部分，目前常规构建的对话系统主要包括：利用规则搭建的对话系统、基于监督学习的对话系统、基于强化学习的对话系统。

利用规则搭建的对话系统出现时间最早，这种系统对人来说比较容易理解，容易控制。其缺点是开发人员需要枚举所有的情况，并且针对每种情况制定规则以进行预先判断。当实际场景复杂且制定规则的数量积累较多时，容易出现规则互相冲突，导致系统难以维护。这种系统难以支撑大规模的对话系统。

基于监督学习的对话系统和基于强化学习的对话系统是基于对模型和数据进行训练得到的，不需要开发人员对所有情况都事先制定规则，只需要收集标注数据，并使用标注数据对模型进行训练即可。但是，这两种对话系统最大的缺点是需要收集大规模的标注数据。然而由于现实应用场景众多，对每个对话场景都收集足够的标注数据显然是不现实的；其主要原因包括：

1.人工标注数据的成本高。

2.不同场景中的可能存在大量的重复标注，造成资源浪费。例如：买咖啡、订机票、订酒店等场景中都会出现相同的需求功能类别(在本发明中称为“意图”)：“告知”、“请求”，以及出现相同的任务信息(在本发明中称为“槽位”)：“地点”、“时间”等。

3.直接把一个领域的数据用于训练另外一个领域的模型难以实现。首先，相同或者相近的意图和槽位可能被不同公司用不同的名称进行标记；其次，不同领域确实存在实质性不同的意图和槽位。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

本发明的主要目的在于提供一种跨领域对话策略的迁移方法及装置、设备、可读存储介质，旨在解决现有常规构建的对话系统存在难以维护、人工标注数据的成本高、数据重复标注、标注数据难以跨领域应用的技术问题。

为实现上述目的，本发明提供一种跨领域对话策略的迁移方法，所述方法包括以下步骤：

对已输入的用户输入对话进行处理，以映射出对应的目标领域对话状态；

将所述目标领域对话状态映射为源领域对话状态；

基于源领域的预设对话策略，对所述源领域对话状态进行处理，得到对应的源领域对话回复；

将所述源领域对话回复映射为目标领域对话回复。

优选地，所述对已输入的用户输入对话进行处理，以映射出对应的目标领域对话状态的步骤，具体包括：

对已输入的用户输入对话进行自然语言理解，以识别目标领域意图及提取目标领域槽位；

对目标领域意图进行追踪；

根据所述目标领域意图、所述目标领域槽位以及目标领域意图的追踪结果，对所述用户输入对话进行映射处理，以得到对应的目标领域对话状态。

优选地，所述将所述目标领域对话状态映射为源领域对话状态的步骤，具体包括：

根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

获取与所述目标领域意图的预设相似度最大的源领域意图；

获取与所述目标领域槽位的预设相似度最大的源领域槽位；

根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

优选地，所述将目标领域对话状态映射为源领域对话状态的步骤，具体包括：

根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

获取与所述目标领域意图的预设相似度最大的源领域意图；

获取与所述目标领域槽位建立对应关系的源领域槽位；其中，预先对目标领域的槽位、源领域的槽位进行重要度排序，并根据排序结果将目标领域的槽位与源领域的槽位建立对应关系；

根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

优选地，所述将目标领域对话状态映射为源领域下的源领域对话状态的步骤，具体包括：

根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

基于预定义的学习目标方程，求解使得所述学习目标方程最大化的一组变量；根据所求解的变量，确定源领域与目标领域中的的任意一组意图的相似度或者任意一组槽位的相似度；

根据相似度学习的结果，获取与所述目标领域意图的相似度最大的源领域意图；

根据相似度确定结果，获取与所述目标领域槽位的相似度最大的源领域槽位；

根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

此外，为实现上述目的，本发明还提供一种跨领域对话策略的迁移装置，述装置包括：

目标领域对话状态映射单元，用于对已输入的用户输入对话进行处理，以映射出对应的目标领域对话状态；

源领域对话状态映射单元，用于将所述目标领域对话状态映射为源领域对话状态；

源领域对话状态处理单元，用于基于源领域的预设对话策略，对所述源领域对话状态进行处理，得到对应的源领域对话回复；

目标领域对话回复映射单元，用于将所述源领域对话回复映射为目标领域对话回复。

优选地，所述目标领域对话状态映射单元，具体用于对已输入的用户输入对话进行自然语言理解，以识别目标领域意图及提取目标领域槽位；对目标领域意图进行追踪；根据所述目标领域意图、所述目标领域槽位以及目标领域意图的追踪结果，对所述用户输入对话进行映射处理，以得到对应的目标领域对话状态。

优选地，所述源领域对话状态映射单元，具体用于根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；获取与所述目标领域意图的预设相似度最大的源领域意图；获取与所述目标领域槽位的预设相似度最大的源领域槽位；根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

优选地，所述源领域对话状态映射单元，具体用于：

根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

获取与所述目标领域意图的预设相似度最大的源领域意图；

获取与所述目标领域槽位建立对应关系的源领域槽位；其中，分别对目标领域的槽位、源领域的槽位进行重要度排序，并根据排序结果将目标领域的槽位与源领域的槽位建立对应关系；

根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

优选地，所述源领域对话状态映射单元，具体用于：根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；基于预定义的学习目标方程，求解使得所述学习目标方程最大化的一组变量；根据所求解的变量，确定源领域与目标领域中的的任意一组意图的相似度或者任意一组槽位的相似度；根据相似度学习的结果，获取与所述目标领域意图的相似度最大的源领域意图；根据相似度确定结果，获取与所述目标领域槽位的相似度最大的源领域槽位；根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

此外，为实现上述目的，本发明还提供一种跨领域对话策略的迁移设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨领域对话策略的迁移程序，所述跨领域对话策略的迁移程序被所述处理器执行时实现如上所述的跨领域对话策略的迁移方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有跨领域对话策略的迁移程序，所述跨领域对话策略的迁移程序被处理器执行时实现如上所述的跨领域对话策略的迁移方法的步骤。

本发明实施例提出一种跨领域对话策略的迁移方法及装置、设备、可读存储介质，通过将目标领域对话状态映射为源领域下的对话状态，进而基于源领域已有的预设对话策略，对源领域下的对话状态进行处理，得到对应的源领域对话回复；并将所述源领域对话回复映射为目标领域对话回复，从而将目标领域的对话策略迁移为源领域的对话策略。这样，可以充分利用源领域的充足训练数据量与具备较高性能水平的对话策略，无需重新对目标领域准备充足训练数据量，也无需训练得到目标领域的对话策略即可生成与用户输入对话对应的目标领域对话回复，减少了人工标注数据需求量，有助于降低数据获取成本；同时，避免大量的重复标注，降低数据资源的浪费，拓展了各领域的应用场景范围。

附图说明

图1为本发明跨领域对话策略的迁移方法第一实施例的流程示意图；

图2为本发明跨领域对话策略的迁移方法第一实施例步骤s10的细化步骤示意图；

图3为本发明跨领域对话策略的迁移方法的实现过程示意图；

图4为本发明跨领域对话策略的迁移方法第二实施例的流程示意图；

图5为本发明跨领域对话策略的迁移方法第三实施例的流程示意图；

图6为本发明跨领域对话策略的迁移方法第四实施例的流程示意图；

图7为本发明跨领域对话策略的迁移装置各功能单元的组成示意图；

图8为本发明跨领域对话策略的迁移设备的运行环境的结构示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明涉及的部分术语及其解释列举如下：

意图：任务型对话系统中，根据任务不同，将句子按照功能分成不同的类别，每个类别表达一个不同的意思，每个类别就是一个意图。

例如：“我要定北京到上海的机票”这句话是用户表达他的一种需求，这个可以被定义为“告知”意图；“机票都有几点的？”这句话表示用户在询问机票信息，这个可以被定义为“请求”意图。

值得注意的是，不同公司针对不同场景可能对同一种意图用不同的单词表达出来，例如：“请求”意图可能被其他公司命名为“疑问”，还可能被命名为“获取信息”。

槽位：任务型对话系统中，根据任务不同，需要收集不同的信息，每个信息就是一个槽位。

例如：“我要定北京到上海的机票”这句话中，“北京”就是出发地点槽位，“上海”就是目的地槽位。同样值得注意的是，不同公司针对不同场景可能对同一种槽位用不同的单词表达出来，例如：“出发地”可能被标记为“起飞城市”，“出发城市”等。

目标领域：需要改进的目标领域，目标领域不具有足够的训练数据。

源领域：已经存在的领域，其具有大量训练数据，同时具备较高性能水平的对话策略。

本发明提供一种跨领域对话策略的迁移方法。

请参见图1，图1为本发明跨领域对话策略的迁移方法的第一实施例的流程示意图。在本实施例中，所述方法包括以下步骤：

步骤s10，对已输入的用户输入对话进行处理，以映射出对应的目标领域对话状态；

在本发明各实施例尤其适用于任务型对话系统。任务型对话系统的目的是通过识别用户的意图帮助用户完成任务，例如预定酒店、购买机票等。在具体实施时，用户输入对话可以是基于用户使用人机交互系统时输入的文字或者语音等信息材料生成的对话信息，例如用户需要预订机票时，可以在人机交互系统(订票平台)输入信息“我要订从上海去北京的机票”；此时系统在检测到用户的输入信息后，抽取出对应的用户输入对话。

目标领域是指与已输入的用户输入对话关联度最高的领域，目标领域的具体类型可以是用户手动设定。例如，用户在输入信息之前或者之后进行目标领域的选取，如选择“订票”领域。或者，对用户输入对话进行分析得到。例如，基于用户输入对话“我要订从上海去北京的机票”，确定目标领域为“订票”或者“订机票”。此外，目标领域还可以是查流量、查话费、订餐、咨询等任务型场景领域。

如图2所示，在一具体实施时，步骤s10包括：

步骤s11，对已输入的用户输入对话进行自然语言理解，以识别目标领域意图及提取目标领域槽位；

请参照图3，图3为本发明跨领域对话策略的迁移方法的实现过程示意图。用户输入对话属于自然语言，通过自然语言理解模块(或单元)对用户输入对话进行自然语言理解，从而进行目标领域识别、用户意图识别以及槽位提取。目标领域识别，即识别用户输入对话所属的任务型场景。用户意图识别，即识别用户意图，细分该任务型场景下的子场景；槽位提取，用于基于用户输入对话提取出槽位及其槽位值，具体可以通过槽位填充方式实现。对已输入的用户输入对话进行自然语言理解、并识别目标领域意图及提取目标领域槽位的具体技术属于常规的现有技术，此处不作赘述。

步骤s12，对目标领域意图进行追踪；

对话状态跟踪是确保对话系统健壮性的核心组件。它在对话的每一轮次对用户的目标进行预估，管理每个回合的输入和对话历史，输出当前对话状态。这种典型的状态结构通常称为槽填充或语义框架。传统的方法已经在大多数商业实现中得到了广泛的应用，通常采用手工规则来选择最有可能的输出结果。

步骤s13，根据所述目标领域意图、所述目标领域槽位以及目标领域意图的追踪结果，对所述用户输入对话进行映射处理，以得到对应的目标领域对话状态。

目标领域对话状态具体可以是一个意图和一组槽位及其槽位值的组合。

举例来说，将用户输入对话“我要订从上海去北京的机票”进行分词、词干提取，进而生成与用户输入对话对应的语义槽。语义槽可以根据不同的场景预先定义。根据该语义槽，确定出用户对话的意图及槽位、槽位值：

意图＝订酒店

槽位1＝出发城市，对应的槽位值＝上海

槽位2＝到达城市，对应的槽位值＝北京

步骤s20，将所述目标领域对话状态映射为源领域对话状态；

具体地，先根据目标领域确定对应的源领域；源领域为预先对目标领域进行指定的领域。目标领域与源领域之间的相似程度较高时较为适宜。例如，对“订机票”领域预先指定的源领域为“订酒店”领域。

然后，获取与目标领域对话状态中的目标领域意图相似度最大的源领域意图。例如，目标领域意图“订机票”与源领域(订酒店)中的不同意图(如“订酒店”、“查询房源”、“查询房源位置”)分别具有不同的相似度；本实施例选取最大相似度下的源领域意图。

以及，获取与目标领域对话状态中的目标领域槽位相似度最大的源领域槽位。例如，目标领域(订机票)中的目标领域槽位“出发城市”与源领域(订酒店)中的不同槽位(如“入住时间”、“入住人数”、“房源位置”)分别具有不同的相似度；本实施例选取最大相似度下的源领域意图。

然后，根据所述源领域意图及所述源领域槽位，生成源领域对话状态。在分别获取最大相似度下的源领域意图及所述源领域槽位时，将目标领域对话状态的映射成源领域下的对话状态。

步骤s20的具体实施例请参阅下文其他实施例。

步骤s30，基于源领域的预设对话策略，对所述源领域对话状态进行处理，得到对应的源领域对话回复；

源领域具有大量的训练数据，一般已基于所述大量的训练数据训练得到具备较高性能水平的对话策略(即所述预设对话策略)；或者由人工设定出预设对话策略。

具体地，调取源领域的预设对话策略，并通过预设对话策略对源领域对话状态进行处理，从而得到对应的源领域对话回复。

例如，源领域的对话状态为{意图：订酒店，入住时间：2018年10月1日，离店时间：2018年10月2日}，则源领域的预设对话策略会根据该对话状态，生成一个最佳的抽象对话回复{意图：询问，价格：？}；其中，“？”表示对价格进行询问的回复形式为问句。

步骤s40，将所述源领域对话回复映射为目标领域对话回复。

如图3所示，在得到源领域对话回复之后，对源领域对话回复进行映射处理，从而得到目标领域下的目标领域对话回复。例如，对源领域(订酒店)的抽象源领域对话回复{意图：询问，价格：？}执行映射处理，得到目标领域(订机票)的抽象目标领域对话回复{意图：询问，价格：？}，目标领域对话回复中的“？”表示对价格进行询问的回复形式为问句。

进一步地，目标领域对话回复会被组织成自然语言返回给用户，以方便用户的理解。例如：目标领域(订机票)的抽象目标领域对话回复{意图：询问，价格：？}会被组织为自然语言“请问你想要什么价位的机票？”。

在本实施例中，通过将目标领域对话状态映射为源领域下的对话状态，进而基于源领域已有的预设对话策略，对源领域下的对话状态进行处理，得到对应的源领域对话回复；并将所述源领域对话回复映射为目标领域对话回复，从而将源领域的对话策略迁移至目标领域。这样，可以充分利用源领域的充足训练数据量与具备较高性能水平的对话策略，无需重新对目标领域准备充足训练数据量，也无需训练得到目标领域的对话策略即可生成与用户输入对话对应的目标领域对话回复，减少了人工标注数据需求量，有助于降低数据获取成本；同时，避免大量的重复标注，降低数据资源的浪费，拓展了各领域的应用场景范围。

下面结合具体的扩展场景对本发明技术方案进行进一步说明。

进一步地，在本发明跨领域对话策略的迁移方法第一实施例的基础上，提出第二实施例。如图4所示，步骤s20的一种具体实施包括：

步骤s201，根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

源领域为预先对目标领域进行指定的领域，例如指定目标领域a的源领域为领域b，指定目标领域c的源领域为领域d。所指定的相互关系即为目标领域与源领域之间的预设关联关系。在确定目标领域之后，根据目标领域及与源领域对应的预设关联关系，确定源领域。

步骤s202，获取与所述目标领域意图的预设相似度最大的源领域意图；

具体地，预先进行目标领域任意意图与源领域任意意图的人工指定。在确定源领域意图时，根据与所述目标领域意图对应预设相似度，确定并获取与所述目标领域意图的预设相似度最大的源领域意图。

步骤s203，获取与所述目标领域槽位的预设相似度最大的源领域槽位；

具体地，预先进行目标领域任意意图与源领域任意意图的人工指定。在确定目标领域槽位时，根据与所述目标领域意图对应预设相似度，确定并获取与所述目标领域意图的预设相似度最大的源领域槽位。

步骤s204，根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

在获取源领域下的意图及槽位后，生成源领域对话状态。其中，源领域对话状态具体可以是所述源领域意图和一组源领域槽位及其槽位值的组合。某一源领域槽位的槽位值可以为人工设定的默认槽位信息，或者根据预设规则得到，例如源领域为订酒店，源领域槽位为入住时间，则对应的源领域槽位值设定为当日日期；源领域槽位为离店时间，则对应的源领域槽位值设定为次日日期。

举例来说，目标领域为“订机票”，目标领域对话状态为{意图：订机票，出发城市：上海，到达城市：北京}。获取与目标领域对话状态中的目标领域意图对应的相似度最大的源领域意图为“订酒店”，以及分别获取与目标领域对话状态中的目标领域槽位“出发时间”、“到达时间”对应的相似度最大的源领域槽位为“入住时间”、“离店时间”，进而获取与各源领域槽位对应的槽位值，以生成源领域对话状态。这样，目标领域对话状态{意图：订机票，出发城市：上海，到达城市：北京}映射为源领域对话状态{意图：订酒店，入住时间：2018年10月1号，离店时间：2018年10月2号}。

在本实施例中，通过人工指定目标领域的任意意图、任意槽位与源领域任意意图、任意槽位之间的相似度，确定与目标领域意图对应的源领域意图，以及确定与目标领域槽位对应的源领域槽位，从而将目标领域对话状态映射为源领域对话状态。人工指定相似度的方式具有易于实现与维护的特点。

进一步地，在本发明跨领域对话策略的迁移方法第一实施例的基础上，提出第三实施例。如图5所示，步骤s20的一种具体实施包括：

步骤s205，根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

步骤s205与上述步骤s201相同，具体实现可以参照步骤s201。

步骤s206，获取与所述目标领域意图的预设相似度最大的源领域意图；

步骤s206与上述步骤s202相同，具体实现可以参照步骤s202。

步骤s207，获取与所述目标领域槽位建立对应关系的源领域槽位；其中，预先对目标领域的槽位、源领域的槽位进行重要度排序，并根据排序结果将目标领域的槽位与源领域的槽位建立对应关系；

具体地，基于信息熵理论，某一领域的槽位的重要性通过该槽位的属性熵进行度量。槽位的属性熵为归一化处理后得到的熵，一种优选的计算公式如下：

其中，s表示某一槽位，η(s)为某一槽位的属性熵，υ为对应槽位下的某一属性，vs为某一槽位的各属性集合(|vs|为属性总数量)，p(s＝υ)为具有时隙的数据库中的实体为属性υ的经验概率。

举例来说，如下表所示，下表为餐厅数据库中的不同餐厅“是否允许带小孩”及“价格高低”的情况。

餐厅数据库中的餐厅“是否允许带小孩”这个属性的熵η(s)＝[p(s＝允许)*log(p(s＝允许))/2+p(s＝不允许)*log(p(s＝不允许))/2]。其中p(s＝允许)的概率是0/4，p(s＝不允许)的概率是4/4，vs为2。此时，“是否允许带小孩”的属性熵是0。

类似地，餐厅数据库中的餐厅“价格高低”这个属性的熵η(s)＝[p(s＝价格高)*log(p(s＝价格高))/3+p(s＝价格中)*log(p(s＝价格中))/3+p(s＝价格低)*log(p(s＝价格低))/3]。其中p(s＝价格高)的概率是1/4,p(s＝价格中)的概率是1/4，p(s＝价格中)的概率是2/4，vs为3。此时，“价格高低”的属性熵是0.15。

根据如上公式计算得到的某一槽位的属性熵为正值；熵值越低，则表示该属性的信息增益水平较低，该属性的重要程度较低；对应地，对应槽位的重要度较低。在上述举例中，系统询问用户对餐厅“是否允许带小孩”槽位属性的偏好并无实际的意义，因为数据库中的餐厅均不允许带小孩，即系统的上述询问对话未提供任何信息增益。因此，“价格高低”属性的熵比“是否允许带小孩”属性的熵要高。

在计算不同槽位的属性熵后，通过比较各槽位的属性熵的取值实现槽位的重要度比较；进而，根据槽位的重要度比较结果，进行重要度排序，由此得到某一领域的槽位重要排序结果。根据任意两个领域各自的槽位重要度排序结果，将两个领域处于相同重要度排序位置的对应槽位建立对应关系。在本实施例中，目标领域、源领域的槽位重要度比较及排序、槽位对应关系的建立为预先操作步骤。

例如在目标领域“订机票”，最能帮助用户进行机票筛选的槽位按照重要度降序排序为：出发城市、目标城市、起飞时间、航空公司、价格。在源领域“定酒店”中，最能帮助用户进行酒店筛选的槽位按照重要度降序排序为：入住时间、离店时间、酒店位置、酒店星级、价格、房型等。在建立上述两个领域的槽位的对应关系时，分别对“出发城市”和“入住时间”、“目标城市”和“离店时间”、“起飞时间”和“酒店位置”、“航空公司”和“酒店星级”等建立对应关系。需要注意的是，如果所有机票都是在早上起飞，那么“起飞时间”这个槽位的属性的熵就很低，不能帮助用户筛选航班。

从而，基于目标领域与源领域的各槽位的对应关系，查找出与目标领域槽位对应的源领域槽位。援引上例，若目标领域槽位为出发城市，则对应的源领域槽位为入住时间，其余以此类推。

步骤s208，根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

步骤s208与上述步骤s204相同，具体实现可以参照步骤s204。

在本实施例中，基于对目标领域槽位、源领域槽位的重要度排序结果，将目标领域的槽位与源领域的槽位建立对应关系，进而获取与目标领域槽位建立对应关系的源领域槽位。基于与目标领域意图对应的源领域意图、源领域槽位，将目标领域对话状态映射为源领域对话状态。基于槽位重要度进行排序并建立两个领域之间的槽位的对应关系，充分地利用槽位重要度指标数据，从而有助于提高槽位匹配的精准性和有效性，提高了槽位匹配的可靠程度。

进一步地，在本发明跨领域对话策略的迁移方法第一实施例的基础上，提出第四实施例。如图6所示，步骤s20的一种具体实施包括：

步骤s209，根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

步骤s209，与上述步骤s201相同，具体实现可以参照步骤s201。

步骤s210，基于预定义的学习目标方程，求解使得所述学习目标方程最大化的一组变量；根据所求解的变量，确定源领域与目标领域中的的任意一组意图的相似度或者任意一组槽位的相似度；

可理解地，任意一组意图(或槽位)的相似度越高，将目标领域对话状态映射为源领域对话状态的精准度越高。若假设在目标领域或源领域中，任意一组意图或者一组槽位的相似度为概率变量，且该概率变量可视为某一预先定义的学习目标方程的解值。其中，该学习目标方程用于衡量某一模型算法在某一领域进行强化学习的性能提升效果。

基于上述逻辑，某一模型算法在某一领域进行强化学习的性能提升效果的一种具体衡量标准为：在第n轮对话时，将模型算法预估的第n轮以后所有对话的未来总收益与实际数据中记录下来的第n轮对话的单轮收益相加。所得相加结果与模型预估的第n+1轮以后所有对话的总未来收益之间的误差越小，则该模型算法在某一领域中进行强化学习的性能提升效果越好。

一种优选的学习目标方程为：

在公式中，θ为变量参数集合；hn是指第n步时，一个多轮对话的状态；yn是指第n步时，对话系统回复给用户的回复。

是传统q学习算法(q-learning)中的标准损失方程(bellmanequation)的平方，最小化这个部分是为了让标准损失方程接近0。即是：降低在第n轮对话估计的未来收益与在第n+1轮对话实际记录到的未来收益q^t(hn,yn)之间的误差。

r(θ)是正则化项，用于限制模型的复杂度，并且让目标领域和源领域的意图和槽位进行对齐。具体原理是，某一领域在进行强化学习时，默认存在如下逻辑：如果两个智能体(agent)分别在两个领域中的相似的两个状态(state)下进行相似的两组动作，则这两个智能体分别转移到的下一个状态也会相似，且这两个智能体在进行状态转移过程中得到的奖励(reward)也会相似。

具体地，r(θ)＝r1(θ)+r2(θ)+r3(θ)+r4(θ)

(1)r1(θ)＝r1s(θ)+r1t(θ)

r1s(θ)、r1t(θ)分别表示源领域、目标领域的槽位向量留存正则化公式。r1(θ)表示跨领域的槽位向量留存正则化公式。

式中，lce(·)表示交叉熵损失，ο表示交叉熵损失。a^s表示任一语言意图。d^s表示源领域的对话(数量较多)。

c^t(·)为预测函数，用于在意图向量a^t的条件下，先在目标域中预测槽位向量s^t；

可以被视为近似于目标领域的意图向量、针对于a^s的答复；

为目标领域中的预测兼容槽位向量；

r1t(θ)与r1s(θ)的公式相对应，此处不再赘述。

d^t表示目标领域的对话(数量较少)；

表示从源领域到目标领域意图翻译的函数

表示从目标领域到源领域语句翻译的功能函数。

其中，是所有目标领域意图a的发生概率，是所有源领域意图a的发生概率。lkl()是kullback-leibler发散损失。

其中，是将目标槽位映射到源领域槽位的概率；|s^s|源领域槽位的数量。

进一步地，在建立学习目标方程后，基于预设的最优化算法，寻找使得所述学习目标方程最大化的一组变量。

其中，最优化算法可以根据实际需要进行配置，例如adam方法(具体可以参阅kingmaandba,2014diederikkingmaandjimmyba.adam:amethodforstochasticoptimization.arxivpreprintarxiv:1412.6980,2014.)或者梯度下降算法。

使得所述学习目标方程最大化的一组变量对应着源领域与目标领域中的任意两个意图之间的相似度或者任意两个槽位之间的相似度。

步骤s211，根据相似度的确定结果，获取与所述目标领域意图的相似度最大的源领域意图；

在确定源领域意图时，根据任意的源领域意图与所述目标领域意图相似度，确定并获取与所述目标领域意图的相似度最大的源领域意图。

步骤s212，根据相似度确定结果，获取与所述目标领域槽位的相似度最大的源领域槽位；

在确定源领域槽位时，根据任意的源领域意图与所述目标领域意图相似度，确定并获取与所述目标领域意图的相似度最大的源领域槽位。

步骤s213，根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

步骤s213与上述步骤s204相同，具体实现可以参照步骤s204。

在本实施例中，先建立学习目标方程，然后基于预设的最优化算法，寻找使得所述学习目标方程最大化的一组变量，从而确定出源领域与目标领域中的任意一组意图的相似度或者任意一组槽位的相似度；进而确定与目标领域意图的相似度最大的源领域意图、与目标领域槽位的相似度最大的源领域槽位，从而根据所确定的源领域意图及源领域槽位，将目标领域对话状态映射为源领域对话状态，以便于后续的源领域回复动作的生成。

在本实施例中，基于强化学习的学习目标方程及最优化算法，寻找使得所述学习目标方程最大化的一组变量，从而确定出源领域与目标领域中的任意一组意图的相似度或者任意一组槽位的相似度。本实施例结合强化学习与跨领域迁移应用的优点，通过对某一模型算法在某一领域进行强化学习的性能提升效果的表征确定任意一组意图/槽位的相似度，有效地提高了意图/槽位匹配的精准性和有效性，具有较强的跨领域迁移泛化能力和可靠性。

此外，本发明还提供一种跨领域对话策略的迁移装置。

如图7所示，图7为所述装置的各功能单元的组成示意图。其中，所述装置包括：

目标领域对话状态映射单元10，用于对已输入的用户输入对话进行处理，以映射出对应的目标领域对话状态；

在本发明跨领域对话策略的迁移装置尤其适用于任务型对话系统。任务型对话系统的目的是通过识别用户的意图帮助用户完成任务，例如预定酒店、购买机票等。在具体实施时，用户输入对话可以是基于用户使用人机交互系统时输入的文字或者语音等信息材料生成的对话信息，例如用户需要预订机票时，可以在人机交互系统(订票平台)输入信息“我要订从上海去北京的机票”；此时系统在检测到用户的输入信息后，抽取出对应的用户输入对话。

目标领域是指与已输入的用户输入对话关联度最高的领域，目标领域的具体类型可以是用户手动设定。例如，用户在输入信息之前或者之后进行目标领域的选取，如选择“订票”领域。或者，对用户输入对话进行分析得到。例如，基于用户输入对话“我要订从上海去北京的机票”，目标领域对话状态映射单元10确定目标领域为“订票”或者“订机票”。此外，目标领域还可以是查流量、查话费、订餐、咨询等任务型场景领域。

在一具体实施时，目标领域对话状态映射单元10具体用于：对已输入的用户输入对话进行自然语言理解，以识别目标领域意图及提取目标领域槽位；

用户输入对话属于自然语言，通过自然语言理解模块(或单元)对用户输入对话进行自然语言理解，从而进行目标领域识别、用户意图识别以及槽位提取。目标领域识别，即识别用户输入对话所属的任务型场景。用户意图识别，即识别用户意图，细分该任务型场景下的子场景；槽位提取，用于基于用户输入对话提取出槽位及其槽位值，具体可以通过槽位填充方式实现。对已输入的用户输入对话进行自然语言理解、并识别目标领域意图及提取目标领域槽位的具体技术属于常规的现有技术，此处不作赘述。

目标领域对话状态映射单元10，还用于对目标领域意图进行追踪；

目标领域对话状态映射单元10，还用于根据所述目标领域意图、所述目标领域槽位以及目标领域意图的追踪结果，对所述用户输入对话进行映射处理，以得到对应的目标领域对话状态。

目标领域对话状态具体可以是一个意图和一组槽位及其槽位值的组合。

举例来说，目标领域对话状态映射单元10将用户输入对话“我要订从上海去北京的机票”进行分词、词干提取，进而生成与用户输入对话对应的语义槽。语义槽可以根据不同的场景预先定义。根据该语义槽，确定出用户对话的意图及槽位、槽位值：

意图＝订酒店

槽位1＝出发城市，对应的槽位值＝上海

槽位2＝到达城市，对应的槽位值＝北京

源领域对话状态映射单元20，用于将所述目标领域对话状态映射为源领域对话状态；

具体地，源领域对话状态映射单元20先根据目标领域确定对应的目标领域；源领域为预先对目标领域进行指定的领域。目标领域与源领域之间的相似程度较高时较为适宜。例如，对“订机票”领域预先指定的源领域为“订酒店”领域。

然后，源领域对话状态映射单元20获取与目标领域对话状态中的目标领域意图相似度最大的源领域意图。例如，目标领域意图“订机票”与源领域(订酒店)中的不同意图(如“订酒店”、“查询房源”、“查询房源位置”)分别具有不同的相似度；本实施例选取最大相似度下的源领域意图。

以及，源领域对话状态映射单元20获取与目标领域对话状态中的目标领域槽位相似度最大的源领域槽位。例如，目标领域(订机票)中的目标领域槽位“出发城市”与源领域(订酒店)中的不同槽位(如“入住时间”、“入住人数”、“房源位置”)分别具有不同的相似度；本实施例选取最大相似度下的源领域意图。

源领域对话状态映射单元20的具体实施实现方式请参阅下文其他实施例。

源领域对话状态处理单元30，用于基于源领域的预设对话策略，对所述源领域对话状态进行处理，得到对应的源领域对话回复；

具体地，源领域对话状态处理单元30调取源领域的预设对话策略，并通过预设对话策略对源领域对话状态进行处理，从而得到对应的源领域对话回复。

目标领域对话回复映射单元40，用于将所述源领域对话回复映射为目标领域对话回复。

目标领域对话回复映射单元40在得到源领域对话回复之后，对源领域对话回复进行映射处理，从而得到目标领域下的目标领域对话回复。例如，对源领域(订酒店)的抽象源领域对话回复{意图：询问，价格：？}执行映射处理，得到目标领域(订机票)的抽象目标领域对话回复{意图：询问，价格：？}，目标领域对话回复中的“？”表示对价格进行询问的回复形式为问句。

进一步地，本发明跨领域对话策略的迁移装置还包括自然语言回复单元，自然语言回复单元用于目标领域对话回复会被组织成自然语言返回给用户，以方便用户的理解。例如：目标领域(订机票)的抽象目标领域对话回复{意图：询问，价格：？}会被组织为自然语言“请问你想要什么价位的机票？”。

在本发明跨领域对话策略的迁移装置中，通过将目标领域对话状态映射为源领域下的对话状态，进而基于源领域已有的预设对话策略，对源领域下的对话状态进行处理，得到对应的源领域对话回复；并将所述源领域对话回复映射为目标领域对话回复，从而将源领域的对话策略迁移至目标领域。这样，可以充分利用源领域的充足训练数据量与具备较高性能水平的对话策略，无需重新对目标领域准备充足训练数据量，也无需训练得到目标领域的对话策略即可生成与用户输入对话对应的目标领域对话回复，减少了人工标注数据需求量，有助于降低数据获取成本；同时，避免大量的重复标注，降低数据资源的浪费，拓展了各领域的应用场景范围。

下面结合具体的扩展场景对本发明技术方案进行进一步说明。

进一步地，在如上所述本发明跨领域对话策略的迁移装置的基础上，在一具体实施中，所述目标领域对话状态映射单元20具体用于根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

源领域为预先对目标领域进行指定的领域，例如指定目标领域a的源领域为领域b，指定目标领域c的源领域为领域d。所指定的相互关系即为目标领域与源领域之间的预设关联关系。在确定目标领域之后，根据目标领域及与目标领域对应的预设关联关系，确定源领域。

所述目标领域对话状态映射单元20，还用于获取与所述目标领域意图的预设相似度最大的源领域意图；

所述目标领域对话状态映射单元20，还用于获取与所述目标领域槽位的预设相似度最大的源领域槽位；

所述目标领域对话状态映射单元20，还用于根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

在本实施例中，所述目标领域对话状态映射单元20基于人工指定目标领域的任意意图、任意槽位与源领域任意意图、任意槽位之间的相似度，确定与目标领域意图对应的源领域意图，以及确定与目标领域槽位对应的源领域槽位，从而将目标领域对话状态映射为源领域对话状态。人工指定相似度的方式具有易于实现与维护的特点。

进一步地，进一步地，在如上所述本发明跨领域对话策略的迁移装置的基础上，在一具体实施中，所述目标领域对话状态映射单元20具体用于根据目标领域确定源领域；其中，目标领域与源领域存在预设关联关系；

具体实现方式可以参照上文的实施方式。

所述目标领域对话状态映射单元20，还用于获取与所述目标领域意图的预设相似度最大的源领域意图；

具体实现方式可以参照上文的实施方式。

所述目标领域对话状态映射单元20，还用于获取与所述目标领域槽位建立对应关系的源领域槽位；其中，预先对目标领域的槽位、源领域的槽位进行重要度排序，并根据排序结果将目标领域的槽位与源领域的槽位建立对应关系；

举例来说，如下表所示，下表为餐厅数据库中的不同餐厅“是否允许带小孩”及“价格高低”的情况。

所述目标领域对话状态映射单元20，还用于根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

具体实现方式可以参照上文的实施方式。

在本实施例中，目标领域对话状态映射单元20基于对目标领域槽位、源领域槽位的重要度排序结果，将目标领域的槽位与源领域的槽位建立对应关系，进而获取与目标领域槽位建立对应关系的源领域槽位。基于与目标领域意图对应的源领域意图、源领域槽位，将目标领域对话状态映射为源领域对话状态。基于槽位重要度进行排序并建立两个领域之间的槽位的对应关系，充分地利用槽位重要度指标数据，从而有助于提高槽位匹配的精准性和有效性，提高了槽位匹配的可靠程度。

具体实现方式可以参照上文的实施方式。

所述目标领域对话状态映射单元20，还用于基于预定义的学习目标方程，求解使得所述学习目标方程最大化的一组变量；根据所求解的变量，确定源领域与目标领域中的的任意一组意图的相似度或者任意一组槽位的相似度；

一种优选的学习目标方程为：

在公式中，θ为变量参数集合；hn是指第n步时，一个多轮对话的状态；yn是指第n步时，对话系统回复给用户的回复。

具体地，r(θ)＝r1(θ)+r2(θ)+r3(θ)+r4(θ)

(1)r1(θ)＝r1s(θ)+r1t(θ)

r1s(θ)、r1t(θ)分别表示源领域、目标领域的槽位向量留存正则化公式。r1(θ)表示跨领域的槽位向量留存正则化公式。

式中，lce(·)表示交叉熵损失，ο表示交叉熵损失。a^s表示任一源领域意图。d^s表示源领域的对话(数量较多)。

c^t(·)为预测函数，用于在目标领域意图向量a^t的条件下，先在目标域中预测槽位向量s^t；

可以被视为近似于目标领域的语言动作向量、针对于a^s的答复；

为目标领域中的预测槽位向量；

r1t(θ)与r1s(θ)的公式相对应，此处不再赘述。

d^t表示目标领域的对话(数量较少)；

表示从源领域到目标领域，意图翻译的功能函数

表示从目标领域到源领域语句翻译的功能函数。

其中，是所有目标领域意图a的发生概率，是所有源领域意图行为的发生概率。lkl()是kullback-leibler发散损失。

其中，是将目标槽位映射到参照槽位的概率；|s^s|源领域槽位的数量。

进一步地，在建立学习目标方程后，基于预设的最优化算法，寻找使得所述学习目标方程最大化的一组变量。

使得所述学习目标方程最大化的一组变量对应着源领域与目标领域中的任意两个意图之间的相似度或者任意两个槽位之间的相似度。

所述目标领域对话状态映射单元20，还用于根据相似度的确定结果，获取与所述目标领域意图的相似度最大的源领域意图；

在确定源领域意图时，根据任意的源领域意图与所述目标领域意图相似度，确定并获取与所述目标领域意图的相似度最大的源领域意图。

所述目标领域对话状态映射单元20，还用于根据相似度确定结果，获取与所述目标领域槽位的相似度最大的源领域槽位；

在确定源领域槽位时，根据任意的源领域意图与所述目标领域意图相似度，确定并获取与所述目标领域意图的相似度最大的源领域槽位。

所述目标领域对话状态映射单元20，还用于根据所述源领域意图及所述源领域槽位，生成源领域对话状态。

具体实现方式可以参照上文的实施方式。

在本实施例中，目标领域对话状态映射单元20基于强化学习的学习目标方程及最优化算法，寻找使得所述学习目标方程最大化的一组变量，从而确定出源领域与目标领域中的任意一组意图的相似度或者任意一组槽位的相似度。本实施例结合强化学习与跨领域迁移应用的优点，通过对某一模型算法在某一领域进行强化学习的性能提升效果的表征确定任意一组意图/槽位的相似度，有效地提高了意图/槽位匹配的精准性和有效性，具有较强的跨领域迁移泛化能力和可靠性。

此外，本发明还提供一种跨领域对话策略的迁移设备，所述跨领域对话策略的迁移设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨领域对话策略的迁移程序，所述跨领域对话策略的迁移程序被所述处理器执行时实现如上任一项所述的跨领域对话策略的迁移方法的步骤。

如图8所示，图8是本发明实施例方案涉及的跨领域对话策略的迁移设备结构示意图。

本发明实施例跨领域对话策略的迁移设备可以是pc机或服务器。

如图8所示，该设备可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图8中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及跨领域对话策略的迁移程序。

在图8所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的跨领域对话策略的迁移程序，并执行上述跨领域对话策略的迁移方法实施例中的操作。

基于上述硬件结构，提出本发明跨领域对话策略的迁移方法实施例。

此外，本发明还提供一种可读取存储介质。

所述存储介质上存储有跨领域对话策略的迁移程序，所述跨领域对话策略的迁移程序被处理器执行时实现如上任一项所述的跨领域对话策略的迁移方法的步骤。

本发明跨领域对话策略的迁移设备及存储介质的具体实施例与上述跨领域对话策略的迁移方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：莫凯翔
技术所有人：深圳前海微众银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。