对话方法、装置及设备与流程

文档序号：17790588发布日期：2019-05-31 20:09阅读：202来源：国知局

本发明实施例涉及人工智能技术领域，尤其涉及一种对话方法、装置及设备。

背景技术：

随着互联网的普及，人们越来越习惯于从网络上获取信息和服务，例如：从搜索引擎上查询知识、从电商平台上购买物品等。当前，用户获取不同的信息或服务时，需要使用不同的代理系统(agent)，如图1所示，图1为用户通过多种代理系统获取信息或服务的示意图。

由于不同的代理系统具有不同的交互界面，如此带来以下问题：(1)要求用户具有使用代理系统的能力，如打字、阅读等；(2)要求用户有使用代理系统的时间，需要停下手中正在进行的事情，专心在代理系统上进行操作，没有这个条件的场景就无法使用了，比如开车场景；(3)大量的代理系统给用户造成了使用困扰，不同的信息或服务需要开启不同的代理系统，这增加了用户的使用成本和使用复杂度。

为了解决上述问题，现有技术中，提出了使用统一的对话系统代替各种代理系统的方案。目前常用的解决方案是基于管道(pipeline)的方式，图2为现有技术中基于管道方式进行人机对话的示意图，如图2所示，对话系统包括意图识别模块和对话技能模块，意图识别模块和对话技能模块独立实现。具体的，意图识别模块首先根据用户输入的语句，识别用户的对话意图，然后对话技能模块根据对话意图调用不同的对话技能进行对话。

然而，上述现有技术至少存在如下问题，对话系统所识别出的对话意图不准确，使得对话系统与用户进行对话的准确性和流畅性较低。

技术实现要素：

本发明实施例提供一种对话方法、装置及设备，用以提高对话系统识别出用户话语意图的准确性，进而提高对话过程的准确性和流畅性。

第一方面，本发明实施例提供一种对话方法，包括：

获取用户输入的话语信息；

在对话模型中，确定与所述话语信息对应的对话技能模型，所述对话模型中包括意图识别模型和多个对话技能模型；

根据已确定的对话技能模型，完成与所述用户之间的对话；

其中，所述对话模型是根据所述多个对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的。

可选的，所述在对话模型中，确定与所述话语信息对应的对话技能模型，包括：

在所述意图识别模型中确定所述话语信息的意图类型，所述意图类型为预设的至少一个意图类型中的一个，每个意图类型对应一个对话技能模型；

根据已确定的所述话语信息的意图类型，获取与所述意图类型对应的对话技能模型。

可选的，所述根据已确定的对话技能模型，完成与所述用户之间的对话，包括：

确定所述已确定的对话技能模型是否具有对所述话语信息进行回复的能力；

如果是，使用所述已确定的对话技能模型，生成所述话语信息对应的回复信息；

如果否，返回执行所述在所述意图识别模型中确定所述话语信息的意图类型的步骤。

可选的，所述生成所述话语信息对应的回复信息之后，还包括：

输出所述回复信息；

获取用户针对所述回复信息输入的新话语信息；

返回执行所述根据已确定的对话技能模型，完成与所述用户之间的对话的步骤。

可选的，所述在对话模型中，确定与所述话语信息对应的对话技能模型之前，还包括：

获取第一训练数据集，所述第一训练数据集中包括至少一个待训练的话语序列；

根据所述待训练的话语序列，获取各对话技能模型的决策序列和所述意图识别模型的决策序列；

根据各所述对话技能模型的决策序列，获取各所述对话技能模型的第一回报信息；

根据所述意图识别模型的决策序列，获取所述意图识别模型的第二回报信息；

根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息，对待训练的对话模型进行强化学习，得到强化学习后的对话模型。

可选的，所述根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息，对待训练的对话模型进行强化学习，得到强化学习后的对话模型之前，还包括：

获取第二训练数据集，所述第二训练数据集包括：至少一个待训练的话语信息以及各所述待训练的话语信息对应的标签，所述标签用于指示所述待训练的话语信息对应的意图类型；

使用所述第二训练数据集，对所述意图识别模型进行训练，直至所述意图识别模型满足预设条件。

针对每个所述对话技能模型，获取第三训练数据集，所述第三训练数据集包括：至少一个待训练的话语信息和各所述待训练的话语信息对应的回复信息；

使用所述第三训练数据集，对所述对话技能模型进行训练，直至所述对话技能模型满足预设条件。

第二方面，本发明实施例提供一种对话装置，包括：

获取模块，用于获取用户输入的话语信息；

确定模块，用于在对话模型中，确定与所述话语信息对应的对话技能模型，所述对话模型中包括意图识别模型和多个对话技能模型；

对话模块，用于根据已确定的对话技能模型，完成与所述用户之间的对话；

其中，所述对话模型是根据所述多个对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的。

可选的，所述确定模块具体用于：

在所述意图识别模型中确定所述话语信息的意图类型，所述意图类型为预设的至少一个意图类型中的一个，每个意图类型对应一个对话技能模型；

根据已确定的所述话语信息的意图类型，获取与所述意图类型对应的对话技能模型。

可选的，所述对话模块具体用于：

确定所述已确定的对话技能模型是否具有对所述话语信息进行回复的能力；

所述确定模块还用于在所述已确定的对话技能模型不具有对所述话语信息进行回复的能力时，在所述意图识别模型中确定所述话语信息的意图类型；

所述对话模块具体用于在所述已确定的对话技能模型具有对所述话语信息进行回复的能力时，使用所述已确定的对话技能模型，生成所述话语信息对应的回复信息。

可选的，所述对话模块还用于输出所述回复信息；

所述获取模块还用于获取用户针对所述回复信息输入的新话语信息；

所述对话模块还具体用于根据已确定的对话技能模型，完成与所述用户之间的对话。

可选的，所述装置还包括：生成模块，用于：

获取第一训练数据集，所述第一训练数据集中包括至少一个待训练的话语序列；

根据所述待训练的话语序列，获取各对话技能模型的决策序列和所述意图识别模型的决策序列；

根据各所述对话技能模型的决策序列，获取各所述对话技能模型的第一回报信息；

根据所述意图识别模型的决策序列，获取所述意图识别模型的第二回报信息；

根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息，对待训练的对话模型进行强化学习，得到强化学习后的对话模型。

可选的，所述生成模块还用于：

使用所述第二训练数据集，对所述意图识别模型进行训练，直至所述意图识别模型满足预设条件。

可选的，所述生成模块还用于：

使用所述第三训练数据集，对所述对话技能模型进行训练，直至所述对话技能模型满足预设条件。

第三方面，本发明实施例提供一种对话设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

本发明实施例提供的对话方法、装置及设备，该方法包括获取用户输入的话语信息；在对话模型中，确定与所述话语信息对应的对话技能模型，所述对话模型中包括意图识别模型和多个对话技能模型；根据已确定的对话技能模型，完成与所述用户之间的对话；其中，所述对话模型是根据所述多个对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的；本实施例中，由于对话模型是根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的，使得各对话技能模型与意图识别模型相互影响，意图识别模型在对话语信息进行意图识别时，不仅依赖意图识别模型自身的决策策略，还会受到各对话技能模型的影响，从而能够提高意图识别的准确性，进而提高对话过程的准确性和流畅性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为用户通过多种代理系统获取信息或服务的示意图；

图2为现有技术中基于管道方式进行人机对话的示意图；

图3为本发明实施例提供的对话方法的原理示意图；

图4为单层强化学习的原理示意图；

图5为本发明实施例提供的层次化的强化学习原理示意图；

图6为本发明实施例提供的对话模型进行层次化的深度学习的流程示意图；

图7为本发明实施例提供的对话方法的流程示意图一；

图8为本发明实施例提供的对话方法的流程示意图二；

图9为本发明实施例提供的对话装置的结构示意图一；

图10为本发明实施例提供的对话装置的结构示意图二；

图11为本发明实施例提供的对话设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如前所述，虽然现有技术中已提出使用统一的对话系统代替各种代理系统的方案，但是，现有技术采用的是基于管道(pipeline)的对话方式，如图2所示，基于管道的对话系统包括意图识别模块和对话技能模块，意图识别模块和对话技能模块独立实现。具体的，意图识别模块首先根据用户输入的语句，识别用户的对话意图，然后对话技能模块根据对话意图调用不同的对话技能进行对话。

然而，基于管道的对话方式，意图识别模块所识别出的对话意图通常不准确，例如：“我想去上海”很可能是买火车票意图，而“我想去西藏”却很可能是闲聊意图。图2所示的基于管道的对话方式通常无法准确的识别用户对话意图，使得对话系统与用户进行对话的准确性和流畅性较低。

为了解决上述问题，本发明实施例提供一种对话方法、装置及设备。图3为本发明实施例提供的对话方法的原理示意图，如图3所示，用户通过对话装置能够实现对互联网中不同信息或服务的访问，从而无需面对各种不同的代理系统，提高了用户的对话体验。其中，对话装置可以软件和/或硬件的形式，本发明实施例不作具体限定。

具体的，如图3所示，对话装置包括意图识别模型和至少一个对话技能模型，意图识别模型和对话技能模型之间相互影响，也就是说，意图识别过程和对话过程不再独立实现，即本发明实施例的对话系统为一体化的对话系统。

可以理解的，图3中对话装置的意图识别模型在对话语信息进行意图识别时，不仅依赖意图识别模型自身的决策策略，还会受到各对话技能模型的影响，从而能够提高意图识别的准确性，进而提高对话过程的准确性和流畅性。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本实施例中，各个对话技能模型和意图识别模型均是经过层次化的强化学习(hierarchicalreinforcelearningsystem，hrls)得到的。下面结合图4至图6对层次化的深度学习过程进行介绍。

为了更好的理解层次化的强化学习，下面首先简单介绍单层的强化学习，图4为单层强化学习的原理示意图。如图4所示，强化学习一般用于一系列动作的决策模型，代理系统(agent)探索各种可能的决策序列，虚拟环境反馈一个决策序列的回报信息(reward)，agent根据reward的高低调整决策行为，使其所作出的决策序列对应的reward最高。

对于对话系统而言，agent做出的决策序列就是一个多轮对话中对话系统做出的回复序列，每个回复对应一次决策，reward信息就是对整个多轮对话的评价，用于评价本次对话的效果。其中，对话效果的评价可以从多个维度进行，包括但不限于：流畅性、相关性、准确性等。

图4所示的单层强化学习过程仅适用于单意图类型的对话，例如订机票，但是对于多意图类型对话，如既有订机票，又有查天气还有闲聊，就不适用了，因此，本发明实施例提出了层次化的强化学习过程。

图5为本发明实施例提供的层次化的强化学习原理示意图，如图5所示，本发明实施例的对话系统：包括意图识别模型和至少一个对话技能模型，意图识别模型用于进行意图类型的决策，即将用户输入的话语信息识别为预设的意图类型中的一个，其中，每个意图类型与一个对话技能模型对应，对话技能模型用于进行不同意图类型的对话技能的决策。每个对话技能模型根据各自的决策序列计算第一回报信息，第一回报信息不仅用于优化自身的决策行为，还会将第一回报信息反馈到意图识别模型。意图识别模型会根据各对话技能模型反馈的第一回报信息及自身的第二回报信息优化意图决策行为。

本实施例中，意图识别模型和对话技能模型可以为现有的任意机器学习模型，例如：可以为神经网络模型，当前，还可以为其他的机器学习模型，本发明实施例不作具体限定。

图6为本发明实施例提供的对话模型进行层次化的深度学习的流程示意图，如图6所示，本实施例的方法，包括：

s601：获取第一训练数据集，所述第一训练数据集中包括至少一个待训练的话语序列。

s602：根据所述待训练的话语序列，获取各对话技能模型的决策序列和所述意图识别模型的决策序列。

s603：根据各所述对话技能模型的决策序列，获取各所述对话技能模型的第一回报信息。

s604：根据所述意图识别模型的决策序列，获取所述意图识别模型的第二回报信息。

具体的，将待训练的话语序列输入至对话系统中，以完成人机对话过程。下面结合图5举例说明，将话语序列中的话语1输入至对话系统中，意图识别模型将话语1识别为意图类型1，然后进入对话技能模型1的决策过程，对话技能模型1根据话语1生成回复1，然后将话语序列中的话语2输入至对话系统中，对话技能模型1根据话语2生成回复2，重复该过程。当将话语k输入至对话系统后，对话技能模型1判断无法对话语k进行回复时，则退出对话技能模型1的决策过程，同时，对话技能模型1根据生成的回复序列计算第一回报信息，并将第一回报信息反馈给意图识别模型。然后，意图识别模型根据话语k识别为意图类型2，进入到对话技能模型2的决策过程，对话技能模型2的决策过程与对话技能模型1的决策过程类似，此处不再重复。

可以理解的，对话技能模型的决策序列中的每一个回复，是针对上一话语信息的回复，例如：回复1是针对话语1的回复，回复2是针对话语2的回复。可以理解的，回复可以是具体的答复信息，还可以是为了明确意图所进行的进一步询问。

当完成上述对话过程后，如图5所示，意图识别模型对应的决策序列为：意图类型1、意图类型2、意图类型3。意图识别模型可以根据该决策序列，计算得到自身的第二回报信息。同时，意图识别模型还收到了各对话技能模型反馈的第一回报信息。

其中，第一回报信息是指各对话技能模型的决策序列的评价信息，具体的，可以从多个维度进行评价，包括但不限于：准确性、相关性、流畅性等。第二回报信息是指意图识别模型的决策序列的评价信息，例如：对意图识别模型的决策序列的跳转相关性进行评价的信息。

需要说明的是，本发明实施例中，对于第一回报信息和第二回报信息的计算方法不作具体限定。可以理解的，对于不同意图类型对应的对话技能模型，可以有不同的第一回报信息的计算方式，例如：对于任务完成类的对话技能模型，可以采用任务完成成功率来表征第一回报信息，对于闲聊类的对话技能模型，可以采用对话流畅性来表征第一回报信息。

s605：根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息，对待训练的对话模型进行强化学习，得到强化学习后的对话模型。

具体的，可以采用最大化回报信息的期望的目标函数，来对对话模型进行强化学习。

一种可选的实施方式中，采用如下函数作为目标函数：

其中，r2表示意图识别模型的第二回报信息，表示对话技能模型i的第一回报信息，n为对话技能模型的数量，e表示所有回报信息的期望，因此，本实施例中，层次化强化学习的目标函数为最大化所有回报信息的期望值。

本发明实施例中，对话模型是根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的，因此，在对话过程中，对用户话语进行意图识别时，能够提高意图识别的准确性，进而提高对话过程的准确性和流畅性。

上述强化学习过程需要有用户的虚拟环境，用于模拟用户的行为，为了进一步加快模型的收敛，一种可选的实施方式中，在进行层次化强化学习之前，还可以采用有监督的训练过程对意图识别模型和各对话技能模型分别进行预训练。

具体的，针对意图识别模型的训练过程如下：获取第二训练数据集，所述第二训练数据集包括：至少一个待训练的话语信息以及各所述待训练的话语信息对应的标签，所述标签用于指示所述待训练的话语信息对应的意图类型；使用所述第二训练数据集，对所述意图识别模型进行训练，直至所述意图识别模型满足预设条件。例如：直至意图识别模型的识别准确率满足预设条件。

对话技能模型的训练过程如下：针对每个所述对话技能模型，获取第三训练数据集，所述第三训练数据集包括：至少一个待训练的话语信息和各所述待训练的话语信息对应的回复信息；使用所述第三训练数据集，对所述对话技能模型进行训练，直至所述对话技能模型满足预设条件。例如：直至该对话技能模型的回复准确率满足预设条件。

经过上述的有监督的预训练以及层次化的强化学习过程后，得到的意图识别模型和各对话技能模型能够用于与用户进行人机对话。下面采用两个具体的实施例详细描述对话的方法。

图7为本发明实施例提供的对话方法的流程示意图一，如图7所示，本实施例的方法，包括：

s701：获取用户输入的话语信息。

具体的，用户输入的话语信息可以为语音形式或者文字形式。若是语音形式，可以首先将语音形式的话语信息经过语音识别技术转换为文字形式。

s702：在对话模型中，确定与所述话语信息对应的对话技能模型，所述对话模型中包括意图识别模型和多个对话技能模型，所述对话模型是根据所述多个对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的。

具体的，本实施例中，意图识别模型用于对用户的话语信息进行识别，得到话语信息对应的意图类型。一种可选的实施方式中，对用户的话语信息进行语义识别，获取到话语信息中的关键词信息，然后根据关键词信息识别得到话语信息的意图类型。

具体实施过程中，可以事先定义预设数量的意图类型，并且，每一种意图类型对应一个对话技能模型。意图类型可以包括：问答类型、闲聊类型、任务完成类型，等等，问答类型对应对话技能模型1，闲聊类型对应对话技能2，任务完成类型对应对话技能3，等等。意图识别模型将用户的话语信息识别为预设数量的意图类型中的一种，然后，根据识别得到的意图类型，确定出与该意图类型对应的对话技能模型。

本实施例中，由于对话模型是根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的，使得各对话技能模型与意图识别模型相互影响，意图识别模型在对话语信息进行意图识别时，不仅依赖意图识别模型自身的决策策略，还会受到各对话技能模型的影响，从而能够提高意图识别的准确性，进而提高对话过程的准确性和流畅性。

s703：根据已确定的对话技能模型，完成与所述用户之间的对话。

具体的，当根据话语信息对应的意图类型，确定与意图类型对应的对话技能模型后，由该对话技能模型完成与用户的对话。例如：对话技能模型根据话语信息，生成与该话语信息对应的回复信息。可以理解的，对话技能模型与用户的对话可以是多轮对话，例如：当对话技能模型判断根据话语信息还无法给出具体的答复时，可以进一步向用户进行提问，上述对话过程可以为多轮。

需要说明的是，本发明实施例中，对话技能模型根据话语信息进行决策的过程，本发明实施例不作具体限定，其可以采用现有技术实现。

本发明实施例提供的对话方法，获取用户输入的话语信息；在对话模型中，确定与所述话语信息对应的对话技能模型，所述对话模型中包括意图识别模型和多个对话技能模型；根据已确定的对话技能模型，完成与所述用户之间的对话；其中，所述对话模型是根据所述多个对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的；本实施例中，由于对话模型是根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的，使得各对话技能模型与意图识别模型相互影响，意图识别模型在对话语信息进行意图识别时，不仅依赖意图识别模型自身的决策策略，还会受到各对话技能模型的影响，从而能够提高意图识别的准确性，进而提高对话过程的准确性和流畅性。

图8为本发明实施例提供的对话方法的流程示意图二，如图8所示，本实施例的方法包括：

s801：获取用户输入的话语信息。

s802：在所述意图识别模型中确定所述话语信息的意图类型。

s803：根据已确定的所述话语信息的意图类型，获取与所述意图类型对应的对话技能模型。

s804：确定所述已确定的对话技能模型是否具有对所述话语信息进行回复的能力，若是，则执行s805，若否，则返回执行s802。

s805：使用所述已确定的对话技能模型，生成所述话语信息对应的回复信息。

s806：输出所述回复信息。

s807：获取用户针对所述回复信息输入的新话语信息，然后，返回执行s804。

现有技术中的基于管道的实现方式，确定出话语信息的意图后，直接根据意图进入对应的对话技能模型，而不管该对话技能模型是否具有对该话语信息进行回复的能力。

本实施例中，如图8所示，s804中，获取到与话语信息的意图类型对应的对话技能模型后，需要判断该对话技能模型是否具有对所述话语信息进行回复的能力。一种可选的实施方式中，可以事先为每种对话技能模型设置能力标签，根据能力标签确定是否具有对话语信息进行回复的能力。

当对话技能模型具有对该话语信息进行回复的能力时，由对话技能模型生成该话语信息对应的回复信息，并输出该回复信息，然后获取用户针对该回复信息输入的话语信息，返回执行s804，重新上述过程，直至完成对话。

当对话技能模型不具有对该话语信息进行回复的能力时，则返回执行s802，即，由意图识别模型重新对该话语信息进行意图识别，得到新的意图类型，从而由新的意图类型对应的对话技能模型完成对话过程。与现有技术相比，提高了意图识别的准确性，并提高了对话过程的准确性和流畅性。

图9为本发明实施例提供的对话装置的结构示意图一，如图9所示，本实施例提供的对话装置900，包括：获取模块901、确定模块902和对话模块903。

其中，获取模块901，用于获取用户输入的话语信息；

确定模块902，用于在对话模型中，确定与所述话语信息对应的对话技能模型，所述对话模型中包括意图识别模型和多个对话技能模型；

对话模块903，用于根据已确定的对话技能模型，完成与所述用户之间的对话；

其中，所述对话模型是根据所述多个对话技能模型的第一回报信息和所述意图识别模型的第二回报信息进行强化学习得到的。

本实施例的对话装置，可用于执行如图7所示的方法实施例，其实现原理和技术效果类似，此处不再赘述。

图10为本发明实施例提供的对话装置的结构示意图二，如图10所示，在图9所示实施例的基础上，本实施例的对话装置900，还包括生成模块904。

可选的，所述确定模块902具体用于：

在所述意图识别模型中确定所述话语信息的意图类型，所述意图类型为预设的至少一个意图类型中的一个，每个意图类型对应一个对话技能模型；

根据已确定的所述话语信息的意图类型，获取与所述意图类型对应的对话技能模型。

可选的，所述对话模块903具体用于确定所述已确定的对话技能模型是否具有对所述话语信息进行回复的能力；

所述确定模块902还用于在所述已确定的对话技能模型不具有对所述话语信息进行回复的能力时，在所述意图识别模型中确定所述话语信息的意图类型；

所述对话模块903具体用于在所述已确定的对话技能模型具有对所述话语信息进行回复的能力时，使用所述已确定的对话技能模型，生成所述话语信息对应的回复信息。

可选的，所述对话模块903还用于输出所述回复信息；

所述获取模块901还用于获取用户针对所述回复信息输入的新话语信息；

所述对话模块903还具体用于根据已确定的对话技能模型，完成与所述用户之间的对话。

可选的，所述生成模块904，用于：

获取第一训练数据集，所述第一训练数据集中包括至少一个待训练的话语序列；

根据所述待训练的话语序列，获取各对话技能模型的决策序列和所述意图识别模型的决策序列；

根据各所述对话技能模型的决策序列，获取各所述对话技能模型的第一回报信息；

根据所述意图识别模型的决策序列，获取所述意图识别模型的第二回报信息；

根据各所述对话技能模型的第一回报信息和所述意图识别模型的第二回报信息，对待训练的对话模型进行强化学习，得到强化学习后的对话模型。

可选的，所述生成模块904还用于：

使用所述第二训练数据集，对所述意图识别模型进行训练，直至所述意图识别模型满足预设条件。

可选的，所述生成模块904还用于：

使用所述第三训练数据集，对所述对话技能模型进行训练，直至所述对话技能模型满足预设条件。

本实施例的对话装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本发明实施例提供的对话设备的结构示意图，如图11所示，本实施例的对话设备1100，包括：至少一个处理器1101和存储器1102。其中，处理器1101、存储器1102通过总线1103连接。

在具体实现过程中，至少一个处理器1101执行所述存储器1102存储的计算机执行指令，使得至少一个处理器1101执行上述任一方法实施例的技术方案。

处理器1101的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图11所示的实施例中，应理解，处理器可以是中央处理单元(英文：centralprocessingunit，简称：cpu)，还可以是其他通用处理器、数字信号处理器(英文：digitalsignalprocessor，简称：dsp)、专用集成电路(英文：applicationspecificintegratedcircuit，简称：asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(industrystandardarchitecture，isa)总线、外部设备互连(peripheralcomponent，pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture，eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上述任一方法实施例的技术方案。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(applicationspecificintegratedcircuits，简称：asic)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴文权;刘占一;吴华
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。