获取用于实现会话的多元组集合方法、装置、介质及设备与流程

文档序号:22916174发布日期:2020-11-13 15:57阅读:118来源:国知局
获取用于实现会话的多元组集合方法、装置、介质及设备与流程

本公开涉及计算机技术,尤其是一种获取用于实现会话的多元组集合方法、获取用于实现会话的多元组集合装置、存储介质以及电子设备。



背景技术:

在很多领域中,工作人员作为会话一方,需要与大量的用户进行会话,以解决用户的问题或者满足用户的需求等。例如,在房产领域,联系大量的用户,是房产经纪人的日常工作的主要内容之一,房产经纪人通过与各式各样的用户进行会话,以便于为各用户提供其所需的房屋。为了提高会话一方与用户进行会话的效率和质量,目前可以采用主动为会话一方提供相应的会话语句,以供会话一方参考的方式,辅助实现与用户的会话。

另外,由于人机交互方式具有可以随时与用户进行会话等优点,因此,在客服等领域得到了较为广泛的应用。

无论是采用辅助方式实现与用户的会话,还是采用人机交互方式实现与用户的会话,如何高效且高质量的实现会话,是一个值得关注的技术问题。



技术实现要素:

为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种获取用于实现会话的多元组集合方法、获取用于实现会话的多元组集合装置、存储介质以及电子设备。

根据本公开实施例的一个方面,提供了一种获取用于实现会话的多元组集合方法,该方法包括:获取第一会话中的第一会话方的会话语句;识别所述会话语句中的第一实体、第二实体以及实体关系;其中,所述实体关系用于表示第一实体和第二实体间的关系;对所述第一实体、第二实体以及所述实体关系进行组合校验;若所述组合校验通过,则将所述第一实体、第二实体和实体关系作为一个多元组,存储于多元组集合中;其中,所述多元组集合用于:在第二会话过程中,基于第二会话方的当前会话语句,从多元组集合中选取相应的多元组,并根据选取出的多元组形成第一会话方的当前会话语句。

在本公开一实施方式中,所述识别所述会话语句中的第一实体、第二实体以及实体关系,包括:将所述会话语句提供给实体关系识别模型,经由所述实体关系识别模型对所述会话语句进行实体关系识别处理,并根据所述实体关系识别模型的输出,获得所述会话语句的实体关系;根据所述会话语句及其实体关系,识别所述会话语句中的第一实体和第二实体。

在本公开又再一实施方式中,所述实体关系识别模型的训练过程包括:将训练集合中的多个第一会话语句样本分别提供给实体关系识别模型;其中,所述第一会话语句样本设置有实体关系标注信息;经由所述实体关系识别模型对各第一会话语句样本分别进行实体关系识别处理,并根据所述实体关系识别模型的输出,获得各第一会话语句样本的实体关系;根据各第一会话语句样本的实体关系标注信息和所述获得的各第一会话语句样本的实体关系,执行损失计算,获得第一损失计算结果,并利用第一损失计算结果,调整所述实体关系识别模型的网络参数;将训练集合中的多个第二会话语句样本分别提供给实体关系识别模型;其中,所述第二会话语句样本未设置有实体关系标注信息;经由所述实体关系识别模型对各第二会话语句样本分别进行实体关系识别处理,并根据所述实体关系识别模型的输出,获得各第二会话语句样本的实体关系;获取各第二会话语句样本的实体关系的校正结果,并根据所述校正结果,形成第一会话语句样本,存储在所述训练集合中。

在本公开再一实施方式中,所述根据所述会话语句及其实体关系,识别所述会话语句中的第一实体和第二实体,包括:将所述会话语句和所述会话语句的实体关系提供给实体识别模型,经由所述实体识别模型对所述会话语句进行实体识别处理,并根据所述实体识别模型的输出,获得所述会话语句中的第一实体和第二实体。

在本公开再一实施方式中,所述实体识别模型的训练过程包括:将训练集合中的多个第三会话语句样本及其实体关系标注信息分别提供给实体识别模型;其中,所述第三会话语句样本设置有第一实体标注信息、第二实体标注信息以及实体关系标注信息;经由所述实体识别模型对各第三会话语句样本及其实体关系标注信息分别进行实体识别处理,并根据所述实体识别模型的输出,获得各第三会话语句样本的第一实体和第二实体;根据各第三会话语句样本的第一实体标注信息、第二实体标注信息、所述获得的各第三会话语句样本的第一实体和第二实体,执行损失计算,获得第二损失计算结果,并利用第二损失计算结果,调整所述实体识别模型的网络参数;将训练集合中的多个第四会话语句样本及其实体关系标注信息分别提供给实体识别模型;其中,所述第四会话语句样本设置有实体关系标注信息,且未设置有第一实体标注信息和第二实体标注信息;经由所述实体识别模型对各第四会话语句样本及其实体关系标注信息分别进行实体识别处理,并根据所述实体识别模型的输出,获得各第四会话语句样本的第一实体和第二实体;获取各第四会话语句样本的第一实体和第二实体的校正结果,并根据所述校正结果,形成第三会话语句样本,存储在训练集合中。

在本公开再一实施方式中,所述对所述第一实体、第二实体以及所述实体关系进行组合校验,包括:获取所述第一实体所属的类型以及所述第二实体所属的类型;若所述第一实体所属的类型、第二实体所属的类型以及所述实体关系,符合预设组合规则,则确定所述第一实体、第二实体以及所述实体关系的组合校验通过。

在本公开再一实施方式中,所述方法还包括:获取所述会话语句中的备选实体关系;若所述第一实体、第二实体以及所述实体关系的组合校验未通过,且所述第一实体所属的类型、第二实体所属的类型以及所述备选实体关系,符合预设组合规则,则将所述第一实体、第二实体和备选实体关系作为一个多元组,存储于多元组集合中。

在本公开再一实施方式中,所述获取所述会话语句中的备选实体关系,包括:在利用据实体关系识别模型获得所述会话语句的实体关系的情况下,根据所述实体关系识别模型输出的所述会话语句中的各实体关系的置信度,获取所述会话语句中的备选实体关系。

根据本公开实施例的另一个方面,提供了一种获取用于实现会话的多元组集合装置,该装置包括:获取会话语句模块,用于获取第一会话中的第一会话方的会话语句;识别模块,用于识别所述会话语句中的第一实体、第二实体以及实体关系;其中,所述实体关系用于表示第一实体和第二实体间的关系;组合校验模块,用于对所述第一实体、第二实体以及所述实体关系进行组合校验;多元组存储模块,用于若所述组合校验通过,则将所述第一实体、第二实体和实体关系作为一个多元组,存储于多元组集合中;其中,所述多元组集合用于:在第二会话过程中,基于第二会话方的当前会话语句,选取相应的多元组,并根据选取出的多元组形成第一会话方的当前会话语句。

在本公开一实施方式中,所述识别模块包括:识别实体关系子模块,用于将所述会话语句提供给实体关系识别模型,经由所述实体关系识别模型对所述会话语句进行实体关系识别处理,并根据所述实体关系识别模型的输出,获得所述会话语句的实体关系;识别实体子模块,用于根据所述会话语句及其实体关系,识别所述会话语句中的第一实体和第二实体。

在本公开又一实施方式中,所述装置还包括,第一训练模块,用于:将训练集合中的多个第一会话语句样本分别提供给实体关系识别模型;其中,所述第一会话语句样本设置有实体关系标注信息;经由所述实体关系识别模型对各第一会话语句样本分别进行实体关系识别处理,并根据所述实体关系识别模型的输出,获得各第一会话语句样本的实体关系;根据各第一会话语句样本的实体关系标注信息和所述获得的各第一会话语句样本的实体关系,执行损失计算,获得第一损失计算结果,并利用第一损失计算结果,调整所述实体关系识别模型的网络参数;将训练集合中的多个第二会话语句样本分别提供给实体关系识别模型;其中,所述第二会话语句样本未设置有实体关系标注信息;经由所述实体关系识别模型对各第二会话语句样本分别进行实体关系识别处理,并根据所述实体关系识别模型的输出,获得各第二会话语句样本的实体关系;获取各第二会话语句样本的实体关系的校正结果,并根据所述校正结果,形成第一会话语句样本,存储在所述训练集合中。

在本公开再一实施方式中,所述识别实体子模块进一步用于:将所述会话语句和所述会话语句的实体关系提供给实体识别模型,经由所述实体识别模型对所述会话语句进行实体识别处理,并根据所述实体识别模型的输出,获得所述会话语句中的第一实体和第二实体。

在本公开再一实施方式中,所述装置还包括:第二训练模块,用于:将训练集合中的多个第三会话语句样本及其实体关系标注信息分别提供给实体识别模型;其中,所述第三会话语句样本设置有第一实体标注信息、第二实体标注信息以及实体关系标注信息;经由所述实体识别模型对各第三会话语句样本及其实体关系标注信息分别进行实体识别处理,并根据所述实体识别模型的输出,获得各第三会话语句样本的第一实体和第二实体;根据各第三会话语句样本的第一实体标注信息、第二实体标注信息、所述获得的各第三会话语句样本的第一实体和第二实体,执行损失计算,获得第二损失计算结果,并利用第二损失计算结果,调整所述实体识别模型的网络参数;将训练集合中的多个第四会话语句样本及其实体关系标注信息分别提供给实体识别模型;其中,所述第四会话语句样本设置有实体关系标注信息,且未设置有第一实体标注信息和第二实体标注信息;经由所述实体识别模型对各第四会话语句样本及其实体关系标注信息分别进行实体识别处理,并根据所述实体识别模型的输出,获得各第四会话语句样本的第一实体和第二实体;获取各第四会话语句样本的第一实体和第二实体的校正结果,并根据所述校正结果,形成第三会话语句样本,存储在训练集合中。

在本公开再一实施方式中,所述组合校验模块,包括:获取类型子模块,用于获取所述第一实体所属的类型以及所述第二实体所属的类型;组合校验子模块,用于判断第一实体所属的类型、第二实体所属的类型以及所述实体关系,是否符合预设组合规则,若所述第一实体所属的类型、第二实体所属的类型以及所述实体关系,符合预设组合规则,则确定所述第一实体、第二实体以及所述实体关系的组合校验通过。

在本公开再一实施方式中,所述装置还包括:获取备选关系模块,用于获取所述会话语句中的备选实体关系;所述组合校验子模块还用于:若所述第一实体所属的类型、第二实体所属的类型以及所述实体关系,不符合预设组合规则,则判断所述第一实体所属的类型、第二实体所属的类型以及所述备选实体关系,是否符合预设组合规则,若所述第一实体所属的类型、第二实体所属的类型以及所述备选实体关系,符合预设组合规则,则确定所述第一实体、第二实体以及所述备选实体关系的组合校验通过;所述多元组存储模块还用于,在所述第二组合校验子模块确定所述第一实体、第二实体以及所述备选实体关系的组合校验通过的情况下,将所述第一实体、第二实体和备选实体关系作为一个多元组,存储于多元组集合中。

在本公开再一实施方式中,所述获取备选关系模块进一步用于:在利用据实体关系识别模型获得所述会话语句的实体关系的情况下,根据所述实体关系识别模型输出的所述会话语句中的各实体关系的置信度,获取所述会话语句中的备选实体关系。

根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述方法。

根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述方法。

基于本公开上述实施例提供的一种获取用于实现会话的多元组集合方法和装置,通过利用从会话语句中提取出的第一实体、第二实体和实体关系形成多元组,由于实体关系可以明确的表示出第一实体和第二实体间的关系,因此,多元组可以较好的描述出一个会话语句的结构,从而在第一会话方与第二会话方的会话过程中,由于第二会话方的会话语句通常可以提取出第一实体和实体关系,因此,通过利用提取出的第一实体和实体关系即可便捷的获得与其匹配的多元组,进而通过匹配的多元组可以便捷的形成第一会话方的会话语句,以完成第一会话方与第二会话方的会话。由此可知,本公开提供的技术方案有利于高效且高质量的实现与用户的会话,并有利于提高用户的会话体验。

下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:

图1为本公开的适用场景的一个实施例的示意图;

图2为本公开的适用场景的又一个实施例的示意图;

图3为本公开的获取用于实现会话的多元组集合方法一实施例的流程图;

图4为本公开的获得会话语句的实体关系一实施例的流程图;

图5为本公开的训练实体关系识别模型一实施例的流程图;

图6为本公开的获得会话语句中的第一实体和第二实体一实施例的流程图;

图7为本公开的训练实体识别模型一个实施例的流程图;

图8为本公开的组合校验一实施例的流程图;

图9为本公开的获取用于实现会话的多元组集合装置一实施例的结构示意图;

图10为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。

应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。

还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。

还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。

另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。

还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中,发明人发现,用户的需求、问题以及说话方式等往往是多样化的,而日常需要通过im(instantmessaging,即时消息)等工具,与大量用户进行会话的工作人员(如房产经纪人等)的数量通常较为庞大,工作人员的说话方式以及业务水平往往也是多样化的,如果能够针对用户当前的会话语句,利用预设设置的基础数据,便捷且有针对性的形成相应的标准会话语句,为工作人员提供参考,以辅助每一位工作人员较好的完成与用户的会话,则不仅能够为用户提供更好的服务,也往往能够为工作人员自身以及公司带来一定的收益。另外,在人机会话应用场景中,利用预先设置的基础数据形成的标准会话语句,直接提供给用户,有利于较好的实现人机会话,提高用户的人机会话体验。

示例性概述

本公开提供的获取用于实现会话的多元组集合的技术的应用场景的一个例子,如图1所示。

在图1中,用户101的智能移动电话100中安装有人机会话系统。例如,智能移动电话100中的一款app(application,应用)中安装有人机会话系统,该款app可以实现寻医问药或者房屋租售或者票务等功能。下面以该app为用于实现房屋租售功能的app为例,对该应用场景进行说明。

用户101在具有房屋租售需求时,打开智能移动电话100中的该款app,用户101可以通过语音或者文字等输入方式,在该款app中输入自己的房屋租售需求。假定用户101当前输入“*******”,该款app中的人机会话系统可以提取出“*******”中的第一实体和实体关系,并基于提取出的第一实体和实体关系从多元组集合中查找匹配的多元组,人机会话系统可以根据查找到的匹配的多元组中的第一实体、第二实体以及实体关系,形成相应的回复语句,提供给用户101,从而完成一个轮次的对话。该款app中的人机会话系统通过与用户101进行多个轮次的对话,最终可以实现为用户101推荐满足其需求的房屋的目的。

在房产领域,本公开提供的获取用于实现会话的多元组集合的技术的应用场景的一个例子,如图2所示。

图2中,假设有n1个用户以及n2个房产经纪人,分别为用户200_1、用户200_2、……、用户200_n1、房产经纪人210_1、房产经纪人210_2、……、房产经纪人210_n2;且假设各用户以及各房产经纪人的终端设备分别为终端设备201_1、终端设备201_2、……、终端设备201_n1、终端设备211_1、终端设备211_2、……以及终端设备211_n2。每一个用户均可以通过其终端设备中安装的app或者客户端等程序中的im(instantmessaging,即时消息)功能,与相应的房产经纪人进行会话。当然,用户也可以通过其终端设备中的浏览器访问房产服务公司提供的网站,并通过该网站中的相应网页中的im功能与相应的房产经纪人进行会话。

假设用户200_1有租房、房屋出租或者房屋买卖等需求。用户200_1可以通过其终端设备201_1触发该im(instantmessaging,即时消息)功能,从而开启了其与一房产经纪人(如房产经纪人210_2)的会话。

在用户200_1与相应房产经纪人210_2的会话过程中,该im功能可以提取出用户200_1当前发出的会话语句中的第一实体和实体关系,并基于其提取出的第一实体和实体关系从多元组集合中查找匹配的多元组,该im功能可以根据查找到的匹配的多元组中的第一实体、第二实体以及实体关系,形成相应的会话语句(如根据第一实体、第二实体以及实体关系确定句子中的相应成分,并对各成分进行丰富处理,形成一句完整的语句等),将该会话语句提供给房产经纪人210_2,当然,该im功能也可以直接将该匹配的多元组提供给房产经纪人210_2;房产经纪人210_2可以在参考im功能当前提供的会话语句或者匹配的多元组的情况下,向用户200_1发出其当前会话语句,从而完成一个轮次的对话。用户200_1和房产经纪人210_2可以基于上述方式,进行多个轮次的对话,从而完成本次会话。

示例性方法

图3为本公开的获取用于实现会话的多元组集合方法的一个实施例的流程示意图。如图3所示,该实施例的方法包括步骤:s300、s301、s302以及s303。下面对各步骤分别进行说明。

s300、获取第一会话中的第一会话方的会话语句。

本公开中的第一会话通常为第一会话方和第二会话方的历史会话。即在当前时间以前已经结束的会话。

本公开中的第一会话方可以是指提供服务的一方,例如,房产经纪人或者商品零售商或者客服等。再例如,在人机会话过程中,第一会话方通常为机器一方。

本公开中的第二会话方可以是指接受服务的一方。例如,有租售房屋等需求的用户。再例如,在人机会话过程中,与机器一方进行会话的用户一方。

本公开获取第一会话中的第一会话方的会话语句的方式可以为:从第一会话中提取出第一会话方在一个对话轮次中的发言内容,并对该发言内容进行分句处理,获得的每一个分句即为一个会话语句。例如,假设第一会话方在一个对话轮次中的发言内容为“**小区附近的小学是**小学和**小学,**小区周边还有**公园”,则本公开可以获得两个会话语句,分别为“**小区附近的小学是**小学和**小学”,“**小区周边还有**公园”。

s301、识别会话语句中的第一实体、第二实体以及实体关系。

本公开中的第一实体和第二实体均为实体词,且第一实体和第二实体通常是两种不同形式的实体词,例如,第一实体可以为主体(subject)实体,第二实体可以为客体(object)实体。主体实体可以是指会话语句中的核心实体(如主语等)。客体实体可以是指会话语句中的与核心实体相关的实体(如宾语等)。本公开中的实体关系用于表示第一实体和第二实体间的关系。例如,实体关系可以为用于表示第二实体是第一实体的属性的信息。再例如,实体关系可以为用于表示第二实体是第一实体的地理位置的信息。第一实体、第二实体以及实体关系通常会随着实际应用场景的不同而不同。本公开不限定第一实体、第二实体以及实体关系的具体表现形式。

本公开可以利用预先成功训练的模型识别会话语句中的第一实体、第二实体以及实体关系。

s302、对第一实体、第二实体以及实体关系进行组合校验。

本公开中的第一实体、第二实体和实体关系组合在一起,可以形成一个三元组,该三元组应符合预先设定的组合规则。本公开可以利用预先设置的组合规则对第一实体、第二实体以及实体关系进行组合校验。预先设置的组合规则可以根据实际应用场景的具体需求设置。例如,组合规则可以包括:针对允许的组合设置的规则,也可以包括:针对禁止的组合设置的规则等。

s303、若上述组合校验通过,则将第一实体、第二实体和实体关系作为一个多元组,存储于多元组集合中。

本公开中的多元组至少为三元组。例如,如果组合校验通过,则本公开可以将第一实体、第二实体和实体关系作为一个三元组,存储于三元组集合中。再例如,如果组合校验通过,则本公开可以将第一实体、第二实体、实体关系以及其他至少一个元素一起,形成一个高于三元的多元组,存储于多元组集合中。

本公开中的多元组用于在第二会话过程中,形成第一会话方的会话语句。也就是说,本公开中的多元组集合是实现会话的基础数据,本公开通过形成该基础数据,不仅可以辅助第一会话方完成与第一会话方的会话,而且可以实现与第一会话方的人机会话。具体的,在第二会话过程中,基于第二会话方的当前会话语句,从多元组集合中选取相应的多元组,并根据选取出的多元组形成第一会话方的当前会话语句。本公开中的第二会话可以是指第一会话方和第二会话方的当前会话。也就是说,本公开可以利用历史会话形成用于实现会话的基础数据,从而在第一会话方与第二会话方的会话过程中,可以基于该基础数据,使第一会话方完成其与第二会话方的会话。

本公开通过利用从会话语句中提取出的第一实体、第二实体和实体关系形成多元组,由于实体关系可以明确表示出第一实体和第二实体间的关系,因此,多元组可以较好的描述出一会话语句的结构,从而在第一会话方与第二会话方的会话过程中,由于第二会话方的会话语句通常可以提取出第一实体和实体关系,因此,通过利用提取出的第一实体和实体关系即可便捷的获得匹配的多元组,通过匹配的多元组可以便捷的形成第一会话方的会话语句,以完成第一会话方与第二会话方的会话。由此可知,本公开提供的技术方案有利于高效且高质量的实现与用户的会话,并有利于提高用户的会话体验。

在一个可选示例中,本公开识别会话语句中的第一实体、第二实体以及实体关系的过程可以为:先对一会话语句进行实体关系的识别处理(如利用相应的模型进行实体关系的识别处理),从而获得该会话语句的实体关系,然后,再根据获得的该会话语句的实体关系,对该会话语句进行实体的识别处理(如利用相应的模型进行实体的识别处理),从而获得该会话语句中的第一实体和第二实体。

本公开通过先获得会话语句的实体关系,再利用实体关系获得会话语句中的第一实体和第二实体,有利于避免由于会话语句中的实体灵活多样,对实体识别带来的影响,从而有利于便捷准确的定位出会话语句中的第一实体和第二实体。

在一个可选示例中,本公开可以利用实体关系识别模型来识别会话语句的实体关系。本公开识别会话语句的实体关系的一个例子如图4所示。

图4中,s400、将会话语句提供给实体关系识别模型。

可选的,本公开的会话语句可以是基于向量形式的会话语句。例如,采用分词工具对自然语言形式的会话语句进行分词处理,从而获得该会话语句中的所有分词,之后,本公开可以获得每一个分词的分词向量(如利用word2vec模型获得每一个分词的分词向量),并利用所有分词向量形成提供给实体关系识别模型的会话语句。

可选的,本公开中的分词向量可以使用多维的实数向量来表示。例如,可以使用128维或者200维的实数向量来表示。本公开中的一个分词向量可以表示一个字(例如,“在”、“好”、“坏”等)或者一个词(例如,“房屋”、“装修”等)。

可选的,本公开中的实体关系识别模型可以采用bert(bidirectionalencoderrepresentationsfromtransformers,变换器的双向编码器表示)模型或者fasttext(快速文本)模型等基于分类的模型。

s401、由实体关系识别模型对输入的会话语句进行实体关系识别处理。

可选的,本公开中的实体关系识别模型对输入的会话语句执行的实体关系识别处理可以认为是基于实体关系的类别,对会话语句的分类处理。

s402、根据该实体关系识别模型的输出,获得输入的会话语句的实体关系。

可选的,本公开预先设置有多种实体关系,实体关系识别模型会针对预先设置的每一种实体关系,为输入的会话语句分别输出的一置信度。例如,预先设置有n种实体关系,则实体关系识别模型会为输入的会话语句输出n个置信度。本公开可以将置信度最高的实体关系作为输入的会话语句的实体关系。例如,假设会话语句为“**小区附近的小学是**小学和**小学”,则利用实体关系识别模型获得的实体关系可以为“学校信息”。再例如,假设会话语句为“**小区周边还有**公园”,则利用实体关系识别模型获得的实体关系可也为“公园信息”。

会话语句的实体关系通常很难利用规则匹配等方式获得,即便是利用规则匹配等方式获得会话语句的实体关系,通常较易出现无法灵活准确的获得会话语句的实体关系的现象,且设置规则的过程较为繁琐。本公开通过利用实体关系识别模型(如bert模型等),有利于便捷准确的获得会话语句的实体关系。

在一个可选示例中,本公开中的实体关系识别模型的训练过程的一个例子如图5所示。

图5中,s500、将训练集合中的多个第一会话语句样本分别提供给实体关系识别模型。

可选的,本公开可以根据预设批处理参数,从训练集合中读取一定数量的第一会话语句样本。本公开中的训练集合中的第一会话语句样本设置有实体关系标注信息。在预先设置有n种不同的实体关系的情况下,一第一会话语句样本的实体关系标注信息应表示出该第一会话语句样本的实体关系为n种的其中一种。在训练的初始阶段,训练集合中的具有实体关系标注信息的第一会话语句样本的数量占训练集合中的所有会话语句样本的比例可以较小。本公开可以在训练实体关系识别模型的过程中,逐步增大训练集合中的第一会话语句样本的数量。

s501、由实体关系识别模型对各第一会话语句样本分别进行实体关系识别处理,并根据实体关系识别模型的输出,获得各第一会话语句样本的实体关系。

可选的,假设本公开预先设置有n种实体关系,则实体关系识别模型会为输入的每一个第一会话语句样本分别输出n个置信度。针对任一第一会话语句样本而言,本公开可以将该第一会话语句样本的n个置信度中的最高置信度所对应的实体关系,作为该第一会话语句样本的实体关系。

s502、根据各第一会话语句样本的实体关系标注信息和上述获得的各第一会话语句样本的实体关系,执行损失计算,获得第一损失计算结果,并利用第一损失计算结果,调整实体关系识别模型的网络参数。

可选的,本公开可以利用相应的损失函数,对各第一会话语句样本的实体关系标注信息和上述获得的各第一会话语句样本的实体关系进行损失计算,并将损失计算结果在实体关系识别模型中进行反向传播,以调整实体关系识别模型的网络参数。网络参数包括但不限于:权值矩阵等。

可选的,本公开可以在执行了s500-s502之后,直接进入s503。本公开也可以在多次重复执行s500-s502之后,再进入s503。

s503、将训练集合中的多个第二会话语句样本分别提供给实体关系识别模型。

可选的,本公开中的第二会话语句样本未设置有实体关系标注信息,且第二会话语句样本可以为未设置有任何标注信息的会话语句样本。训练集合中的第二会话语句样本的数量会在实体关系识别模型的训练过程中逐渐减小,在完成实体关系识别模型的训练后,训练集合中可以不再包含有第二会话语句样本。

s504、经由实体关系识别模型对各第二会话语句样本分别进行实体关系识别处理,并根据实体关系识别模型的输出,获得各第二会话语句样本的实体关系。

可选的,假设本公开预先设置有n种实体关系,则实体关系识别模型会为输入的每一个第二会话语句样本分别输出n个置信度。针对任一第二会话语句样本而言,本公开可以将该第二会话语句样本的n个置信度中的最高置信度所对应的实体关系,作为该第二会话语句样本的实体关系。

s505、获取各第二会话语句样本的实体关系的校正结果,并根据实体关系的校正结果,形成第一会话语句样本,存储在训练集合中。

可选的,本公开可以将第二会话语句样本及其实体关系提供给标注平台,经由标注平台对实体关系识别模型推断出的第二会话语句样本的实体关系进行校正处理,本公开可以根据标注平台返回的信息,获得第二会话语句样本及其校正后的实体关系。本公开可以根据校正后的实体关系为第二会话语句样本设置实体关系标注信息,从而使第二会话语句样本转变为具有实体关系标注信息的第一会话语句样本。训练集合中的第二会话语句样本会在实体关系识别模型的训练过程中逐步被消耗殆尽,且通过对实体关系识别模型不断进行训练,实体关系识别模型推断出的第二会话语句样本的实体关系通常会越来越准确,从而需要批注平台更正的实体关系会越来越少。

s506、判断实体关系识别模型是否训练成功,如果模型训练成功,则可以到s507;如果未训练成功,则可以返回s500。

可选的,本公开可以利用测试集合中的第一会话语句样本,判断实体关系识别模型是否训练成功。例如,如果实体关系识别模型针对测试集合中的第一会话语句样本推断出的实体关系的准确率达到预定要求,则认为实体关系识别模型训练成功,如果实体关系识别模型针对测试集合中的第一会话语句样本推断出的实体关系的准确率未达到预定要求,则认为实体关系识别模型未训练成功。

另外,在s506中,在判断出实体关系识别模型未训练成功的情况下,还可以进一步判断当前对实体关系识别模型进行训练,所使用的训练集合中的第一会话语句样本的总数量是否已经达到预定数量要求。如果使用的训练集合中的第一会话语句样本的总数量已经达到预定数量要求,则可以不再返回s500,而是到s507,停止对实体关系识别模型的训练过程,且本次并未对实体关系识别模型训练成功。如果使用的训练集合中的第一会话语句样本的总数量还未达到预定数量要求,则可以返回s500。

s507、对实体关系识别模型的训练过程结束。

本公开通过在训练过程中,使用实体关系识别模型对训练集合中的第二会话语句样本进行实体关系识别处理,并对识别处理结果进行校正,如提交到标注平台进行校正,并利用校正结果为第二会话语句样本设置实体关系标注信息,可以在训练集合具有较少数量的第一会话语句样本的情况下,逐步丰富训练集合中的第一会话语句样本,从而有利于减少会话语句样本的标注量,进而有利于提高实体关系模型的训练效率。

在一个可选示例中,本公开可以利用实体识别模型来识别会话语句中的第一实体和第二实体。本公开识别会话语句中的第一实体和第二实体的一个例子如图6所示。

图6中,s600、将会话语句和会话语句的实体关系提供给实体识别模型。

可选的,本公开的会话语句可以是基于向量形式的会话语句,具体可以如上述s400中的描述,在此不再详细说明。本公开中的实体关系也可以采用向量的形式表示。本公开可以将会话语句和会话语句的实体关系进行拼接,并将拼接结果作为输入,提供给实体识别模型。

例如,假设会话语句为“**小区附近的小学是**小学和**小学”,且该会话语句的实体关系为“学校信息”,则本公开可以将向量形式的“**小区附近的小学是**小学和**小学”和“学校信息”进行拼接,并将拼接结果作为输入提供给实体识别模型。

再例如,假设会话语句为“**小区周边还有**公园”,且该会话语句的实体关系为“公园信息”,则本公开可以将向量形式的“**小区周边还有**公园”和“公园信息”进行拼接处理,并将拼接结果作为输入提供给实体识别模型。

可选的,本公开中的实体识别模型可以采用bert模型+crf(conditionalrandomfields,条件随机场)模型、lstm(longshort-termmemory,长短期记忆)+crf模型、rnn(recurrentneuralnetworks,循环神经网络)、cnn(convolutionalneuralnetworks,卷积神经网络)、或者crf模型等。本公开对实体识别模型的具体表现形式不作限定。

s601、经由实体识别模型对会话语句进行实体识别处理。

可选的,本公开中的实体识别模型对输入的会话语句和实体关系执行的实体识别处理,可以认为是两种分类处理过程,其中一种分类处理过程为:对第一实体和第二实体的分类处理过程,其中另一种分类处理过程为:基于输入的实体关系,对会话语句中的每一个词分别进行bio(begin-inside-outside,开始-内部-外部)分类处理的过程。其中的b表示第一实体的第一个字或者第二实体的第一个字,i表示第一实体或者第二实体的除第一个字之外的其他字,o表示非第一实体和第二实体的字。

s602、根据实体识别模型的输出,获得会话语句中的第一实体和第二实体。

可选的,本公开中的实体识别模型可以针对会话语句中的每一个字分别输出b-sub的置信度、b-obj的置信度、i-sub的置信度、i-obj的置信度以及o的置信度。本公开可以对会话语句中的所有字的b-sub的置信度、b-obj的置信度、i-sub的置信度、i-obj的置信度以及o的置信度进行计算,并根据计算结果确定会话语句中的第一实体和第二实体。

续前例,假设会话语句为“**小区附近的小学是**小学和**小学”,且该会话语句的实体关系为“学校信息”,则本公开根据实体识别模型获得的第一实体可以为“**小区”,第二实体可以为“**小学和**小学”。

续前例,假设会话语句为“**小区周边还有**公园”,且该会话语句的实体关系为“公园信息”,则本公开根据实体识别模型获得的第一实体可以为“**小区”,第二实体可以为“**公园”。

如果采用规则匹配的方式来获得会话语句中的第一实体和第二实体,通常是在会话语句中的实体与预设规则中的内容完全匹配(即强匹配)时,才会获得第一实体和第二实体,这使得第一实体和第二实体的召回率较低,例如,在会话语句中出现未被预设规则覆盖的新实体的情况下,往往会出现无法识别出实体的现象。本公开通过利用实体识别模型(如bert模型+crf等模型),有利于便捷准确的获得会话语句的第一实体和第二实体。

在一个可选示例中,本公开中的实体识别模型的训练过程的一个例子如图7所示。

s700、将训练集合中的多个第三会话语句样本及其实体关系标注信息分别提供给实体识别模型。

可选的,本公开可以根据预设批处理参数,从训练集合中读取一定数量的第三会话语句样本。本公开中的训练集合中的第三会话语句样本设置有第一实体标注信息、第二实体标注信息以及实体关系标注信息。在训练的初始阶段,训练集合中的具有第一实体标注信息、第二实体标注信息以及实体关系标注信息的第三会话语句样本的数量占训练集合中的所有会话语句样本的比例可以较小。本公开可以在训练实体识别模型的过程中,逐步提高训练集合中的第三会话语句样本的数量。

可选的,本公开中的第一实体标注信息和第二实体标注信息通常不是基于bio形式的标注信息。第一实体标注信息和第二实体标注信息通常只是表示出第三会话语句样本中的哪一个实体为第一实体,哪一个实体为第二实体。

s701、由实体识别模型对各第三会话语句样本及其实体关系标注信息分别进行实体识别处理,并根据实体识别模型的输出,获得各第三会话语句样本的第一实体和第二实体。

可选的,本公开中的实体识别模型对输入的会话语句和实体关系执行的实体识别处理,可以认为是两种分类处理过程,其中一种分类处理过程为:对第一实体和第二实体的分类处理过程,其中另一种分类处理过程为:基于输入的实体关系,对会话语句中的每一个词分别进行bio(begin-inside-outside,开始-内部-外部)分类处理的过程。其中的b表示第一实体的第一个字或者第二实体的第一个字,i表示第一实体或者第二实体的除第一个字之外的其他字,o表示非第一实体和第二实体的字。

可选的,本公开中的实体识别模型可以针对第三会话语句样本中的每一个字分别输出b-sub的置信度、b-obj的置信度、i-sub的置信度、i-obj的置信度以及o的置信度。针对任一第三会话语句样本,本公开可以对该第三会话语句样本中的所有字的b-sub的置信度、b-obj的置信度、i-sub的置信度、i-obj的置信度以及o的置信度进行计算,并根据计算结果确定该第三会话语句样本中的第一实体和第二实体。

s702、根据各第三会话语句样本的第一实体标注信息、第二实体标注信息、获得的各第三会话语句样本的第一实体和第二实体,执行损失计算,获得第二损失计算结果,并利用第二损失计算结果,调整实体识别模型的网络参数。

可选的,由于本公开中的第一实体标注信息和第二实体标注信息通常不是基于bio形式的标注信息,而在损失计算时,通常会使用第三会话语句样本的基于bio的置信度进行损失计算,因此,针对任一第三会话语句样本而言,本公开可以先根据该第三会话语句样本的第一实体标注信息和第二实体标注信息,为第三会话语句样本设置bio形式的标注信息,然后,再利用相应的损失函数,对为各第三会话语句样本分别设置的基于bio形式的标注信息以及s701步骤中获得的各第三会话语句样本的基于bio的置信度进行损失计算,并将损失计算结果在实体识别模型中进行反向传播,以调整实体识别模型的网络参数。实体识别模型的网络参数包括但不限于:权值矩阵等。

s703、将训练集合中的多个第四会话语句样本及其实体关系标注信息分别提供给实体识别模型。

可选的,本公开中的第四会话语句样本设置有实体关系标注信息,且第四会话语句样本未设置有第一实体标注信息和第二实体标注信息。训练集合中的第四会话语句样本的数量会在实体识别模型的训练过程中逐渐减小,在完成实体识别模型的训练后,训练集合中可以不再包含有第四会话语句样本。

可选的,在利用图5所示的流程,为第二会话语句样本设置了实体关系标注信息之后,如果第二会话语句样本未设置有第一实体标注信息和第二实体标注信息,则带有实体关系标注信息的第二会话语句样本可以被作为第四会话语句样本。如果第一会话语句样本未设置有第一实体标注信息和第二实体标注信息,则带有实体关系标注信息的第一会话语句样本同样可以被作为第四会话语句样本。

s704、由实体识别模型对各第四会话语句样本及其实体关系标注信息分别进行实体识别处理,并根据实体识别模型的输出,获得各第四会话语句样本的第一实体和第二实体。

可选的,本公开中的实体识别模型可以针对第四会话语句样本中的每一个字分别输出b-sub的置信度、b-obj的置信度、i-sub的置信度、i-obj的置信度以及o的置信度。针对任一第四会话语句样本,本公开可以对该第四会话语句样本中的所有字的b-sub的置信度、b-obj的置信度、i-sub的置信度、i-obj的置信度以及o的置信度进行第一实体置信度计算和第二实体置信度计算,并根据计算结果确定该第四会话语句样本中的第一实体和第二实体。

s705、获取各第四会话语句样本的第一实体和第二实体的校正结果,并根据校正结果,形成第三会话语句样本,存储在训练集合中。

可选的,本公开可以将第四会话语句样本及其第一实体和第二实体提供给标注平台,经由标注平台实体识别模型推断出的第一实体和第二实体进行校正处理,本公开可以根据标注平台返回的信息,获得第四会话语句样本及其校正后的第一实体和第二实体。本公开可以根据校正后的第一实体和第二实体,为第四会话语句样本设置第一实体标注信息和第二实体标注信息,从而使第四会话语句样本转变为具有实体关系标注信息、第一实体标注信息和第二实体标注信息的第三会话语句样本。训练集合中的第四会话语句样本可以在实体识别模型的训练过程中逐步被消耗殆尽。

s706、判断实体识别模型是否训练成功,如果训练成功,则到s707;如果未训练成功,则可以返回s700。

可选的,本公开可以利用测试集合中的第三会话语句样本,判断实体识别模型是否训练成功。例如,如果实体识别模型针对测试集合中的第三会话语句样本推断出的第一实体和第二实体的准确率达到预定要求,则认为实体识别模型训练成功,如果实体识别模型针对测试集合中的第三会话语句样本推断出的第一实体和第二实体的准确率未达到预定要求,则认为实体识别模型未训练成功。

另外,在s706中,在判断出实体识别模型未训练成功的情况下,还可以进一步判断当前对实体识别模型进行训练,所使用的训练集合中的第三会话语句样本的总数量是否已经达到预定数量要求。如果使用的训练集合中的第三会话语句样本的总数量已经达到预定数量要求,则可以到s707,停止对实体识别模型的训练过程,且本次并未对实体识别模型训练成功。如果使用的训练集合中的第三会话语句样本的总数量还未达到预定数量要求,则可以返回s700。

s707、对实体识别模型的训练过程结束。

本公开通过在训练过程中,使用实体识别模型对训练集合中的第四会话语句样本进行第一实体和第二实体识别处理,并对识别处理结果进行校正,如提交到标注平台进行校正,并利用校正结果为第三会话语句样本设置第一实体标注信息和第二实体标注信息,可以在训练集合具有较少第三会话语句样本的情况下,逐步丰富训练集合中的第三会话语句样本,并最终使训练集合中的所有第一会话语句样本、第二会话语句样本和第四会话语句样本均成为第三会话语句样本,从而有利于在较大程度上减少会话语句样本的标注量,进而有利于提高实体模型的训练效率。

在一个可选示例中,本公开可以使用基于实体所属类型的预设组合规则,对第一实体、第二实体以及实体关系进行组合校验。本公开的组合校验的一个具体例子如下述图8所示。

图8中,s800、获取第一实体所属的类型以及第二实体所属的类型。

可选的,本公开中的第一实体和第二实体所属的类型可以根据应用领域的实际情况设置,例如,在房产领域,第一实体和第二实体所属的类型可以包括:时间、地理位置、行政区划、学校、小区、楼栋以及房屋等。本公开对此不作限定。

可选的,本公开可以根据相应的规则,判断第一实体所属的类型和第二实体所属的类型。

续前例,假设会话语句为“**小区附近的小学是**小学和**小学”,且第一实体为“**小区”,第二实体为“**小学和**小学”,则第一实体所属的类型为“小区”,第二实体所属的类型为“学校”。

续前例,假设会话语句为“**小区周边还有**公园”,且第一实体为“**小区”,第二实体为“**公园”,则第一实体所属的类型为“小区”,第二实体所属的类型为“娱乐设施”。

s801、判断第一实体所属的类型、第二实体所属的类型以及实体关系,是否符合预设组合规则,如果符合预设规则,则到s802;如果不符合预设规则,则到s803。

可选的,本公开的预设组合规则通常是根据应用领域的实际情况设置的。例如,对于房产领域,预设组合规则可以包括:“小区,学校,学校信息”这一组合规则、以及“小区,公园,公园信息”这一组合规则。另外,预设组合规则可以包括被禁止的组合规则,例如,预设组合规则可以将“小区,公园,学校信息”作为被禁止的组合规则。本公开对预设组合规则的具体内容不做限定。

s802、确定第一实体、第二实体以及实体关系的组合校验通过,并将第一实体、第二实体和实体关系作为一个三元组,存储于三元组集合中。到s806。

续前例,假设预设组合规则包括:“小区,学校,学校信息”、以及“房屋特点,时间,房屋属性”,则(“**小区”,“**小学和**小学”,“学校信息”)可以形成一个三元组,(“**小区”,“**公园”,“公园信息”)可以形成一个三元组。

s803、获取会话语句中的备选实体关系。

可选的,本公开可以根据会话语句中的各实体关系的置信度,来确定会话语句中的备选实体关系。例如,假设预先设置有n种实体关系,在利用据实体关系识别模型获得会话语句的实体关系的情况下,本公开可以根据所述实体关系识别模型的输出,获得n个置信度,置信度最高的实体关系被作为会话语句的实体关系,置信度次高的实体关系可以被作为会话语句的备选实体关系。另外,本公开也可以将置信度次高且超过预定置信度的实体关系作为会话语句的备选实体关系。再有,本公开也不排除将除了最高置信度之外,且置信度超过预定置信度的多个实体关系均作为备选实体关系的情况。本公开不限定备选实体关系的数量。

s804、判断第一实体所属的类型、第二实体所属的类型和备选实体关系,是否符合预设组合规则,如果符合预设规则,则到s805;如果不符合预设规则,则到s806。

可选的,在备选实体关系为多个的情况下,本公开可以根据各备选实体关系的置信度从高到低的顺序,判断第一实体所属的类型、第二实体所属的类型和备选实体关系,是否符合预设组合规则,一旦判断出第一实体所属的类型、第二实体所属的类型和备选实体关系符合预设组合规则,则可以不再对第一实体所属的类型、第二实体所属的类型和其他备选实体关系进行是否符合预设组合规则的判断。

s805、确定第一实体、第二实体和备选实体关系的组合校验通过,并将第一实体、第二实体和备选实体关系作为一个三元组,存储于三元组集合中。

s806、本次组合校验过程结束。

可选的,本公开可以输出第一实体、第二实体、实体关系以及备选实体关系无法形成三元组的提示信息。

本公开通过对第一实体所属的类型、第二实体所属的类型以及实体关系进行是否符合预设组合规则的判断,有利于便捷的确定出能够形成三元组的组合。通过针对第一实体所属的类型、第二实体所属的类型以及备选实体关系进行是否符合预设组合规则的判断,有利于避免实体关系识别模型对实体关系的误判,对形成三元组的影响。

示例性装置

图9为本公开的获取用于实现会话的多元组集合装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。

如图9所示,本实施例的装置主要包括:获取会话语句模块900、识别模块901、组合校验模块902以及多元组存储模块903。可选的,该装置还可包括:第一训练模块904、第二训练模块905以及获取备选关系模块906中的至少一个。

获取会话语句模块900用于获取第一会话中的第一会话方的会话语句。

识别模块901用于识别会话语句中的第一实体、第二实体以及实体关系。其中的实体关系用于表示第一实体和第二实体间的关系。

可选的,识别模块901可以包括:识别实体关系子模块9011和识别实体子模块9012。其中的识别实体关系子模块9011用于识别会话语句的实体关系。例如,识别实体关系子模块9011可以将会话语句提供给实体关系识别模型,经由实体关系识别模型对该会话语句进行实体关系识别处理,并根据该实体关系识别模型的输出,获得会话语句的实体关系。其中的识别实体子模块9012用于根据会话语句及其实体关系,识别会话语句中的第一实体和第二实体。例如,识别实体子模块9012可以将会话语句和会话语句的实体关系提供给实体识别模型,经由实体识别模型对会话语句进行实体识别处理,并根据实体识别模型的输出,获得会话语句中的第一实体和第二实体。

组合校验模块902用于对第一实体、第二实体以及实体关系进行组合校验。

可选的,组合校验模块902可以包括:获取类型子模块9021以及组合校验子模块9022。其中的获取类型子模块9021用于获取第一实体所属的类型、以及第二实体所属的类型。其中的组合校验子模块9022用于判断第一实体所属的类型、第二实体所属的类型以及实体关系,是否符合预设组合规则,若第一实体所属的类型、第二实体所属的类型以及实体关系,符合预设组合规则,则确定第一实体、第二实体以及所述实体关系的组合校验通过。

多元组存储模块903用于若组合校验模块902的组合校验通过,则将第一实体、第二实体和实体关系作为一个多元组,存储于多元组集合中。本公开中的多元组集合用于:在第二会话过程中,基于第二会话方的当前会话语句,选取相应的多元组,并根据选取出的多元组形成第一会话方的当前会话语句。

第一训练模块904用于对实体关系识别模型进行训练。第一训练模块904对实体关系识别模型进行训练的一个例子可以为:

首先,第一训练模块904将训练集合中的多个第一会话语句样本分别提供给实体关系识别模型;其中的第一会话语句样本设置有实体关系标注信息。

其次,由实体关系识别模型对各第一会话语句样本分别进行实体关系识别处理,第一训练模块904根据实体关系识别模型的输出,可以获得各第一会话语句样本的实体关系。

再次,第一训练模块904根据各第一会话语句样本的实体关系标注信息和其获得的各第一会话语句样本的实体关系,执行损失计算,获得第一损失计算结果,并利用第一损失计算结果,调整实体关系识别模型的网络参数。

之后,第一训练模块904将训练集合中的多个第二会话语句样本分别提供给实体关系识别模型。其中的第二会话语句样本未设置有实体关系标注信息。

再后,由实体关系识别模型对各第二会话语句样本分别进行实体关系识别处理,第一训练模块904根据实体关系识别模型的输出,获得各第二会话语句样本的实体关系。

最后,第一训练模块904获取各第二会话语句样本的实体关系的校正结果,并根据校正结果,形成第一会话语句样本,存储在训练集合中。

第二训练模块905用于对实体识别模型进行训练。第二训练模块905对实体识别模型进行训练的一个例子可以为:

首先,第二训练模块905将训练集合中的多个第三会话语句样本及其实体关系标注信息分别提供给实体识别模型。其中的第三会话语句样本设置有第一实体标注信息、第二实体标注信息以及实体关系标注信息。

其次,由实体识别模型对各第三会话语句样本及其实体关系标注信息分别进行实体识别处理,第二训练模块905根据实体识别模型的输出,获得各第三会话语句样本的第一实体和第二实体。

再次,第二训练模块905根据各第三会话语句样本的第一实体标注信息、第二实体标注信息、其获得的各第三会话语句样本的第一实体和第二实体,执行损失计算,获得第二损失计算结果,并利用第二损失计算结果,调整实体识别模型的网络参数。

之后,第二训练模块905将训练集合中的多个第四会话语句样本及其实体关系标注信息分别提供给实体识别模型。其中的第四会话语句样本设置有实体关系标注信息,且未设置有第一实体标注信息和第二实体标注信息。

再后,由实体识别模型对各第四会话语句样本及其实体关系标注信息分别进行实体识别处理,第二训练模块905根据实体识别模型的输出,获得各第四会话语句样本的第一实体和第二实体。

最后,第二训练模块905获取各第四会话语句样本的第一实体和第二实体的校正结果,并根据校正结果,形成第三会话语句样本,存储在训练集合中。

获取备选关系模块906用于获取会话语句中的备选实体关系。例如,在利用实体关系识别模型获得会话语句的实体关系的情况下,获取备选关系模块906可以根据实体关系识别模型输出的会话语句中的各实体关系的置信度,获取会话语句中的备选实体关系。

在本公开的装置包括获取备选关系模块906的情况下,本公开中的组合校验子模块9022还用于:若第一实体所属的类型、第二实体所属的类型以及实体关系,不符合预设组合规则,则判断第一实体所属的类型、第二实体所属的类型以及备选实体关系,是否符合预设组合规则,若第一实体所属的类型、第二实体所属的类型以及备选实体关系,符合预设组合规则,则组合校验子模块9022确定第一实体、第二实体以及备选实体关系的组合校验通过。在该情况下,多元组存储模块903还用于,在第二组合校验子模块9022确定第一实体、第二实体以及备选实体关系的组合校验通过的情况下,将第一实体、第二实体和备选实体关系作为一个多元组,存储于多元组集合中。

本公开的装置所包含的各模块、各子模块、各单元以及各自单元具体执行的操作,可以参见上述方法实施例中的相关描述,在此不再详细说明。

示例性电子设备

下面参考图10来描述根据本公开实施例的电子设备。图10示出了根据本公开实施例的电子设备的框图。如图10所示,电子设备101包括一个或多个处理器1011和存储器1012。

处理器1011可以是中央处理单元(cpu)或者具有获取用于实现会话的多元组集合的能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备101中的其他组件以执行期望的功能。

存储器1012可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(rom)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1011可以运行所述程序指令,以实现上文所述的本公开的各个实施例的获取用于实现会话的多元组集合方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中,电子设备101还可以包括:输入装置1013以及输出装置1014等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备1013还可以包括例如键盘、鼠标等等。该输出装置1014可以向外部输出各种信息。该输出设备1014可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图10中仅示出了该电子设备101中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备101还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的获取用于实现会话的多元组集合方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的获取用于实现会话的多元组集合方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1