一种实体分类模型训练方法及装置与流程

文档序号:16136795发布日期:2018-12-01 01:05阅读:169来源:国知局

本发明实施例涉及数据处理技术领域,具体而言,涉及知识图谱中,实体分类模型的训练方法及装置。

背景技术

知识图谱作为一个结构化的信息网络,打破了原有关系型数据库的限制,具有强大的表达能力,在信息检索和信息整合等领域扮演着重要的角色。其中,对实体进行分类,能够明确实体所属的类别,完善知识图谱的网络拓扑结构,提高知识图谱的表达能力,对于知识图谱构建及应用(如:知识推理、实体链接、智能问答等)都有重要的意义和价值。

神经网络模型的应用,给实现对实体的分类提供了另一思路。而对于机器学习,尤其是深度学习而言,大多数算法的运行需要有大量训练数据作为支撑,训练数据的丰富程度、完整性或准确性对于机器学习具有非常重要的意义。这给应用机器学习模型实现对实体的分类带来了现实的挑战。



技术实现要素:

有鉴于此,本发明实施例提供了一种实体分类模型训练方法及装置,使用该分类模型,能够实现实体的分类。

本发明实施例提供了一种实体分类模型训练方法,所述方法包括:

获取第一数据对集合,所述第一数据对集合包含至少一个第一数据对,所述第一数据对中的每个包含至少一个第一实体及该至少一个第一实体对应的至少一个第一类别;

基于所述第一数据对集合获取第二数据对集合,所述第二数据对集合包含至少一个第二数据对,所述第二数据对中的每个包含至少一个第二实体及该至少一个第二实体对应的至少一个第二类别;

针对所述第一数据对集合,构建第一向量矩阵集合,所述第一向量矩阵集合包括至少一个第一向量矩阵,所述第一向量矩阵基于所述第一数据对构建;

针对所述第二数据对集合,构建第二向量矩阵集合,所述第二向量矩阵集合包括至少一个第二向量矩阵,所述第二向量矩阵基于所述第二数据对构建;

将所述第一向量矩阵集合和所述第二向量矩阵集合作为所述实体分类模型的输入,基于第一数据对集合和/或第二数据对集合,判断所述实体分类模型的输出结果,基于判断结果,调整所述实体分类模型的模型参数。

可选的,所述第一数据对中,所述至少一个第一实体对应的至少一个第一类别为该至少一个第一实体的正确类别。

可选的,所述第二数据对中,所述至少一个第二实体对应的至少一个第二类别为该至少一个第二实体的错误类别。

可选的,所述获取第一数据对集合,包括:

获取候选实体集和候选类别集合;以及

获取至少一个第一属性信息,以及所述第一属性信息对应的至少一个第一属性值,如果所述第一属性信息属于所述候选类别集合,且该第一属性信息对应的第一属性值属于所述候选实体集,则基于该第一属性信息和该第一属性值构建所述第一数据对,并添加到所述第一数据对集合,其中,将该第一属性值作为第一实体,该第一属性信息作为第一类别。

可选的,所述获取第一数据对集合,包括:

获取候选实体集和候选类别集合;以及

如果候选实体集中的某一候选实体具有标题标签,并且所述标题标签的中心词属于所述候选类别集合,则基于所述标题标签对应的标题以及所述中心词构建所述第一数据对,并添加到所述第一数据对集合,其中,所述标题作为第一实体,所述中心词作为第一类别。

可选的,所述候选类别集合获取方式,包括:

将出现频次大于设定阈值的标签作为候选类别,收集得到所述候选类别集合。

可选的,所述基于所述第一数据对集合获取第二数据对集合,包括:对于第一数据对集合中所包含的第一实体集合及第一类别集合,如果某一第一实体的属性信息集合与某一第一类别的属性信息集合的重复元素满足一定条件,则基于该第一实体与该第一类别构建第二数据对,并构建或添加到所述第二数据对集合。

可选的,所述一定条件指:该第一实体的属性信息集合与该第一类别的属性信息集合的重复元素的个数占该第一类别的属性信息集合全部元素个数的30%-50%。

可选的,所述针对所述第一数据对集合,构建第一向量矩阵集合,包括:

将所述至少一个第一实体、所述至少一个第一实体的至少一个属性信息、所述至少一个第一实体的至少一个属性信息的至少一个属性值、所述至少一个第一类别、所述至少一个第一类别的至少一个属性信息作为节点,构建信息图;

按照设定的路径规则,选择所述信息图中的节点集合,基于所述节点集合中各节点的表示向量构建所述第一向量矩阵,添加到所述第一向量矩阵集合。

本发明实施例还提供了一种实体分类模型训练装置,所述装置包括:

第一获取模块,用于获取第一数据对集合,所述第一数据对集合包含至少一个第一数据对,所述第一数据对中的每个包含至少一个第一实体及该至少一个第一实体对应的至少一个第一类别;

第二获取模块,用于基于所述第一数据对集合获取第二数据对集合,所述第二数据对集合包含至少一个第二数据对,所述第二数据对中的每个包含至少一个第二实体及该至少一个第二实体对应的至少一个第二类别;

第一构建模块,用于针对所述第一数据对集合,构建第一向量矩阵集合,所述第一向量矩阵集合包括至少一个第一向量矩阵,所述第一向量矩阵基于所述第一数据对构建;

第二构建模块,用于针对所述第二数据对集合,构建第二向量矩阵集合,所述第二向量矩阵集合包括至少一个第二向量矩阵,所述第二向量矩阵基于所述第二数据对构建;

训练模块,用于将所述第一向量矩阵集合和所述第二向量矩阵集合作为所述实体分类模型的输入,基于第一数据对集合和/或第二数据对集合,判断所述实体分类模型的输出结果,基于判断结果,调整所述实体分类模型的模型参数。

可选的,所述第二获取模块,具体用于:对于第一数据对集合中所包含的第一实体集合及第一类别集合,如果某一第一实体的属性信息集合与某一第一类别的属性信息集合的重复元素满足一定条件,则基于该第一实体与该第一类别构建第二数据对,并构建或添加到所述第二数据对集合。

可选的,所述第一构建模块,具体用于:

将所述至少一个第一实体、所述至少一个第一实体的至少一个属性信息、所述至少一个第一实体的至少一个属性信息的至少一个属性值、所述至少一个第一类别、所述至少一个第一类别的至少一个属性信息作为节点,构建信息图;

按照设定的路径规则,选择所述信息图中的节点集合,基于所述节点集合中各节点的表示向量构建所述第一向量矩阵,添加到所述第一向量矩阵集合。

本发明实施例提供的实体分类模型训练方法及装置,通过获取的第一数据对集合,以及基于第一数据对集合获取的第二数据对集合,分别构建第一向量矩阵集合和第二向量矩阵集合,并基于构建的第一向量矩阵集合和第二向量矩阵集合,对实体分类模型进行训练,给出了知识图谱中,训练实体分类模型的技术方案。方案能够较为充分地从数据提取信息,并利用获知的正确类别对应信息、错误类别对应信息,构建训练数据完成对模型的训练,使得训练好的实体分类模型能够较好地对实体进行分类。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种实体分类模型训练方法的流程图;

图2示出了本发明实施例所提供的另一种实体分类模型训练方法的流程图;

图3示出了本发明实施例所提供的一种信息图的示意图;

图4示出了本发明实施例所提供的一种实体分类模型训练方法的应用示意图;

图5示出了本发明实施例所提供的一种实体分类模型训练装置的结构示意图;

图6示出了本发明实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例将机器学习应用到知识图谱的实体分类中,提供了一种实体分类模型训练方法,详见下述实施例。

参见图1,为本发明实施例提供的实体分类模型训练方法的流程图,该实体分类模型训练方法的执行主体可以是计算机设备,上述方法具体包括如下步骤:

s101、获取第一数据对集合,第一数据对集合包含至少一个第一数据对,第一数据对中的每个包含至少一个第一实体及该至少一个第一实体对应的至少一个第一类别。

这里,为了便于对上述第一数据对中的第一实体和第一类别进行理解,现结合在线百科(如百度百科)这一应用场景来具体阐述本发明实施例获取上述第一实体和第一类别的方法。在百度百科这一应用场景中,以球星克里斯蒂亚诺·罗纳尔多为例,上述第一实体可以是百度百科信息框中与第一属性信息(如国籍)相对应的第一属性值(即葡萄牙),上述第一类别则可以是第一属性信息,也即国籍。此外,上述第一实体还可以是标题标签(如葡萄牙足球运动员)对应的标题(即克里斯蒂亚诺·罗纳尔多),上述第一类别则可以是标题标签中的中心词,也即运动员。对于上述第一实体和第一类别,本发明实施例可以是从互联网网站(如百度百科)精确开放的数据接口进行获取,还可以是采用网络爬虫技术,如python(一种面向对象的解释型计算机程序设计语言)实现爬虫的功能,把想要获取的第一实体和第一类别爬取到本地的计算机设备。

值得说明的是,本发明实施例中与第一实体对应的第一类别,可以是指第一实体的正确类别,如第一实体为克里斯蒂亚诺·罗纳尔多,第一类别则可以对应为运动员、足球运动员、葡萄牙足球运动员等,这使得本发明实施例能够利用正确的类别对应信息。

s102、基于第一数据对集合获取第二数据对集合,第二数据对集合包含至少一个第二数据对,第二数据对中的每个包含至少一个第二实体及该至少一个第二实体对应的至少一个第二类别。

这里,本发明实施例中,第二数据对集合的构建是依赖于获取的第一数据对集合的。第二数据对集合中的第二实体可以与第一数据对集合中的第一实体相同,这样,该第二实体对应的第二类别则可以是指第一实体的错误类别,如第二实体为克里斯蒂亚诺·罗纳尔多,第二类别则可以对应为歌星、篮球运动员等。

考虑到在实体与类别配对正确时,其实体的相关属性与类别的相关属性可能存在更多的重复属性,而在实体与类别配对错误时,其实体的相关属性与类别的相关属性可能存在更少的重复属性,这样,本发明实施例在第一实体的属性信息集合与某一第一类别的属性信息集合的重复元素满足一定条件时,得到对应的第二数据对,以构建第二数据对集合。例如:通常正确配对的实体与类别的重复属性会高达50%以上,而低于50%的通常为不正确的配对,为此,可以将重复属性在30%-50%的实体与类别作为错误配对,更低比例的实体与类别对于训练的帮助作用不大。

可见,本发明实施例基于第一数据对集合和第二数据对集合的构建将实体与其正确类别、错误类别联系起来,以为实体分类模型训练提供数据支撑。

s103、针对第一数据对集合,构建第一向量矩阵集合,第一向量矩阵集合包括至少一个第一向量矩阵,第一向量矩阵基于第一数据对构建。

这里,本发明实施例基于第一数据对中第一实体及其相关信息(如属性信息、属性值信息)、第一类别及其相关信息(如属性信息)以及设定的路径规则来构建第一向量矩阵,并将该第一向量矩阵添加至第一向量矩阵集合。

s104、针对第二数据对集合,构建第二向量矩阵集合,第二向量矩阵集合包括至少一个第二向量矩阵,第二向量矩阵基于第二数据对构建。

这里,构建第二向量矩阵集合与构建第一向量矩阵集合相类似,参见上述具体内容,在此不再赘述。

s105、将第一向量矩阵集合和第二向量矩阵集合作为实体分类模型的输入,基于第一数据对集合和/或第二数据对集合,判断实体分类模型的输出结果,基于判断结果,调整实体分类模型的模型参数。

以上顺序只是示例说明,本发明并不限制构建第一向量矩阵集合与获取第二数据对集合、构建第二向量矩阵集合的先后顺序。构建第一向量矩阵集合可以早于、晚于第一向量矩阵集合和/或构建第二向量矩阵集合,也可以同时处理。只要在将训练模型之前,得到第一向量矩阵集合、第二向量矩阵集合即可。在这里,在实体分类模型构建阶段,以s103和s104构建的与第一数据对集合对应的第一向量矩阵集合和与第二数据对集合对应的第二向量矩阵集合作为待训练的实体分类模型的输入特征,以该第一数据对集合/或第二数据对集合作为输出结果,训练得到实体分类模型的模型参数等,也即得到训练好的体分类模型。本发明实施例可以采用卷积神经网络模型作为实体分类模型,模型训练阶段也就是训练神经网络模型中一些未知的模型参数等的过程。之后,就可以基于该实体分类模型进行实体分类了,将目标实体和目标类别输入到训练好的实体分类模型中,即可确定判断结果,也即,可以根据训练好的实体分类模型确定目标实体是否属于目标类别,从而扩展对实体的分类数量,或者提高实体分类的精准度。

本发明实施例中,第一数据对集合的获取不仅影响了第二数据对集合的确定,还会进一步影响实体分类模型的训练效果,所以,上述第一数据集合的获取过程是本发明实施例提供的实体分类模型训练方法的关键步骤。本发明实施例中,不仅可以基于信息框来确定第一数据对集合,还可以基于标题标签来确定第一数据对集合,接下来分别进行具体阐述。

对于基于信息框来确定第一数据对集合这一方式而言,本发明实施例首先需要获取候选实体集和候选类别集合,然后再判断获取的第一属性信息是否属于候选类别集合,且该第一属性信息对应的第一属性值属于候选实体集,若是,则基于该第一属性信息和该第一属性值构建第一数据对,并添加到第一数据对集合。

其中,上述候选实体集可以是预先设置的实体集,还可以是在确定第一属性信息对应的第一属性值不属于初始候选实体集时,添加至初始候选实体集中所得到的。上述候选类别集合可以是统计在线百科中所有标签(如词条标签)出现频次比较高的标签作为候选类别,以球星克里斯蒂亚诺·罗纳尔多为例,上述词条标签可以包括运动员,足球运动员,足球,体育人物,人物,以姚明为例,上述词条标签可以包括运动员,话题人物,篮球运动员,篮球,体育人物,这样,通过统计所有词条标签中的标签出现频次,即可确定对应的候选类别集合。

对于基于标题标签来确定第一数据对集合这一方式而言,本发明实施例可以根据候选实体集中的某一候选实体所具有的标题标签中的中心词是否属于候选类别集合的判断结果来基于标题标签对应的标题以及中心词构建第一数据对,并添加到第一数据对集合。其中,标题作为第一实体,中心词作为第一类别。

综上,本发明实施例提供的实体分类模型训练方法不仅可以基于信息框来确定第一数据对集合,还可以基于标题标签来确定第一数据对集合,使得构建的第一数据对集合适用性更强。

本发明实施例基于确定的第一数据对集合,可以确定第二数据对集合。本发明实施例中,在第一数据对集合中所包含的第一实体集合及第一类别集合中,判断任一第一实体的属性信息集合与某一第一类别的属性信息集合的重复元素满足一定条件,如该第一实体的属性信息集合与该第一类别的属性信息集合的重复元素的个数占该第一类别的属性信息集合全部元素个数的30%-50%,若是,则基于该第一实体与该第一类别构建第二数据对,并构建或添加到第二数据对集合。

其中,上述重复元素的个数占比不易过大也不易过小,过大会导致构建的第二数据对集合的覆盖面不够,过小会导致第二数据集合的覆盖面过高,均可能导致第二数据对集合的不准确。因此,本发明实施例可以将占比控制在30%-50%,以确保第二数据对集合的准确性。

为了便于进行实体分类模型的训练,本发明实施例还要基于获取的第一数据对集合构建对应的第一向量矩阵集合,如图2所示,上述第一向量矩阵集合的构建过程具体通过如下步骤实现:

s201、将至少一个第一实体、至少一个第一实体的至少一个属性信息、至少一个第一实体的至少一个属性信息的至少一个属性值、至少一个第一类别、至少一个第一类别的至少一个属性信息分别作为节点,构建信息图。

这里,可以将类别的属性信息与实体的属性信息归类为属性信息。如图3所示,为信息图的一个具体示例,在该信息图中,包括实体、属性、属性值、类别这四个节点集合以及他们之间的关联关系。每一节点,指代一个对象,即指代一个实体或一个属性或一个属性值或一个类别。

s202、按照设定的路径规则,选择信息图中的节点集合,基于节点集合中各节点的表示向量构建第一向量矩阵,添加到第一向量矩阵集合。

这里,本发明实施例可以基于设定的路径规则从上述信息图中的各个节点中对应的节点的表示向量来构建第一向量矩阵。

本发明实施例中,可以使用相关模型如metapath2vec,将作为自然语言的节点信息转化为向量形式的数字信息,以便于机器识别,此过程称为编码(encoder)。也即,采用语义向量来表示一个节点信息,然后将该语义向量对应的第一向量矩阵作为实体分类模型的输入特征。常见的词表示模型主要有两种,一种是基于一次性表示(one-hotrepresentation)的词表示模型,另一种是基于分布式表示(distributedrepresentation)的词表示模型。

其中,前一种词表示模型用一个很长的向量来表示一个词,向量长度为词典的词量大小n,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典中的位置。也即,前一种词表示模型是采用稀疏方式存储词信息,也就是给每个词分配一个数字标识,表示形式相对简洁。后一种词表示模型则需要根据上下文信息进行语义表示,也即,相同语境出现的词,其语义也相近。也即,后一种词表示模型是采用稠密方式存储词信息,表示形式相对复杂。考虑到前一种基于one-hotrepresentation的词表示模型在解决实际问题时经常会遇到维数灾难,且无法揭示词汇之间的潜在联系,在实际实施中可以采用后一种基于distributedrepresentation的词表示模型对节点信息进行向量表示,不但避免维数灾难问题,并且挖掘了词汇之间的关联属性,从而提高了语义表达的准确度。

另外,本发明实施例中可以采用如下两种方式上述设定路径规则。第一种方式是由实体(e)->属性值(v)->属性(a)->类别(t),第二种方式是:实体(e1)->属性值(v1)->属性(a1)->属性值(v2)->实体(e2)->属性值(v3)->属性(a2)->类别(t),这样,基于任一第一数据对均可确定对应的路径所经过的各节点信息,通过将路径经过的所有节点信息进行整合,即可得到对应的第一向量矩阵。此处,并不限制其他路径规则的选择,具体可以有关要求,例如:根据时间、成本等因素或其他原因,调整、增加或减少路径规则,得到相应的向量矩阵,作为模型的训练数据。

通过在信息图中所对应的设定路径规则,可以得到多条路径,每一路径都包含有多个节点,分别表示实体、实体属性和/或类别属性、属性值、类别,将路径中所有节点的向量组合,即得到对应的第一向量矩阵,组合所得到的第一向量矩阵便可形成第一向量矩阵集合。这样,每个路径都对应一个第一向量矩阵,信息图中的路径集合即对应第一向量矩阵集合。本发明实施例中,第二向量矩阵集合的构建过程与上述第一向量矩阵集合的构建过程类似,具体参见上述内容,在此不再赘述。

这样,将基于路径规则,在信息图中可以得到一组从实体到类别的路径集合,将路径集合的相应路径上所有节点的向量组合,即得到第一向量矩阵集合、第二向量矩阵集合。其中,对于路径集合中长度较短的路径(即路径上节点数较少),可以选择填零操作,或者使用特定向量进行补足,将路径长度变为一致,方便模型输入数据的规整化。将得到的第一向量矩阵、第二向量矩阵作(可以表示为一个三维矩阵)输入到模型中,进行模型的训练。接下来描述实体分类模型的数据处理过程:

首先,使用设定的卷积核对输入的第一向量矩阵集合和/或第二向量矩阵集合进行卷积运算,得到多个特征映射集合,这里,特征映射集合的个数与卷积运算所采用的卷积核的个数相一致。也即,通过每个卷积窗口(对应卷积核)的卷积运算,即可得到对应的特征映射。

然后,在池化层中对这些特征映射做最大池化操作,可以捕获这些特征映射中最重要的特征,例如:这里可以过滤掉在向量矩阵集合构建时所填充的零。另外,为了使捕获的特征具有多样性,本发明实施例中的实体分类模型使用具有不同窗口大小的多个卷积核来捕获多个特征。

接下来,将与卷积核对应的多个单变量特征向量连接在一起形成单个特征向量,并传递到最后的完全连接层sigmod层,根据运算,输出结果为是或否两种结果。

由于之前获得的数据(第一数据对集合、第二数据对集合)中实体与类别的对应关系已知(正确或错误),将训练数据输入到模型中,根据模型的输出结果与已知的对应关系进行比较,并根据比较结果对模型的内设参数进行调整,从而可以实现对模型的训练。

训练好的实体分类模型能够对实体进行分类,扩大对实体的分类个数,和/或细化实体的分类。接下来结合一个实例来具体说明本发明实施例所提供的实体分类模型训练方法的应用效果。

本发明实施例将训练好的实体分类模型应用到百度百科知识中:包含(7,976,064个词条页面和120,540,204个信息框),得到了25,651,022个不同的类别信息。根据统计,共有7,976,064个不同的实体被分类到4518种不同的类别,平均每个实体有3种类别信息。

如图4所示,每个实体均分类到对应的至少两个类别中,分类的精准度较高,且分类的覆盖面较广,从而使得后续基于分类结果进行知识图谱的构建的效果更好。

基于同一发明构思,本发明实施例提供了一种与实体分类模型训练方法对应的实体分类模型训练装置,由于本发明实施例中的装置解决问题的原理与本发明实施例上述实体分类模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

如图5所示,本发明实施例所提供的实体分类模型训练装置的结构示意图,该训练装置具体包括:

第一获取模块501,用于获取第一数据对集合,第一数据对集合包含至少一个第一数据对,第一数据对中的每个包含至少一个第一实体及该至少一个第一实体对应的至少一个第一类别;

第二获取模块502,用于基于第一数据对集合获取第二数据对集合,第二数据对集合包含至少一个第二数据对,第二数据对中的每个包含至少一个第二实体及该至少一个第二实体对应的至少一个第二类别;

第一构建模块503,用于针对第一数据对集合,构建第一向量矩阵集合,第一向量矩阵集合包括至少一个第一向量矩阵,第一向量矩阵基于第一数据对构建;

第二构建模块504,用于针对第二数据对集合,构建第二向量矩阵集合,第二向量矩阵集合包括至少一个第二向量矩阵,第二向量矩阵基于第二数据对构建;

训练模块505,用于将第一向量矩阵集合和第二向量矩阵集合作为实体分类模型的输入,基于第一数据对集合和/或第二数据对集合,判断实体分类模型的输出结果,基于判断结果,调整实体分类模型的模型参数。

其中,所述第一数据对中,所述至少一个第一实体对应的至少一个第一类别为该至少一个第一实体的正确类别;以及

所述第二数据对中,所述至少一个第二实体对应的至少一个第二类别为该至少一个第二实体的错误类别。

在一种实施方式中,第一获取模块501,具体用于:

获取候选实体集和候选类别集合;以及

获取至少一个第一属性信息,以及第一属性信息对应的至少一个第一属性值,如果第一属性信息属于候选类别集合,且该第一属性信息对应的第一属性值属于候选实体集,则基于该第一属性信息和该第一属性值构建第一数据对,并添加到第一数据对集合,其中,将该第一属性值作为第一实体,该第一属性信息作为第一类别。

在另一种实施方式中,第一获取模块501,具体用于:

获取候选实体集和候选类别集合;以及

如果候选实体集中的某一候选实体具有标题标签,并且标题标签的中心词属于候选类别集合,则基于标题标签对应的标题以及中心词构建第一数据对,并添加到第一数据对集合,其中,标题作为第一实体,中心词作为第一类别。

在另一种实施方式中,第一获取模块501,还用于:将出现频次大于设定阈值的标签作为候选类别,收集得到候选类别集合。

在又一种实施方式中,第二获取模块502,具体用于:

对于第一数据对集合中所包含的第一实体集合及第一类别集合,如果某一第一实体的属性信息集合与某一第一类别的属性信息集合的重复元素满足一定条件,则基于该第一实体与该第一类别构建第二数据对,并构建或添加到第二数据对集合。

其中,一定条件指:该第一实体的属性信息集合与该第一类别的属性信息集合的重复元素的个数占该第一类别的属性信息集合全部元素个数的30%-50%。

在再一种实施方式中,第一构建模块503,具体用于:

将至少一个第一实体、至少一个第一实体的至少一个属性信息、至少一个第一实体的至少一个属性信息的至少一个属性值、至少一个第一类别、至少一个第一类别的至少一个属性信息作为节点,构建信息图;

按照设定的路径规则,选择信息图中的节点集合,基于节点集合中各节点的表示向量构建第一向量矩阵,添加到第一向量矩阵集合。

如图6所示,为本发明实施例所提供的计算机设备的装置示意图,该计算机设备包括:处理器601、存储器602和总线603,存储器602存储执行指令,当装置运行时,处理器601与存储器602之间通过总线603通信,处理器601执行存储器602中存储的如下执行指令:

获取第一数据对集合,第一数据对集合包含至少一个第一数据对,第一数据对中的每个包含至少一个第一实体及该至少一个第一实体对应的至少一个第一类别;

基于第一数据对集合获取第二数据对集合,第二数据对集合包含至少一个第二数据对,第二数据对中的每个包含至少一个第二实体及该至少一个第二实体对应的至少一个第二类别;

针对第一数据对集合,构建第一向量矩阵集合,第一向量矩阵集合包括至少一个第一向量矩阵,第一向量矩阵基于第一数据对构建;

针对第二数据对集合,构建第二向量矩阵集合,第二向量矩阵集合包括至少一个第二向量矩阵,第二向量矩阵基于第二数据对构建;

将第一向量矩阵集合和第二向量矩阵集合作为实体分类模型的输入,基于第一数据对集合和/或第二数据对集合,判断实体分类模型的输出结果,基于判断结果,调整实体分类模型的模型参数。

在具体实施中,上述处理器601执行的处理中,所述第一数据对中,所述至少一个第一实体对应的至少一个第一类别为该至少一个第一实体的正确类别;以及

所述第二数据对中,所述至少一个第二实体对应的至少一个第二类别为该至少一个第二实体的错误类别。

在一种实施方式中,上述处理器601执行的处理中,获取第一数据对集合,包括:

获取候选实体集和候选类别集合;以及

获取至少一个第一属性信息,以及第一属性信息对应的至少一个第一属性值,如果第一属性信息属于候选类别集合,且该第一属性信息对应的第一属性值属于候选实体集,则基于该第一属性信息和该第一属性值构建第一数据对,并添加到第一数据对集合,其中,将该第一属性值作为第一实体,该第一属性信息作为第一类别。

在另一种实施方式中,上述处理器601执行的处理中,获取第一数据对集合,包括:

获取候选实体集和候选类别集合;以及

如果候选实体集中的某一候选实体具有标题标签,并且标题标签的中心词属于候选类别集合,则基于标题标签对应的标题以及中心词构建第一数据对,并添加到第一数据对集合,其中,标题作为第一实体,中心词作为第一类别。

在又一种实施方式中,上述处理器601执行的处理中,候选类别集合获取方式,包括:

将出现频次大于设定阈值的标签作为候选类别,收集得到候选类别集合。

在再一种实施方式中,上述处理器601执行的处理中,基于第一数据对集合获取第二数据对集合,包括:对于第一数据对集合中所包含的第一实体集合及第一类别集合,如果某一第一实体的属性信息集合与某一第一类别的属性信息集合的重复元素满足一定条件,则基于该第一实体与该第一类别构建第二数据对,并构建或添加到第二数据对集合。

其中,一定条件指:该第一实体的属性信息集合与该第一类别的属性信息集合的重复元素的个数占该第一类别的属性信息集合全部元素个数的30%-50%。

在再一种实施方式中,上述处理器601执行的处理中,针对第一数据对集合,构建第一向量矩阵集合,包括:

将至少一个第一实体、至少一个第一实体的至少一个属性信息、至少一个第一实体的至少一个属性信息的至少一个属性值、至少一个第一类别、至少一个第一类别的至少一个属性信息作为节点,构建信息图;其中,可以将类别的属性信息与实体的属性信息归类为属性信息,这样,信息图中,包括实体、属性、属性值、类别这四个集合以及他们之间的关联关系。

按照设定的路径规则,选择信息图中的节点集合,基于节点集合中各节点的表示向量构建第一向量矩阵,添加到第一向量矩阵集合。

本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述实体分类模型训练方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述实体分类模型训练方法,用以实现实体的分类。

在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1