结构化实体收录方法、装置、服务器和存储介质与流程

文档序号:14444282阅读:223来源:国知局
结构化实体收录方法、装置、服务器和存储介质与流程

本发明实施例涉及数据处理技术领域,尤其涉及一种结构化实体收录方法、装置、服务器和存储介质。



背景技术:

知识图谱在无论是学术界还是工业界都有着举足轻重的地位,它是人工智能的基础,也是实现智能问答等应用的必经之路,能够快捷方便地为用户提供信息。知识图谱本质上就是由实体节点与节点间的边构成的一个网络。知识图谱的重复率和准确率将会影响其服务质量。

当出现更新需求时,知识图谱需要对新实体进行收录。目前,通常是每增加一个实体,都需要针对知识图谱中的各实体进行一次实体解析,该过程计算量大、耗时长,无法适用于百亿量级的实体收录;并且,现有实体解析方法利用余弦相似度计算实体的匹配分值,或者,将实体上下文表示成bow(bag-of-words)向量形式并计算向量间的余弦值以确定实体相似度,这些方法准确度不高。



技术实现要素:

本发明实施例提供一种结构化实体收录方法、装置、服务器和存储介质,以解决现有知识图谱对实体进行收录时计算量大、耗时长及准确度不高的问题。

第一方面,本发明实施例提供了一种结构化实体收录方法,该方法包括:

从所述知识图谱中选取与待收录的结构化实体相关的候选实体;

根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;

对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。

第二方面,本发明实施例还提供了一种结构化实体收录装置,该装置包括:

候选实体选取模块,用于从所述知识图谱中选取与待收录的结构化实体相关的候选实体;

关联实体确定模块,用于根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;

关联实体收录模块,用于对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。

第三方面,本发明实施例还提供了一种服务器,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的结构化实体收录方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的结构化实体收录方法。

本发明实施例通过从知识图谱中选取与待收录的结构化实体相关的候选实体,并根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体,在确定了结构化实体为关联实体后,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中,解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题,选取候选实体,然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度,减少计算量,使得知识图谱能够简单高效地对结构化实体进行收录。

附图说明

图1是本发明实施例一中的结构化实体收录方法的流程图;

图2是本发明实施例二中的结构化实体收录方法的流程图;

图3是本发明实施例三中的结构化实体收录方法的流程图;

图4是本发明实施例四中的结构化实体收录方法的流程图;

图5是本发明实施例五中的结构化实体归一方法的流程图;

图6是本发明实施例六中的结构化实体收录装置的结构示意图;

图7是本发明实施例七中的服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的结构化实体收录方法的流程图,本实施例可适用于对知识图谱进行扩充的情况,该方法可以由结构化实体收录装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以集成在服务器中。如图1所示,该方法具体包括:

s110、从知识图谱中选取与待收录的结构化实体相关的候选实体。

现有的知识图谱对结构化实体进行收录,对于每一个待收录的结构化实体而言,都需要针对知识图谱内所有的实体进行实体解析。由于涉及到对所有实体进行实体解析,该过程计算量大,耗时长,基于此,本实施例中的知识图谱在对结构化实体进行收录时,不再对其包含的所有实体进行实体解析,而是从知识图谱中选取相关的候选实体,这样可以减少实体比较的个数,进而减少时间复杂度。

本实施例中,待收录的结构化实体是现有的知识图谱中未收录的实体,其可以通过网络爬取等方式获得。在从知识图谱中选取候选实体时,可以利用待收录的结构化实体的特性作为选取标准,在获取到候选实体后,可以利用候选实体将待收录的结构化实体与知识图谱进行关联,其中,作为选取标准的特性优选可以是实体名称。每个待收录的结构化实体所对应的候选实体可能是一个或多个。当然,知识图谱中也可能不存在与待收录的结构化实体相关的候选实体,则该待收录的结构化实体无法与知识图谱进行关联,可以考虑直接将该待收录的结构化实体增加到知识图谱中,后面实施例将对此进行说明。

s120、根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体。

本实施例中,先验属性信息是指用户根据实体类别(如电影、人物等)及该类别下属性的先验知识预先配置的一些信息,例如可以是属性的比较方式、属性对于确定实体对是否相同的重要程度、用户根据属性来标注实体对是否相同等。根据候选实体所属类别的先验属性信息结合预设模型,可以确定待收录的结构化实体与其候选实体的相似程度,进而可以确定待收录的结构化实体能否与知识图谱进行关联,其中,存在相似程度较高的候选实体,表示该待收录的结构化实体能够与知识图谱进行关联,该待收录的结构化实体即为关联实体。利用先验知识融合预设模型能够有效提高实体关联的效率和准确度。

s130、对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。

本实施例中,在确定待收录的结构化实体为关联实体后,利用关联实体与能够与其相关联的候选实体之间的关联关系,将关联实体和候选实体进行合并,即可将关联实体收录到知识图谱中。

本实施例提供的结构化实体收录方法,通过从知识图谱中选取与待收录的结构化实体相关的候选实体,并根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体,在确定了结构化实体为关联实体后,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中,解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题,选取候选实体,然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度,减少计算量,使得知识图谱能够简单高效地对结构化实体进行收录。

在上述实施例的基础上,进一步的,从知识图谱中选取与待收录的结构化实体相关的候选实体,可以包括:

基于预先建立的索引,利用模糊查询和/或精准查询从知识图谱中选取与待收录的结构化实体的名称相关的各候选实体;其中,索引是根据知识图谱中所有结构化实体的标识、名称及别名建立的,模糊查询用于根据索引选取与待收录的结构化实体的名称相近的第一预设数目的候选实体,精准查询用于根据索引选取与待收录的结构化实体的名称相同的第二预设数目的候选实体。

本实施例中,可以利用待收录的结构化实体的名称从知识图谱中选取相关的候选实体,其中,候选实体优选可以从待收录的结构化实体所属的类别下选取,例如待收录的结构化实体属于电影类,则优选在知识图谱的电影类别下选取候选实体。

本实施例中,可以预先根据知识图谱中各结构化实体建立索引关系,以便快速选取候选实体。具体的,可以根据知识图谱中所有结构化实体的标识、名称及别名建立索引,该索引可以将结构化实体与其对应别名的实体视作同一候选实体,拥有共同的属性。基于上述预先建立的索引,利用模糊查询选取与待收录的结构化实体的名称相关的各候选实体包括:计算待收录的结构化实体的名称与索引中各名称和/或别名的相似度,选取相似度较高的第一预设数目的候选实体,其中,第一预设数目是根据实际需求设置的,例如可以通过计算文本相似度确定待收录的结构化实体的名称与索引中各名称和/或别名的相似度,对相似度进行排序,从中选取相似度较高的前10个的实体作为模糊查询的结果。基于上述预先建立的索引,利用精准查询选取与待收录的结构化实体的名称相关的各候选实体包括:查找索引中与待收录的结构化实体的名称相同的实体名字和/或别名,并从中选取第二预设数目的候选实体,其中,第二预设数目是根据实际需求设置的,例如100个,如果查找到的与待收录的结构化实体的名称相同的实体名字的个数超过第二预设数目,则可以从中随机选取出第二预设数目的实体作为精准查询的结果。

在具体实施中,可以使用模糊查询来选取候选实体;也可以使用精准查询来选取候选实体;还可以同时使用模糊查询和精准查询来选取候选实体,此方案能够保证较高的召回率。

进一步的,从知识图谱中选取与待收录的结构化实体相关的候选实体,还可以包括:若从知识图谱中没有选取到与待收录的结构化实体相关的候选实体,则确定待收录的结构化实体为无关联实体,无法通过实体的关联链接到知识图谱中。后面实施例会对无关联实体的收录方式进行说明。

在上述各实施例的基础上,进一步的,在从知识图谱中选取与待收录的结构化实体相关的候选实体之前,可以包括:预先构建统一的语法体系,使得待收录的结构化实体及其属性与知识图谱中的各结构化实体及其属性都服从统一的语法体系。通过利用统一的语法体系对各结构化实体进行标准化,使得各实体对属性之间的关系判断准确有效。

实施例二

本实施例在上述各实施例的基础上,提供了s120的优选实施方式,图2是本发明实施例二提供的结构化实体收录方法的流程图。如图2所示,该方法包括:

s210、从知识图谱中选取与待收录的结构化实体相关的候选实体。

s220、根据候选实体所属类别的先验属性信息及预设模型分别计算待收录的结构化实体与每个候选实体之间的实体相似度概率。

每个待收录的结构化实体和每个候选实体都具有属性信息。本实施例中,可以根据先验属性信息,利用各实体的属性信息计算待收录的结构化实体与每个候选实体之间的实体相似度概率,其中,实体相似度概率是待收录的结构化实体与候选实体之间的相似程度,用于确定待收录的结构化实体能否与知识图谱进行关联。

s230、若存在一个或多个实体相似度概率大于预设阈值,则确定待收录的结构化实体为关联实体。

本实施例中,可以根据先验知识确定实体相似度概率的预设阈值,在上述计算得到的实体相似度概率中,存在一个或多个实体相似度概率大于预设阈值时,则确定待收录的结构化实体与对应的候选实体相似度高,其能够与知识图谱进行关联。

此外,在上述计算得到的实体相似度概率中,还存在所有实体相似度概率均小于预设阈值的情况,此时可以确定待收录的结构化实体与所有的候选实体的相似度都比较低,其无法通过候选实体与知识图谱进行关联。

s240、对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。其中,在与关联实体相关的所有候选实体中,可以选取相似度最高的那个候选实体进行合并。

本实施例提供的结构化实体收录方法,通过从知识图谱中选取与待收录的结构化实体相关的候选实体,并根据先验属性信息计算待收录的结构化实体与每个候选实体之间的实体相似度概率,利用实体相似度概率确定待收录的候选实体是否是关联实体,若存在一个或多个实体相似度概率大于预设阈值,则确定待收录的结构化实体为关联实体,在确定了结构化实体为关联实体后,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中,在解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题的同时,将人的先验知识融合到其中,使得知识图谱能够简单高效地对结构化实体进行收录,同时也提高了知识图谱自身的准确率。

实施例三

本实施例在上述各实施例的基础上,提供了s220的一种优选实施方式,图3是本发明实施例三提供的结构化实体收录方法的流程图。如图3所示,该方法包括:

s310、从知识图谱中选取与待收录的结构化实体相关的候选实体。

s320、针对每个候选实体,利用预设的属性比较方法和属性重要度,计算待收录的结构化实体与候选实体之间的各属性相似度概率。

本实施例中,与待收录的结构化实体相对应的候选实体可以是一个或多个,待收录的结构化实体和每个候选实体均包括一个或多个属性。针对每个候选实体,可以利用预设的属性比较方法和属性重要度来计算待收录的结构化实体与候选实体之间的各属性相似度概率。

其中,属性比较方法是指根据属性特征设置的如何比较属性之间相似度的方法,可以包括:精确比较、浮点比较、地点比较、日期比较、字符串模糊比较等,具体可以根据属性的不同,从预设的属性比较方法中选择相对应的比较方法,例如,当属性为字符串时,可以使用exact比较器对该属性进行精确比较,若属性相同,返回1,否则返回0;当属性为日期时,则可以使用time比较器,若日期相同,返回1,否则返回0;当属性为电话号码时,则可以使用tele比较器比较电话号码的后六位是否相同,若相同,返回1,否则返回0等。此外,还有其他比较器,如下:edit比较器用于返回两个字符串的levinstein距离,返回的结果为0-1之间的一个连续值。year比较器用于比较年份,两值差的绝对值小于自定义阈值则返回1,否则返回0;plsa比较器用于计算两个值的plsa相似度,plsa模型是通过百度百科训练得到的;coccur比较器用于判断第一个字符串是否在第二个字符串中出现,出现则返回1,否则返回0;phonenumber比较器用于比较两串数字是否相同,相同则返回1,否则返回0;float比较器用于比较两个浮点数,两值差的绝对值小于自定义阈值则返回1,否则返回0。

此外,考虑到有些属性是单值,有些属性是多值,例如,出生日期这个属性是单值,对一部电影作品来说,演员这个属性是多值。因此,属性比较方法还包括单值比较和多值比较,其中,多值比较以单值比较结果为基础,需要设置各单值比较结果与最终多值结果的关系,也就是说,多值比较需要对不同实体对应属性下的多个值两两比较,然后基于两两比较的结果得到最终的比较结果。例如,演员a(实体)有m个代表作(属性代表作有m个值),演员b有n个代表作,m<n,将a和b的代表作两两比较(这相当于多值比较方法下的单值比较),各单值比较结果与最终多值结果的关系可以是以下任一:有k(k小于等于m)个代表作完全相同,认为a和b的代表作属性相同,返回1,否则返回0;所有代表作都相同,才认为属性相同;k/m和k/n均大于预设阈值,认为属性相同;直接将k/m或者k/n作为返回值。

具体的,属性的单值比较可以通过单值比较器strcmp实现;属性的多值比较可以通过多值比较器multicmp实现,例如支持以下比较方式:overlap、jaccard和exact。

属性重要度是用户根据先验知识预先配置的,表示属性比较结果对于实体是否相同的重要程度。属性重要度可以包括:比较信息(即是否为必须比较的属性)、实体置信度惩罚信息和实体置信度奖赏信息。

s330、利用预设的贝叶斯模型,对各属性相似度概率进行迭代计算,得到待收录的结构化实体与候选实体之间的实体相似度概率。

本实施例中,可以采用贝叶斯推理模型计算待收录的结构化实体与候选实体之间的实体相似度概率,其中,贝叶斯推理的原理是根据各属性比较的先验概率来计算实体相似度概率值。贝叶斯推理公式如下:

其中,probnext为本次迭代的贝叶斯概率,probcur为上次迭代的贝叶斯概率,probprop为s320得到的属性相似度概率。

上述贝叶斯推理公式的物理意义是:

其中,e表示实体,a表示属性。

本实施例中,在利用贝叶斯推理公式迭代计算待收录的结构化实体与候选实体之间的实体相似度概率时,迭代次数与各属性相似度概率的个数相等,每一个属性相似度概率对应一次迭代,且每一个属性相似度对应的迭代顺序不限,即在进行贝叶斯迭代时,只需遍历各属性相似度即可,无需考虑各属性相似度在迭代时的先后顺序。初次迭代时,可以将probcur的值设置为0.5(表示初始迭代时,两实体对应的属性相同和不同的概率分别是0.5),之后在每次迭代中,probcur的值都对应上一次迭代的probnext的值。

s340、若存在一个或多个实体相似度概率大于预设阈值,则确定待收录的结构化实体为关联实体。

s350、对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。

本实施例提供的结构化实体收录方法,在上述各实施例方案的基础上,通过利用预设的属性比较方法和属性重要度,计算待收录的结构化实体与候选实体之间的各属性相似度概率,并且利用预设的贝叶斯模型将先验知识与机器学习模型有效融合,对各属性相似度概率进行迭代计算,能够提高实体之间的实体相似度概率计算的效率和准确性,使得知识图谱对结构化实体进行收录的过程更加高效准确。同时贝叶斯方案调参方便且生效快,适用于需要快速得到结果的场景。

在上述各实施例的基础上,进一步的,利用预设的属性比较方法和属性重要度,计算待收录的结构化实体与候选实体之间的各属性相似度概率,可以包括:

根据属性重要度中的比较信息,确定待收录的结构化实体与候选实体中的待比较属性对;

针对每个待比较属性对,根据待比较属性对的特征,从预设的属性比较方法中选取相对应的比较方法进行属性对比较,得到待比较属性对的比较结果;

利用属性重要度中的实体置信度惩罚信息和实体置信度奖赏信息,对待比较属性对的比较结果进行概率回归,得到属性相似度概率。

为了实现两个实体的属性之间的比较,可以确定两个实体中的待比较的属性对,而在两个实体进行实际比较过程中,往往会由于两个实体各自对应的属性无法对齐,而出现属性缺失的情况。因此,可以先确定缺失的属性中是否存在必须比较的属性,如果存在必须比较的属性,则可以确定两个实体互不相同,即两实体的实体相似度概率为0,此时无需再比较其他属性,也无需对实体之间的相似度进行计算;如果缺失的属性中不存在必须比较的属性,则可以确定缺失的属性对最终实体关联的结果无任何影响,可以忽略缺失的属性,只考虑其他能够对齐的属性即可。对于其他能够对齐的属性,同样也可以通过确定各属性是否是必须比较的属性来确定最终待比较的属性对。

例如,实体演员a的属性分别是性别、生日和身高,实体演员b的属性分别是性别、生日和代表作,此时,实体演员a和实体演员b的属性无法对齐,对于实体演员a来说,代表作为其缺失的属性,对于实体演员b来说,身高为其缺失的属性。对于实体演员a和实体演员b,如果代表作和/或身高为必须比较的属性,则确定实体演员a和实体演员b不同。如果代表作和身高均为非必须比较的属性,则可以忽略代表作和身高这两个属性,只考虑性别和生日两个属性。如果性别是必须比较的属性,生日是非必须比较的属性,则确定待比较的属性对是性别属性对。

本实施例中,可以利用属性重要度中包括的比较信息来确定待收录的结构化实体与候选实体中的待比较的属性对,其中,比较信息可以确定每个属性是否是必须比较的属性。其中,比较信息可以利用mustcmp对属性进行预先配置,当mustcmp的值配置为1时,则确定其对应的属性为必须比较的属性,当mustcmp的值配置为0时,则确定其对应的属性为非必须比较的属性。

本实施例中,属性重要度还可以包括实体置信度惩罚信息和实体置信度奖赏信息。其中,实体置信度惩罚信息可以利用min对属性对比较结果进行配置,表示当属性对比较结果不一致时,对两个实体为一个实体的置信度的惩罚。min值越小,表示该属性对不一致时,两个实体为一个实体的可能性越小,其取值范围为0-0.5。实体置信度奖赏信息可以利用max对属性比较结果进行配置,表示当属性对比较结果一致时,对两个实体为一个实体的置信度的奖赏。max值越大,表示该属性对一致时,两个实体为同一实体的可能性越大,其取值范围为0.5-1。

本实施例中,利用属性重要度中的实体置信度惩罚信息min和实体置信度奖赏信息max,对待比较属性对的比较结果(属性比较器输出的值)进行概率回归,得到属性相似度概率。假设属性相似度概率为p,待比较属性对的比较结果为s,概率回归公式如下:

p=s×(max-min)+min

在上述各实施例的基础上,进一步的,在得到待比较属性对的比较结果之后,还可以包括:

若待比较属性对对应的属性重要度中实体置信度惩罚信息配置为第一值,则确定待收录的结构化实体与候选实体不同;

若待比较属性对对应的属性重要度中实体置信度惩罚信息未配置为第一值,则利用实体置信度惩罚信息和实体置信度奖赏信息,对待比较属性对的比较结果进行概率回归,得到属性相似度概率。

本实施例中,第一值优选可以是0,当实体置信度惩罚信息min的值配置为0时,可以确定待收录的结构化实体与候选实体一定不一致,此时,无需再比较其他属性;当实体置信度惩罚信息min的值配置为其他数值时,可以确定即使属性不一致,实体也可能相同,此时,仍需继续进行后续操作,以判断实体是否一致。

实施例四

本实施例在上述各实施例的基础上,提供了s220的又一优选实施方式,图4是本发明实施例四提供的结构化实体收录方法的流程图。如图4所示,该方法包括:

s410、从知识图谱中选取与待收录的结构化实体相关的候选实体。

s420、针对每个候选实体,利用预设的属性比较方法,计算待收录的结构化实体与候选实体之间的各属性相似度概率。

本实施例中,预设的属性比较方法与s320中预设的属性比较方法相同,而且利用预设的属性比较方法计算出的待收录的结构化实体与候选实体之间的各属性相似度为各比较器的比较结果。

s430、将待收录的结构化实体、候选实体及各属性相似度概率输入到预先训练的计算模型中,输出待收录的结构化实体与候选实体之间的实体相似度概率。

本实施例中,可以预先训练好计算实体相似度概率的模型,将待收录的结构化实体、候选实体及各属性相似度概率作为该模型的输入,即可得到待收录的结构化实体与候选实体之间的实体相似度概率。

s440、若存在一个或多个实体相似度概率大于预设阈值,则确定待收录的结构化实体为关联实体。

s450、对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。

本实施例提供的结构化实体收录方法,在上述各实施例方案的基础上,利用预设的属性比较方法,计算待收录的结构化实体与候选实体之间的各属性相似度概率,并将待收录的结构化实体、候选实体及各属性相似度概率输入到预先训练的计算模型中,输出待收录的结构化实体与候选实体之间的实体相似度概率。本实施例通过将人的先验知识与机器学习进行融合,在实现简单高效地对结构化实体进行收录的同时,提高了知识图谱自身的准确率。

在上述各实施例的基础上,进一步的,将待收录的结构化实体、候选实体及各属性相似度概率输入到预先训练的计算模型中之前,要训练计算模型。具体如下:

针对知识图谱中同一类别下的所有实体,每两个实体组成实体对;

按照预设的需要比较的属性及对应的比较方式,对实体对的属性进行比较;

按照比较结果将实体对划分到对应的分组,其中每个属性包括:属性相同分组、属性不同分组和属性缺失分组;

从每个属性的每个分组中均抽取预设个数的实体对;

根据用户对抽取的实体对的标注得到训练数据,其中训练数据包括:抽取的实体对、实体对是否相同、实体对的各属性的比较结果;

利用训练数据对预置模型进行训练,得到计算模型。

本实施例中,在将待收录的结构化实体、候选实体及各属性相似度概率输入到预先训练的计算模型中之前,可以预先训练计算各实体相似度概率的模型,其中,可以利用gbrank方案对各实体相似度概率的模型进行训练,训练的模型可以是逻辑回归模型、支持向量机模型、最大熵模型和xgboost模型等。

本实施例中,针对知识图谱中同一类别下的所有实体,将每两个实体组成一个实体对。针对每个实体对,根据用户配置的需要比较的属性对以及与属性对的特征相对应的比较方法,对实体对的各属性对进行比较,得到比较结果,其中,各属性对的比较结果可以是属性相同、属性不同和属性缺失中的任意一种,即各属性可以对应三个分组,分别是属性相同、属性不同和属性缺失。根据各属性对比较结果的不同,可以将该实体对划分到不同的分组中,每个实体对所在的分组个数与对应的需要比较的属性对个数相等,即需要比较的属性对有几个,其相应的实体对就对应几个分组。

例如,实体演员a的属性分别是性别、生日和身高,实体演员b的属性分别是性别、生日和代表作,其中,实体演员a和实体演员b的性别相同,生日不同,并且实体演员a的代表作属性缺失,实体演员b的身高属性缺失。如果用户配置的需要比较的属性分别是性别、生日和代表作,则根据比较结果,可以确定针对性别属性,可以将实体演员a和实体演员b放入性别属性相同的分组中;针对生日属性,可以将实体演员a和实体演员b放入生日属性不相同的分组中;针对代表作属性,可以将实体演员a和实体演员b放入代表作属性缺失的分组中。

本实施例中,在完成对每个实体对的分组后,可以从每个属性的每个分组中均抽取预设个数的实体对并利用merge算法对抽样结果进行合并。具体的,将抽取到的各个对应不同属性比较结果的同一实体对,合并为携带各属性比较结果的一个实体对。在将抽样结果进行合并后,用户可以根据自己的先验知识对合并后的各实体对进行标注,即标注实体对是否相同,得到最终的训练数据。其中,训练数据包括抽取的实体对、实体对是否相同、实体对的各属性的比较结果。利用最终得到的训练数据对计算实体相似度概率的模型进行训练,得到模型参数,使得该模型能够根据实体对及该实体对下各属性相似度概率,计算得到实体对的相似度概率。

本实施例以gbrank方案为基础,利用树模型进行学习和训练,避免了用户配置min和max等参数,提升了配置产出效率;同时,该方案针对结构化数据提出了分层训练,有效降低了人工介入的时间,提升了配置迭代的效率;此外,由于该方案可以自动获取全局最优解,因此,利用由该方案训练得到的模型计算出的实体相似度概率的可信度较高。该方案适用于对准确率和召回率有较高要求的场景。

实施例五

本实施例在上述各实施例的基础上,提供了如果待收录的结构化实体为无关联实体时的优选实施方式,图5是本发明实施例五提供的结构化实体归一方法的流程图。如图5所示,该方法包括:

s510、按预设方式对无关联实体进行分组。

本实施例中,若待收录的结构化实体与其所有候选实体的相似度概率均小于预设阈值或从知识图谱中没有选取到与待收录的结构化实体相关的候选实体,则可以确定待收录的结构化实体为无关联实体。当存在无关联实体的情况时,可以采用归一的方式将无关联实体收录到知识图谱中。在对无关联实体进行归一的过程中,可以采用预设的方式对无关联实体进行分组。

其中,按预设方式对无关联实体进行分组优选可以包括:

利用预先配置的分组字段和切词个数,对无关联实体的名称进行切词处理,得到与无关联实体的名称相对应的各分词,其中不同的分词对应不同的分组;

将包含有分词的实体划分到对应的分组中。

本实施例中,分组字段可以是对多个无关联实体进行分组的依据,分组字段优选可以是无关联实体的名称(别名),依此分组可以把名称(或别名)相同或相近的无关联实体分到同一组中,进一步的,还可以根据无关联实体所属的类别设置不同的分组字段。对于电影类的无关联实体,可以将实体名称设置为分组字段,例如,电影类的无关联实体分别为无间道1、无间道2和大话西游,根据实体的名称即可将无间道1和无间道2分到同一组,将大话西游分到另一组中;对于餐饮类的无关联实体,可以在实体名称的基础上增加城市作为分组字段,例如,海底捞有很多家,如果只根据海底捞的名称无法将各个地方的海底捞进行区分,因此,可以利用地名对实体名称的分组字段进一步限定,以将同一城市的海底捞分到同一组中,如海底捞上海店,海底捞北京店等。

本实施例中,如果各无关联实体的分组字段符合统一的格式要求,或无关联实体对可以直接根据分组字段进行分组,则不需要对分组字段进行切词,否则需要对分组字段进行切词处理。切词个数用于确定如何对无关联实体的分组字段进行切词处理,切词个数可以根据分组字段的长度来确定,长度越长,分组个数越多。

本实施例中,当分组字段为实体名称时,可以利用切词个数对实体名称进行切词处理,得到与无关联实体的名称相对应的各分词,其中不同的分词对应不同的分组。例如实体名称为黄晓明,切词个数为2,则经过切词处理后得到的各分词分别是黄晓和晓明,其中,黄晓和晓明分别对应不同的分组;如果切词个数为3,则经过切词处理后得到的各分词分别是黄、晓和明,其中,黄、晓和明分别对应不同的分组。

本实施例中,可以将包含有分词的实体划分到对应的分组中。示例性的,非关联实体的名称包括:黄晓明和晓明,切词个数为3,则黄晓明切分后的分词为黄、晓和明,晓明切分后的分词为晓和明。切分后可以对应三个分组,分别是黄对应的分组,晓对应到的分组和明对应的分组。因此,可以将包含分词黄且实体名称为黄晓明的实体划分到黄对应的分组中,将包含分词晓且实体名称分别为黄晓明和晓明的两个实体划分到晓对应的分组中,将包含分词明且实体名称分别为黄晓明和晓明的两个实体划分到明对应的分组中。

s520、分别计算每个分组内各实体对之间的实体相似度概率。

本实施例中,每个分组内可能存在多个实体,任意两个实体可作为一个实体对。计算每个分组内各实体对之间的实体相似度概率与上述各实施例中计算待收录实体与各候选实体之间的实体相似度概率的方法相同,在此不再赘述。

s530、根据每个分组内的各实体相似度概率将相同的实体合并为一组,得到无关联实体的合并分组,并将合并分组收录到知识图谱中。

本实施例中,可以根据每个分组内的各实体相似度概率,利用merge算法将不同分组间相同的实体合并为一组,得到无关联实体间的各合并分组,并将各合并分组收录到所述知识图谱中。

示例性的,经过s520的计算,分组1中的实体a和实体b相同,分组2中的实体b和实体c相同,实体c和实体d不同,则经过merge算法合并后,可以将实体a、实体b和实体c作为一个合并分组,将实体d作为另一个合并分组。

本实施例提供的结构化实体收录方法,通过按预设方式对无关联实体进行分组,分别计算每个分组内各实体对之间的实体相似度概率,根据每个分组内的各实体相似度概率将相同的实体合并为一组,得到无关联实体的合并分组,并将合并分组收录到知识图谱中,解决了现有知识图谱在对结构化实体进行收录时,由于结构化实体无法与知识图谱进行关联而导致的无法对结构化实体进行收录的问题;此外,通过对无关联实体进行分组,减少了归一计算的实体对数,进而减少了计算量,同时也保证了计算的全面充分性。

在上述各实施例的基础上,进一步的,在分别计算每个分组内各实体对之间的实体相似度概率之前,还可以包括:对所有分组内的实体对进行去重处理,使得各分组之间的实体对均不相同。

本实施例中,可以针对所有分组内的实体对进行去重处理,具体的,可以将每个分组内的各实体两两组成实体对,将所有分组内的实体对进行比较,以去除重复的实体对,使得各分组之间的实体对均不相同。

实施例六

图6是本发明实施例六中的结构化实体收录装置的结构示意图。如图6所示,结构化实体收录装置包括:

候选实体选取模块610,用于从知识图谱中选取与待收录的结构化实体相关的候选实体;

关联实体确定模块620,用于根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体;

关联实体收录模块630,用于对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。

本实施例提供的结构化实体收录装置,通过从知识图谱中选取与待收录的结构化实体相关的候选实体,并根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体,在确定了结构化实体为关联实体后,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中,解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题,选取候选实体,然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度,减少计算量,使得知识图谱能够简单高效地对结构化实体进行收录。

进一步的,候选实体选取模块610具体可以用于:

基于预先建立的索引,利用模糊查询和/或精准查询从知识图谱中选取与待收录的结构化实体的名称相关的各候选实体;

其中,索引是根据知识图谱中所有结构化实体的标识、名称及别名建立的,模糊查询用于根据索引选取与待收录的结构化实体的名称相近的第一预设数目的候选实体,精准查询用于根据索引选取与待收录的结构化实体的名称相同的第二预设数目的候选实体。

进一步的,关联实体确定模块620具体可以包括:

实体相似度概率计算子模块,用于根据候选实体所属类别的先验属性信息及预设模型分别计算待收录的结构化实体与每个候选实体之间的实体相似度概率;

关联实体确定子模块,用于若存在一个或多个实体相似度概率大于预设阈值,则确定待收录的结构化实体为关联实体;

无关联实体确定子模块,用于若所有实体相似度概率均小于预设阈值,则确定待收录的结构化实体为无关联实体。

进一步的,实体相似度概率计算子模块具体可以包括:

属性相似度概率计算单元,用于针对每个候选实体,利用预设的属性比较方法和属性重要度,计算待收录的结构化实体与候选实体之间的各属性相似度概率;

实体相似度概率计算单元,用于利用预设的贝叶斯模型,对各属性相似度概率进行迭代计算,得到待收录的结构化实体与候选实体之间的实体相似度概率。

进一步的,属性相似度概率计算单元具体可以包括:

待比较属性对确定子单元,用于根据属性重要度中的比较信息,确定待收录的结构化实体与候选实体中的待比较属性对;

属性对比较结果计算子单元,用于针对每个待比较属性对,根据待比较属性对的特征,从属性比较方法中选取相对应的比较方法进行属性对比较,得到待比较属性对的比较结果;

属性相似度计算子单元,用于利用属性重要度中的实体置信度惩罚信息和实体置信度奖赏信息,对待比较属性对的比较结果进行概率回归,得到属性相似度概率。

进一步的,属性相似度计算子单元具体可以用于:

若待比较属性对对应的属性重要度中实体置信度惩罚信息配置为第一值,则确定待收录的结构化实体与候选实体不同;

若待比较属性对对应的属性重要度中实体置信度惩罚信息未配置为第一值,则利用实体置信度惩罚信息和实体置信度奖赏信息,对待比较属性对的比较结果进行概率回归,得到属性相似度概率。

进一步的,对应于利用预先训练的计算模型的方法,属性相似度概率计算单元,具体还可以用于针对每个候选实体,利用预设的属性比较方法,计算待收录的结构化实体与所述候选实体之间的各属性相似度概率;

实体相似度概率计算单元,具体还可以用于将待收录的结构化实体、候选实体及各属性相似度概率输入到预先训练的计算模型中,输出待收录的结构化实体与候选实体之间的实体相似度概率。

进一步的,上述装置还可以包括:模型训练模块,用于:

在将待收录的结构化实体、候选实体及各属性相似度概率输入到预先训练的计算模型中之前,针对知识图谱中同一类别下的所有实体,每两个实体组成实体对;

按照预设的需要比较的属性及对应的比较方式,对实体对的属性进行比较;

按照比较结果将实体对划分到对应的分组,其中每个属性包括:属性相同分组、属性不同分组和属性缺失分组;

从每个属性的每个分组中均抽取预设个数的实体对;

根据用户对抽取的实体对的标注得到训练数据,其中训练数据包括:抽取的实体对、实体对是否相同、实体对的各属性的比较结果;

利用训练数据对预置模型进行训练,得到计算模型。

进一步的,候选实体选取模块610具体还可以用于:若从知识图谱中没有选取到与待收录的结构化实体相关的候选实体,则确定待收录的结构化实体为无关联实体。

进一步的,该装置还可以包括:

分组模块,用于在确定待收录的结构化实体为无关联实体之后,按预设方式对无关联实体进行分组;

实体相似度概率计算模块,用于分别计算每个分组内各实体对之间的实体相似度概率;

合并分组模块,用于根据每个分组内的各实体相似度概率将相同的实体合并为一组,得到无关联实体的合并分组,并将合并分组收录到知识图谱中。

进一步的,分组模块具体用于:利用预先配置的分组字段和切词个数,对无关联实体的名称进行切词处理,得到与无关联实体的名称相对应的各分词,其中不同的分词对应不同的分组;将包含有分词的实体划分到对应的分组中。

进一步的,分组模块具体还可以用于:在分别计算每个分组内各实体对之间的实体相似度概率之前,对所有分组内的实体对进行去重处理,使得各分组之间的实体对均不相同。

进一步的,该装置还可以包括:统一语法体系构建模块,用于在从知识图谱中选取与待收录的结构化实体相关的候选实体之前,预先构建统一的语法体系,使得待收录的结构化实体及其属性与知识图谱中的各结构化实体及其属性都服从统一的语法体系。

本发明实施例所提供的结构化实体收录装置可执行本发明任意实施例所提供的结构化实体收录方法,具备执行方法相应的功能模块和有益效果。

实施例七

图7为本发明实施例七提供的服务器的结构示意图。图7示出了适于用来实现本发明实施方式的示例性服务器712的框图。图7显示的服务器712仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示,服务器712以通用计算设备的形式表现。服务器712的组件可以包括但不限于:一个或者多个处理器716,系统存储器728,连接不同系统组件(包括系统存储器728和处理器716)的总线718。

总线718表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

服务器712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器712访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器728可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)730和/或高速缓存存储器732。服务器712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储装置734可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线718相连。系统存储器728可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块742的程序/实用工具740,可以存储在例如系统存储器728中,这样的程序模块742包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块742通常执行本发明所描述的实施例中的功能和/或方法。

服务器712也可以与一个或多个外部设备714(例如键盘、指向设备、显示器724等)通信,还可与一个或者多个使得用户能与该服务器712交互的设备通信,和/或与使得该服务器712能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口722进行。并且,服务器712还可以通过网络适配器720与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器720通过总线718与服务器712的其它模块通信。应当明白,尽管图中未示出,可以结合服务器712使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储装置等。

处理器716通过运行存储在系统存储器728中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的结构化实体收录方法。

实施例八

本发明实施例八提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的结构化实体收录方法,包括:

从知识图谱中选取与待收录的结构化实体相关的候选实体;

根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体;

对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。

当然,本发明实施例所提供的计算机可读存储介质,其上存储的计算机程序不限于执行如上所述的方法操作,还可以执行本发明任意实施例所提供的结构化实体收录方法中的相关操作。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1