一种解决知识图谱中的实体对齐问题的方法和装置与流程

文档序号:11950219阅读:来源:国知局

技术特征:

1.一种解决知识图谱中的实体对齐问题的方法,其特征在于,所述方法包括:

从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;

对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;

如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;

否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。

2.如权利要求1所述的方法,其特征在于,所述实体集合为百科多义项,所述元素为百科多义项中的多义项。

3.如权利要求1-2中任一项所述的方法,其特征在于,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。

4.如权利要求1-3中任一项所述的方法,其特征在于,所述对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较包括:

获取所述实体的属性信息;

对所述实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;

根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。

5.如权利要求1-4中任一项所述的方法,其特征在于,所述获取与实体对应的属性信息包括:

从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;

其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。

6.一种解决知识图谱中的实体对齐问题的装置,其特征在于,所述装置包括:

实体获取模块,用于从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;

比较模块,用于对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;

判断模块,用于根据比较的结果进行判断:如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;

否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。

7.如权利要求6所述的方法,其特征在于,所述实体集合为百科多义项,所述元素为百科多义项中的多义项。

8.如权利要求6-7中任一项所述的方法,其特征在于,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。

9.如权利要求6-8中任一项所述的方法,其特征在于,所述比较模块包括:

属性信息获取单元,用于获取所述实体的属性信息;

预处理单元,用于对所述实体的属性信息进行数据预处理;

校验单元,用于对经过数据预处理后的属性信息进行数据校验;

确定单元,用于根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。

10.如权利要求6-9中任一项所述的方法,其特征在于,所述属性信息获取单元包括:

从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;

其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1