基于群体计算的实体解析方法及装置的制造方法

文档序号:8259001阅读:199来源:国知局
基于群体计算的实体解析方法及装置的制造方法
【技术领域】
[0001] 本发明实施例涉及计算机技术,尤其涉及一种基于群体计算的实体解析方法及装 置。
【背景技术】
[0002] 数据库是按照数据结构来组织、存储和管理数据的仓库;随着信息技术和市场的 发展,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。 在数据库管理过程中提出了实体解析,其中,实体解析的目的是识别出数据库中代表同一 实体的不同记录。随着大数据时代的到来,越来越多的数据在被进一步地分析处理前需要 被匹配或整合,因此,对于高质量的实体解析的需求正在迅速增长。
[0003] 现有的实体解析方法主要针对静态数据源(即假设数据源是静态不变的),且每 次实体解析过程都是对整个数据源进行解析。但在实际应用中,每段时间数据库中都会有 新的数据增加、删除或修改,即大部分数据源都是动态变化的,如社交网站上用户提交的信 息、电子商务网站上的商品信息、软件工程领域中的Bug资源库等;若采用现有的实体解析 方法,数据库中每次有新增数据时都需要对整个数据源进行实体解析,花费较大,即解析效 率较低。

【发明内容】

[0004] 本发明实施例提供一种基于群体计算的实体解析方法及装置,可对静态和动态数 据集进行实体解析,在较少花销下实现较高的查全率和查准率,从而提升了解析效率。
[0005] 第一方面,本发明实施例提供一种基于群体计算的实体解析方法,包括:
[0006] 基于众包的分层聚类方法对数据库中的初始记录进行分层聚类,得到至少两个聚 类子集;
[0007] 当检测到所述数据库中增加了新记录时,获取所述新记录的特征信息;
[0008] 根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两 个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集;其中,所述至少两个聚 类子集的子集信息包括:所述聚类子集的标签集信息及索引信息;
[0009] 根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确 定与所述至少两个相关聚类子集分别对应的候选记录对;
[0010] 通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体;若确定 第一候选记录对代表同一实体,则将所述新记录添加到第一记录所属的第一聚类子集中, 并更新所述第一聚类子集的标签集;若确定所有所述候选记录对都不代表同一实体,则为 所述新记录建立一个新聚类子集,并为所述新聚类子集创建标签集;其中,所述第一记录与 所述新记录形成所述第一候选记录对。
[0011] 可选地,所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类,得 到至少两个聚类子集,包括:
[0012] 根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大 于上限概率阈值的初始记录对聚为一类,形成相应的初级聚类子集,并为每个所述初级聚 类子集创建标签集及索引;其中,每对所述初始记录形成所述初始记录对;
[0013] 通过众包用户标注方式依次将所述初级聚类子集分层地进行合并,直至合并后的 各个聚类子集之间的最小距离大于下限阈值,最终得到至少两个聚类子集。
[0014] 可选地,所述根据每对所述初始记录之间代表同一实体的概率大小将代表同一实 体的概率大于上限概率阈值的初始记录对聚为一类,形成相应的初级聚类子集,包括:
[0015] 获取所述初始记录对代表同一实体的概率;
[0016] 将代表同一实体的概率大于上限概率阈值的所述初始记录对聚为一类,形成相应 的初级聚类子集。
[0017] 可选地,所述通过众包用户标注方式依次将所述初级聚类子集分层地进行合并, 直至合并后的各个聚类子集之间的最小距离大于下限阈值,最终得到至少两个聚类子集, 包括:
[0018] 步骤A、计算所述初级聚类子集中每对初级聚类子集之间的距离,选择所述距离最 小的一对初级聚类子集作为两个候选合并子集;
[0019] 步骤B、判断所述两个候选合并子集之间的距离是否小于下限阈值;若所述两个 候选合并子集之间的距离小于所述下限阈值,则分别从所述两个候选合并子集中选择第二 记录形成第二候选记录对,将所述第二候选记录对以及所述两个候选合并子集的标签集发 送给众包平台,以使所述众包平台判断所述第二候选记录对是否代表同一实体以及是否对 所述标签集中的标签点赞;其中,所述第二候选记录对为所述两个候选合并子集中代表同 一实体的概率最大的记录对;
[0020] 步骤C、接收所述众包平台返回的第一判断结果,并根据所述第一判断结果确定是 否将所述两个候选合并子集合并以及根据所述众包平台对所述标签集中标签的点赞次数 对所述标签集中的标签进行排序和/或过滤;若根据所述第一判断结果确定所述两个候选 合并子集代表同一实体,则将所述两个候选合并子集合并为一个聚类子集,更新所述聚类 子集的标签集及索引,并将合并得到的所述聚类子集作为初级聚类子集;若根据所述第一 判断结果确定所述两个候选合并子集不代表同一实体,则将所述两个候选合并子集之间的 距离设为1;
[0021] 返回继续执行所述步骤A-步骤C,直至所述两个候选合并子集之间的距离大于所 述下限阈值,则将至少两个所述初级聚类子集作为得到的所述至少两个聚类子集。
[0022] 可选地,所述获取所述初始记录对代表同一实体的概率,包括:
[0023] 根据所述初始记录对的相应属性之间的相似性计算所述初始记录对的相似度;
[0024] 基于机器学习模型计算所述初始记录对代表同一实体的概率。
[0025] 可选地,所述计算所述初级聚类子集中每对初级聚类子集之间的距离,包括:
[0026]分别从所述每对初级聚类子集中选择代表同一实体的概率最大的记录对(ri,rj), 其中,riG Cprf q,Q为所述每对初级聚类子集中的一个初级聚类子集,(^为所述每对 初级聚类子集中的另一个初级聚类子集;
[0027]根据公另
【主权项】
1. 一种基于群体计算的实体解析方法,其特征在于,包括: 基于众包的分层聚类方法对数据库中的初始记录进行分层聚类,得到至少两个聚类子 集; 当检测到所述数据库中增加了新记录时,获取所述新记录的特征信息; 根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚 类子集中得到与所述新记录最相关的至少两个相关聚类子集;其中,所述至少两个聚类子 集的子集信息包括:所述聚类子集的标签集信息及索引信息; 根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与 所述至少两个相关聚类子集分别对应的候选记录对; 通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体;若确定第一 候选记录对代表同一实体,则将所述新记录添加到第一记录所属的第一聚类子集中,并更 新所述第一聚类子集的标签集;若确定所有所述候选记录对都不代表同一实体,则为所述 新记录建立一个新聚类子集,并为所述新聚类子集创建标签集;其中,所述第一记录与所述 新记录形成所述第一候选记录对。
2. 根据权利要求1所述的方法,其特征在于,所述基于众包的分层聚类方法对数据库 中的初始记录进行分层聚类,得到至少两个聚类子集,包括: 根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上 限概率阈值的初始记录对聚为一类,形成
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1