基于群体计算的实体解析方法及装置的制造方法

文档序号：8259001阅读：199来源：国知局

基于群体计算的实体解析方法及装置的制造方法
【技术领域】
[0001] 本发明实施例涉及计算机技术，尤其涉及一种基于群体计算的实体解析方法及装置。
【背景技术】
[0002] 数据库是按照数据结构来组织、存储和管理数据的仓库；随着信息技术和市场的发展，数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。在数据库管理过程中提出了实体解析，其中，实体解析的目的是识别出数据库中代表同一实体的不同记录。随着大数据时代的到来，越来越多的数据在被进一步地分析处理前需要被匹配或整合，因此，对于高质量的实体解析的需求正在迅速增长。
[0003] 现有的实体解析方法主要针对静态数据源（即假设数据源是静态不变的），且每次实体解析过程都是对整个数据源进行解析。但在实际应用中，每段时间数据库中都会有新的数据增加、删除或修改，即大部分数据源都是动态变化的，如社交网站上用户提交的信息、电子商务网站上的商品信息、软件工程领域中的Bug资源库等；若采用现有的实体解析方法，数据库中每次有新增数据时都需要对整个数据源进行实体解析，花费较大，即解析效率较低。

【发明内容】

[0004] 本发明实施例提供一种基于群体计算的实体解析方法及装置，可对静态和动态数据集进行实体解析，在较少花销下实现较高的查全率和查准率，从而提升了解析效率。
[0005] 第一方面，本发明实施例提供一种基于群体计算的实体解析方法，包括：
[0006] 基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集；
[0007] 当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；
[0008] 根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集；其中，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息；
[0009] 根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对；
[0010] 通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对。
[0011] 可选地，所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集，包括：
[0012] 根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上限概率阈值的初始记录对聚为一类，形成相应的初级聚类子集，并为每个所述初级聚类子集创建标签集及索引；其中，每对所述初始记录形成所述初始记录对；
[0013] 通过众包用户标注方式依次将所述初级聚类子集分层地进行合并，直至合并后的各个聚类子集之间的最小距离大于下限阈值，最终得到至少两个聚类子集。
[0014] 可选地，所述根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上限概率阈值的初始记录对聚为一类，形成相应的初级聚类子集，包括：
[0015] 获取所述初始记录对代表同一实体的概率；
[0016] 将代表同一实体的概率大于上限概率阈值的所述初始记录对聚为一类，形成相应的初级聚类子集。
[0017] 可选地，所述通过众包用户标注方式依次将所述初级聚类子集分层地进行合并，直至合并后的各个聚类子集之间的最小距离大于下限阈值，最终得到至少两个聚类子集，包括：
[0018] 步骤A、计算所述初级聚类子集中每对初级聚类子集之间的距离，选择所述距离最小的一对初级聚类子集作为两个候选合并子集；
[0019] 步骤B、判断所述两个候选合并子集之间的距离是否小于下限阈值；若所述两个候选合并子集之间的距离小于所述下限阈值，则分别从所述两个候选合并子集中选择第二记录形成第二候选记录对，将所述第二候选记录对以及所述两个候选合并子集的标签集发送给众包平台，以使所述众包平台判断所述第二候选记录对是否代表同一实体以及是否对所述标签集中的标签点赞；其中，所述第二候选记录对为所述两个候选合并子集中代表同一实体的概率最大的记录对；
[0020] 步骤C、接收所述众包平台返回的第一判断结果，并根据所述第一判断结果确定是否将所述两个候选合并子集合并以及根据所述众包平台对所述标签集中标签的点赞次数对所述标签集中的标签进行排序和/或过滤；若根据所述第一判断结果确定所述两个候选合并子集代表同一实体，则将所述两个候选合并子集合并为一个聚类子集，更新所述聚类子集的标签集及索引，并将合并得到的所述聚类子集作为初级聚类子集；若根据所述第一判断结果确定所述两个候选合并子集不代表同一实体，则将所述两个候选合并子集之间的距离设为1;
[0021] 返回继续执行所述步骤A-步骤C，直至所述两个候选合并子集之间的距离大于所述下限阈值，则将至少两个所述初级聚类子集作为得到的所述至少两个聚类子集。
[0022] 可选地，所述获取所述初始记录对代表同一实体的概率，包括：
[0023] 根据所述初始记录对的相应属性之间的相似性计算所述初始记录对的相似度；
[0024] 基于机器学习模型计算所述初始记录对代表同一实体的概率。
[0025] 可选地，所述计算所述初级聚类子集中每对初级聚类子集之间的距离，包括：
[0026]分别从所述每对初级聚类子集中选择代表同一实体的概率最大的记录对（ri，rj)，其中，riG Cprf q，Q为所述每对初级聚类子集中的一个初级聚类子集，(^为所述每对初级聚类子集中的另一个初级聚类子集；
[0027]根据公另
【主权项】
1. 一种基于群体计算的实体解析方法，其特征在于，包括：基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集；当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集；其中，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息；根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对；通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对。
2. 根据权利要求1所述的方法，其特征在于，所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集，包括：根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上限概率阈值的初始记录对聚为一类，形成

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘旭东;孙海龙;郭莉莎;张日崇;
技术所有人：北京航空航天大学;
我是此专利的发明人

上一篇：生成商品详情页面数据的方法和终端装置的制造方法
上一篇：一种图片显示方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。