一种基于随机算法的分布式实体匹配方法与流程

文档序号:12597399阅读:来源:国知局
技术总结
本发明公开了一种基于随机算法的分布式实体匹配方法,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到匹配对的相似度。本发明提出了用于减少冗余相似度计算的解决方案,可以有效提升分布式环境下对半结构化和非结构化数据的实体匹配效率,在准确率得到保证的同时,处理速度明显高过目前较先进的实体匹配方法。

技术研发人员:张蓉;晁平复;高竹
受保护的技术使用者:华东师范大学
文档号码:201510330555
技术研发日:2015.06.15
技术公布日:2017.01.11

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1