1.一种基于随机算法的分布式实体匹配方法,其特征在于,包括如下步骤:
数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;
签名生成步骤:根据所述实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对所述签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;
匹配对生成步骤:在分布式节点内对所述签名重排并分组,从组中提取匹配对;
相似度计算步骤:通过计算海明距离得到所述匹配对的相似度。
2.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述数据预处理步骤包括:对于所述原始数据中进行实体分词,构造出包含所有记录中所出现的词的词典,最后根据每条所述记录中各个词的出现频率将所述记录转化为统一的向量。
3.如权利要求2所述的基于随机算法的分布式实体匹配方法,其特征在于,使用Part-of-Speech Tagger对所述原始数据进行实体分词。
4.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述生成签名步骤中,使用位置敏感哈希函数生成数量小于所述向量维度的随机向量。
5.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述生成签名步骤中,利用可保留向量特征的位置敏感哈希函数计算所述随机向量的签名,所述位置敏感哈希函数以如下公式表示:
6.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述匹配对生成步骤中,在所述分布式节点内按随机变换序号对所述签名分组,并在组内进行排序,选择每个签名和同组中与其相邻的多个签名生成匹配对。
7.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述相似度计算步骤中,设定阈值并计算海明距离衡量匹配对的相似度,若相似度低于阈值,则认定所述匹配对相似并输出对应的实体编号及相似度。
8.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述相似度计算步骤之后进一步包括所述近实时查询步骤:以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据所述集合中的文件路径得到所述外存空间中的源数据文件。
9.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,所述分布式实体匹配方法是基于分布式环境,所述分布式环境包括MapReduce计算框架、Hadoop分布式系统以及Hadoop分布式文件系统。