基于泛化双向相似连接技术的匹配方法

文档序号:6623947阅读:303来源:国知局
基于泛化双向相似连接技术的匹配方法
【专利摘要】本发明公开了一种基于泛化双向相似连接技术的匹配方法,涉及计算机网络【技术领域】,包括:获取双方待匹配的数据及给出的对于匹配程度进行限制的阀值;对匹配双方每一方的事实数据和对方的期望数据进行双向匹配;按照所述双向匹配的结果过滤大量不符合匹配条件的记录;对过滤后的候选集合进行快速判断,获得能够匹配成功的记录对。本发明提供的基于泛化双向相似连接技术的匹配方法,基于映射-过滤-验证(MFV)进行泛化双向相似连接更适用于现实世界中较为广泛的应用场景。
【专利说明】基于泛化双向相似连接技术的匹配方法

【技术领域】
[0001]本发明涉及计算机网络【技术领域】,特别是涉及一种基于泛化双向相似连接技术的匹配方法。

【背景技术】
[0002]双向相似连接旨在从两个或一个给定数据集中找出满足预定连接条件的所有数据记录对,是数据库应用中的一个重要操作。然而,传统的匹配方法在多样化的数据类型上具有较高的局限性,已经不能很好地满足现实世界中不断增长的客观需求。并且,在双向匹配的过程中,双方的角色可能是不同的,而匹配的对象来自一方对对方的期望数据和对方的事实数据,如何将期望数据与事实数据进行交叉比较是当下需要解决的一大关键技术问题。此外,在现实世界中,个体对于匹配程度的要求是不同的,有的人需要找到100%满意的匹配对象,有的人的心理预期则没有那么高,那么如何根据对匹配程度的限定来设计双相连接的比较方法也是亟待解决的重要技术问题。
[0003]因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种更为有效的匹配方法,以满足实际应用中的更多需求。


【发明内容】

[0004]本发明所要解决的技术问题是提供一种基于泛化双向相似连接技术的匹配方法,基于映射-过滤-验证(MFV)进行泛化双向相似连接更适用于现实世界中较为广泛的应用场景。
[0005]为了解决上述技术问题,本发明实施例公开了一种基于泛化双向相似连接技术的匹配方法,包括:
[0006]获取匹配双方待匹配的数据及各自对于匹配程度进行限制的阀值;
[0007]对匹配双方每一方的事实数据和对方的期望数据进行双向匹配;
[0008]按照所述双向匹配的结果过滤大量不符合匹配条件的记录;
[0009]对过滤后的候选集合进行快速判断,获得能够匹配成功的记录对。
[0010]优选的,所述对匹配双方每一方的事实数据和对方的期望数据进行双向匹配中的匹配采用交叉匹配方式完成。
[0011]优选的,所述交叉匹配采用映射的方式完成。
[0012]优选的,所述映射的方式包括单射转、等步长映射转和/或启发式映射。
[0013]优选的,所述映射的方式为启发式映射。
[0014]本发明的基于泛化双向相似连接技术的匹配方法,基于映射-过滤-验证(MFV)进行泛化双向相似连接,更适用于现实世界中较为广泛的应用场景,例如,求职招聘和交友等。这些应用场景中需要进行匹配的数据类型多样,匹配双方中的每个个体对于匹配程度的限定都存在差异,本发明通过映射-过滤-验证方法在进行双向连接时能够基于这些问题将一方的事实数据同另一方的期望数据进行有效地交叉匹配,这样的交友过程能够同时符合双方的预期,在求职招聘中能够促使招聘方与求职者迅速找到满意的员工与企业,增加求职招聘过程中的成功率,在其他社交网络中也具有广泛的应用场景。
[0015]同时,本技术所提出的泛化双向相似连接方法在匹配过程中不产生错误结果也不漏掉正确结果,具有正确性和完备性。并且,较之前的方法来说,本技术所发明的方法效率更高、适用范围更广、更符合现实需求。

【专利附图】

【附图说明】
[0016]图1是本发明的一种基于泛化双向相似连接技术的匹配方法实施例的流程示意图。

【具体实施方式】
[0017]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0018]参见图1,本方案所述的一种基于泛化双向相似连接技术的匹配方法,具体包括:
[0019]步骤S101,获取双方待匹配的数据及给出的对于匹配程度进行限制的阀值;
[0020]步骤S102,对匹配双方每一方的事实数据和对方的期望数据进行双向匹配;
[0021]步骤S103,按照所述双向匹配的结果过滤大量不符合匹配条件的记录;
[0022]步骤S104,对过滤后的候选集合进行快速判断,获得能够匹配成功的记录对。
[0023]在实际应用中的具体实现:
[0024]1.获取待匹配的数据集R和S。R和S中的每条记录r和s都包含了自身的事实数据、对对方的期望数据、匹配的满意度阀值t以及一切其他数据。
[0025]2.对数据集R和S中的每条记录中的事实与期望数据进行映射(参见算法I步骤2)。
[0026]a)根据所选择的数值映射方式进行数值映射,单射转2.2,等步长映射转2.3,启发式映射转2.4。
[0027]b)单射映射,将各个属性的每个数值被映射到一个唯一的全局符号上。转2.5。
[0028]c)等步长映射,通过固定的步长来均匀分割数值范围数据,将多个值映射到同样的符号上。转2.5。
[0029]d)通过启发式映射,寻找近似最优的映射方案。
[0030]1.设置某个数值范围所接受的最大划分块的数目Iv
[0031]i1.找到计算某个数值范围内的最优划分的优化目标。
[0032]min HΠ), sub.to |ΠΙ < ^

TE R
[0033]其中e(r) = a?b为一个期望的数值范围,Ext (e (r))为一个划分Π对于e(r)的延展,即 Ext (e (r)) = a」?bk, a」=Max ^ a), bk = Min (bj bj 彡 b), 2 n表示所有的划分数值范围的划分组成的集合,I Π I是划分Π中的块数,f是一个计算在划分Π情况下Ext (e Cr))的势 I Ext (e Cr)) | 和 e (r)的势 | e (r) | 之差的函数。
[0034]按照以下最优子结构,通过动态规划方法获得最优划分Π。

【权利要求】
1.一种基于泛化双向相似连接技术的匹配方法,其特征在于,包括: 获取双方待匹配的数据及各自对于匹配程度进行限制的阀值; 对匹配双方每一方的事实数据和对方的期望数据进行双向匹配; 按照所述双向匹配的结果过滤大量不符合匹配条件的记录; 对过滤后的候选集合进行快速判断,获得能够匹配成功的记录对。
2.如权利要求1所述的基于泛化双向相似连接技术的匹配方法,其特征在于,所述对匹配双方每一方的事实数据和对方的期望数据进行双向匹配中的匹配采用交叉匹配方式完成。
3.如权利要求2所述的基于泛化双向相似连接技术的匹配方法,其特征在于,所述交叉匹配采用映射的方式完成。
4.如权利要求3所述的基于泛化双向相似连接技术的匹配方法,其特征在于,所述映射的方式包括单射转、等步长映射转和/或启发式映射。
5.如权利要求3所述的基于泛化双向相似连接技术的匹配方法,其特征在于,所述映射的方式为启发式映射。
【文档编号】G06F17/30GK104166719SQ201410407666
【公开日】2014年11月26日 申请日期:2014年8月19日 优先权日:2014年8月19日
【发明者】王朝坤, 王萌, 汪浩 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1