一种多方记录链接方法、电子设备、存储介质及系统与流程

文档序号:16263551发布日期:2018-12-14 21:46阅读:183来源:国知局
一种多方记录链接方法、电子设备、存储介质及系统与流程

本发明涉及记录链接技术领域,尤其涉及一种多方记录链接方法、电子设备、存储介质及系统。

背景技术

随着科技的不断进步,数据正快速地增长和累积,大数据时代已经到来。如何组织和分析这些数据,是发挥数据价值的关键所在。但现有的记录链接方法在记录信息涉及到个人隐私或敏感信息时,未考虑记录信息的隐私保护问题。现有的记录链接方法都只适用于两个数据源,而现实中的很多应用进行记录链接的数据源往往不只两个。随着数据量的不断增长和现实世界数据质量问题的存在,如拼写错误、顺序颠倒等,现有的记录链接方法的可扩展性和容错性较差,因此,急需一种隐私保护性好、可扩展性和容错性高的多方数据源记录链接方法。



技术实现要素:

为了克服现有技术的不足,本发明的目的之一在于提供一种多方记录链接方法,解决了现有记录链接方法无法保护隐私、不适用于多方数据源、可扩展性和容错性较差的问题。

本发明提供一种多方记录链接方法,包括以下步骤:

数据预处理,对若干参与方的数据源分别进行分块处理,将所述数据源中的记录转换为位数组;

记录近似匹配,计算所述位数组对应位置比特1所占的比率,所述利率达到动态阈值时,确定所述利率对应位置为候选匹配位置;

相似度计算,计算所述候选匹配位置之间的相似度,判断所述相似度是否达到全局阈值,是则匹配成功,否则匹配失败。

进一步地,所述步骤数据预处理具体为采用布隆过滤器将所述数据源中的记录转换为位数组。

进一步地,所述步骤数据预处理还包括将所述位数组均分为若干片段,将所述片段分别传至对应参与方。

进一步地,还包括步骤检查候选匹配位置,查找所述候选匹配位置中比特0位置对应的记录,获得第一记录,判断所述第一记录数量是否达到检测阈值,是则判定记录不匹配;否则查找与比特0最近的比特1位置对应的记录,获得第二记录,计算所述第一记录与所述第二记录之间的相似度,若相似度大于所述全局阈值,则判定所述候选匹配位置为匹配成功位置。

一种电子设备,包括:处理器;

存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述一种多方记录链接方法。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述一种多方记录链接方法。

一种多方记录链接系统,包括:

数据预处理模块:用于对若干参与方的数据源分别进行分块处理,将所述数据源中的记录转换为位数组;

记录近似匹配模块:用于计算所述位数组对应位置比特1所占的比率,所述利率达到动态阈值时,确定所述利率对应位置为候选匹配位置;

相似度计算模块:用于计算所述候选匹配位置之间的相似度,若所述相似度达到全局阈值,则匹配成功。

进一步地,所述数据预处理模块具体为采用布隆过滤器将所述数据源中的记录转换为位数组。

进一步地,所述数据预处理模块还包括将所述位数组均分为若干片段,将所述片段分别传至对应参与方。

进一步地,还包括检查候选匹配位置模块,查找所述候选匹配位置中比特0位置对应的记录,获得第一记录,判断所述第一记录数量是否达到检测阈值,是则判定记录不匹配;否则查找与比特0最近的比特1位置对应的记录,获得第二记录,计算所述第一记录与所述第二记录之间的相似度,若相似度大于所述全局阈值,则判定所述候选匹配位置为匹配成功位置。

相比现有技术,本发明的有益效果在于:

本发明提供一种多方记录链接方法,包括以下步骤:数据预处理,对若干参与方的数据源分别进行分块处理,将数据源中的记录转换为位数组;记录近似匹配,计算位数组对应位置比特1所占的比率,利率达到动态阈值时,确定利率对应位置为候选匹配位置;相似度计算,计算候选匹配位置之间的相似度,判断相似度是否达到全局阈值,是则匹配成功,否则匹配失败。本发明还涉及一种电子设备、存储介质、多方记录链接系统;本发明采用比率来标识记录间在某位置的相似度,能够有效地提高方法的容错性;采用动态阈值及候选匹配位置检查确定匹配成功位置,能够保证在提高查全率的同时,查准率不受影响;能够有效计算带有质量问题的记录间的相似度;本发明能够实现多方记录链接,能够有效保护隐私,可扩展性和容错性好。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明的一种多方记录链接方法流程图;

图2为本发明的一种多方记录链接系统结构示意图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

一种多方记录链接方法,如图1所示,包括以下步骤:

数据预处理,对若干参与方的数据源分别进行分块处理,将数据源中的记录转换为位数组;本实施例中,参与方以pi表示,数据源以di表示,优选的,步骤数据预处理具体为采用布隆过滤器将各数据源中的ni条记录的属性a的值变为q-gram,应用k个哈希函数将其映射成ni个m长度的位数组。

在一实施例中,为了保护位数组的安全,优选的,步骤数据预处理还包括将长度为m的位数组均分为p个片段,即按照参与方的个数对位数组进行均分,将第j个片段分别传至对应参与方pj,参与方pj收到p-1个来自其他参与方的第j个片段。使得每个参与方只能看见其他方的片段。因此,参与方数量越大,则安全性越高。

为了支持存在质量问题的记录的匹配,记录近似匹配,计算位数组对应位置比特1所占的比率,利率达到动态阈值时,确定利率对应位置为候选匹配位置;b1,z,b2,z,……,b代表p个位数组在位置z的值,oi,z代表p个位数组在位置z的值为1的个数,比特1所占的比率比率能够更准确地代表各位数组在某个位置的相似度,因此,通过比率判断某位置是否匹配成功,能够提高容错率,减少真实匹配结果的丢失,提高查全率。

在一实施例中,候选匹配位置代表该位置有可能是真实匹配,但又存在质量问题的位置。为了保证准确率不受影响,需要对候选匹配位置做进一步判断。优选的,还包括步骤检查候选匹配位置,查找候选匹配位置中比特0位置对应的记录,获得第一记录,判断第一记录数量是否达到检测阈值,是则判定记录不匹配;否则查找与比特0最近的比特1位置对应的记录,获得第二记录,将第一记录和第二记录传入绝对安全的第p+1方,计算第一记录与第二记录之间的相似度,若相似度大于全局阈值,则判定候选匹配位置为匹配成功位置。在步骤检查候选匹配位置中由于在绝对安全的第p+1方进行匹配,保证了信息的安全性。

相似度计算,计算候选匹配位置之间的相似度,判断相似度是否达到全局阈值,是则匹配成功,否则匹配失败。本实施例中,采用dice相似度函数计算候选匹配位置之间的相似度,dice相似度函数如下:

其中,p代表参与方个数,|sj,z|代表比率为1的位置个数,代表位置的比率值,|bi,j|代表第i个位数组片段j中比特1的个数。

一种电子设备,包括:处理器;

存储器;以及程序,其中程序被存储在存储器中,并且被配置成由处理器执行,程序包括用于执行上述一种多方记录链接方法。

一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行上述一种多方记录链接方法。

一种多方记录链接系统,如图2所示,包括:

数据预处理模块对若干参与方的数据源分别进行分块处理,将数据源中的记录转换为位数组;本实施例中,参与方以pi表示,数据源以di表示,优选的,数据预处理模块具体为采用布隆过滤器将各数据源中的ni条记录的属性a的值变为q-gram,应用k个哈希函数将其映射成ni个m长度的位数组。

在一实施例中,为了保护位数组的安全,优选的,数据预处理模块还包括将长度为m的位数组均分为p个片段,即按照参与方的个数对位数组进行均分,将第j个片段分别传至对应参与方pj,参与方pj收到p-1个来自其他参与方的第j个片段。使得每个参与方只能看见其他方的片段。因此,参与方数量越大,则安全性越高。

为了支持存在质量问题的记录的匹配,记录近似匹配模块计算位数组对应位置比特1所占的比率,利率达到动态阈值时,确定利率对应位置为候选匹配位置;b1,z,b2,z,……,b代表p个位数组在位置z的值,oi,z代表p个位数组在位置z的值为1的个数,比特1所占的比率比率能够更准确地代表各位数组在某个位置的相似度,因此,通过比率判断某位置是否匹配成功,能够提高容错率,减少真实匹配结果的丢失,提高查全率。

在一实施例中,候选匹配位置代表该位置有可能是真实匹配,但又存在质量问题的位置。为了保证准确率不受影响,需要对候选匹配位置做进一步判断。优选的,还包括检查候选匹配位置模块,查找候选匹配位置中比特0位置对应的记录,获得第一记录,判断第一记录数量是否达到检测阈值,是则判定记录不匹配;否则查找与比特0最近的比特1位置对应的记录,获得第二记录,将第一记录和第二记录传入绝对安全的第p+1方,计算第一记录与第二记录之间的相似度,若相似度大于全局阈值,则判定候选匹配位置为匹配成功位置。由于在绝对安全的第p+1方进行匹配,保证了信息的安全性。

相似度计算模块计算候选匹配位置之间的相似度,若相似度达到全局阈值,则匹配成功。本实施例中,相似度计算模块采用dice相似度函数计算候选匹配位置之间的相似度,dice相似度函数如下:

其中,p代表参与方个数,|sj,z|代表比率为1的位置个数,代表位置的比率值,|bi,j|代表第i个位数组片段j中比特1的个数。

本发明提供一种多方记录链接方法,包括以下步骤:数据预处理,对若干参与方的数据源分别进行分块处理,将数据源中的记录转换为位数组;记录近似匹配,计算位数组对应位置比特1所占的比率,利率达到动态阈值时,确定利率对应位置为候选匹配位置;相似度计算,计算候选匹配位置之间的相似度,判断相似度是否达到全局阈值,是则匹配成功,否则匹配失败。本发明还涉及一种电子设备、存储介质、多方记录链接系统;本发明采用比率来标识记录间在某位置的相似度,能够有效地提高方法的容错性;采用动态阈值及候选匹配位置检查确定匹配成功位置,能够保证在提高查全率的同时,查准率不受影响;能够有效计算带有质量问题的记录间的相似度;本发明能够实现多方记录链接,能够有效保护隐私,可扩展性和容错性好。

以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1