一种基于数据拟合的个性化隐私信息检索方法与流程

文档序号:12786440阅读:307来源:国知局
本发明属于数据交易中的信息检索
技术领域
,更为具体地讲,涉及一种基于数据拟合的个性化隐私信息检索方法。
背景技术
:随着网络信息技术飞速发展,各行各业对数据的需求量不断增长,不论是在学术界还是在工业界都希望可以得到满足生产和研究的数据,并且数据在人们的生活中扮演着越来越重要的角色。政府部门、商业组织或研究机构等各行业都需要大量的数据输入来满足各式各样的需求,但是数据是复杂的、多变的,因此,各行业就需要从海量数据中搜索有用信息来满足自身需要。但这样有可能导致个体查询内容隐私以及查询方的商业意图的泄露,随之而来的是各种解决私密信息(如日常习惯、不良历史、信誉程度、以往病史等)方面的研究,以确保信息的利用在满足行业需求的同时能保证个人隐私以及商业意图不被泄露。正是这样的需求使得安全可信的数据交易平台应运而生,为用户提供保护数据主体隐私的安全隐私平台。在各种保护隐私的数据检索模型中最具代表性的是隐私信息检索保护模型,隐私信息检索经过多年的研究,已经形成了相对完善的理论体系。虽然一些方法还存在一定的缺陷,但随着一些关键问题的解决,隐私信息检索将越来越多地应用到各个领域,许多行业为了保护数据查询提供方的利益以及查询方的商业利益,引入了隐私信息检索方法。在进入了大数据时代之后,各种数据不断融合,各大机构都有足够多的数据,但是当他们想通过其他机构查询数据的时候,他们不想暴露自己的数据给数据提供方,然而对于此种需求目前行业内并没有有效的解决方法。技术实现要素:本发明的目的在于克服现有技术的不足,提供一种基于数据拟合的个性化隐私信息检索方法,实现对买方检索内容和意图隐私的良好保护。为实现上述发明目的,本发明基于数据拟合的个性化隐私信息检索方法,包括以下步骤:S1:数据交易平台的买卖双方协商得到检索的参照列R;S2:买方在自己所要检索的数据中提取参照列R对应的数据,拟合确定检索参照列数据的分布函数,然后根据检索参照列数据的分布函数生成(k-1)M个假数据,其中k表示买方的隐私要求参数,k>1,M表示买方检索参照列数据个数,将(k-1)M个假数据和检索参照列数据构成k匿名集合,采用不可逆加密算法对匿名集合进行加密,将匿名密文集合发送给卖方;S3:卖方采用与买方相同的不可逆加密算法对自身数据库中参照列R中的数据进行加密处理,根据买方发送的匿名密文集合在自身数据库中进行检索,将检索记录集发送给买方;S4:买方接收到检索记录集后,根据其真实检索参照列数据在检索记录集中筛选出所需检索记录,得到检索结果。本发明基于数据拟合的个性化隐私信息检索方法,数据交易平台的买卖双方协商得到检索的参照列,买方拟合确定检索参照列数据的分布函数,然后根据检索参照列数据的分布函数和隐私要求参数获取k匿名集合,采用不可逆加密算法对匿名集合进行加密,将匿名密文集合发送给卖方,卖方采用与买方相同的不可逆加密算法对自身数据库中参照列R中的数据进行加密处理,然后根据匿名密文集合进行检索,将检索记录集发送给买方,买方根据其真实检索参照列数据在检索记录集中筛选出所需检索记录,得到检索结果。采用本发明可以实现对买方检索内容和意图隐私的良好保护。附图说明图1是本发明基于数据拟合的个性化隐私信息检索方法的具体实施方式流程图。具体实施方式下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。实施例图1是本发明基于数据拟合的个性化隐私信息检索方法的具体实施方式流程图。如图1所示,本发明基于数据拟合的个性化隐私信息检索方法的具体步骤包括:S101:买卖双方协商检索参照列:数据交易平台的买卖双方协商得到检索的参照列R,例如身份证号、手机号等。通过这种方式,可以根据买方的自身需求情况和卖方的数据提供情况来确定检索参照列,从而提供个性化的信息检索。表1是本实施例中买方检索数据表。NameAgePhoneNumRich1115253592645Stick3318753597551Roc2318625566432Emily1215642592117Alice1515955592663表1S102:买方基于数据拟合加密检索数据:买方在自己所要检索的数据中提取参照列R对应的数据,拟合确定检索参照列数据的分布函数,分布函数体现了检索参照列数据的分布特征(例如均匀分布、高斯分布等),然后根据检索参照列数据的分布函数生成(k-1)M个假数据,其中k表示买方的隐私要求参数,k>1,M表示买方检索参照列数据个数,将(k-1)M个假数据和检索参照列数据构成k匿名集合,采用不可逆加密算法对匿名集合进行加密,将匿名密文集合发送给卖方。在本发明中,为了隐藏买方的真实查询意图,需要生成(k-1)M个假数据来和真实数据构成k匿名集合,由于不同的数据分布特征不同,如果随机生成假数据,很有可能产生的是噪音数据,很容易被排除掉,从而暴露买方的真实查询意图。因此,本发明中买方首先对检索参照列数据进行了数据拟合,得到了分布函数,以此生成k匿名集合。假定将年龄作为参照列,那么买方将根据表1中的年龄列所对应数据来拟合得到分布函数,由于年龄的分布满足高斯分布,所以此处高斯分布对年龄进行拟合,得到对应拟合函数,据此来生成k匿名集合。本实施例中设置k=2,由于表1中存在5个年龄数据,因此需要生成的假数据数量为5,即根据拟合函数生成5个假年龄数据,与表1中的年龄数据一起构成k匿名集合。表2是本实施例中的k匿名集合。Age11332312151619181734表2本发明中,买方需要采用不可逆加密算法对匿名集合进行加密,不可逆加密算法的特点就是无法根据密文解密得到原始明文。本实施例中采用SHA(SecureHashAlgorithm,安全散列算法)256加密算法来进行不可逆加密,该算法可以把任何类型的数据转换成256位的数据摘要,两个不同的数据不会产生同样的数据摘要。S103:卖方信息检索与反馈:卖方采用与买方相同的不可逆加密算法对自身数据库中参照列R中的数据进行加密处理,根据买方发送的匿名密文集合在自身数据库中进行检索,将检索记录集发送给买方。由于本发明采用密文来检索,卖方最多只能根据自身数据库中参照列数据密文来获取匿名密文集合中密文对应的数据,对于卖方不存在的记录,就无法得知了,因此可以对那些卖方没有的检索记录进行很好的保护。S104:买方获取检索结果:买方接收到检索记录集后,根据其真实检索参照列数据的密文在检索记录集中筛选出所需检索记录,得到检索结果。根据以上说明可知,本发明中买卖双方通过协商检索参照列,来实现个性化信息检索,在检索过程中买方采用检索参照列数据的分布函数来生成k匿名集合,并采用不可逆加密算法对匿名集合进行加密,卖方采用密文进行检索,从而解决了隐私信息检索中对检索内容和意图隐私保护问题。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本
技术领域
的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本
技术领域
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1