一种基于对称加密的实时大数据隐私保护方法

文档序号:6546550阅读:180来源:国知局
一种基于对称加密的实时大数据隐私保护方法
【专利摘要】本发明涉及一种信息安全技术,具体涉及一种基于对称加密的实时大数据隐私保护方法。该方法利用实时数据不断被定点采样,得到变化增量的隐私保护,用户端对当前数据示数值和实时变化增量处理后,将数据交由服务器乱序存放;当需要数据时,恢复原先数据的时间序并调整数据变化增量,最终获得原始数据;所述方法包括下述步骤:A、服务器初始化数据索引和数据混淆;B、服务器数据恢复。该方法不但运行效率较高,而且由于算法的随机处理特性和目前全排列问题仍为NP-hard问题,因此本算法具有较强的安全性,能够广泛应用到许多和实时大数据的隐私保护的有关的场景中,保护数据变化趋势。
【专利说明】一种基于对称加密的实时大数据隐私保护方法【技术领域】
[0001]本发明涉及一种信息安全技术,具体涉及一种基于对称加密的实时大数据隐私保护方法。
【背景技术】
[0002]目前,全球每天实时产生的数据量非常大,包括移动通信、用电数据、网络交易、实时监控信息等。我们已经进入了一个海量数据的时代,信息量爆炸式增长,我们可以利用这些信息获得更好的服务,通过探索和应用这些数据内在规律,解决问题,进一步改善我们的生活。但是大量数据的聚集,也给人们的生活和隐私带来了更多的安全隐患。
[0003]在我们所面临的安全隐患中,用户大量的实时数据外包存储于云服务器中,这些实时数据的变化趋势会间接泄露大量的用户隐私信息。因此如何高效而安全的保护用户实时数据的走向趋势是一个很重要的问题。目前,大部分隐私保护算法都是基于保护数据值本身的信息,而忽略了数据变化趋势重要性,而且现行的隐私保护算法因为着重于数据值本身的保护,因此对于大数据的保护效率并不可观。因此考虑到对保护效率和安全性的综合要求,设计出一种可以高效处理并保护实时数据的算法就非常重要。

【发明内容】

[0004]针对现有技术的不足,本发明的目的是提供一种基于对称加密的实时大数据隐私保护方法,该方法不仅计算非常简单方便,而且能够抵抗恶意的无背景知识的攻击。
[0005]本发明的目的是采用下述技术方案实现的:
[0006]本发明提供一种基于对称加密的实时大数据隐私保护方法,其改进之处在于,所述方法利用实时数据不断被定点采样,得到变化增量的隐私保护,用户端对当前数据示数值和实时变化增量处理后,将数据交由服务器乱序存放;当需要数据时,恢复原先数据的时间序并调整数据变化增量,最终获得原始数据;
[0007]所述方法包括下述步骤:
[0008]A、服务器初始化数据索引和数据混淆;
[0009]B、服务器数据恢复。
[0010]进一步地,所述步骤A的服务器初始化数据索引和数据混淆包括下述子步骤:
[0011](1)服务器对数据采样点时间进行编码;
[0012](2)服务器产生某段时间内2n+l个数据采样点的数据随机存放位置,η为正整数;
[0013](3)根据时间采样点编码和对应的存放位置,建立数据索引数组index□,数据索引数组index口为(时间编码,存放位置);
[0014](4)用户端获得当前数据示数值d[i]和定点采样后的数据增量Λ(1[?];
[0015](5)用户端更新数据示数值 d[i+1] = d[i]op_operate Δ d[i];
[0016](6)用户端将数据d[i+l]发送至服务器;[0017](7)服务器按照先前建立的数据索引,将数据示数值d[i+l]存放在第i+Ι个随机数对应的位置。
[0018]进一步地,所述步骤(2)中,服务器产生对应时间内2n+l个数据采样点的数据随机存放位置,即产生一个2n+l维的不重复随机向量V,向量元素Vi取值为O < Vi < 2n。
[0019]进一步地,所述步骤(3)包括下述步骤:
[0020]a、将2n+l维的不重复随机向量V发送给服务器,存入数据索引数组index口 ;
[0021]b、服务器根据时间采样点编码和对应的存放位置,完成数据索引数组index[]建立的数组序号,为对应的采样点时间序,数组存储内容为采样数据存放的随机位置;
[0022]C、服务器建立大小为2n+l的一维数组data□,用于存放用户实时采样数据。
[0023]进一步地,所述步骤(5)中,op_operate表示与上轮数据处理符号相反,设第2k个数为加,第2k+l个数为减;或设第2k个数为减,第2k+l个数为加,O ( k〈n+l。
[0024]进一步地,所述步骤(7)中,服务器按照先前建立的数据索引数组index□,将数据示数值d[i+l]存放在index[i+l]所指示的位置上,即data[index[i+l]] = d[i+l]。
[0025]进一步地,所述步骤B的服务器数据恢复包括下述步骤:
[0026]<1>用户端发送请求,要求获得某时间段内的真实数据;
[0027]<2>服务器接受请求,从步骤A的数据存储文件中获取相应时间段内混淆后的数据结果和对应数据索引;
[0028]<3>按照数据索引恢复按时间序排列处理后的数据示数值;
[0029]〈4>将当前数据加上或减去其与下一个相邻数据间的差值,恢复真实数据。
[0030]进一步地,所述步骤〈2>中,服务器验证用户身份后接受请求,从文件中获取相应时间段内混淆后的数据结果2m+l个,m为正整数,存入大小为2m+l的一维数组result []中;服务器从文件中获取对应的数据索引2m+l项,存入大小为2m+l的一维数组re_index []中。
[0031]进一步地,所述步骤〈3>中,按照数据索引恢复按时间序排列处理后的数据示数值,即生成一维数组real []存放恢复顺序后的数据示数值,real [i] = result [re_index[i]]。
[0032]进一步地,所述步骤〈4>中,对处理当前第i+Ι个数据,若i = 2k_l,0 ^ k^m,则 real[i+1] = real[i]+result[i + 1]-result [i];若 i = 2k,则 real[i+1]=real [i]+result[i]-result[i+1],恢复真实数据。
[0033]与现有技术比,本发明达到的有益效果是:
[0034]1、本发明提供的基于对称加密的实时大数据隐私保护方法,采用基于对称加密的数据混淆方法,能够抵抗恶意攻击者的攻击,并且仅需要简单的运算,能够向大数据提供持久、高效的保护,具有较高的执行效率和安全性。
[0035]2、本发明的实时大数据隐私保护方法不仅运算简单高效,而且能够抵抗无背景知识的攻击。通过分析可知,本方法仅使用基本的线性运算而不需要通过复杂运算获得加密密钥,并且方法也能抵抗攻击者的统计特性攻击。
[0036]3、由于实时数据体量大,变化快,因此用户一般将其存储在云平台服务器中。而云平台服务器很容易被攻击者攻击,数据泄露间接造成用户的隐私泄露。为了防止用户的隐私泄露,云平台服务器需要一种高效、安全的方法保护用户实时数据信息。本发明提出的基于对称加密的实时大数据隐私保护方法就是由此而来,该方法减少了云平台服务器的维护用户数据安全的时间开销,同时也减少了维护数据安全性的存储开销,服务器对于数据量远小于实时数据本身的数据索引应要重点保护,减少了对大量实时数据本身隐私保护的开销。
【专利附图】

【附图说明】
[0037]图1是本发明提供的基于对称加密的实时大数据隐私保护方法的流程图;
[0038]图2是本发明提供的数据混淆过程的流程图;
[0039]图 3是本发明提供的数据恢复过程的流程图。
【具体实施方式】
[0040]下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0041]本发明提供一种基于对称加密的实时大数据隐私保护方法,数据类型为整型或浮点型。包括以下步骤:
[0042]所述方法利用实时数据不断被定点采样,得到变化增量的隐私保护,用户端对当前数据示数值和实时变化增量处理后,将数据交由服务器乱序存放;当需要数据时,恢复原先数据的时间序并调整数据变化增量,最终获得原始数据;
[0043]基于对称加密的实时大数据隐私保护方法的流程图如图1所示,包括下述步骤:
[0044]A、服务器初始化数据索引和数据混淆;
[0045]B、服务器数据恢复。
[0046]数据混淆过程:
[0047](I)服务器对某时间段内的2η+1 (η为正整数)个数据采样点的时间进行编码,对应为其在存储空间中的排列顺序1...2η+1,即产生一个大小为2η+1的一维数组index口 ;
[0048](2)服务器产生对应时间内2n+l个数据采样点的数据随机存放位置,即产生一个2n+l维的不重复随机向量V(向量元素O < Vi < 2n);
[0049](3)将2n+l维随机向量V发送给服务器,存入数组index口 ;
[0050](4)服务器根据时间采样点编码和对应的存放位置,完成数据索引数组index[]的建立数组序号为对应的采样点时间序,数组存储内容为采样数据存放的随机位置;
[0051](5)服务器建立大小为2n+l的一维数组data[],用于存放用户实时采样数据;
[0052](6)用户方获得当前数据示数值d[i]和定点采样后的数据增量Λ(1[?];
[0053](7)用户方更新数据示数值 d[i+l] = d[i]op_operate Δ d[i] (op_operate 表示与上轮数据处理符号相反,不妨设第2k个数为加,第2k+l个数为减(O ( k〈n+l),反之亦可);
[0054](8)用户方将数据d[i+l]发送至服务器;
[0055](9)服务器按照先前建立的数据索引index□,将数据示数值d[i+l]存放在index[i+l]所指示的位置上,即 data[index[i+l]] = d[i+l]。
[0056]数据恢复过程:
[0057](10)用户发送请求,要求获得某时间段内的真实数据;
[0058](11)服务器验证用户身份后接受请求,从步骤A的数据存储文件中获取相应时间段内混淆后的数据结果2m+l(m为正整数)个,存入大小为2m+l的一维数组result[]中;
[0059](12)服务器从文件中获取对应的数据索引2m+l项,存入大小为2m+l的一维数组re_index []中;
[0060](13)按照数据索引恢复按时间序排列处理后的数据示数值,即生成一维数组real []存放恢复顺序后的数据示数值,real [i] = result [re_index [i]];
[0061](14)对处理当前第i+1个数据,
[0062]若i = 2k-1 (O ≤ k ≤ m),则 real [i+1] = real [i] +result [i+1] -result [i];
[0063]若i = 2k,则 real [i+1] = real [i]+result [i]-result [i+1],恢复真实数据。
[0064]具体地,该隐私保护方法分为两个阶段。第一个阶段包括步骤(1)到步骤(9)是系统初始化和用户提供数据阶段,第二个阶段包括步骤(10)到步骤(14)是用户和服务器的交互并要求恢复真实数据阶段。
[0065]第一阶段,服务器完成对于采样时间点的数目2n+l的估计和编码,并申请相应的存储空间data[2n+l],获得不重复2n+l维随机数向量V(向量元素O≤ Vi≤ 2n),申请数据索引空间index[2n+l],根据时间编码和随机数向量填充index[2n+l];用户得到当前数据示数d[i]和实时数据增量Λ d[i],并更新数据示数d[i+l] = d[i]+/- Λ d[i],发送给服务器;服务器根据收到的数据的采样时间点,将其存放入对应随机存储位置。
[0066]第二阶段,用户要求恢复某时间段内数据,服务器验证用户身份后,从文件中获取相应数据2m+l个(m为正整数),存入result[2m+l]中,以及数据索引2m+l项存入re_index [2m+l]中;根据re_index [2m+l]恢复数据顺序,再将当前数据加上或减去其与相邻数据间的差值,恢复原始数据示数。
[0067]本发明提供的基于对称加密的实时大数据隐私保护方法的目标有两点:一是算法(方法)的正确性,即如果用户数据为合适类型,那么正确运行算法后必然能得到预期的结果;二是算法的安全性,即如果数据被窃取,那么在攻击者未获得“密钥”,即数据索引时,攻击者无法有关用户的真实数据情况的信息。
[0068]如【背景技术】所述,以往的隐私保护方法都是基于保护数据值本身的信息,而忽略了数据变化趋势重要性,因此对于大数据的保护效率并不可观。本发明设计的实时大数据隐私保护算法基于NP-hard问题一数据全排列,保证算法的安全性。同时,本发明的技术方案是基于对称加密的特点,因此仅需要简单的线性运算,保证了算法的高效性以及在大数据中的可用性。
[0069]下面对本方法的正确性和安全性进行具体分析。
[0070](I)本方法的正确性即是当数据类型符合要求,服务器正确运行了算法,算法能够将混淆后的数据还原成原始数据。那么,假设真实数据序列为dl,d2,一,d2n+l,满足di+1 = di+Adi (Adi = di+1-di为相邻采样时间间隔内的变化量)。那么现将上述数据进行变化量做或加或减的处理(不妨设第2k个数为加,第2k+l个数为减(O≤ k〈n+l),反之亦可),得到新的一组数dr,d2,,…,d2n+l’,其中dl,= dl,若i = 2k_l,贝丨J di+1’=di,+di+1-di ;若i = 2k,贝丨J di+1’ = di,+d1-di+1。现对这些数据di’按数据索引index进行乱序,得到“密文”ml, m2,…,m2n+l, mi = dindex[i]。当要恢复真实数据时,将“密文” ml, m2,...,m2n+l 按照 index 恢复,得 dl ’,d2’,…,d2n+l ’,dindex [i] ’ = mj。此时dl’ = dl,将当前第i个数据加上或减去其与相邻数据间的差值。若i = 2k-l,则di+1 = di+di+1’ _di,;若i = 2k,则di+1 = di+di’ -di+1’。那么可以恢复真实数据序列dl, d2,…,d2n+l。由上所述,本方法的正确性可得到证明。
[0071](2)安全性:本方法的攻击者可能会想要窃取用户的实时数据信息,此时安全的算法必须保证在攻击者仅获得处理后的用户实时数据后仍然不能获得有关用户实时数据的信息。用数学公式来表示就是:当攻击者获得用户实时数据后,有多大的概率P推测出其实时数据的正确排列。现假设攻击者获得了用户某连续时间内的2k+l个数据,且其了解数据处理规律,知道正确数据的排列应满足波动形式。先对这些数据进行升序排列,得到数据排列al,a2,…,ak+1,- ,a2k+l,其中ak+1为这些书的中位数,将数据按照ak+Ι为界,划分为两组:al,a2,…,ak为一组,ak+2,…,a2k+l为一组。这两组数据组间两两配对,共有k !种,再将配对后的数对进行排序,则又有k !种。那么此时共有(k ! *k !)合理数据排列,若正确排列就是这些排列中的一种,攻击者选中的概率为l/(k ! *k!)。即使k很小,如k = 5,概率为1/14400,概率都非常小,几乎为零。而且上述情况并未列出所有合理数据排列,因此攻击者获得正确数据排列的概率l/(k ! *k!)。这说明攻击者在没有数据索引的情况下,想要从混淆处理后的数据中得到用户的真实数据变化规律是不可能的。从而证明了算法的安全性。
[0072]实施例
[0073]本方法的计算开销可以分为两部分。第一部分是服务器初始化数据索引和混淆数据的开销;第二部分主要是服务器完成恢复数据顺序和真实数据数值的开销。本实施例方法在Corei3处理器,主频为2.53GHz的机器上以C语言完成与现有对称加密方法DES的对比仿真实验。仿真对比实验采用文件输入100,000个整型数据,比较两种方法的加解密的时间开销,测试的平均结果如下:
[0074]
【权利要求】
1.一种基于对称加密的实时大数据隐私保护方法,其特征在于,所述方法利用实时数据不断被定点采样,得到变化增量的隐私保护,用户端对当前数据示数值和实时变化增量处理后,将数据交由服务器乱序存放;当需要数据时,恢复原先数据的时间序并调整数据变化增量,最终获得原始数据; 所述方法包括下述步骤: A、服务器初始化数据索引和数据混淆; B、服务器数据恢复。
2.如权利要求1所述的实时大数据隐私保护方法,其特征在于,所述步骤A的服务器初始化数据索引和数据混淆包括下述子步骤: (1)服务器对数据采样点时间进行编码; (2)服务器产生某段时间内2n+l个数据采样点的数据随机存放位置,η为正整数; (3)根据时间采样点编码和对应的存放位置,建立数据索引数组index□,数据索引数组index []为(时间编码,存放位置); (4)用户端获得当前数据示数值d[i]和定点采样后的数据增量Λ(1[?]; (5)用户端更新数据示数值d[i+l]= d[i]op_operate Δ d[i]; (6)用户端将数据d[i+l]发送至服务器; (7)服务器按照先前建立的数据索引,将数据示数值d[i+l]存放在第i+Ι个随机数对应的位置。
3.如权利要求2所述的实时大数据隐私保护方法,其特征在于,所述步骤(2)中,服务器产生对应时间内2n+l个数据采样点的数据随机存放位置,即产生一个2n+l维的不重复随机向量V,向量元素Vi取值为O < Vi < 2n。
4.如权利要求2所述的实时大数据隐私保护方法,其特征在于,所述步骤(3)包括下述步骤: a、将2n+l维的不重复随机向量V发送给服务器,存入数据索引数组index口; b、服务器根据时间采样点编码和对应的存放位置,完成数据索引数组index[]建立的数组序号,为对应的采样点时间序,数组存储内容为采样数据存放的随机位置; C、服务器建立大小为2n+l的一维数组data□,用于存放用户实时采样数据。
5.如权利要求2所述的实时大数据隐私保护方法,其特征在于,所述步骤(5)中,op_operate表示与上轮数据处理符号相反,设第2k个数为加,第2k+l个数为减;或设第2k个数为减,第2k+l个数为加,O ( k〈n+l。
6.如权利要求2所述的实时大数据隐私保护方法,其特征在于,所述步骤(7)中,服务器按照先前建立的数据索引数组index□,将数据示数值d[i+l]存放在index[i+l]所指示的位置上,即 data[index[i+l]] = d[i+l]。
7.如权利要求1所述的实时大数据隐私保护方法,其特征在于,所述步骤B的服务器数据恢复包括下述步骤: 〈1>用户端发送请求,要求获得某时间段内的真实数据; 〈2>服务器接受请求,从步骤A的数据存储文件中获取相应时间段内混淆后的数据结果和对应数据索引; <3>按照数据索引恢复按时间序排列处理后的数据示数值;〈4>将当前数据加上或减去其与下一个相邻数据间的差值,恢复真实数据。
8.如权利要求7所述的实时大数据隐私保护方法,其特征在于,所述步骤〈2>中,服务器验证用户身份后接受请求,从文件中获取相应时间段内混淆后的数据结果2m+l个,m为正整数,存入大小为2m+l的一维数组result []中;服务器从文件中获取对应的数据索引2m+1项,存入大小为2m+l的一维数组re_index[]中。
9.如权利要求7所述的实时大数据隐私保护方法,其特征在于,所述步骤〈3>中,按照数据索引恢复按时间序排列处理后的数据示数值,即生成一维数组real []存放恢复顺序后的数据示数值,real [i] = result [re_index[i]]。
10.如权利要求7所述的实时大数据隐私保护方法,其特征在于,所述步骤〈4>中,对处理当前第i+Ι个数据,若i = 2k-l,0 ^ k ^ m,则real[i + 1] = real[i]+result[i + 1]-result [i]; 若 i = 2k, 贝U real[i + 1]=real [i]+result [i]-result [i+1],恢复真实数据。
【文档编号】G06F17/30GK104009981SQ201410204063
【公开日】2014年8月27日 申请日期:2014年5月14日 优先权日:2014年5月14日
【发明者】张涛, 叶云, 邓松, 黄刘生, 聂熠文, 杨威 申请人:国家电网公司, 中国电力科学研究院, 中国科学技术大学苏州研究院, 国网山东省电力公司电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1