一种个人信息拆分脱敏存储与重构方法及系统

文档序号:33194725发布日期:2023-02-04 10:50阅读:111来源:国知局
一种个人信息拆分脱敏存储与重构方法及系统

1.本发明涉及数据安全存储技术领域,具体地说,涉及一种个人信息拆分脱敏存储与重构方法及系统。


背景技术:

2.随着计算机科学与技术的不断发展,信息系统在各行各业中扮演了更加重要的角色。近年来,国家在不断增设各类信息系统的基础上,信息系统的安全性、高可用性也成为了系统的关键部分。利用信息化的方式收集用户数据,管理用户数据已经是政府管理以及人们日常生活中必不可少的一部分。然而,过去的系统往往是单一服务的架构,系统的主要重心更加偏向于功能性,以业务流程为其侧重点。并且由于不同的系统的安全性能不统一,往往导致被保护的数据不能有效的在各个系统中流转,其所能提供的服务范围是有限的,收到了区域性、法律等诸多客观因素的制约。此类系统目前已经远远不能满足政府日常管理数据以及人们日常生活的基本需求。与此同时,人们对于个人隐私数据的安全防范意识逐渐提高,个人信息的存储安全与人们的生活息息相关。因此,亟需一种安全的数据存储方案在应用底层,在保护用户数据不泄漏个人隐私数据的前提下,提供安全、可靠、高可用的服务。
3.当前存储服务存在以下问题:
4.1、数据明文存储:当前诸多系统仍以明文形式对数据进行存储,仅关注基础服务并忽视了用户隐私的保护。这种方式存在极大的安全隐患,一旦发生数据泄漏,用户隐私将得不到保证,危害用户的切身利益。
5.2、数据归属权不属于用户:由于普通用户不具备个人数据存储能力,所以数据往往存储在不同系统当中。一旦用户数据进行上传,用户即丧失了其个人信息的所有权,由于信息没有进行有效的保护,系统可以对数据进行任意的查询、分析、使用等危害用户隐私的行为。
6.3、数据服务不能有效的抽象:当前系统拥有各自独立的存储服务,各个系统间形成数据孤岛,使得数据无法有效、安全地流转。而日常生活中,很多数据可以进行统一的存储,服务于多个信息系统以提高数据的使用效率并降低数据在各个系统中的冗余。
7.4、服务性能无法保证:由于存储系统不能够统一使用,被各个信息系统私有,因此服务质量良莠不齐。
8.总体来说,当前存储系统已经不能够满足数据安全、高效存储的基本需求,亟需具备标准化、统一、安全的存储系统服务,以解决上述问题。


技术实现要素:

9.本发明的内容是提供一种个人信息拆分脱敏存储与重构方法及系统,其能够克服现有技术的某种或某些缺陷。
10.根据本发明的一种个人信息拆分脱敏存储与重构方法,其包括以下步骤:
11.1)初始化阶段:
12.本地生成密钥key1以及搜索历史x;
13.2)上传数据:
14.2.1)用户在本地对个人数据进行加密并提取后续用于检索数据的关键字wi,生成与关键字同数量的随机数si同时生成空列表x;使用key1加密关键字wi,如果关键字wi存在于搜索历史x,将key1(wi)添加至x;如果不存在使用hmac 算法计算密文数据索引ci=hmac
key1(wi)
(si)||si;
15.2.2)将密文数据与密文数据索引以及x上传至存储服务器;
16.2.3)服务器将密文索引存储在索引服务器对其进行管理,构建密文索引,密文文件与存储分片的映射关系;服务器将文件进行分片后分布式的存储在不同的存储服务器单元,并对分片数据生成默克尔根用于后续数据完整性校验;所有数据均保证具有存储副本,以保证数据的可用性;
17.3)数据检索:
18.3.1)当用户检索相关数据时,用户使用加密后的索引,即key1(wi);并更新本地搜索历史x;
19.3.2)发送key1(wi)至服务器;
20.3.3)服务器请求索引服务器;
21.3.4)索引服务器将通过密文索引进行检索服务,首先检索倒排索引,如果不能匹配文件,再检索正排索引;找到密文文件名后,返回给基础服务器;并更新倒排索引;
22.3.5)本地检索文件名与分片数据存储信息的映射关系,发送通知至存储服务器;
23.3.6)存储服务器收到通知后,与用户进行通信发送各个数据分片;
24.3.7)用户在本地重组密文数据并验证默克尔根以校验数据完整性,并对数据进行解密获取明文数据。
25.作为优选,步骤2中,数据拆分存储的方法为:将不同模态数据进行加密脱敏后,采用数据分片策略对脱敏数据进行分割;数据拆分将分为两个部分,每个文件doc将会被拆分成m个分片piece;每个piece是最小的文件共享单位,系统会对每个piece进行完整性校验,确保doc可以被正确恢复;即个人隐私数据将被拆分为如下格式:{"doc_1":[{"piece_1":["location_1",..., "location_n"]},...{"piece_n":["location_1"..."locatio_n"]}]};同时需要索引服务器对文件分片piece的存储位置进行维护;
[0026]
当存储行为发生时,用户将数据脱敏后上传到服务器端;服务端将文件分为n个分片piece,每个piece将至少存储在三个存储节点当中;同时,服务端对n个piece生成merkle root用于后续完整性校验;在piece发送至存储节点时,每个piece将分割为block分别进行发送,并通过生成当前n个block的merkle root,用于后续piece的完整性校验;当所有piece都已经合理分配到存储节点后,用户单次的存储流程已经完成。
[0027]
作为优选,步骤3中,分片数据重构的方法为:当用户检索后需要恢复数据时,所有分片piece的存储节点位置与用户进行数据交互;存储节点将各个分片piece以block的形式返回给客户端;当客户端收到一个piece的所有分片后,校验当前分片的完整性;当客户端收到所有的piece后,校验当前数据的完整性。
[0028]
作为优选,步骤3中,在用户上传个人信息时,用户将提供与信息匹配的关键字wi用于后续检索;为保证用户数据在网络传输中的安全与服务端的隐私,用于数据匹配的关键字也将加密,以防止任何第三方窃取用户隐私;在用户上传数据时,用户需要维护一个额外的加密关键字的密钥key以及搜索历史x,此时用户将加密与该文件相关的关键字并将其上传至服务器;
[0029]
当用户进行检索时,用户本地生成key(w1);服务端将会匹配归属该用户的所有文件的加密关键字进行匹配;
[0030]
同时,对于已经检索过的key(w1),服务端将为其建立倒排索引,当后续再次使用key(w1)进行检索时,服务端将先采用倒排索引进行匹配,提高数据检索效率。
[0031]
本发明还提供了一种个人信息拆分脱敏存储与重构系统,其采用如权利要求上述的一种个人信息拆分脱敏存储与重构方法。
[0032]
本发明的有益效果如下:
[0033]
1)利用加密关键字检索技术对拆分的分布式数据进行检索,对用户数据、查询索引进行保护,避免用户数据隐私泄漏。
[0034]
2)对脱敏数据进行有效拆分与重组,保证数据高可用前提下,提升系统安全。
[0035]
3)利用分布式技术构建统一的数据存储、检索服务,可服务于多个系统。
附图说明
[0036]
图1为实施例中上传数据的流程图;
[0037]
图2为实施例中数据检索的流程图;
[0038]
图3为实施例中一种个人信息拆分脱敏存储与重构系统的结构示意图。
具体实施方式
[0039]
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
[0040]
实施例
[0041]
如图1和图2所示,本实施例提供了一种个人信息拆分脱敏存储与重构方法,其包括以下步骤:
[0042]
1)初始化阶段:
[0043]
本地生成密钥key1以及搜索历史x;
[0044]
2)上传数据:
[0045]
2.1)用户在本地对个人数据进行加密并提取后续用于检索数据的关键字wi,生成与关键字同数量的随机数si同时生成空列表x;使用key1加密关键字wi,如果关键字wi存在于搜索历史x,将key1(wi)添加至x;如果不存在使用hmac 算法计算密文数据索引ci=hmac
key1(wi)
(si)||si;
[0046]
2.2)将密文数据与密文数据索引以及x上传至存储服务器;
[0047]
2.3)服务器将密文索引存储在索引服务器对其进行管理,构建密文索引,密文文件与存储分片的映射关系;服务器将文件进行分片后分布式的存储在不同的存储服务器单元,并对分片数据生成默克尔根用于后续数据完整性校验;所有数据均保证具有存储副本,以保证数据的可用性;
[0048]
3)数据检索:
[0049]
3.1)当用户检索相关数据时,用户使用加密后的索引,即key1(wi);并更新本地搜索历史x;
[0050]
3.2)发送key1(wi)至服务器;
[0051]
3.3)服务器请求索引服务器;
[0052]
3.4)索引服务器将通过密文索引进行检索服务,首先检索倒排索引,如果不能匹配文件,再检索正排索引;找到密文文件名后,返回给基础服务器;并更新倒排索引;
[0053]
3.5)本地检索文件名与分片数据存储信息的映射关系,发送通知至存储服务器;
[0054]
3.6)存储服务器收到通知后,与用户进行通信发送各个数据分片;
[0055]
3.7)用户在本地重组密文数据并验证默克尔根以校验数据完整性,并对数据进行解密获取明文数据。
[0056]
数据拆分存储的方法为:
[0057]
将不同模态数据进行加密脱敏后,采用数据分片策略对脱敏数据进行分割;数据拆分将分为两个部分,每个文件doc将会被拆分成m个分片piece;每个piece 是最小的文件共享单位,系统会对每个piece进行完整性校验,确保doc可以被正确恢复;即个人隐私数据将被拆分为如下格式:{"doc_1":[{"piece_1": ["location_1",...,"location_n"]},...{"piece_n":["location_1"..."locatio_n"]}]};同时需要索引服务器对文件分片piece的存储位置进行维护;
[0058]
当存储行为发生时,用户将数据脱敏后上传到服务器端;服务端将文件分为n个分片piece,每个piece将至少存储在三个存储节点当中;同时,服务端对n个piece生成merkle root用于后续完整性校验;在piece发送至存储节点时,每个piece将分割为block分别进行发送,并通过生成当前n个block的merkle root,用于后续piece的完整性校验;当所有piece都已经合理分配到存储节点后,用户单次的存储流程已经完成。
[0059]
分片数据重构的方法为:
[0060]
当用户检索后需要恢复数据时,所有分片piece的存储节点位置与用户进行数据交互;存储节点将各个分片piece以block的形式返回给客户端;当客户端收到一个piece的所有分片后,校验当前分片的完整性;当客户端收到所有的 piece后,校验当前数据的完整性。
[0061]
加密数据检索:
[0062]
在用户上传个人信息时,用户将提供与信息匹配的关键字wi用于后续检索;为保证用户数据在网络传输中的安全与服务端的隐私,用于数据匹配的关键字也将加密,以防止任何第三方窃取用户隐私;在用户上传数据时,用户需要维护一个额外的加密关键字的密钥key以及搜索历史x,此时用户将加密与该文件相关的关键字并将其上传至服务器;数据格式如下:{"doc1": ["hmac(key(w1),s1)||s1",

,"hmac(key(wn),sn)||sn"]}。
[0063]
当用户进行检索时,用户本地生成key(w1);服务端将会匹配归属该用户的所有文件的加密关键字进行匹配;例如,docm,docn可以与之匹配,服务端将进一步匹配归属于docm,docn的数据分片piece,对应文件存储服务器将与用户进行通信,帮助用户获取并恢复完整文件docm与docn。
[0064]
同时,对于已经检索过的key(w1),服务端将为其建立倒排索引,其格式如下:{"
hmac(key(w1),s1)||s1":["docm","docn"]},当后续再次使用key(w1)进行检索时,服务端将先采用倒排索引进行匹配,提高数据检索效率。
[0065]
如图3所示,本发明还提供了一种个人信息拆分脱敏存储与重构系统,其采用如权利要求上述的一种个人信息拆分脱敏存储与重构方法,包括:
[0066]
用户端,与基础服务器连接;用于本地提取数据索引,加密数据与索引/本地解密数据;
[0067]
基础服务器,用户端上传文件与索引数据到基础服务器,并且用户端通过加密索引获取数据;
[0068]
索引服务器,与基础服务器连接;用于存储/检索索引数据;
[0069]
存储服务器,与基础服务器连接;用于存储/获取分片密文。
[0070]
本实施例在海量数据存储场景下,将用户个人信息进行拆分、脱敏并存储在分布式存储系统中;分布式存储系统将对脱敏后的个人信息进行加密索引构建,密文数据分片,数据备份等操作;当终端用户通过加密索引检索时,存储系统将在不知道索引关键字的情况下,对分片数据进行分片重组,并返回数据;当服务方获取到加密关键字与个人信息关系后,服务方将采用倒排索引方式重构索引模块,以提升后续检索性能;在用户获取到密文存储数据后,用户本地对文件进行解密回复明文数据;整个存储系统将分为索引服务器,存储服务器,日志服务器,管理服务器等多个模块通过微服务的形式进行构建,以确保整体架构的高效、可用、可控。
[0071]
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1