本发明涉及数据存储,特别涉及一种大数据量的安全存储方法及装置。
背景技术:
1、随着大数据时代的到来,数据的重要性越来越明显,但也带来了以下的问题:用户担忧自身的隐私数据在网络上被随意地窃取盗用,因此,对于用户的敏感数据进行安全存储是至关重要的,比如专利申请号cn202010478176.3的一种基于大数据的档案数据存储系统,对档案数据进行加密存储,并进行一主两备合计三份数据的存储,后续在数据读写的时候可以相互验证,以防止数据被破坏或者被篡改。
2、然而,敏感数据的安全存储在硬件方面、软件方面等各方面的性能要求都比普通数据的常规存储来说要高,因此,随着敏感数据越来越多,企业对于敏感数据的安全存储压力也越来越大,如何减轻敏感数据的安全存储所带来的性能压力,成为当下一个急需解决的问题。
技术实现思路
1、为了解决现有技术的上述问题,本发明提供一种大数据量的安全存储方法及装置,能够在大数据量的情况下,减轻敏感数据的安全存储压力。
2、为了达到上述目的,本发明采用的技术方案为:
3、第一方面,本发明提供一种大数据量的安全存储方法,包括步骤:
4、获取建立数据共享关系的每一个数据源的敏感数据集;
5、对于每一个数据源的敏感数据集进行交叉计算,得到每一个数据源和其他数据源的数据重复情况,根据所有数据源的数据重复情况建立数据存储模型,将所述数据存储模型作为目标函数且以所有数据源的数据存储最小值作为优化目标,将所述目标函数的最优解作为数据存储策略;
6、根据所述数据存储策略对每一个数据源的敏感数据集进行拆分,得到每一个数据源的敏感数据子集,其中,所述敏感数据子集包括重复数据子集和非重复数据子集;
7、对于所述重复数据子集,仅在其中一个数据源中加密存储所述重复数据子集,得到所述重复数据子集的第一存储位置和唯一数据标识,并在其余数据源的数据库中删除所述重复数据子集,将所述重复数据子集的第一存储位置、所述唯一数据标识以及对应数据源的唯一来源标识进行上链存储,并将所述第一存储位置发送至被删除的数据源;
8、对于所述非重复数据子集,每一个数据源分别进行加密存储,以完成所述敏感数据集的安全存储。
9、本发明的有益效果在于:对于建立数据共享关系的每一个数据源的敏感数据进行重复数据的判断,并建立数据存储模型来作为目标函数,从而得到数据存储最小值的最优解作为数据存储策略,之后根据数据存储策略使得重复数据仅在其中一个数据源中进行加密存储,而在其他数据源中通过数据共享来获取,从而能够在大数据量的情况下,减轻敏感数据的安全存储压力。
10、可选地,所述根据所有数据源的数据重复情况建立数据存储模型包括步骤:
11、根据所有数据源的数据重复情况,将所有数据源的重复数据按照仅计算一份且不重复计算的原则来计算所有数据源的数据存储量,得到数据存储模型。
12、可选地,所述对于所述重复数据子集,仅在其中一个数据源中加密存储所述重复数据子集包括步骤:
13、对于所述重复数据子集,按照对应数据源的使用频率和加密等级选取其中一个数据源,以加密存储所述重复数据子集。
14、可选地,还包括步骤:
15、对于第一数据源来说,当接收到第一数据请求时,判断所述第一数据请求所请求的第一敏感数据是否在自身的数据库里,若没有,则根据其上存储的所述第一存储位置将所述第一敏感数据的请求信息、所述唯一数据标识和自身的唯一来源标识打包成第二数据请求发送至第二数据源,以使得所述第二数据源根据所述唯一来源标识和所述唯一数据标识来确认所述第二数据请求的合法性,并在确认合法之后返回所述第一敏感信息至所述第一数据源。
16、可选地,还包括步骤:
17、当第一数据源将第二数据请求发送至所述第二数据源以及当所述第二数据源返回所述第一敏感信息至所述第一数据源时,将对所述第一敏感数据的操作数据上链到所述第一敏感数据所在的区块子链。
18、根据上述描述可知,通过唯一数据标识和唯一来源标识来进行数据获取,并通过区块链存证来保证数据读取的安全性。
19、可选地,所述操作数据达到预设条件之后再打包上链到所述第一敏感数据所在的区块子链。
20、可选地,所述数据存储模型还包括数量约束条件和数据量约束条件,所述数量约束条件为每一个数据源仅允许重复的最多数据源数量,所述数据量约束条件为每一个数据源仅允许重复的最小数据量。
21、根据上述描述可知,通过数量约束条件和数据量约束条件保证数据分散性存储的合理性。
22、可选地,所述最多数据源数量为[2,5]。
23、可选地,所述最小数据量为10m以上。
24、第二方面,本发明提供一种大数据量的安全存储装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所提供的一种大数据量的安全存储方法。
25、其中,第二方面所提供的一种大数据量的安全存储装置所对应的技术效果参照第一方面所提供的一种大数据量的安全存储方法的相关描述。
1.一种大数据量的安全存储方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种大数据量的安全存储方法,其特征在于,所述根据所有数据源的数据重复情况建立数据存储模型包括步骤:
3.根据权利要求1所述的一种大数据量的安全存储方法,其特征在于,所述对于所述重复数据子集,仅在其中一个数据源中加密存储所述重复数据子集包括步骤:
4.根据权利要求1所述的一种大数据量的安全存储方法,其特征在于,还包括步骤:
5.根据权利要求4所述的一种大数据量的安全存储方法,其特征在于,还包括步骤:
6.根据权利要求5所述的一种大数据量的安全存储方法,其特征在于,所述操作数据达到预设条件之后再打包上链到所述第一敏感数据所在的区块子链。
7.根据权利要求1至6任一所述的一种大数据量的安全存储方法,其特征在于,所述数据存储模型还包括数量约束条件和数据量约束条件,所述数量约束条件为每一个数据源仅允许重复的最多数据源数量,所述数据量约束条件为每一个数据源仅允许重复的最小数据量。
8.根据权利要求7所述的一种大数据量的安全存储方法,其特征在于,所述最多数据源数量为[2,5]。
9.根据权利要求7所述的一种大数据量的安全存储方法,其特征在于,所述最小数据量为10m以上。
10.一种大数据量的安全存储装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9任一所述的方法。