一种基于数据特征的数据安全沙盒关联计算方法与流程

文档序号：30372916发布日期：2022-06-11 01:07阅读：137来源：国知局

1.本发明属于数据安全沙盒技术领域，特别是涉及一种基于数据特征的数据安全沙盒关联计算方法。

背景技术：

2.数据关联计算技术是一种基于指定数据建立关联关系的一种技术手段，就是从大规模数据中，发现对象之间隐含关系与规律的过程，也称为关联规则学习。用于寻找数据集中各项之间的关联关系。根据所挖掘的关联关系，可以从一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时，可以认为规则成立。关联分析一般包含2个过程：一是从数据集中寻找频繁项集，二是从频繁项集中生成关联规则。在数据安全领域，通过数据关联技术来建立敏感数据的分布情况，关联情况，使用情况，驻留情况，风险分析情况及安全分析情况，基于以上分析结果才可以为后续数据安全治理，数据安全建设提供基础和参考数据。
3.现在已存在的为数据安全服务的数据分析技术和数据关联技术均需要基于真实数据内容进行分析和管理，这在数据安全领域将成为一个新的数据泄露风险点，由于数据的汇聚需求，其风险比原来的分散的数据存储所带来的数据泄露后的损害更大。
4.由于现在《数据安全法》，《个人信息保护法》的国家法律法规需求，数据的汇集，抽取和使用分析都需要符合相关规定，在这样大的背景下，更多的数据安全分析系统都存在的不可避免的短板就是需要将真实数据进行采集存储后才能进行进一步的分析，这也阻碍了数据安全分析的能力，造成数据安全分析系统本身的数据安全管理和保护的问题。为了满足相关要求，此类产品或平台需要在其系统本身的数据安全要求上给出更明确的保护方案并加以投入建设，这也增大了平台或产品的复杂度，建设周期，建设规模和投入。
5.对于安全级别要求高的环境中，在两个隔离的安全域之间，传统数据安全平台或产品将无法完成其关联关系的需求，这也是传统产品架构无法满足的场景，由于两个隔离安全域中的数据从环境要求及合规要求是不能进行直接访问和交换的，或者不同公司之间数据是不能进行汇总和交换的，这也就是要求两个安全域或两个公司之间的数据是必须在各自安全域内或各自公司的业务环境中进行使用，数据是不允许出域或者不允许从公司业务系统外发的，这也限制了传统数据安全产品的跨域，跨云的应用。

技术实现要素：

6.本发明的目的在于提供一种基于数据特征的数据安全沙盒关联计算方法，解决了现有技术中的数据容易泄漏的技术问题。
7.为达上述目的，本发明是通过以下技术方案实现的：
8.一种基于数据特征的数据安全沙盒关联计算方法，包括沙盒特征值计算方法和沙盒特征值关联方法；
9.沙盒特征值计算方法包括数据特征提取集和数据特征计算方法；
10.数据特征计算方法包括如下步骤：
11.步骤101：获取所需计算指定数据，指定数据是由第三方或其他模板给出详细位置或直接提交；
12.步骤102：基于指定数据通过指定种子值获取随机值，并通过该随机值获取本次进行计算的数据特征类型子集，其中，种子值在每个平台或每个产品中是唯一的；
13.步骤103：基于获取的数据特征类型子集对指定数据进行数据特征提取；
14.步骤105：基于步骤102中的种子值，获取随机算法子集，并通过算法子集建立算法列表；
15.步骤106：将数据特征列表中的特征数据应用于算法列表的对应算法，根据本机硬件信息计算出x值，从而计算出新的特征值结果集合；
16.步骤107：将多个特征值进行顺序的前后拼接，并通过种子值与硬件序列号组合计算分割符号，最终确定分割符号进行分割，并获取不可逆唯一特征数据，特征数据组成的子集中一定保护不可逆算法，uuid唯一值等，从而保证整体数据的不可逆及唯一性；
17.步骤108：通过差分编码，算数编码等无损压缩算法对数据进行压缩编码，并发送至指定外部平台或产品端。
18.可选的，沙盒特征值关联方法包括如下步骤：
19.步骤201：根据平台设置的压缩算法对指定数据进行解压缩；
20.步骤202：依次读取需要进行关联的数据，并获取该组数据对应的引擎所在硬件序列号，其中，需要关联的数据为一组或多组，每次读取一组；
21.步骤203：获取平台或产品唯一种子值，并通过唯一种子值获取随机算法子集，算法子集包括多个算法；
22.步骤204：通过硬件序列号计算获取该组数据算法循环层数；数据安全沙盒
23.步骤205：通过平台位置种子值和硬件序列号计算分隔符；
24.步骤206：通过获取到的分隔符对特征值数据进行序列化分割，缓存成列表数据；得到列表数据后继续循环下一组数据，直至所需关联的最后一组数据，循环步骤为步骤202至步骤206，将所有数据关联完成后，执行步骤207；
25.步骤207：根据每组数据计算层数进行比较，选出最大计算层数；
26.步骤208：每列数据均根据所对应的算法序列进行每节点数据算法层数补全；
27.步骤209：进行每节点数据比较，通过相同项从而确认该数据某些属性相同，其中，相同项包括类型、相同、敏感信息、安全级别；
28.步骤210：通过拆分的数据属性，最终实现相同数据数据的关联关系的建立。
29.本实施例的的数据特征提取集包括：数据的长度，数据的字符内容，数据类型，数据的编码方式，数据存储上下文数据，数据md5值，数据base64值，数据每字符16进制值，数据单数位16进制和或积，数据双数位16进制和或积，前后值取余等。
30.数据特征值包括但不限于：
31.1：数据本身属性：数据内容，数据md5值，数据长度，数据字符组合，数据编码，数据类型(包括敏感类型的：身份证号，手机号，姓名，地址；数据字段类型：如整型数字，字符串，浮点型等)等
32.2：数据计算属性：数据每字符通过不同公式进行计算结果，数据基于指定数列方
式的组合方式和基于指定公式的计算结果。
33.3：数据环境属性：数据上下文，数据所在列前后文，数据所在范围数据值等
34.4：数据使用数据：数据访问源ip地址，数据访问源mac地址，数据访问终端，数据访问用户等
35.5：其他数据属性
36.6：其次数据计算集合：数据算法集合包括多种基础hash算法和混合hash合集，例如:加法hash，乘法hash，md5，sha，tiger等。
37.本发明的实施例具有以下有益效果：
38.本发明通过以上方式，将实现真实数据不出域的情况下即可完成数据的关联关系的建立，实现跨域数据的关联分析，从而从根本上解决了在数据分析，数据安全监控过程中，由于存储或汇集真实数据而造成的数据泄露风险，极大的提高了数据安全能力。也从根本上解决了不同高安全域之间数据的关联关系的建立，为数据测绘，敏感数据分布，数据流转，数据使用，数据风险在极高安全的前提下提供相应数据支撑，进一步为数字化经济高效有序发展提供数据安全保障，在不提取原始数据的情况下即可实现数据虚拟安全关联及流动能力监管，从而在安全的前提下让新兴的数字化经济基础的各类信息化业务系统高效运行。
39.当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
40.构成本技术的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
41.图1为本发明一实施例的沙盒特征运算流程图；
42.图2为本发明一实施例的沙盒特征值关联流程图。
具体实施方式
43.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。
44.为了保持本发明实施例的以下说明清楚且简明，本发明省略了已知功能和已知部件的详细说明。
45.请参阅图1-2所示，在本实施例中提供了一种基于数据特征的数据安全沙盒关联计算方法，包括：沙盒特征值计算方法和沙盒特征值关联方法；
46.沙盒特征值计算方法包括数据特征提取集和数据特征计算方法；
47.数据特征计算方法包括如下步骤：
48.步骤101：获取所需计算指定数据，该指定数据由第三方或其他模板给出详细位置或直接提交；
49.步骤102：基于指定数据通过指定种子值(该种子值每个平台或每个产品唯一，例如是一个uuid值)获取随机值，通过该随机值从数据特征类型集合获取要需要本次进行计
算的数据特征类型子集；
50.步骤103：基于获取的数据特征类型子集对指定数据进行数据特征提取；
51.步骤104：获取指定数据数据特征类型子集所对应的数据特征值，并进行列表化缓存，列表存储顺序依赖于步骤102中的种子值；
52.步骤105：基于步骤102中的种子值，获取随机算法子集包括n个算法；
53.步骤106：基于步骤102中的种子值，将算法子集建立指定顺序的算法列表；
54.步骤107：将数据特征列表中的特征数据应用于算法列表的对应算法，根据本机硬件信息(该序列号在产品运行过程中会发送至外部平台测，具体发送机制不在本方案范围内，在本方案中可以看做是一个约定的固定值)计算出x值，x值为每个节点算法被嵌套计算的次数；例如一个数据节点x值为3，算法md5，那么该节点的将被md5计算3次，从而计算出新的特征值结果集合，每个值对应的x值也将接入到数据头部；
55.步骤108：将多个特征值进行顺序的前后拼接，并通过种子值与硬件序列号组合计算分割符号，分隔符是一组内置好的特殊字符数组，最终确定使用那种分割符进行分割；
56.步骤109：最终获取不可逆唯一特征数据，(该数据组成的子集中一定保护不可逆算法，uuid唯一值等，从而保证整体数据的不可逆及唯一性)
57.步骤110：通过差分编码，算数编码等无损压缩算法对数据进行压缩编码，并发送至指定外部平台或产品端。
58.本发明通过特有的数据特征沙盒算法，将算法安全处理引擎下放至安全域内，通过在安全域内对敏感数据进行沙盒特征计算，获取唯一不可逆特征值，并将该特征值发送至安全域外部平台或产品，通过特征值关联计算方式实现相同敏感数据的关联关系的建立，从而实现对于敏感数据分布测绘、敏感数据关联分析、敏感数据使用趋势、敏感数据驻留识别、敏感数据安全风险等相关需求，并且可以真正保证真实数据不出域、不泄露的风险，在外网或低安全域测的平台或产品不需要保存任何真实敏感数据即可完成对于各个安全域内真实数据的安全管理能力。
59.本实施例的沙盒特征值关联方法包括如下步骤：
60.步骤201：根据平台设置的压缩算法对指定数据进行解压缩；
61.步骤202：依次读取需要进行关联的数据，一组或多组，可能来自一个引擎，也可能来自多个引擎；每次读取一组；
62.步骤203：获取该组数据对应的引擎所在硬件序列号；
63.步骤204：获取平台或产品唯一种子值；
64.步骤205：通过唯一种子值获取随机算法子集包括n个算法；
65.步骤206：通过硬件序列号计算获取该组数据算法循环层数；
66.步骤207：通过平台位置种子值和硬件序列号计算分隔符；
67.步骤208：通过获取到的分隔符对特征值数据进行序列化分割，缓存成列表数据；
68.步骤209：继续循环下一组数据，重复执行步骤203到步骤208，直至所需关联的最后一组数据；
69.步骤210：根据每组数据计算层数进行比较，选出最大计算层数；
70.步骤211：每列数据均根据所对应的算法序列进行每节点数据算法层数补全；
71.步骤212：进行每节点数据比较，通过相同项从而确认该数据某些属性相同，比如
类型相同，比如内容相同，比如敏感信息相同，比如安全级别相同等；
72.步骤213：通过拆分的数据属性，最终实现相同数据数据的关联关系的建立，从而实现最终数据关联关系表项的建立；
73.步骤214：在不需要真实数据的情况下，为后续数据分析，数据测绘，数据安全防护提供依据。
74.上述实施例可以相互结合。
75.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
76.在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
77.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张斌
技术所有人：张斌
我是此专利的发明人

上一篇：一种煤矿开采用粉尘处理装置的制作方法
上一篇：镜头保护机构及激光测距仪的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。