基于区块链的脱敏数据完整性检测方法及检测系统与流程

文档序号:25053263发布日期:2021-05-14 13:33阅读:174来源:国知局
基于区块链的脱敏数据完整性检测方法及检测系统与流程

1.本发明涉及数据脱敏领域,具体涉及基于区块链的脱敏数据完整性检测方法及检测系统。


背景技术:

2.对于数据处理和分析任务,往往涉及到的是敏感数据,如商业价值高的数据、个人隐私数据、个人医疗健康类数据、关系国家和公共安全的数据等。对于这些数据的处理和分析,一方面数据处理和分析的主体与数据源,即数据主权拥有者,通常是不同的;另一方面,即使数据处理和分析主体与数据主权拥有者是相同的主体,但因为数据处理和分析过程涉及到不同的环节和任务,而这些环节可能是由不同的生产商和供应商提供,其产品和服务和安全性、安全级别也很难完全得到保证。
3.为了解决上述问题,现有技术中通常在数据处理和分析前对数据进行脱敏处理,将其中一些敏感类的信息去除或进行某种变换,但是现有的脱敏处理方式难以客观保留原始数据的格式,难以保证处理和分析任务结果的真实性和准确性,并且现有技术中在数据脱敏后,也无法对其相较于脱敏前的完整程度进行评价判断。


技术实现要素:

4.本发明提供基于区块链的脱敏数据完整性检测方法及检测系统,解决的技术问题之一是现有技术中无法对脱敏后数据的完整程度进行评价判断,实现对脱敏数据的完整性进行有效检测的目的。
5.本发明通过下述技术方案实现:
6.基于区块链的脱敏数据完整性检测方法,包括:
7.s1、将原始数据上链;
8.s2、编码链上的敏感数据,获得脱敏数据;
9.s3、将脱敏数据中的数据项分类,标识各类数据项的编码;
10.s4、获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;
11.s5、比对统计结果与原始数据的数量,基于比对结果判断脱敏后数据的完整性。
12.针对现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,本发明首先提出一种基于区块链的脱敏数据完整性检测方法,本方法的原理包括:首先对原始数据进行上链,基于区块链的不可伪造、全程留痕、可以追溯、公开透明、集体维护等特征,保证原始数据的不可篡改和准确性;之后通过编码算法对敏感数据进行脱敏处理,得到脱敏数据。本方法中对脱敏数据中的数据项进行分类,根据不同类别的数据项对编码进行不同的标识;之后获取标识数量和类型,其获取方法可通过插入标识获取工具取得,根据获取标识的数量统计脱敏数据中不同类别的数据项的数量;最后将统计结果与原始数据进行数量比对,即可判断脱敏后数据的完整性。本方法解决了现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,为鉴定数据完整程度提供了充分依据。
13.进一步的,步骤s2中对链上敏感数据编码的方法包括:定义原始数据中各数据项的格式串类型,针对不同格式串类型指定不同脱敏规则。不同格式串类型,其敏感信息不同、需要进行脱敏处理的位置及方式均会存在差异,而现有技术中的方法忽略了这种差异性,这是导致现有的脱敏处理方式难以客观保留原始数据格式的主要问题。为此,本方案根据数据格式和属性类别的不同,定义不同的脱敏规则,使得在脱敏后数据格式保持不变的前提下,能够尽可能保留数据本身的特性和属性,从而不会由于脱敏而影响数据分析和处理的准确性、完整性、真实性,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。
14.进一步的,所述格式串类型包括日期型、纯数字型、纯字符串型、无格式数据流型中的一种或多种;
15.对于日期型格式串,脱敏规则为:将日期中具体的月和/或日信息进行脱敏处理;
16.对于纯数字型格式串,脱敏规则为:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
17.对于纯字符串型格式串,脱敏规则为:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
18.对于无格式数据流型格式串,脱敏规则为:将编码处理成规整的长度统一的字符串数据项。
19.本方案对格式串类型的脱敏规则进行了进一步限定,在不降低数据项有效性、完整性和具体意义的前提下,提取其格式模式串,并进行不同数据类型的脱敏处理,实现脱敏后的数据能够最大程度保留原始数据的格式的效果。
20.进一步的,所述机构名称中的实体信息,为机构名称中排除地域和后缀后的有效信息;所述实体信息中的局部,为1/3的有效信息。即是当纯字符串型格式串为机构名称时,识别出机构名称中不包括地域名(比如某某省、某某市)和后缀(比如有限公司)中的实体信息,并对其中1/3的有效信息进行脱敏处理,此处的脱敏处理优选为使用占位符代替。
21.进一步的,步骤s3中,所述标识设置在编码尾部,便于对标识数量和类型的统计识别。
22.进一步的,步骤s5中的比对方法包括:
23.s501、获取脱敏数据中标识量最大的数据项,与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,进入步骤s502;
24.s502、对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;
25.s503、将所有的偏离值与原始数据总量进行对比,计算偏离占比;
26.s504、将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
27.本方法首先将脱敏数据中标识量最大的数据项与原始数据对应的数据项的总量进行对比,以该对比结果作为判断前提,此种前提设置方式以标识量最大、理论偏离值相对
较大的的数据项作为完整性检测的第一步,若对比结果不一致,数据的整体完整性必然不足,数据必然缺失,因此能够直接认定完整性不符合要求,以此显著降低比对过程的计算量,提高比对效率。若对比结果一致,此时还不能确定脱敏后数据完整,继续进入后续步骤:对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;将所有的偏离值与原始数据总量进行对比,计算偏离占比;将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。其中偏离阈值由本领域技术人员根据具体应用环境进行适应性设置即可。
28.如前所述的基于区块链的脱敏数据完整性检测方法,用于鉴别交易信息的完整性。本申请的检测方法最为适用于交易信息脱敏处理后的完整性检测,由于模型相似度高,可通过本方法去检测链上存储的交易信息是否完整,认定存储的交易信息必须包括日期、数字、字符和内容,检测存储交易信息中是否含有所有的特征,即为判定交易信息是否完整的依据。通过建立脱敏数据模型的方法能够保护交易信息不被泄露。
29.本发明还提供一种基于区块链的脱敏数据完整性检测系统,包括:
30.上链模块,用于对原始数据上链;
31.脱敏模块,用于编码链上的敏感数据,获得脱敏数据;
32.标识模块,用于分类脱敏数据中的数据项,并标识各类数据项的编码;
33.处理模块,用于获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;再将统计结果与原始数据进行数量比对,基于比对结果判断脱敏后数据的完整性。
34.进一步的,所述脱敏模块包括以下一个或多个单元:
35.日期型格式串脱敏单元,用于对日期型格式串中具体的月和/或日信息进行脱敏处理;
36.纯数字型格式串脱敏单元,用于对纯数字型格式串进行脱敏处理,所采用的脱敏规则包括:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
37.纯字符串型格式串脱敏单元,用于对纯字符串型格式串进行脱敏处理,所采用的脱敏规则包括:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
38.无格式数据流型格式串脱敏单元,用于对无格式数据流型格式串进行脱敏处理,所采用的脱敏规则包括:将编码处理成规整的长度统一的字符串数据项。
39.进一步的,所述处理模块包括:
40.第一处理单元:用于获取脱敏数据中标识量最大的数据项,并与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,调用第二处理单元;
41.第二处理单元:用于对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;再将所有的偏离值与原始数据总量进行对比,计算偏离占比;最后将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
42.本发明与现有技术相比,具有如下的优点和有益效果:
43.1、本发明基于区块链的脱敏数据完整性检测方法及检测系统,解决了现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,为鉴定数据完整程度提供了充分依据。
44.2、本发明基于区块链的脱敏数据完整性检测方法及检测系统,通过对待脱敏数据项的格式定义和分类,在不降低数据项有效性、完整性和具体意义的前提下,提取其模式格式串,并进行不同数据类型的脱敏处理,实现脱敏后的数据能够最大程度保留原始数据的格式,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。
45.3、本发明基于区块链的脱敏数据完整性检测方法及检测系统,对于大部分数据项可以实现原始数据格式的完全保留,能够满足绝大部分情况下的分析和处理场景要求,具有较高的通用性。
46.4、本发明基于区块链的脱敏数据完整性检测方法及检测系统,尤其适用于鉴别交易信息的完整性。
附图说明
47.此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
48.图1为本发明具体实施例的流程示意图;
49.图2为本发明具体实施例的系统示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
51.实施例1:
52.如图1所示的基于区块链的脱敏数据完整性检测方法,包括:
53.s1、将原始数据上链;
54.s2、编码链上的敏感数据,获得脱敏数据;
55.s3、将脱敏数据中的数据项分类,标识各类数据项的编码;
56.s4、获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;
57.s5、比对统计结果与原始数据的数量,基于比对结果判断脱敏后数据的完整性。
58.实施例2:
59.在实施例1的基础上,本实施例在s2中针对各个不同类型的数据项的格式串类型,制定不同的脱敏规则。
60.前述格式串类型包括日期型、纯数字型、纯字符串型、无格式数据流型:
61.(一)对于日期型,通常的意义包括个人的出生日期、公司的成立日期或其它表示与时间相关的信息。对于这类数据项,如果是统计类的分析和处理任务,则将日期中的细粒度信息,也即月份和天进行模糊化的脱敏处理,也即隐去日期中具体的月和日的信息,比如将2000

10

01处理为2000

00

00;对于是个性化的数据推荐任务,则仅仅将日的信息隐去
即可。
62.(二)对于纯数字型,包括个人或者机构的收入等敏感信息,如果是统计类的分析和处理任务,将低位置为0即可,以9999为例,经过脱敏变换后为9000;同时还可以将纯数字型格式串与个人姓名或机构名称作为联合脱敏单元,也即对个人姓名或机构名称进行脱敏即可,该数值字段无需再进行脱敏处理。
63.(三)对于纯字符串型,首先识别该数据项是否为人名或机构名,如果是人名,则最后一个字隐去(使用*或其它占位符代替);如果是机构名,识别出机构名称中不包括地域名(比如某某省、某某市)和后缀(比如有限公司)中的实体信息,隐去其1/3的有效信息(使用*或其它占位符代替);对于其它类型的数据项,则无须进行脱敏处理,保持原始数据项可。
64.(四)对于无格式数据流型,在无特定要求的情况下,将其编码处理成规整的长度统一的字符串数据项,比如可以组合使用base64编码和哈希编码获得特定长度的字符串。
65.对本实施例中脱敏前后数据项相似度进行度量:
66.对于日期型,由于完全保持了日期型的格式,因此模式相似度是100%;
67.对于纯数字型,由于完全保持了日期型的格式,因此模式相似度是100%;
68.对于纯字符串型,其中的部分字符串由占位符替换,在特定情况下,会损失一部分格式匹配的精度,相似度为:(占位符长度/原始数据总长度)*100%;
69.对于无格式数据流型,由于原始数据本身不存在特定的格式,因此无格式上损失,因此模式相似度是100%。
70.综上,本实施例通过上述分析对脱敏前后格式串的相似度进行定量度量,可以看出,对于大部分数据项可以实现原始数据格式的完全保留,能够满足绝大部分情况下的分析和处理场景要求。
71.本实施例所实现的技术通过对待脱敏数据项的格式定义和分类,在不降低数据项有效性、完整性和具体意义的前提下,提取其格式模式串,并进行不同数据类型的脱敏处理,实现脱敏后的数据能够最大程度保留原始数据的格式,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。
72.本实施例特别适用于交易信息数据的完整性鉴别,由于模型相似度高,可通过此发明手段去检测存储的交易信息是否完整,认定存储的交易信息必须包括日期、数字、字符和内容,检测存储交易信息中是否含有所有的特征,即为判定交易信息是否完整的依据。通过建立数据模型的方法能够保护交易信息不被泄露。
73.实施例3:
74.基于区块链的脱敏数据完整性检测系统,如图2所示,本系统包括:
75.上链模块,用于对原始数据进行上链;
76.脱敏模块,用于对链上的敏感数据进行编码,获得脱敏数据;
77.标识模块,用于对脱敏数据中的数据项进行分类,对各类数据项的编码进行标识
78.处理模块,用于获取标识数量和类型,统计脱敏数据中不同类别的数据项的数量;再将统计结果与原始数据进行数量比对,判断脱敏后数据的完整性。
79.其中,本实施例中的脱敏模块包括以下单元:
80.(1)日期型格式串脱敏单元,用于对日期型格式串中具体的月和/或日信息进行脱敏处理;
同样为10,两者对比结果一致,进入下一步,对各类敏感数据的标识进行两两对比:10份日期数据与原始数据量一致、9份数字数据与原始数据量不一致、10份字符数据与原始数据量一致、10份内容数据与原始数据量一致。可以看出,偏离出现在类别“数字”上,接下来计算偏离值,并与预设的偏离阈值进行对比即可。
114.通过本实施例去检测存储的交易信息是否完整,即可为判定交易信息是否完整提供充分依据。通过对本方法建立数据模型,能够充分保护交易信息不被泄露。
115.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1