数据分类分级自动核验方法和系统与流程

文档序号:31195361发布日期:2022-08-20 00:27阅读:256来源:国知局
数据分类分级自动核验方法和系统与流程

1.本发明涉及数据安全技术领域,尤其涉及数据库的数据分类分级自动核验方法和系统。


背景技术:

2.数据分类分级是开展数据安全的基础,自2021年实施的《数据安全法》明确要求对数据实行分类分级保护以来,各行各业逐步在出台数据安全分类分级指南,而目前对于数据分类分级的评估和检验程序处于空缺状态,主要通过两种方式进行。一种是通过填写调查问卷的方式来实现,另一种是通过人工方式来实现。
3.1)调查问卷方式
4.由专家根据行业性数据安全分类分级指南或自身情况,设计出初始的调查问卷,对问卷中各个题目在分类分级方面的相关性和适当性进行审核后,修正调查问卷的内容形成正式的调查问卷,选择调查对象,通过填写调查问卷来获取数据分类分级的情况。该方式无法验证分类分级工作的真实性和准确性,人为因素太强,容易流于形式。
5.2)人工验证和评估
6.通过人工检查的方式,定期review每个数据项标签的正确性,实现手动验证和评估。该方式工作效率低下,人力成本投入较高。


技术实现要素:

7.本发明针对现有技术中的缺点,提供了一种数据分类分级自动核验方法和系统。
8.为了解决上述技术问题,本发明通过下述技术方案得以解决:
9.一种数据分类分级自动核验方法,包括以下步骤:
10.接收分类分级清单,预处理后保存;
11.接入需核验的数据库,抽取若干数据样本,以所述分类分级清单作为标准对所述数据样本进行自动校对,得到每项数据的核验结果,统计第一准确率;若所述第一准确率大于预设值则提示提交新的分类分级清单,结束流程或返回接收新的分类分级清单。
12.作为一种优选方案,还包括步骤:
13.若所述第一准确率小于预设值,以所述第一准确率作为核验统计量,以中心极限定理计算第二准确率,若所述第二准确率大于预设概率p,则提示提交新的分类分级清单,结束流程或返回接收新的分类分级清单,若否,审批通过。
14.作为一种优选方案,当审批通过后,根据核验流程生成评估和检验报告。
15.作为一种优选方案,所述分类分级清单包括通过api接口调取的已存储的分类分级清单,或根据已配置模板输入的分类分级清单。
16.作为一种优选方案,述接收分类分级清单,预处理后保存的方法包括:
17.所述分类分级清单为加密分类分级清单,同时获取电子签名秘钥,对所述分类分级清单解密,对解密后的分类分级清单预处理后保存。
18.作为一种优选方案,接收所述分类分级清单之后,根据接收的所述分类分级清单的信息记录判断用户数据分类分级工作的真实性并保存评估结果;
19.若评估结果为真,则将数据分类分级表的数据信息转换为规范性数据保存;如果评估结果为假,则提示发送方存在的问题,待修正后重新提交和评估。
20.基于所述数据分类分级自动核验方法,进一步提供一种数据分类分级自动核验系统,包括以下单元:
21.分类分级清单接收单元,用于数据接收分类分级清单;
22.预处理单元,用于对获取的分类分级清单进行真实性判断和规范性数据保存;
23.数据库链接单元,用于对接与所述分类分级清单对应的数据库;
24.数据抓取单元,用于随机抽取所述数据库中的若干数据样本;
25.数据比对单元,用于以所述分类分级清单作为标准对所述数据样本进行自动校对,得到每项数据的核验结果,统计第一准确率;
26.第一核验审批单元,用于分析和判断第一准确率是否符合核验要求。
27.结果输出单元,用于输出核验审批结果。
28.作为一种优选方案,还包括:
29.概率统计单元,用于根据所述比对单元输出的第一准确率,以所述第一准确率作为核验统计量,以中心极限定理计算第二准确率;
30.第二核验审批单元,用于分析和判断第二准确率是否符合核验要求。
31.本发明的有益效果:
32.1)解决数据分类分级只能通过调查问卷和人工方式来了解真实性和准确性的问题,实现用应用程序来评估和检验数据分类分级的实际情况,并通过应用程序来保障数据分类分级的准确性。基于分类分级清单或行业性的数据安全分类分级指南,按照算法进行评估和检验并自动出具结果报告。
33.2)考虑到,随着信息水平的提升,分类分级的业务系统的数据量日渐庞大,存在数据量大、结构复杂的问题。如果采用传统的模式比对方式,一条一条去校验,性能方面将受到很大的挑战。在本方案中引入核验统计量的方法来进行准确性校验,减轻处理器的负担,加快核验速度。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
35.图1是数据分类分级自动核验方法总流程图;
36.图2是实施例1公开的数据分类分级自动核验方法流程图;
37.图3是实施例2公开的数据分类分级自动核验方法流程图。
具体实施方式
38.下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而
本发明并不局限于以下实施例。
39.实施例1:
40.一种数据分类分级自动核验方法,如图1,包括以下步骤:
41.s100,接收分类分级清单,预处理后保存;
42.s200,分类分级清单的准确性检验,得到准确率;
43.s300,审批准确率是否满足要求;
44.s400,当审批通过后,生成评估和检验报告。
45.具体地,提供两种具体方案,实施例1公开其中一种方案,实施例2公开另一种方案:
46.其中关于步骤s200和步骤s300,具体的如图2,包括以下步骤:
47.s120,接入需核验的数据库,抽取若干数据样本,以所述分类分级清单作为标准对所述数据样本进行自动校对,得到每项数据的核验结果,统计第一准确率;
48.s130,若所述第一准确率大于预设值则提示提交新的分类分级清单,结束流程或返回接收新的分类分级清单。
49.作为重要的一步,步骤s100包括步骤110,评估数据分类分级工作的真实性,提交分类分级清单;通过判断提交的分类分级清单达到两方面的目标。一是,评估数据分类分级工作的真实性;二是,为下一步的准确性检验打好基础。
50.系统接收的分类分级清单,包括有以下情况:
51.其一,通过api接口调取的已存储的分类分级清单。该情况适用于有相关经验的用户,通过api数据接口或文档直接上传的方式直接提交。具体要求所述分类分级清单为加密分类分级清单,同时获取电子签名秘钥,对所述分类分级清单解密,对解密后的分类分级清单预处理后保存。
52.采用根据md5算法生成的128位的电子签名密钥,只有在签名密钥匹配正确时才能提交成功,以此初步验证分类分级工作的真实性;若验证失败,拒绝上传行为。
53.其二,根据已配置模板输入的分类分级清单。
54.获取系统内置的行业性分类分级清单模板,根据该分类分级清单模板,进行数据项和数据分类分级之间的配置后提交。具体的行业性数据分类分级模板不固定,支持自定义。
55.接收所述分类分级清单之后,根据接收的所述分类分级清单的信息记录判断用户数据分类分级工作的真实性并保存评估结果;
56.若评估结果为真,则将数据分类分级表的数据信息转换为规范性数据保存;如果评估结果为假,则提示发送方存在的问题,待修正后重新提交和评估。
57.步骤s120,接入需核验的数据库,抽取若干数据样本,以所述分类分级清单作为标准对所述数据样本进行自动校对,得到每项数据的核验结果,统计第一准确率;若所述第一准确率大于预设值则提示提交新的分类分级清单,结束流程或返回接收新的分类分级清单。
58.首先,根据当前需要核验的分类分级清单,接入需核验的数据库,获取待核验的数据。其次,随机抽取数据库中足够多的样本数据,以便具有合理的确定性能够确定数据是否显著不同,同时规避错误的产生。
59.以所述分类分级清单作为标准对所述数据样本进行自动校对,具体编辑sql语句进行分类分级准确性的核对,得到每项数据的核验结果,统计第一准确率;若所述第一准确率大于预设值则提示提交新的分类分级清单,结束流程或返回接收新的分类分级清单。
60.具体的,步骤s140,生成评估和检验报告。报告可直接下载为多种文件格式,也可以通过第三方开发工具,简单集成sdk并且进行配置后,分享到不同的app内(比如,微信、qq、钉钉),方便向上级监管部门或主管部门上报。
61.实施例2:
62.一种数据分类分级自动核验方法,如图3,包括以下步骤:
63.s110,接收分类分级清单,预处理后保存。
64.s120,接入需核验的数据库,抽取若干数据样本,以所述分类分级清单作为标准对所述数据样本进行自动校对,得到每项数据的核验结果,统计第一准确率;若所述第一准确率大于预设值则提示提交新的分类分级清单,结束流程或返回接收新的分类分级清单。
65.s130,若所述第一准确率小于预设值,以所述第一准确率作为核验统计量,以中心极限定理计算第二准确率,若所述第二准确率大于预设概率p,则提示提交新的分类分级清单,结束流程或返回接收新的分类分级清单,若否,审批通过。
66.s140,当审批通过后,根据核验流程生成评估和检验报告。
67.具体在步骤s130中,用于进一步的检验准确性,由于抽查概率具有局限性,所以需要以抽查概率作为依据进一步用统计学方法对样本数据进行检验。
68.具体包括步骤:
69.步骤1:h0,假设所有数据的分类分级准确率是100%。
70.h1,假设所有数据的分类分级准确率不是100%。
71.步骤2:检验统计量p。将前面步骤中样本数据分类分级的准确率作为检验统计量p。
72.步骤3:假设p的概率为0.05。
73.步骤4:根据中心极限定理计算p值。代码如:
74.rom scipy import stats
75.rvs1=stats.norm.rvs(loc=5,scale=10,size=500,random_state=rng)
76.rvs3=stats.norm.rvs(loc=5,scale=20,size=500,random_state=rng)
77.stats.ttest_ind(rvs1,rvs3)
78.ttest_indresult(statistic=-1.6370984482905417,pvalue=0.1019251574705033)
79.步骤5:如果p值大于0.05,则说明h0假设成立,即所有数据项的分类分级准确率为100%,如果p值小于0.05,则说明h1假设成立,即所有数据项的分类分级准确率不是100%。
80.最后,保存准确性校验结果。
81.若准确性校验不通过,则发送重新提交分类分级清单的提醒。
82.若全部准确,则继续步骤s140。
83.其他步骤请参考实施例1中公开的内容,在本实施例中不做赘述。
84.实施例3:
85.一种数据分类分级自动核验系统,其特征在于,包括以下单元:
86.分类分级清单接收单元,用于数据接收分类分级清单;
87.预处理单元,用于对获取的分类分级清单进行真实性判断和规范性数据保存;
88.数据库链接单元,用于对接与所述分类分级清单对应的数据库;
89.数据抓取单元,用于随机抽取所述数据库中的若干数据样本;
90.数据比对单元,用于以所述分类分级清单作为标准对所述数据样本进行自动校对,得到每项数据的核验结果,统计第一准确率;
91.第一核验审批单元,用于分析和判断第一准确率是否符合核验要求。
92.结果输出单元,用于输出核验审批结果。
93.作为一种优选的方案,还包括结构:
94.概率统计单元,用于根据所述比对单元输出的第一准确率,以所述第一准确率作为核验统计量,以中心极限定理计算第二准确率;
95.第二核验审批单元,用于分析和判断第二准确率是否符合核验要求。
96.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
97.所述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
98.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
99.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
100.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1