数据安全检测方法、装置、电子设备和存储介质与流程

文档序号:34234355发布日期:2023-05-24 18:34阅读:55来源:国知局
数据安全检测方法、装置、电子设备和存储介质与流程

本发明涉及数据安全,特别涉及一种数据安全检测方法、一种数据安全检测装置、一种电子设备和一种计算机可读存储介质。


背景技术:

1、随着大数据时代的到来,云计算和深度学习的发展,更高效的数据处理技术在带来更高生产力的同时,也引发了数据的安全危机,特别是运维系统、数据审计系统等,一旦发生数据泄密事件,都会带来重大损失。因此,数据安全已经成为大数据中必不可少的一部分,如何确保数据安全越来越受关注。

2、现有的方案中,仅是通过防火墙、身份验证等技术对数据访问进行检测,其核心是对访问行为的检测,并不涉及数据本身的安全检测,从而削弱数据安全控制的力度,无法保证数据安全控制的效果。


技术实现思路

1、鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的数据安全检测方法。

2、本发明实施例还提供了一种数据安全检测装置、电子设备和存储介质,以保证上述方法的实施。

3、为了解决上述问题,本发明实施例公开了一种数据安全检测方法,所述方法包括:

4、接收用户上传的待存储数据,并从所述待存储数据中抽取预设数量的样本数据;所述样本数据包括多个数据项;

5、基于数据类型将所述多个数据项进行分类,得到不同类型的数据项;

6、分别确定所述不同类型的数据项所对应的分箱方式;

7、从所述不同类型的数据项所对应的分箱方式中,确定稳定性满足预设条件的目标分箱方式;

8、采用所述目标分箱方式,对所述待存储数据进行分箱;

9、对各个分箱中的待存储数据进行安全检测,得到各个分箱的检测值;

10、当所述各个分箱的检测值均大于或等于预设阈值时,确定所述待存储数据通过安全检测,以将通过安全检测的待存储数据进行存储。

11、可选地,所述数据类型包括数值型和非数值型;所述基于数据类型将所述多个数据项进行分类,得到不同类型的数据项,包括:

12、从所述多个数据项中,确定不包含非数字的数据项,以及确定包含非数字的数据项;

13、将所述不包含非数字的数据项确定为所述数值型的数据项,以及将所述包含非数字的数据项确定为所述非数值型的数据项。

14、可选地,所述分别确定所述不同类型的数据项对应的分箱方式,包括:

15、针对所述数值型的数据项,从所述数值型的数据项中提取多个第一初始数据值;

16、对各个第一初始数据值进行排序;

17、将排序后的多个第一初始数据值进行等距分箱,得到各个分箱的第一目标数据值;

18、验证同一分箱中的第一目标数据值是否具有同一含义;

19、若是,则将所述等距分箱确定为所述数值型的数据项所对应的分箱方式。

20、可选地,在所述验证同一分箱中的第一目标数据值是否具有同一含义之后,还包括:

21、若否,则将所述各个分箱的第一目标数据值进行等频分箱,得到各个分箱的第三目标数据值;

22、验证同一分箱中的第三目标数据值是否具有同一含义;

23、若是,则将所述等距分箱和所述等频分箱确定为所述数值型的数据项所对应的分箱方式。

24、可选地,所述对各个第一初始数据值进行排序,包括:

25、获取所述数值型的数据项所对应的编码规则;

26、根据所述编码规则,对各个第一初始数据值进行划分,得到所述各个第一初始数据值对应的多组子数据;

27、针对所述各个第一初始数据值,获取各组的第一分值;所述第一分值用于表征各组子数据与所在的数据项之间的关联性;

28、针对所述各个第一初始数据值,基于所述第一分值对所述多组子数据进行排序。

29、可选地,所述分别确定所述不同类型的数据项对应的分箱方式,包括:

30、针对所述非数值型的数据项,从所述非数值型的数据项中提取多个第二初始数据值;

31、对所述多个第二初始数据值进行分类,得到不同类型的第二初始数据值;

32、分别对所述不同类型的第二初始数据值进行排序;

33、将排序后的多个第二初始数据值进行等距分箱,得到各个分箱的第二目标数据值;

34、验证同一分箱中的第二目标数据值是否具有同一含义;

35、若是,则将所述等距分箱确定为所述非数值型的数据项所对应的分箱方式。

36、可选地,在所述验证同一分箱中的第二目标数据值是否具有同一含义之后,还包括:

37、若否,则将所述各个分箱的第二目标数据值进行等频分箱,得到各个分箱的第四目标数据值;

38、验证同一分箱中的第四目标数据值是否具有同一含义;

39、若是,则将所述等距分箱和所述等频分箱确定为所述非数值型的数据项所对应的分箱方式。

40、可选地,所述分别对所述不同类型的第二初始数据值进行排序,包括:

41、确定所述不同类型的第二初始数据值所涉及的类型数量;

42、针对同一类型的第二初始数据值,计算所在的数据项的数据项描述对应的第一哈希值,以及计算所述类型数量对应的第二哈希值,以及计算所述同一类型的第二初始数据值对应的第三哈希值;

43、针对同一类型的第二初始数据值,将所述第一哈希值确定为第一标识,以及将所述第二哈希值确定为第二标识,以及将所述第三哈希值确定为第三标识;

44、针对同一类型的第二初始数据值,分别确定所述第一标识、所述第二标识和所述第三标识所对应的第二分值;

45、基于所述第二分值对所述同一类型的第二初始数据值进行排序。

46、可选地,所述分箱方式包括数值型的第一分箱方式和非数值型的第二分箱方式;所述从所述多种分箱方式中,确定稳定性满足预设条件的目标分箱方式,包括:

47、计算所述第一分箱方式对应的第一稳定性,以及计算所述第二分箱方式对应的第二稳定性;

48、判断所述第一稳定性是否在目标预测能力范围内,以及判断所述第二稳定性是否在目标预测能力范围内;

49、若所述第一稳定性在所述目标预测能力范围内,而所述第二稳定性不在所述目标预测能力范围内,则将所述第一分箱方式确定为目标分箱方式;

50、若所述第二稳定性在所述目标预测能力范围内,而所述第一稳定性不在所述目标预测能力范围内,则将所述第二分箱方式确定为目标分箱方式。

51、可选地,在所述判断所述第一稳定性是否在目标预测能力范围内,以及判断所述第二稳定性是否在目标预测能力范围内之后,还包括:

52、若所述第一稳定性和所述第二稳定性均在所述目标预测能力范围内,则比较所述第一稳定性和所述第二稳定性;

53、若所述第一稳定性大于所述第二稳定性,则将所述第一分箱方式确定为目标分箱方式;

54、若所述第二稳定性大于所述第一稳定性,则将所述第二分箱方式确定为目标分箱方式。

55、可选地,所述对各个分箱中的待存储数据进行安全检测,得到各个分箱的检测值,包括:

56、抽取各个分箱中的待存储数据所对应的特征值;

57、根据所述特征值,确定所述各个分箱中满足数据要求的第一数据数量和不满足数据要求的第二数据数量;

58、采用所述第一数据数量和所述第二数据数量,计算所述各个分箱的检测值。

59、本发明实施例还公开了一种数据安全检测装置,所述装置包括:

60、待存储数据接收模块,用于接收用户上传的待存储数据,并从所述待存储数据中抽取预设数量的样本数据;所述样本数据包括多个数据项;

61、数据项分类模块,用于基于数据类型将所述多个数据项进行分类,得到不同类型的数据项;

62、分箱方式确定模块,用于分别确定所述不同类型的数据项所对应的分箱方式;

63、目标分箱方式确定模块,用于从所述不同类型的数据项所对应的分箱方式中,确定稳定性满足预设条件的目标分箱方式;

64、待存储数据分箱模块,用于采用所述目标分箱方式,对所述待存储数据进行分箱;

65、待存储数据安全检测模块,用于对各个分箱中的待存储数据进行安全检测,得到各个分箱的检测值;

66、待存储数据存储模块,用于当所述各个分箱的检测值均大于或等于预设阈值时,确定所述待存储数据通过安全检测,以将通过安全检测的待存储数据进行存储。

67、可选地,所述数据类型包括数值型和非数值型;所述数据项分类模块包括:

68、非数字确定子模块,用于从所述多个数据项中,确定不包含非数字的数据项,以及确定包含非数字的数据项;

69、数据项分类子模块,用于将所述不包含非数字的数据项确定为所述数值型的数据项,以及将所述包含非数字的数据项确定为所述非数值型的数据项。

70、可选地,所述分箱方式确定模块包括:

71、第一初始数据值提取子模块,用于针对所述数值型的数据项,从所述数值型的数据项中提取多个第一初始数据值;

72、第一初始数据值排序子模块,用于对各个第一初始数据值进行排序;

73、第一初始数据值等距分箱子模块,用于将排序后的多个第一初始数据值进行等距分箱,得到各个分箱的第一目标数据值;

74、第一目标数据值验证子模块,用于验证同一分箱中的第一目标数据值是否具有同一含义;

75、第一分箱方式确定子模块,用于若是,则将所述等距分箱确定为所述数值型的数据项所对应的分箱方式。

76、可选地,在所述验证同一分箱中的第一目标数据值是否具有同一含义之后,所述分箱方式确定模块还包括:

77、第一等频分箱子模块,用于若否,则将所述各个分箱的第一目标数据值进行等频分箱,得到各个分箱的第三目标数据值;

78、第三目标数据值验证子模块,用于验证同一分箱中的第三目标数据值是否具有同一含义;

79、第二分箱方式确定子模块,用于若是,则将所述等距分箱和所述等频分箱确定为所述数值型的数据项所对应的分箱方式。

80、可选地,所述第一初始数据值排序子模块包括:

81、编码规则获取单元,用于获取所述数值型的数据项所对应的编码规则;

82、划分单元,用于根据所述编码规则,对各个第一初始数据值进行划分,得到所述各个第一初始数据值对应的多组子数据;

83、第一分值获取单元,针对所述各个第一初始数据值,获取各组的第一分值;所述第一分值用于表征各组子数据与所在的数据项之间的关联性;

84、第一初始数据值排序单元,用于针对所述各个第一初始数据值,基于所述第一分值对所述多组子数据进行排序。

85、可选地,所述分箱方式确定模块包括:

86、第二初始数据值提取子模块,用于针对所述非数值型的数据项,从所述非数值型的数据项中提取多个第二初始数据值;

87、第二初始数据值分类子模块,用于对所述多个第二初始数据值进行分类,得到不同类型的第二初始数据值;

88、第二初始数据值排序子模块,用于分别对所述不同类型的第二初始数据值进行排序;

89、第二等距分箱子模块,用于将排序后的多个第二初始数据值进行等距分箱,得到各个分箱的第二目标数据值;

90、第二目标数据值验证子模块,用于验证同一分箱中的第二目标数据值是否具有同一含义;

91、第三分箱方式确定子模块,用于若是,则将所述等距分箱确定为所述非数值型的数据项所对应的分箱方式。

92、可选地,在所述验证同一分箱中的第二目标数据值是否具有同一含义之后,所述分箱方式确定模块还包括:

93、第二等频分箱子模块,用于若否,则将所述各个分箱的第二目标数据值进行等频分箱,得到各个分箱的第四目标数据值;

94、第四目标数据值验证子模块,用于验证同一分箱中的第四目标数据值是否具有同一含义;

95、第四分箱方式确定子模块,用于若是,则将所述等距分箱和所述等频分箱确定为所述非数值型的数据项所对应的分箱方式。

96、可选地,所述第二初始数据值排序子模块包括:

97、类型数量确定单元,用于确定所述不同类型的第二初始数据值所涉及的类型数量;

98、哈希值计算单元,用于针对同一类型的第二初始数据值,计算所在的数据项的数据项描述对应的第一哈希值,以及计算所述类型数量对应的第二哈希值,以及计算所述同一类型的第二初始数据值对应的第三哈希值;

99、标识确定单元,用于针对同一类型的第二初始数据值,将所述第一哈希值确定为第一标识,以及将所述第二哈希值确定为第二标识,以及将所述第三哈希值确定为第三标识;

100、第二分值确定单元,用于针对同一类型的第二初始数据值,分别确定所述第一标识、所述第二标识和所述第三标识所对应的第二分值;

101、第二初始数据值排序单元,用于基于所述第二分值对所述同一类型的第二初始数据值进行排序。

102、可选地,所述分箱方式包括数值型的第一分箱方式和非数值型的第二分箱方式;所述目标分箱方式确定模块包括:

103、稳定性计算子模块,用于计算所述第一分箱方式对应的第一稳定性,以及计算所述第二分箱方式对应的第二稳定性;

104、稳定性是否在目标预测能力范围内的确定子模块,用于判断所述第一稳定性是否在目标预测能力范围内,以及判断所述第二稳定性是否在目标预测能力范围内;

105、第一目标分箱方式确定子模块,用于若所述第一稳定性在所述目标预测能力范围内,而所述第二稳定性不在所述目标预测能力范围内,则将所述第一分箱方式确定为目标分箱方式;

106、第二目标分箱方式确定子模块,用于若所述第二稳定性在所述目标预测能力范围内,而所述第一稳定性不在所述目标预测能力范围内,则将所述第二分箱方式确定为目标分箱方式。

107、可选地,在所述判断所述第一稳定性是否在目标预测能力范围内,以及判断所述第二稳定性是否在目标预测能力范围内之后,所述目标分箱方式确定模块还包括:

108、稳定性比较子模块,用于若所述第一稳定性和所述第二稳定性均在所述目标预测能力范围内,则比较所述第一稳定性和所述第二稳定性;

109、第三目标分箱方式确定子模块,用于若所述第一稳定性大于所述第二稳定性,则将所述第一分箱方式确定为目标分箱方式;

110、第四目标分箱方式确定子模块,用于若所述第二稳定性大于所述第一稳定性,则将所述第二分箱方式确定为目标分箱方式。

111、可选地,所述待存储数据安全检测模块包括:

112、特征值抽取子模块,用于抽取各个分箱中的待存储数据所对应的特征值;

113、数据数量确定子模块,用于根据所述特征值,确定所述各个分箱中满足数据要求的第一数据数量和不满足数据要求的第二数据数量;

114、检测值计算子模块,用于采用所述第一数据数量和所述第二数据数量,计算所述各个分箱的检测值。

115、本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;

116、所述存储器,用于存放计算机程序;

117、所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的数据安全检测方法。

118、本发明实施例还公开了一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的数据安全检测方法。

119、与现有技术相比,本发明实施例包括以下优点:

120、在本发明实施例中,接收用户上传的待存储数据,并从待存储数据中抽取预设数量的样本数据;样本数据包括多个数据项;基于数据类型将多个数据项进行分类,得到不同类型的数据项;分别确定不同类型的数据项所对应的分箱方式;从不同类型的数据项所对应的分箱方式中,确定稳定性满足预设条件的目标分箱方式;采用目标分箱方式,对待存储数据进行分箱;对各个分箱中的待存储数据进行安全检测,得到各个分箱的检测值;当各个分箱的检测值均大于或等于预设阈值时,确定待存储数据通过安全检测,以将通过安全检测的待存储数据进行存储。本发明实施例通过在数据上传过程中先对数据进行安全检测,在安全检测通过后,再存储该数据,从而加强数据安全控制的力度,保证数据安全控制的效果,且通过对数据进行分箱,再对分箱后的数据进行安全检测,从而提升数据安全检测的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1