本发明涉及数据处理,尤其涉及一种文件泄密风险检测方法、设备、存储介质及装置。
背景技术:
1、如今,apache spark和apache hadoop等大数据系统在使用机器集群存储、处理和分析海量数据集方面变得流行起来。随着云计算服务的普及,大数据系统可以很容易地访问大量的计算资源(例如,cpu、内存、存储)来完成数据密集型工作。在集群机器上执行大数据程序解决问题时,如果存储内部状态的中间文件被篡改,则输出结果可能不正确,同时也有数据安全的风险。
2、目前的apache spark和apache hadoop等大数据基于数据的血缘关系,其依据为记录数据的md5等值,通过文件内容md5值的唯一性能够确保临时文件的数据不被篡改,一旦数据发生篡改,当前计算的应用程序将停止,确保后续计算数据安全及结果正确。
3、目前,现有技术具有以下严重缺点:虽然apache spark和apache hadoop能够通过检查临时文件的唯一性来检查数据是否被篡改来保证计算结果的正确性。
4、然而,近年来,云计算服务和数据中心越来越容易成为攻击者/恶意软件的目标。渗透到云数据中心的恶意软件更可能的目的是会窃取信息,但现有技术中无法确保数据在公有云或不可信环境中的不被窥探、窃取篡改的同时也不能在数据出现安全风险时及时保证信息安全。
5、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种文件泄密风险检测方法、设备、存储介质及装置,旨在解决现有技术中无法确保数据在公有云或不可信环境中的不被窥探、窃取篡改的同时也不能在数据出现安全风险时及时保证信息安全的技术问题。
2、为实现上述目的,本发明提供一种文件泄密风险检测方法,所述文件泄密风险检测方法包括以下步骤:
3、根据当前数据文件对应的第一元数据信息确定存储主键key,并通过所述存储主键key在预设数据库中查询第二元数据信息;
4、根据预设分布式分组位异或算法对所述第一元数据信息和所述第二元数据信息进行元数据一致性校验,获得一致性校验结果;
5、根据所述一致性校验结果判断所述当前数据文件是否存在泄密风险。
6、可选地,所述根据预设分布式分组位异或算法对所述第一元数据信息和所述第二元数据信息进行元数据一致性校验,获得一致性校验结果的步骤,包括:
7、将所述第一元数据信息按照预设字段进行散列,生成第一元数据组;
8、将所述第二元数据信息按照所述预设字段进行散列,生成第二元数据组;
9、根据预设分布式分组位异或算法对所述第一元数据组和所述第二元数据组进行元数据一致性校验,获得一致性校验结果。
10、可选地,所述根据预设分布式分组位异或算法对所述第一元数据组和所述第二元数据组进行元数据一致性校验,获得一致性校验结果的步骤,还包括:
11、将所述第一元数据组中每位元数据按照位置值进行哈希值转换,获得第一哈希值;
12、将所述第二元数据组中每位元数据按照位置值进行哈希值转换,获得第二哈希值;
13、根据预设分布式分组位异或算法对所述第一哈希值和所述第二哈希值进行按位异或运算,获得运算结果;
14、根据所述运算结果进行元数据一致性校验,获得一致性校验结果。
15、可选地,所述运算结果包括第一运算结果和第二运算结果;所述根据预设分布式分组位异或算法对所述第一哈希值和所述第二哈希值进行按位异或运算,获得运算结果的步骤,包括:
16、根据预设分布式分组位异或算法对所述第一哈希值和所述第二哈希值进行按位异或运算,获得各序位号对应的第一运算结果;
17、根据所述预设分布式分组位异或算法对所述第一数据组中的整数数值和所述第二数据组中的整数数值进行按位异或运算,获得第二运算结果。
18、可选地,所述根据所述运算结果进行元数据一致性校验,获得一致性校验结果的步骤,包括:
19、根据所述第一运算结果和所述第二运算结果确定数据差异信息;
20、根据所述数据差异信息进行元数据一致性校验,获得一致性校验结果。
21、可选地,所述根据所述一致性校验结果判断所述当前数据文件是否存在泄密风险的步骤,包括:
22、若所述一致性校验结果为一致,则判断所述当前数据文件不存在泄密风险;
23、若所述一致性校验结果为不一致,则判定所述当前数据文件存在泄密风险。
24、可选地,所述根据所述一致性校验结果判断所述当前数据文件是否存在泄密风险的步骤之后,还包括:
25、若判定所述当前数据文件不存在泄密风险时,则返回应用程序继续完成后续工作;
26、若判定所述当前数据文件存在泄密风险时,则删除文件、发布告警并停止应用程序。
27、此外,为实现上述目的,本发明还提出一种文件泄密风险检测设备,所述文件泄密风险检测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文件泄密风险检测程序,所述文件泄密风险检测程序配置为实现如上文所述的文件泄密风险检测的步骤。
28、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文件泄密风险检测程序,所述文件泄密风险检测程序被处理器执行时实现如上文所述的文件泄密风险检测方法的步骤。
29、此外,为实现上述目的,本发明还提出一种文件泄密风险检测装置,所述文件泄密风险检测装置包括:
30、数据查询模块,用于根据当前数据文件对应的第一元数据信息确定存储主键key,并通过所述存储主键key在预设数据库中查询第二元数据信息;
31、数据校验模块,用于根据预设分布式分组位异或算法对所述第一元数据信息和所述第二元数据信息进行元数据一致性校验,获得一致性校验结果;
32、风险判断模块,用于根据所述一致性校验结果判断所述当前数据文件是否存在泄密风险。
33、本发明通过根据当前数据文件对应的第一元数据信息确定存储主键key,并通过所述存储主键key在预设数据库中查询第二元数据信息;根据预设分布式分组位异或算法对所述第一元数据信息和所述第二元数据信息进行元数据一致性校验,获得一致性校验结果;根据所述一致性校验结果判断所述当前数据文件是否存在泄密风险,相较于现有技术中无法确保数据在公有云或不可信环境中的不被窥探、窃取篡改的同时也不能在数据出现安全风险时及时保证信息安全,本发明通过每次在数据文件产生时生成一份元数据信息进行保存并读取当前数据文件的元数据信息,并与前面的元数据信息进行比较,确保前后的元数据一致,由此判断数据是否存在被窃取的风险。通过元数据的一致性结果,能在数据出现安全风险时及时销毁临时数据、触发预警,提升数据安全。
1.一种文件泄密风险检测方法,其特征在于,所述文件泄密风险检测方法包括以下步骤:
2.如权利要求1所述的文件泄密风险检测方法,其特征在于,所述根据预设分布式分组位异或算法对所述第一元数据信息和所述第二元数据信息进行元数据一致性校验,获得一致性校验结果的步骤,包括:
3.如权利要求2所述的文件泄密风险检测方法,其特征在于,所述根据预设分布式分组位异或算法对所述第一元数据组和所述第二元数据组进行元数据一致性校验,获得一致性校验结果的步骤,还包括:
4.如权利要求3所述的文件泄密风险检测方法,其特征在于,所述运算结果包括第一运算结果和第二运算结果;所述根据预设分布式分组位异或算法对所述第一哈希值和所述第二哈希值进行按位异或运算,获得运算结果的步骤,包括:
5.如权利要求2所述的文件泄密风险检测方法,其特征在于,所述根据所述运算结果进行元数据一致性校验,获得一致性校验结果的步骤,包括:
6.如权利要求1-5任一项所述的文件泄密风险检测方法,其特征在于,所述根据所述一致性校验结果判断所述当前数据文件是否存在泄密风险的步骤,包括:
7.如权利要求6所述的文件泄密风险检测方法,其特征在于,所述根据所述一致性校验结果判断所述当前数据文件是否存在泄密风险的步骤之后,还包括:
8.一种文件泄密风险检测设备,其特征在于,所述文件泄密风险检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文件泄密风险检测程序,所述文件泄密风险检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的文件泄密风险检测方法。
9.一种存储介质,其特征在于,所述存储介质上存储有文件泄密风险检测程序,所述文件泄密风险检测程序被处理器执行时实现如权利要求1至7中任一项所述的文件泄密风险检测方法。
10.一种文件泄密风险检测装置,其特征在于,所述文件泄密风险检测装置包括: