本技术涉及数据清理,尤其涉及一种基于人工智能的数据安全清洗方法。
背景技术:
1、数据清洗是指对从不同来源收集的数据进行检查、修正、转换和整合,以提高数据的质量和可用性。数据清洗的目的是消除数据中的错误、重复、不一致和缺失,以便进行有效的数据分析和挖掘。
2、由于互联网上的数据量非常庞大,单机的数据清洗能力往往难以满足需求。因此,分布式数据清洗技术应运而生,它利用多个节点的计算资源在不同的节点上执行,从而提高数据清洗的效率和效果。
3、然而,分布式数据清洗技术也存在一些问题和挑战,导致目前不能够安全的实施分布式的数据清洗技术。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种基于人工智能的数据安全清洗方法,能够更安全的实施分布式的数据清洗技术。
2、第一方面,本技术提供了一种基于人工智能的数据安全清洗方法,由一级节点执行,包括:
3、一级节点对其自身存储的数据进行数据清洗,并向管控该一级节点的二级节点汇报清洗任务;
4、一级节点清洗完成后向管理该一级节点的二级节点发送当前清洗任务清洗完成的信息以请求二级节点收到的相同清洗任务的局域数据待整合文件;
5、当该一级节点收到二级节点发来的所述局域数据待整合文件后,根据该一级节点已清洗好的数据对所述局域数据待整合文件进行整合更新,以形成全局数据待整合文件;
6、在整合更新完成形成所述全局数据待整合文件后向管理该一级节点的二级节点发送第一全局数据请求,以通过二级节点向数据总节点请求获取该清洗任务其余的全局数据待整合文件;所述数据总节点通过预设的请求窗口识别模型对所述一级节点进行审查以决定是否发送其余的全局数据整合文件;
7、当该一级节点收到其余的全局数据待整合文件后,根据该一级节点已形成的全局数据待整合文件对其余的全局数据文件进行整合更新,以形成该清洗任务的全局数据文件;
8、在整合更新完成形成所述全局数据文件后将所述全局数据文件通过二级节点发送至数据总节点。
9、可选的,还包括:
10、一级节点收到二级节点发来的第一局域数据转移指令后,将一级节点目前已清洗好的数据形成局域数据待整合文件发送至二级节点;
11、一级节点收到二级节点发来的第二局域数据转移指令后,将全局数据待整合文件发送至二级节点。
12、第二方面,本技术提供了一种基于人工智能的数据安全清洗方法,由二级节点执行,包括:
13、二级节点向数据总节点汇报其管控的所有一级节点包括的清洗任务;
14、在二级节点收到一级节点发送的当前清洗任务清洗完成信息后,判断当前二级节点下其余的一级节点是否还有与该一级节点相同的清洗任务未完成;
15、若该一级节点是该二级节点下,相同的清洗任务中最后一个完成的一级节点,二级节点向该一级节点发送该二级节点收到的相同的清洗任务的局域数据待整合文件;
16、二级节点接收到第一全局数据请求后,向数据总节点发送第二全局数据请求,所述第二全局数据请求包括发起全局数据请求的一级节点标识;
17、当二级节点收到数据总节点发来的其余的全局数据待整合文件后,将所述其余的全局数据待整合文件根据预设规则转发至其管控的一级节点。
18、可选的,还包括:
19、二级节点接收到数据总节点发来的风控信号后,二级节点向被风控的一级节点发送第二局域数据转移指令,以获得被风控的一级节点的全局数据待整合文件;
20、所述二级节点管控有专门用于隔离的隔离节点,二级节点将所述被风控的一级节点的全局数据待整合文件转发至所述隔离节点进行隔离。
21、可选的,还包括:
22、二级节点接收到数据总节点发来的全局数据转移指令后,二级节点向发出全局数据合并请求的一级节点发送第二局域数据转移指令,以获得该一级节点的全局数据待整合文件,并将所述全局数据待整合文件转发至数据总节点。
23、可选的,将所述其余的全局数据待整合文件根据预设规则转发至其管控的一级节点,包括:
24、获取目前发送全局数据请求的一级节点发送全局数据请求的次数,并与该二级节点的一级节点平均发送的全局数据请求的次数进行对比;
25、当该发送全局数据请求的一级节点发送全局数据请求的次数相对其余一级节点平均发送的全局数据请求的次数的差值高于预设值时,则向该发送全局数据请求的一级节点发送第二局域数据转移指令,提取发送全局数据请求的一级节点内的数据;将数据总节点和该一级节点内的全局数据待整合文件发送至该二级节点管理的其他一级节点进行全局数据的合并处理;
26、否则,直接将数据总节点发来的其余的全局数据待整合文件转发至发出全局数据请求的一级节点。
27、第三方面,本技术提供了一种基于人工智能的数据安全清洗方法,由数据总节点执行,包括:
28、数据总节点通过透明监控层获取一级节点的服务器运行数据;
29、当数据总节点收到二级节点发来的第二全局数据请求后,数据控制节点通过预设的请求窗口识别模型识别发起全局数据请求的一级节点的服务器运行数据,以判断发起全局数据请求的一级节点是否处于数据请求窗口期;
30、若判断该一级节点处于数据请求窗口期,数据总节点检查发起该全局数据请求的一级节点是否是全局中最后一个完成相同清洗任务的一级节点;
31、若判断该一级节点是全部一级节点中最后一个完成相同清洗任务的一级节点,那么数据总节点向管控该一级节点的二级节点发送数据总节点收到的相同清洗任务其余的全局数据待整合文件。
32、可选的,还包括:若判断该一级节点并非是全部一级节点中最后一个完成相同清洗任务的一级节点;
33、则向二级节点发送全局数据转移指令。
34、可选的,还包括:
35、若判断该一级节点不处于数据请求窗口期,数据总节点向工作人员发出风险警告信号,并向二级节点发送风控信号以指示被风控的一级节点。
36、可选的,所述服务器运行数据包括:预设时间窗口内磁盘读写占用率的变化、网络上载速率的变化、网络下载速率的变化和cpu占用率的变化;
37、将以上数据输入请求窗口识别模型,以识别一级节点是否处于清洗后等待数据的状态;
38、当识别一级节点处于清洗后等待数据的状态时,判定该一级节点处于数据请求窗口期。
39、本技术提供的技术方案与现有技术相比具有如下优点:
40、现有技术有两种主流的数据清洗方法,一是数据集中在同一个服务器节点内进行处理;二是使多个节点连接至一个主数据库中从而实现多个节点间数据的调度,每个节点都有访问主数据库的全部权利,以及能够知道其他节点具有的数据。
41、但是由于互联网上的内容提供者的身份未知,因此从全网获取的数据中可能包含伪装的恶意程序,如病毒、木马、蠕虫等。
42、若现有技术直接对全网的网络数据进行清洗,只要某个节点触发恶意程序被恶意控制后,即能使得所有存储的数据全部泄露,以及使得全部节点的最终都被恶意程序所控制。
43、本技术提供的基于人工智能的数据安全清洗方法,每个执行数据清洗的一级节点都是基于其自身存储的数据进行的数据清洗,而且由非执行数据清洗任务的二级节点以及数据总节点执行数据的调度。
44、因此对于执行数据清洗任务的一级节点而言,即便一级节点被恶意程序控制了,由于一级节点并不知道其他节点具有什么数据,数据泄露的范围只会被控制在被恶意程序控制的该一级节点的范围内,系统全局的其他数据不会被泄露。再者,本技术还通过数据总节点通过预设的数据窗口识别模型对请求除二级节点以外的数据的一级节点进行风控,防止被控制的一级节点通过虚构数据清洗任务的方式从数据总节点中骗取数据。
45、因此本技术实施例提供的基于人工智能的数据安全清洗方法,能够更安全的实施分布式的数据清洗技术。