一种用于处理不信任数据的数据处理系统及处理方法与流程

文档序号:15683504发布日期:2018-10-16 20:49阅读:186来源:国知局

本发明涉及数据处理领域,尤其涉及不信任数据处理,特别地,涉及一种用于处理不信任数据的数据处理系统及处理方法。



背景技术:

不信任数据是指数据源为网络或无法认证可靠性的数据供应商,其可能含有病毒或木马程序,若直接将这些数据接入系统进行数据分析,会造成不可估量的损失。并且,在不信任数据中可能存在一些后期分析时不需要的垃圾数据,如果不对所述垃圾数据在数据分析前进行处理,很可能会增大数据分析的难度,并且导致数据分析结果不精确等。因此,在对不信任数据进行分析前需进行不信任数据处理。

在现有技术中,一般采用杀毒软件进行不信任数据分析前处理,但是,采用杀毒软件只能进行杀毒,而不能对数据进行筛选处理,过滤掉不需要的垃圾数据,从而减轻后期分析的工作量。

因此,亟需一种不信任数据在进行数据分析前的数据处理系统及处理方法。



技术实现要素:

为了克服上述问题,本发明人进行了锐意研究,设计出一种不信任数据处理系统及处理方法,其中,采用多台虚拟机与物理防火墙联用,对不信任数据进行多重处理与检查,不仅可以排除数据中的有害内容,提高数据的可用性,而且减少潜在的对后期数据分析系统的威胁,从而完成本发明。

本发明一方面提供了一种,具体体现在以下方面:

(1)一种用于处理不信任数据的数据处理系统,其中,所述不信任数据经所述数据处理系统处理后输出给数据分析系统,进行数据分析,其中,所述数据处理系统包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中。

(2)根据上述(1)所述的数据处理系统,其中,所述数据处理系统包括第一虚拟机1、第二虚拟机2和物理防火墙3,其中,

所述第一虚拟机1和所述第二虚拟机2处于不同的局域网中;

所述不信任数据通过物理防火墙3从第一虚拟机1传输给第二虚拟机2,再由第二虚拟机2通过物理防火墙3输出至数据分析系统;

所述第一虚拟机1用于对不信任数据进行预处理,所述物理防火墙3用于预处理后的数据进行查杀,所述第二虚拟机用于对查杀后的数据进行数据核实及再处理。

(3)根据上述(1)或(2)所述的数据处理系统,其中,所述第一虚拟机1包括

数据接收模块11,用于接收需要处理的不信任数据;

数据预处理模块12,用于对第一虚拟机1接收的不信任数据进行预处理;和

数据输出与统计模块13,用于将第一虚拟机1预处理后的数据输出给物理防火墙3,并对输出数据中的文件个数进行统计。

(4)根据上述(1)至(3)之一所述的数据处理系统,其中,所述数据预处理模块12包括

空文件处理子模块121,用于搜索不信任数据中的空文件,并对搜索到的空文件移动至文件回收站;

属性筛选子模块122,用于通过文件属性筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;和

稀疏文件处理子模块123,用于对稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件;

优选地,所述数据预处理模块12还包括

可执行文件处理子模块124,用于搜索不信任数据中的可执行文件,并进行过滤处理;

非二进制文件处理子模块125,用于搜索不信任数据中的非二进制文件,并进行过滤处理;

有损文件处理子模块126,用于搜索不信任数据中的有损文件,并进行过滤处理;和

暂不分析文件处理子模块127,用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。

(5)根据上述(1)至(4)之一所述的数据处理系统,其中,所述第二虚拟机2包括

数据接收与统计模块21,用于接收物理防火墙3传输的查杀后的数据,并对所述数据中的文件个数进行统计;

数据复核模块22,用于将所述数据接收与统计模块21得到的文件统计结果与所述数据输出与统计模块13得到的文件统计结果进行比对,以确定在物理防火墙3的查杀过程中是否有文件丢失;和

数据输出模块23,用于将经第二虚拟机2再处理后的数据输出给物理防火墙3;

任选地,还包括数据再处理模块24,用于对查杀后的数据进行再处理。

(6)根据上述(1)至(5)之一所述的数据处理系统,其中,所述数据再处理模块24包括

空文件再处理子模块241,用于搜索经查杀后的数据中的空文件,并对搜索到的空文件移动至文件回收站;

属性再筛选子模块242,用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;

稀疏文件再处理子模块243,用于对经查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站;

可执行文件再处理子模块244,用于搜索经查杀后的数据中的可执行文件,并进行过滤处理;

非二进制文件再处理子模块245,用于搜索经查杀后的数据中的非二进制文件,并进行过滤处理;

有损文件再处理子模块246,用于搜索经查杀后的数据中的有损文件,并进行过滤处理;和

暂不分析文件再处理子模块247,用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。

本发明另一方面提供了一种不信任数据的处理方法,具体体现在以下方面:

(7)一种不信任数据处理方法,优选利用上述(1)至(6)所述数据处理系统进行,其中,所述方法包括以下步骤:

步骤1、获得不信任数据,并在第一虚拟机1内对其进行预处理,并将预处理后的数据输出给物理防火墙3;

步骤2、物理防火墙3接收到第一虚拟机1输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机2;

步骤3、第二虚拟机2接收物理防火墙3传输的数据,并对所述数据进行文件核实和再处理,然后将再处理后的数据再次传输给物理防火墙3;

步骤4、物理防火墙3接收到第二虚拟机2输出的数据,并将所述数据输出给数据分析系统,进行数据分析。

(8)根据上述(7)所述的方法,其中,

步骤1包括以下子步骤:

步骤1-1、利用数据接收模块11获得需要处理的不信任数据;

步骤1-2、利用数据预处理模块12对所述不信任数据进行预处理,获得预处理后的数据;

步骤1-3、将预处理后的数据输出给物理防火墙3,并对输出数据中的文件个数进行统计;

步骤3包括以下子步骤:

步骤3-1、利用数据接收与统计模块21接收物理防火墙3经过查杀后的数据,并对所述数据中的文件进行文件个数统计;

步骤3-2、利用数据复核模块22对数据接收与统计模块21获得的文件统计结果以及数据输出与统计模块13获得的文件统计结果进行复核,分析统计的文件个数是否与步骤1-3中输出时统计的文件个数一致;

步骤3-3、利用数据再处理模块24对第二虚拟机2接收到的数据再次进行处理;

步骤3-4、利用数据输出模块23将经第二虚拟机2再处理后的数据经过物理防火墙3传输给数据分析系统,进行数据分析。

(9)根据上述(7)或(8)所述的方法,其中,步骤1-2包括以下子步骤:

步骤1-2-1、利用空文件处理子模块121对不信任数据中的空文件进行搜索,并将搜索到的空文件移动至文件回收站,以便后续处理;

步骤1-2-2、利用属性筛选子模块122对不信任数据通过文件属性进行筛选,获得需要分析的文件,并过滤掉不需要的文件,同时将过滤掉的文件移动至文件回收站,以便后续处理;

步骤1-2-3、利用稀疏文件处理子模块123对不信任数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,以便后续处理;

步骤1-2-4、利用可执行文件处理子模块124对不信任数据中的可执行文件进行搜索,并将搜索到的可执行文件移动至文件回收站,以便后续处理;

步骤1-2-5、利用非二进制文件处理子模块125对不信任数据中的非二进制文件进行搜索,并将搜索到的非二进制文件移动至文件回收站,以便后续处理;

步骤1-2-6、利用有损文件处理子模块126对不信任数据中的有损文件进行搜索,并将搜索到的有损文件移动至文件回收站,以便后续处理;

步骤1-2-7、利用暂不分析文件处理子模块127对不信任数据中的暂不分析文件进行搜索,并将搜索到的暂不分析文件移动至文件回收站,以便后续处理。

(10)根据上述(7)至(9)之一所述的方法,其中,步骤3-3包括以下子步骤:

步骤3-3-1、利用空文件再处理子模块241对接收的数据中的空文件进行搜索,并将搜索到的空文件移动至文件回收站,以便后续处理;

步骤3-3-2、利用属性再筛选子模块242对物理防火墙查杀后的数据通过文件属性进行筛选;

步骤3-3-3、利用稀疏文件再处理子模块243对物理防火墙查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,以便后续处理;

步骤3-3-4、利用可执行文件再处理子模块244对物理防火墙查杀后的数据中的可执行文件进行搜索,并将搜索到的可执行文件移动至文件回收站,以便后续处理;

步骤3-3-5、利用非二进制文件再处理子模块245对物理防火墙查杀后的数据中的非二进制文件进行搜索,并将搜索到的非二进制文件移动至文件回收站,以便后续处理;

步骤3-3-6、利用有损文件再处理子模块246对物理防火墙查杀后的数据中的有损文件进行搜索,并将搜索到的有损文件移动至文件回收站,以便后续处理;

步骤3-3-7、利用暂不分析文件再处理子模块247对物理防火墙查杀后数据中的暂不分析文件进行搜索,并将搜索到的暂不分析文件移动至文件回收站,以便后续处理。

附图说明

图1示出本发明所述数据处理系统的结构示意图;

图2示出第一虚拟机的结构示意图;

图3示出第二虚拟机的结构示意图;

图4示出本发明所述方法的流程图。

附图标号说明:

1-第一虚拟机;11-数据接收模块;12-数据预处理模块;121-空文件处理子模块;1221-文件日期筛选子模块;1222-文件大小筛选子模块;1223-文件格式筛选子模块;122-属性筛选子模块;123-稀疏文件处理子模块;124-可执行文件处理子模块;125-非二进制文件处理子模块;126-有损文件处理子模块;127-暂不分析文件处理子模块;13-数据输出与统计模块;2-第二虚拟机;21-数据接收与统计模块;22-数据复核模块;23-数据输出模块;24-数据再处理模块;241-空文件再处理子模块;242-属性再筛选子模块;2421-文件日期再过滤子模块;2422-文件大小再过滤子模块;2423-文件格式再过滤子模块;243-稀疏文件再处理子模块;244-可执行文件再处理子模块;245-非二进制文件再处理子模块;246-有损文件再处理子模块;247-暂不分析文件再处理子模块;3-物理防火墙;4-存储设备销毁机。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。

本发明一方面提供了一种不信任数据处理系统,所述数据处理系统包括物理防火墙和至少两台虚拟机,所述虚拟机中至少有两台虚拟机处于不同的局域网中,并且,不同局域网之间通过物理防火墙进行数据传输。

其中,不信任数据中可能存在危害物理机(虚拟机的载体--pc机或服务器)的威胁或病毒,若直接将不信任数据复制到物理机上,会对物理机造成影响,甚至导致物理机系统瘫痪,而采用虚拟机时,威胁或病毒只影响虚拟机,而对物理机不会产生任何影响,从而有效防止物理机的系统瘫痪。并且,虚拟机被威胁或病毒侵害后,通过虚拟机模板即可快速重建虚拟机,因此,在本申请中,巧妙地采用虚拟机进行数据传输以及处理。

根据本发明一种优选的实施方式,所述虚拟机设置于服务器上。

其中,所述虚拟机以服务器为载体。

在进一步优选的实施方式中,所述至少两台虚拟机可以设置在同一服务器或不同服务器上。

在更进一步优选的实施方式中,所述至少两台虚拟机设置于同一服务器上。

其中,无论虚拟机设置于一台服务器还是两台服务器,必须保证至少有两台虚拟机处于不同的局域网中,以使在后期数据传输时,所述不信任数据可以经过物理防火墙。

根据本发明一种优选的实施方式,所述服务器的内存为64gb起、cpu为8核心、硬盘为2t起。

其中,服务器的内存越大,则虚拟机的处理速率越大;因为服务器上的硬盘位有限,因此对于硬盘的转数要求不大,但需要其容量较大,以保证服务器的容量。

在进一步优选的实施方式中,所述虚拟机的内存为16gb内、cpu为1核心、硬盘为500g起,且优选采用linux操作系统。

根据本发明一种优选的实施方式,如图1所示,所述数据处理系统包括第一虚拟机1、第二虚拟机2和物理防火墙3。

在进一步优选的实施方式中,所述第一虚拟机1和所述第二虚拟机2处于不同的局域网中。

在更进一步优选的实施方式中,所述第一虚拟机1和所述第二虚拟机2通过物理防火墙3进行数据传输。

根据本发明一种优选的实施方式,所述第一虚拟机1可以通过网络或存储设备获得需处理的不信任数据,例如u盘、移动硬盘。

在进一步优选的实施方式中,如图1所示,所述不信任数据依次经过第一虚拟机1、物理防火墙3和第二虚拟机2进行数据处理。

其中,所述第一虚拟机1用于对不信任数据进行预处理,所述物理防火墙3用于对预处理后的不信任数据进行查杀,所述第二虚拟机2用于对查杀后的不信任数据进行文件核实及数据再处理。优选地,在本发明中,采用物理防火墙的“包滤法”对不信任数据中的威胁或病毒进行查杀或过滤。

在更进一步优选的实施方式中,如图1所示,在经第二虚拟机2再处理后的数据再次通过物理防火墙3传输给数据分析系统,进行数据分析。

其中,再次通过物理防火墙3时可以对所述数据进一步进行处理。

根据本发明一种优选的实施方式,当所述第一虚拟机1采用存储设备获得需处理的不信任数据时,所述数据处理系统还包括存储设备销毁机4。

其中,待存储设备中的不信任数据复制到第一虚拟机后,将所述存储设备与所述存储设备销毁机4连接,以利用存储设备销毁机4将存储设备中的不信任数据进行销毁。

根据本发明一种优选的实施方式,如图2所示,所述第一虚拟机1包括数据接收模块11、数据预处理模块12和数据输出与统计模块13。

其中,所述数据接收模块11用于接收需要处理的不信任数据;所述数据预处理模块12用于对第一虚拟机1接收的不信任数据进行预处理,所述数据输出与统计模块13用于对第一虚拟机1预处理后的数据进行输出给物理防火墙3,并对输出数据中的文件个数进行统计。

根据本发明一种优选的实施方式,所述数据预处理模块12包括空文件处理子模块121、属性筛选子模块122和稀疏文件处理子模块123。

其中,所述空文件处理子模块121用于搜索不信任数据中的空文件,并对搜索到的空文件进行处理,即将搜索到的空文件移动至文件回收站,以便后续处理,所述空文件为大小为0的文件;所述属性筛选子模块122用于筛选出后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式等;所述稀疏文件处理子模块用于对稀疏文件进行搜索并处理,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件,例如,系统显示文件大小为4kb,但是,其实际占用空间只有500b。其中,所述处理优选为移动至文件回收站,以便后续处理。

在进一步优选的实施方式中,所述属性筛选子模块122包括文件日期筛选子模块1221、文件大小筛选子模块1222和文件格式筛选子模块1223。

其中,(1)如果文件的创建日期明显早于文件的来源日期,可以断定,该文件的创建日期与文件来源日期不符,则该文件可能经过篡改,为不合格文件,在处理时需要过滤掉而筛选出合格文件;(2)文件的实际大小后期分析时需要的文件大小不一致,为不合格文件,在处理时需要过滤掉而筛选出合格文件;(3)文件的实际格式与后期分析时需要的文件格式不一致,为不合格文件,在处理时需要过滤掉而筛选出合格文件,例如需要格式为doc的文件,但文件实际格式为docx,则该文件就筛选过程中会被过滤掉。

在更进一步优选的实施方式中,所述数据预处理模块12还包括可执行文件处理子模块124、非二进制文件处理子模块125、有损文件处理子模块126和暂不分析文件处理子模块127。

其中,所述可执行文件处理子模块124用于搜索不信任数据中的可执行文件,并进行过滤处理,其中,所述可执行文件包括exe文件和脚本文件,所述脚本文件包括shell脚本、python脚本和sql脚本等;所述非二进制文件处理子模块125用于搜索不信任数据中的非二进制文件,并进行过滤处理;所述有损文件处理子模块126用于搜索不信任数据中的有损文件,并进行过滤处理;所述暂不分析文件处理子模块127用于对暂时不进行后期分析的文件进行过滤处理,例如音频视频文件、镜像文件和图片文件等。其中,所述处理优选为移动至文件回收站,以便后续处理。

在本发明中,所述有损文件处理子模块126通过生成文件的md5值进行比对以确定文件是否为有损文件。

根据本发明一种优选的实施方式中,所述物理防火墙3在接收到第一虚拟机1输出的预处理后的数据后,通过包过滤技术对所述数据进行查杀,并将查杀后的数据传输给第二虚拟机2,进行数据核实及再处理。

其中,所述核实是指确认第二虚拟机2接收到的文件个数与第一虚拟机1输出的文件个数是否一致。

根据本发明一种优选的实施方式,所述第二虚拟机2包括数据接收与统计模块21、数据复核模块22和数据输出模块23。

其中,所述数据接收与统计模块21用于接收物理防火墙3传输的查杀后的数据,并对所述数据中的文件个数进行统计;所述数据复核模块22用于将所述数据接收与统计模块21得到的文件统计结果与所述数据输出与统计模块13得到的文件统计结果进行比对,以确定从第一虚拟机1到第二虚拟机2的过程中(即在物理防火墙的查杀过程中)是否有文件丢失;所述数据输出模块23用于将经第二虚拟机2再处理后的数据输出给物理防火墙3。

在本发明中,如果所述数据复核模块22经过复核发现在物理防火墙2的查杀过程中文件有丢失,那么需要人为地在物理防火墙3上检查丢失的文件是否为威胁数据或病毒,如果是,则所述数据处理系统继续工作,如果丢失的文件不是威胁数据或病毒,而是物理防火墙的误查杀,则需要为物理防火墙3重新配置策略,以使被物理防火墙拦截的误查杀文件重新输出至第二虚拟机2,同时,通过为物理防火墙3重新配置策略,在下次利用所述数据处理系统进行数据处理时可以以避免误差杀的再次出现。

根据本发明一种优选的实施方式,所述第二虚拟机2任选地还包括数据再处理模块24。

其中,所述数据再处理模块24用于对经过第一虚拟机1预处理过、并且经过物理防火墙3查杀过的数据进行再处理。

在进一步优选的实施方式中,所述数据再处理模块24包括空文件再处理子模块241、属性再筛选子模块242、稀疏文件再处理子模块243、可执行文件再处理子模块244、非二进制文件再处理子模块245、有损文件再处理子模块246和暂不分析文件再处理子模块247。

其中,所述空文件再处理子模块241用于搜索经查杀后的数据中的空文件,并对搜索到的空文件移动至文件回收站;所述属性再筛选子模块242用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;所述稀疏文件再处理子模块243用于对经查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站;所述可执行文件再处理子模块244用于搜索经查杀后的数据中的可执行文件,并进行过滤处理;所述非二进制文件再处理子模块245用于搜索经查杀后的数据中的非二进制文件,并进行过滤处理;所述有损文件再处理子模块246用于搜索经查杀后的数据中的有损文件,并进行过滤处理;所述暂不分析文件再处理子模块247用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。

在更进一步优选的实施方式中,所述属性再筛选子模块242包括文件日期再过滤子模块2421、文件大小再过滤子模块2422和文件格式再过滤子模块2423。

其中,经物理防火墙3查杀后的数据中有以下情况:(1)如果文件的创建日期明显早于文件的来源日期,可以断定,该文件的创建日期与文件来源日期不符,则该文件可能经过篡改,为不合格文件,在处理时需要过滤掉而筛选出合格文件;(2)文件的实际大小后期分析时需要的文件大小不一致,为不合格文件,在处理时需要过滤掉而筛选出合格文件;(3)文件的实际格式与后期分析时需要的文件格式不一致,为不合格文件,在处理时需要过滤掉而筛选出合格文件,例如需要格式为doc的文件,但文件实际格式为docx,则该文件就筛选过程中会被过滤掉。

本发明另一方面提供了一种不信任数据的处理方法,所述方法优选利用本发明第一方面所述数据处理系统进行。

根据本发明一种优选的实施方式,如图4所示,所述方法包括以下步骤:

步骤1、获得不信任数据,并在第一虚拟机1内对其进行预处理,并将预处理后的数据输出给物理防火墙3;

步骤2、物理防火墙3接收到第一虚拟机1输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机2;

步骤3、第二虚拟机2接收物理防火墙3传输的数据,并对所述数据进行文件核实和再处理,然后将再处理后的数据再次传输给物理防火墙3;

步骤4、物理防火墙3接收到第二虚拟机2输出的数据,并将所述数据输出给数据分析系统,进行数据分析。

在进一步优选的实施方式中,在步骤1中,所述第一虚拟机1通过网络或存储设备获得需处理的不信任数据,例如u盘、移动硬盘。

在更进一步优选的实施方式中,当所述第一虚拟机1通过存储设备获得需处理的不信任数据时,在步骤4之后,进行步骤4’:

步骤4’、利用存储设备销毁机4将存储设备中的不信任数据进行销毁。

根据本发明一种优选的实施方式,步骤1包括以下子步骤:

步骤1-1、利用数据接收模块11获得需要处理的不信任数据;

步骤1-2、利用数据预处理模块12对所述不信任数据进行预处理,获得预处理后的数据;

步骤1-3、将预处理后的数据输出给物理防火墙3,并对输出数据中的文件个数进行统计。

在进一步优选的实施方式中,步骤1-2包括以下子步骤:

步骤1-2-1、利用空文件处理子模块121对不信任数据中的空文件进行搜索,并将搜索到的空文件移动至文件回收站,以便后续处理;

步骤1-2-2、利用属性筛选子模块122对不信任数据通过文件属性进行筛选,获得需要分析的文件,并过滤掉不需要的文件,同时将过滤掉的文件移动至文件回收站,以便后续处理;

步骤1-2-3、利用稀疏文件处理子模块123对不信任数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,以便后续处理;

其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件,例如,系统显示文件大小为4kb,但是,其实际占用空间只有500b。

在进一步优选的实施方式中,在步骤1-2-3之后,步骤1-2还包括以下子步骤:

步骤1-2-4、利用可执行文件处理子模块124对不信任数据中的可执行文件进行搜索,并将搜索到的可执行文件移动至文件回收站,以便后续处理;

其中,所述可执行文件包括exe文件和脚本文件,所述脚本文件包括shell脚本、python脚本和sql脚本等;

步骤1-2-5、利用非二进制文件处理子模块125对不信任数据中的非二进制文件进行搜索,并将搜索到的非二进制文件移动至文件回收站,以便后续处理;

步骤1-2-6、利用有损文件处理子模块126对不信任数据中的有损文件进行搜索,并将搜索到的有损文件移动至文件回收站,以便后续处理;

其中,通过生成文件的md5值进行比对以确定文件是否为有损文件;

步骤1-2-7、利用暂不分析文件处理子模块127对不信任数据中的暂不分析文件进行搜索,并将搜索到的暂不分析文件移动至文件回收站,以便后续处理;

其中,所述暂不分析文件指暂时不予进行后期分析的文件,例如音频视频文件、镜像文件和图片文件等。

在更进一步优选的实施方式中,所述步骤1-2-2包括以下子步骤:

步骤1-2-2-1、利用文件日期筛选子模块1221对不信任数据通过创建日期进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;

步骤1-2-2-2、利用文件大小筛选子模块1222对不信任数据通过文件大小进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;

步骤1-2-2-3、利用文件格式核对子模块1223对不信任数据通过文件格式进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理。

根据本发明一种优选的实施方式,步骤3包括以下子步骤:

步骤3-1、利用数据接收与统计模块21接收物理防火墙3经过查杀后的数据,并对所述数据中的文件进行文件个数统计;

步骤3-2、利用数据复核模块22对数据接收与统计模块21获得的文件统计结果以及数据输出与统计模块13获得的文件统计结果进行复核,分析文件个数是否一致。

其中,利用数据复核模块22核对第二虚拟机2接收的文件格式与第一虚拟机1输出的文件个数是否一致,即在查杀过程中,物理防火墙3是否进行了文件拦截。

在进一步优选的实施方式中,步骤3还包括以下子步骤:

步骤3-3、利用数据再处理模块24对第二虚拟机2接收到的数据再次进行处理;

步骤3-4、利用数据输出模块23将经第二虚拟机2再处理后的数据经过物理防火墙3传输给数据分析系统,进行数据分析。

根据本发明一种优选的实施方式,在步骤3-2中,当统计的文件个数不一致,则需要在物理防火墙3上核实被查杀的文件是否为威胁或病毒。

其中,所述统计的文件个数不一致是指第一虚拟机1输出的文件个数与第二虚拟机2接收的文件个数不一致,即在查杀过程,物理防火墙进行了文件拦截,所拦截的文件很可能是威胁或病毒,但是,也有可能并不是威胁或病毒,而是误查杀,因此,发现物理防火墙有拦截后,需要进行核实是否为威胁或病毒,以防止误差杀,进而影响后期数据分析结果。

在进一步优选的实施方式中,经过核实,若被物理防火墙查杀的文件为威胁或病毒,则继续步骤3-3与步骤3-4;

在更进一步优选的实施方式中,若被物理防火墙3查杀的文件不是威胁或病毒,则为误查杀,则需要为物理防火墙3重新配置策略,直至被误查杀的文件重新从物理防火墙3传输到第二虚拟机2,即直至步骤3-2统计结果一致,然后进行步骤3-3和步骤3-4。

根据本发明一种优选的实施方式,所述步骤3-3包括以下子步骤:

步骤3-3-1、利用空文件再处理子模块241对接收的数据中的空文件进行搜索,并将搜索到的空文件移动至文件回收站,以便后续处理;

步骤3-3-2、利用属性再筛选子模块242对物理防火墙查杀后的数据通过文件属性进行筛选;

步骤3-3-3、利用稀疏文件再处理子模块243对物理防火墙查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,以便后续处理;

其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件,例如,系统显示文件大小为4kb,但是,其实际占用空间只有500b。

在进一步优选的实施方式中,在步骤3-3-3之后,步骤3-3还包括以下子步骤:

步骤3-3-4、利用可执行文件再处理子模块244对物理防火墙查杀后的数据中的可执行文件进行搜索,并将搜索到的可执行文件移动至文件回收站,以便后续处理;

其中,所述可执行文件包括exe文件和脚本文件,所述脚本文件包括shell脚本、python脚本和sql脚本等。

步骤3-3-5、利用非二进制文件再处理子模块245对物理防火墙查杀后的数据中的非二进制文件进行搜索,并将搜索到的非二进制文件移动至文件回收站,以便后续处理;

步骤3-3-6、利用有损文件再处理子模块246对物理防火墙查杀后的数据中的有损文件进行搜索,并将搜索到的有损文件移动至文件回收站,以便后续处理;

其中,通过生成文件的md5值进行比对以确定文件是否为有损文件;

步骤3-3-7、利用暂不分析文件再处理子模块247对物理防火墙查杀后数据中的暂不分析文件进行搜索,并将搜索到的暂不分析文件移动至文件回收站,以便后续处理;

其中,所述暂不分析文件指暂时予进行后期分析,例如音频视频文件、镜像文件和图片文件等。

在更进一步优选的实施方式中,所述步骤3-3-2包括以下子步骤:

步骤3-3-2-1、利用文件日期再筛选子模块2421对物理防火墙查杀后数据通过创建日期进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;

步骤3-3-2-2、利用文件大小再筛选子模块2422对物理防火墙查杀后的数据通过文件大小进行筛选筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;

步骤3-3-2-3、利用文件格式再筛选子模块2423对物理防火墙查杀后的数据通过文件格式进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;

根据本发明一种优选的实施方式,在步骤4中,物理防火墙3接收到第二虚拟机2输出的数据后,对所述数据再次进行查杀,然后输出给数据分析系统。

本发明所具有的有益效果包括:

(1)本发明采用多台虚拟机对不信任数据进行预处理和后处理,这样,即使存在威胁或病毒,只是虚拟机受损,而不影响负载虚拟机的pc机或服务器,减少了对物理机的损坏,同时,所述被损坏的虚拟机可以通过模块快速重建;

(2)本发明巧妙地将多台虚拟机设置在至少两个局域网之间,这样,在虚拟机之间进行数据传输时,所述数据必须经过物理防火墙,这样,可以利用物理防火墙的包过滤技术对不信任数据进行查杀;

(3)本发明中所采用的第一虚拟机内设置有多个模块,用于对所述不信任数据进行预处理,以减少后期在物理防火墙中的工作负荷;

(4)本发明所采用的第二虚拟机内同样设置了多个模块,一方面检查物理防火墙对数据进行查杀时,是否有误查杀,另一方面用于对物理防火墙查杀后的数据进行再处理,以减少最后在数据分析系统的风险及工作负荷。

实施例

实施例1

通过移动硬盘获得一批需要处理的数据,里面含有10000个文件,需要在对数据进行分析前,但是,在后期分析时需要的是2016年8月27日的数据,且不需要视频文件或音频文件,利用本发明所述数据处理系统进行数据处理,具体如下:

(1)先将移动硬盘内的数据复制到第一虚拟机内,在第一虚拟机内进行预处理,过滤掉表一所示7个文件,最终由第一虚拟机输出的文件个数为9993个,并输出给物理防火墙;

表一:

(2)物理防火墙接收到第一虚拟机输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机;

(3)第二虚拟机接收物理防火墙传输的数据,并对所述数据进行文件核实,核实后的文件个数与第一虚拟机输出的文件个数一致,然后进行再处理,最后将再处理后的数据再次传输给物理防火墙;

(4)物理防火墙接收到第二虚拟机输出的数据,并将所述数据输出给数据分析系统,进行数据分析;

(4’)利用存储设备销毁机将u盘中的不信任数据进行销毁。

实施例2

通过移动硬盘获得一批需要处理的数据,里面含有9000个文件,需要在对数据进行分析前,利用本发明所述数据处理系统进行数据处理,具体如下,其中,在后期分析时需要.doc格式的文件:

(1)先将移动硬盘内的数据复制到第一虚拟机内,在第一虚拟机内进行预处理,过滤掉表二所示7个文件,最终由第一虚拟机输出的文件个数为8993个,并输出给物理防火墙;

表二:

(2)物理防火墙接收到第一虚拟机输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机;

(3)第二虚拟机接收物理防火墙传输的数据,并对所述数据进行文件核实,核实后的文件个数与第一虚拟机输出的文件个数不一致,说明在物理防火墙内可能存在误差杀;

(3.1)在物理防火墙上核实丢失的文件并非病毒或威胁,则对物理防火墙重新配置策略;

(3.2)重新为物理防火墙配制策略后,丢失的文件重新从物理防火墙输出到第二虚拟机;

然后进行再处理,最后将再处理后的数据再次传输给物理防火墙;

(4)物理防火墙接收到第二虚拟机输出的数据,并将所述数据输出给数据分析系统,进行数据分析;

(4’)利用存储设备销毁机将移动硬盘中的不信任数据进行销毁。

实施例3

通过移动硬盘获得一批需要处理的数据,里面含有12000个文件,需要在对数据进行分析前,利用本发明所述数据处理系统进行数据处理,具体如下,其中,在后期分析时需要.doc格式的文件:

(1)先将移动硬盘内的数据复制到第一虚拟机内,在第一虚拟机内进行预处理,过滤掉表三所示7个文件,最终由第一虚拟机输出的文件个数为11993个,并输出给物理防火墙;

表三:

(2)物理防火墙接收到第一虚拟机输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机;

(3)第二虚拟机接收物理防火墙传输的数据,并对所述数据进行文件核实,核实后的文件个数与第一虚拟机输出的文件个数不一致,在物理防火墙上核实丢失的文件为威胁文件,说明物理防火墙并没有误查杀,然后在第二虚拟机内进行再处理,最后将再处理后的数据再次传输给物理防火墙;

(4)物理防火墙接收到第二虚拟机输出的数据,并将所述数据输出给数据分析系统,进行数据分析;

(4’)利用存储设备销毁机将移动硬盘中的不信任数据进行销毁。

以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1