网络数据的处理方法、装置和系统与流程

文档序号：12068175阅读：321来源：国知局

本发明涉及网络安全领域，具体而言，涉及一种网络数据的处理方法、装置和系统。

背景技术：

防火墙产品部署在一个公司或机构的网络出口，对子网内的数据资产进行安全保护。防火墙基于行为分析、威胁检测和入侵防御等技术来发现网络威胁问题。

防火墙的优势在于防护某个单一机构内的安全问题，如某个政府部分、集团公司、银行或金融机构体系内的网络安全问题。对于跨机构、跨区域、跨行业的综合性安全问题的发现，单一防火墙或者某个集团内防火墙群的能力是达不到的。对于这种综合性和全局性的网络威胁问题的发现，一是要求有全局性的威胁数据采集能力，二是要求有对全局性数据的分析能力。

如图1所示，卡巴斯基和国内的360互联网安全中心利用其大量的装机量，通过其安全软件自身的功能，将捕获的威胁数据送至其自有的数据中心，进行数据分析，从而得到全网的威胁地图。特别是卡巴斯基实验室基于其全球化的广泛装机量，绘制了全球的攻防地图。

但是，通过上述方案，首先数据来源必须基于其大量的用户装机量，这个要求起点较高；此外，大部分网络威胁数据已经由防火墙过滤掉了，到达用户的数据往往不是来自互联网的威胁，而更可能是来自内网的威胁数据，这样就产生了大量的无效数据并且丢失了大部分的有效数据。而且，自建的数据分析中心成本很高。由于威胁数据过滤和发送都是由内网主机或服务器触发的，这样会带来主机和服务器额外的运算和带宽损耗。

针对现有技术中的网络数据来自局域网中的主机和服务器，由于防火墙过滤掉部分网络数据，到达主机和服务器的网络数据缺失，导致数据处理的准确度低的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种网络数据的处理方法、装置和系统，以至少解决现有技术中的网络数据来自局域网中的主机和服务器，由于防火墙过滤掉部分网络数据，到达主机和服务器的网络数据缺失，导致数据处理的准确度低的技术问题。

根据本发明实施例的一个方面，提供了一种网络数据的处理方法，包括：服务器采集多个防火墙在运行过程中收集到的多个网络数据，其中，多个防火墙部署在多个局域网出口，每个网络数据至少包括：每个防火墙的运行状态、流量数据、域名信息、可疑文件和威胁信息；服务器对多个网络数据进行解析，得到多个解析后的网络数据；服务器将多个解析后的网络数据存入第一数据库。

根据本发明实施例的另一方面，还提供了一种网络数据的处理装置，包括：采集模块，用于采集多个防火墙在运行过程中收集到的多个网络数据，其中，多个防火墙部署在多个局域网出口，每个网络数据至少包括：每个防火墙的运行状态、流量数据、域名信息、可疑文件和威胁信息；解析模块，用于对多个网络数据进行解析，得到多个解析后的网络数据；存储模块，用于将多个解析后的网络数据存入第一数据库。

根据本发明实施例的又一方面，还提供了一种网络数据的处理系统，包括：多个防火墙，部署在多个局域网出口，用于在运行过程中收集多个网络数据，其中，每个网络数据至少包括：每个防火墙的运行状态、流量数据、域名信息、可疑文件和威胁信息；服务器，与多个防火墙具有通信关系，用于对多个网络数据进行解析，得到多个解析后的网络数据，并将多个解析后的网络数据存入第一数据库。

在本发明实施例中，服务器采集多个防火墙在运行过程中收集到的多个网络数据，对多个网络数据进行解析，得到多个解析后的网络数据，将多个解析后的网络数据存入第一数据库。容易注意到的是，由于服务器采集到的网络数据是来自防火墙的网络数据，相比于现有技术中来自局域网内部的主机和服务器的网络数据，数据更加完整和全面，解决了现有技术中的网络数据来自局域网中的主机和服务器，由于防火墙过滤掉部分网络数据，到达主机和服务器的网络数据缺失，导致数据处理的准确度低的技术问题。因此，通过本发明上述实施例提供的方案，可以达到节省传输带宽，提升平台兼容性，提高数据完整性，从而提高数据处理的准确度的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据现有技术的一种网络数据的处理系统的示意图；

图2是根据本发明实施例的一种网络数据的处理方法的流程图；

图3是根据本发明实施例的一种可选的自动扩展数据解析能力的流程图；

图4是根据本发明实施例的一种可选的负载均衡服务器和数据解析服务器的示意图；

图5是根据本发明实施例的一种可选的虚拟防火墙的示意图；

图6是根据本发明实施例的一种可选的网络数据的双向认证的流程图；

图7是根据本发明实施例的一种可选的Hbase数据库的示意图；

图8是根据本发明实施例的一种可选的网络数据的近实时查询方法的流程图；

图9是根据本发明实施例的一种可选的数据分析引擎群的示意图；

图10是根据本发明实施例的一种可选的域名分析引擎对网络数据进行分析的流程图；

图11是根据本发明实施例的一种可选的云沙箱引擎对网络数据进行分析的流程图；

图12是根据本发明实施例的一种可选的网络数据的关联分析的流程图；

图13是根据本发明实施例的一种可选的MySQL数据库的高可用的读写分离的架构示意图；

图14是根据本发明实施例的一种可选的Redis数据库的高可用部署架构示意图；

图15是根据本发明实施例的一种可选的CPU、内存趋势的示意图；

图16是根据本发明实施例的一种可选的流量趋势的示意图；

图17是根据本发明实施例的一种可选的应用流量排名的示意图；

图18是根据本发明实施例的一种可选的用户流量排名的示意图；

图19是根据本发明实施例的一种可选的报表的示意图；

图20是根据本发明实施例的一种可选的用户界面的示意图；

图21是根据本发明实施例的一种可选的运维托管服务的流程图；

图22是根据本发明实施例的一种网络数据的处理装置的示意图；

图23是根据本发明实施例的一种网络数据的处理系统的示意图；以及

图24是根据本发明实施例的一种可选的网络数据的处理系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种网络数据的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种网络数据的处理方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，服务器采集多个防火墙在运行过程中收集到的多个网络数据，其中，多个防火墙部署在多个局域网出口，每个网络数据至少包括：每个防火墙的运行状态、流量数据、域名信息、可疑文件和威胁信息。

具体的，上述的服务器可以是云端服务器，基于云计算技术，可用的计算能力、存储能力和网络能力可以达到接近无限的可扩展性。云计算技术和大数据技术是紧密结合的，基于云计算平台提供的存储和运算能力，通过大数据分析算法可以对海量数据进行分析，提取有价值的信息。上述的局域网可以是一个公司或者机构的网络的出口，部署在局域网出口的防火墙可以对内网的数据资产进行安全防护，内网的主机和服务器与互联的网络数据均通过防火墙，因此，防火墙可以收集到更为全面、完整的网络数据。上述的防火墙的运行状态可以是防火墙的cpu，内存，在线状态，实时流量，会话数等实时状态。

此处需要说明的是，在公网上，带宽资源相对较为宝贵，数据传输的格式应力求节省带宽。此外，云端服务器需要解析大量的防火墙传来的大量数据，所以数据格式的定义也需要考虑云端服务器的解析能力，尽量少的耗费云端服务器的运算资源。最后，作为数据来源的防火墙与云端服务器二者间是异构的平台，数据格式定义的平台兼容性也是一个十分关键的要点。在本发明上述实施例中，云端服务器可以与多个防火墙协商数据解析格式，多个防火墙可以将运行过程中收集到的原始数据采用一种带宽优化的二进制数据传输格式，发送至云端服务器，例如，可以采用avro格式来作为数据传输格式，avro格式是一种二进制格式，数据按照格式描述文件schema序列化在文件中，只需拥有同样的schema就可以将数据反序列化出来，对比json和xml格式，avro数据格式去除了存在于每个数据节点的标签或者数据头字段，大大节省了用于数据传输的带宽，并且其解析性能和平台兼容性上均优于其他数据格式。

在一种可选的方案中，每个防火墙在运行过程中，可以收集局域网与互联网之间的交互数据，交互数据中可以包括：流量数据(例如应用流量)，域名信息和威胁信息，每个防火墙可以将收集到交互数据转换为avro格式，得到网络数据，并将格式转换后的网络数据发送给云端服务器。

此处需要说明的是，每个防火墙在收集到可疑文件之后，可以直接将可疑文件上传云端服务器，无需对可疑文件进行格式转换。

步骤S204，服务器对多个网络数据进行解析，得到多个解析后的网络数据。

在一种可选的方案中，云端服务器在采集到多个网络数据之后，可以对多个网络数据进行解析，将avro格式的网络数据进行格式转换，得到原始交互数据，即上述的解析后的网络数据。

步骤S206，服务器将多个解析后的网络数据存入第一数据库。

此处需要说明的是，数据存储在数据库中，当前数据库可以划分为两个类型，SQL(关系型数据库)和NoSQL(非关系型数据库)。SQL可以很方便的对数据建立索引、进行表和表之间的关联查询、按特定条件查询，并且支持对查询结果的聚合，支持事务，其不足之处在于，当数据量很大(千万级别)时，上述动作会变得特别耗时，无法满足基本的查询需求。NoSQL数据库使用起来更加灵活，不需要预定义表的结构，可以动态的扩展存储节点，支持并行的读和写，读写性能不受数据量大小的限制，其不足之处在于无法对每个字段建立索引，不支持表和表之间的关联，不支持聚合，大多数NoSQL数据库不支持事务。在本发明上述实施例中，可以根据采集到的数据类型，选择不同的数据库进行存储，可以将数据量增长迅速，数据结构要求不严格且经常变化的数据存储到NoSQL型的数据库中；将数据量增长缓慢，数据规模不大且需要进行关联统计的数据存储到SQL型数据库中。

具体的，上述的第一数据库可以是Hbase分布式数据库，Hbase支持非结构化的数据存储，并且Hbase能够通过主键(RowKey)在海量的数据仓库中直接定位到某条或者某一段数据。

在一种可选的方案中，在云端服务器对采集到的网络数据进行解析，得到解析后的网络数据之后，由于解析后的网络数据属于数据量增长迅速，数据结构要求不严格且经常变化的数据，可以将解析后的网络数据存入Hbase数据库中。

根据本发明上述实施例，服务器采集多个防火墙在运行过程中收集到的多个网络数据，对多个网络数据进行解析，得到多个解析后的网络数据，将多个解析后的网络数据存入第一数据库。容易注意到的是，由于服务器采集到的网络数据是来自防火墙的网络数据，相比于现有技术中来自局域网内部的主机和服务器的网络数据，数据更加完整和全面，解决了现有技术中的网络数据来自局域网中的主机和服务器，由于防火墙过滤掉部分网络数据，到达主机和服务器的网络数据缺失，导致数据处理的准确度低的技术问题。因此，通过本发明上述实施例提供的方案，可以达到节省传输带宽，提升平台兼容性，提高数据完整性，从而提高数据处理的准确度的效果。

可选的，在本发明上述实施例中，在服务器对多个网络数据进行解析，得到多个解析后的网络数据之前，该方法还包括：

步骤S208，服务器获取每个防火墙上传所述多个网络数据的网络地址中包含的版本号信息。

具体的，上述的网络地址可以是URL地址。

步骤S210，服务器判断是否存在与每个版本号信息对应的格式描述文件。

步骤S212，服务器如果存在与第一版本号信息对应的第一格式描述文件，则按照第一格式描述文件对第一版本号信息对应的网络数据进行解析。

此处需要说明的是，防火墙作为数据源，其自身产生的数据的结构和种类会随着时间进行更新和扩展，由此引入数据格式版本更新的问题。因为防火墙的数据源的格式更新会很频繁，每次小的更新都引入云端服务器的整体性升级，给系统开发和维护引入的成本是巨大的。

图3是根据本发明实施例的一种可选的自动扩展数据解析能力的流程图，在一种可选的方案中，如图3所示，为了解决这个问题，云端服务器可以对接收到的数据格式进行识别，防火墙数据上传的URL中可以添加数据的版本号，云端服务器可以对接收到的每个网络数据对应的URL进行解析，得到URL中包含的版本号，并判断云端服务器本地是否存在与该版本号对应的版本格式描述文件，如果存在，则确定云端服务器更新成功，可以直接按照第一格式描述文件对接收到的网络数据进行解析，并将解析后的网络数据存入Hbase数据库。

可选的，在本发明上述实施例中，如果不存在与第二版本号信息对应的版本格式描述文件，该方法还包括：

步骤S214，服务器发送上传命令至第二版本号信息对应的防火墙。

步骤S216，服务器接收第二版本号信息对应的防火墙根据上传命令返回的与第二版本号信息对应的第二格式描述文件。

步骤S218，服务器按照所述第二格式描述文件对所述第二版本号信息对应的网络数据进行解析。

在一种可选的方案中，如果不存在，则确定云端服务器需要更新，可以发送上传命令到防火墙，通知防火墙上传对应的第二格式描述文件，云端服务器在接收到第二格式描述文件之后，可以按照第二格式描述文件对接收到的网络数据进行解析，并将解析后的网络数据存入Hbase数据库。

通过上述步骤S208至步骤S218，服务器可以自动发现并识别不支持的数据格式，并发送命令至防火墙，通知防火墙将对应的格式描述文件上传，由此来完成服务器的处理能力的自动升级，解决数据格式版本更新的问题。

可选的，在本发明上述实施例中，服务器包括：负载均衡服务器和多个数据解析服务器，其中，步骤S202，服务器采集多个防火墙在运行过程中收集到的多个网络数据包括：

步骤S2020，负载均衡服务器接收多个防火墙上传的多个网络数据。

具体的，上述的负载均衡服务器可以是Nginx负载均衡器。

此处需要说明的是，服务器需要接收部署在各个区域的防火墙产生的数据，且防火墙的数量会随着时间的推移而不断发生变化，为了适应这种数据量的变化，服务器需要有完备的系统扩展能力。系统扩展能力基于负载均衡器以及负载均衡器后面挂载的、可以水平横向扩展的数据解析服务器。

在一种可选的方案中，图4是根据本发明实施例的一种可选的负载均衡服务器和数据解析服务器的示意图，如图4所示，云端服务器可以包括两个Nginx负载均衡器，两个Nginx负载均衡器可以互为备机，在主机宕机后，备机能够迅速(2s内)切换成主机，Nginx负载均衡器可以基于虚拟路由冗余协议(简称VRRP)来完成主机和备机之间的切换，具体切换流程如下：两台拥有同样配置的Nginx服务器均安装并启动Keepalived(实现了VRRP协议)服务，服务启动时两台服务器抢占同一个虚拟IP(可在Keepalived中配置)，系统对外服务的地址为该虚拟IP，所有请求都会被转发到该IP上；获得该虚拟IP的Nginx服务器会作为主机提供服务，另一台未抢占该IP的服务器作为备机；主机遇到故障服务终止时，备机会成功获得该IP，提升为主机继续提供服务。

步骤S2022，负载均衡服务器按照负载均衡原则，将多个网络数据分发给多个数据解析服务器，其中，多个数据解析服务器对多个网络数据进行解析。

在一种可选的方案中，Nginx负载均衡器的特点在于：通过HTTP Post协议接收来自数据源的数据，并且能够将收到的数据均衡的分配到其挂载的数据解析服务器上处理。数据解析服务器的特点在于：数据解析服务器彼此之间没有任何依赖关系，任何一台数据解析服务器都不依赖于其他数据解析服务器而存在；数据解析服务器的数量可以横向扩展。

此处需要说明的是，为了Nginx负载均衡器能够将网络数据上传格式描述文件至数据解析服务器，则Nginx负载均衡器可以采用ip-hash算法。

通过上述步骤S2020至步骤S2022，可自动扩展的数据解析能力使得云端和防火墙端双方的开发人员从繁琐的数据协商和兼容中解放出来，专注于其他模块的开发。

可选的，在本发明上述实施例中，服务器包括：虚拟防火墙，在步骤S2022，负载均衡服务器接收多个防火墙上传的多个网络数据之前，该方法还包括：

步骤S2024，虚拟防火墙接收多个网络数据。

步骤S2026，虚拟防火墙将多个网络数据发送至负载均衡服务器。

在一种可选的方案中，集中的数据存储和分析系统是网络中被利用和攻击的热点，所以系统的自身安全是首要需要保证的问题。图5是根据本发明实施例的一种可选的虚拟防火墙的示意图，如图5所示，为了解决上述问题，在Nginx负载均衡器前面部署虚拟防火墙，所有的数据流都先通过VFW(虚拟防火墙)防护系统。进一步地，Nginx与防火墙采用SSL双向认证算法，防火墙和云端双方在数据交互前都会确认对方的身份，只有获得了服务器认证的防火墙才可以将数据发送到服务器的数据存储系统之中；同样的，防火墙只向获得了其认可的服务器发送数据。图6是根据本发明实施例的一种可选的网络数据的双向认证的流程图，如图6所示，防火墙可以配置云端服务器地址，并发起https连接，虚拟防火墙验证云端服务器的证书是否可信，如果可信，则虚拟防火墙验证防火墙证书是否可信，如果可信，则建立云端服务器和防火墙之间的websocket长连接，在连接建立之后，防火墙和云端服务器之间可以通过虚拟防火墙发送数据。

可选的，在本发明上述实施例中，其特征在于，服务器包括：索引生成服务器和搜索服务器，其中，步骤S206，服务器将多个解析后的网络数据存入第一数据库包括：

步骤S2062，索引生成服务器按照配置文件生成每个解析后的网络数据的索引值。

步骤S2064，索引生成服务器将每个解析后的网络数据的索引值存入搜索服务器。

步骤S2066，索引生成服务器将每个解析后的网络数据存入第一数据库。

此处需要说明的是，Hbase单一的RowKey的检索方式并不能满足业务中像sql一样的条件查询，类似Hive、Pig或者Phoenix的工具虽然提供了条件查询的功能，然而其实现方式是进行全表的MapReduce或者Coprocessor运算，不但浪费计算资源，其缓慢的查询速度也不能满足数据呈现模块实时查询的需求。图7是根据本发明实施例的一种可选的Hbase数据库的示意图，如图7所示，为了解决上述问题，服务器可以包括索引生成服务器Lily和搜索服务器Solr，为Hbase表中的关键字段创建索引，通过索引的方式满足实时查询的需求。Solr是一个基于Lucien的高性能的全文搜索引擎，其主要功能包括全文检索，命中标识，动态聚类，并且Solr是高度可扩展的，并且提供了分布式搜索和索引复制的功能。Lily是Hbase到Solr生成索引的中间工具，当Hbase有数据更新时，Lily可以通过Hbase的replication功能将数据更新的操作转换成Event事件，根据这些事件，将Hbase发生跟新的数据索引到Solr中。索引的建立和搜索过程是和Hbase完全分开的，并且是异步的，因此不会影响Hbase本身的性能。

在一种可选的方案中，当网络数据需要插入Hbase时，Lily会异步的按照配置文件建立索引到Solr，利用Solr提供的数据查询接口可以快速(毫秒级)定位到要检索的字段，图8是根据本发明实施例的一种可选的网络数据的近实时查询方法的流程图，如图8所示，当客户端需要对Hbase中的网络数据进行查询时，可以发送查询条件至Solr，Solr可以快速定位到RowKey并返回给客户端，客户端可以通过拿到的RowKey到Hbase中查询，得到Hbase返回的查询结果。

可选的，在本发明上述实施例中，在步骤S206，服务器将多个解析后的网络数据存入第一数据库之后，该方法还包括：

步骤S222，服务器从第一数据库获取多个解析后的网络数据。

步骤S224，服务器对多个解析后的网络数据进行分析，得到分析结果。

步骤S226，服务器将分析结果发送至多个防火墙。

在一种可选的方案中，图9是根据本发明实施例的一种可选的数据分析引擎群的示意图，如图9所示，基于Hbase数据库的架构，服务器可以方便的建一套可扩展的、充分利用系统资源的数据分析引擎群，基于防火墙收集的网络数据，可以构建不同的分析引擎分析这些数据，得到有价值的结果供防火墙使用以加强其防护能力。数据分析引擎群可以从Hbase数据库中获取存储的网络数据，并对获取到的网络数据进行分析，得到分析结果返回至多个防火墙，从而提升防火墙的防护能力。

通过上述步骤S222至步骤S226，服务器从第一数据库获取多个解析后的网络数据，对多个解析后的网络数据进行分析，得到分析结果，将分析结果发送至多个防火墙。可以自由搭建各种分析引擎，从海量源数据中挖掘出有价值的信息，并通过云端和防火墙的协作，在防火墙之间形成知识的“传播”，一台防火墙发现威胁，所有防火墙同时获得了防护该威胁的能力。

可选的，在本发明上述实施例中，服务器包括：域名分析引擎，其中，步骤S224，服务器对多个解析后的网络数据进行分析，得到分析结果包括：

步骤S270，域名分析引擎获取每个域名信息对应的域名注册信息，其中，每个域名信息至少包括：域名和类型，类型为如下之一：第一类型、第二类型和第三类型。

具体的，上述的域名注册信息可以是whois信息，可以包括注册时间、注册人、注册地、有效时间、联系邮箱等信息，上述的域名(URL)信息可以包括域名域名(domain)和类型(type)字段，type的值为：第一类型white(安全的域名)，第二类型black(不安全的域名)和第三类型gray(安全性未知的域名)。

步骤S272，如果第一域名信息的类型为第一类型，则域名分析引擎得到第一域名信息对应的解析后的网络数据的域名分析结果为安全。

步骤S274，如果第二域名信息的类型为第二类型，则域名分析引擎得到第二域名信息对应的解析后的网络数据的域名分析结果为不安全。

步骤S276，如果第三域名信息的类型为第三类型，则域名分析引擎从第一数据库获取第一域名注册信息和第二域名注册信息，得到第三域名信息对应的解析后的网络数据的域名分析结果。

步骤S278，域名分析引擎将每个域名信息和每个域名信息对应的域名注册信息存入第一数据库。

在一种可选的方案中，数据解析服务器在将防火墙上传的URL信息存入Hbase数据库之后，域名分析引擎按type字段的值做不同的处理：对于black/white类型的域名，可以直接得到对应的域名信息结果为安全/不安全；同时可以查询black/white类型的域名的whois信息，得到该域名的注册时间、注册人、注册地、有效时间、联系邮箱等信息，然后存入数据库，这些信息可以作为对防火墙上送的gray类型域名的安全性进行判断依据。

可选的，在本发明上述实施例中，步骤S276，域名分析引擎从第一数据库获取第一域名注册信息和第二域名注册信息，得到第三域名信息对应的解析后的网络数据的域名分析结果包括：

步骤S2762，域名分析引擎获取第三域名信息对应的第三域名注册信息。

步骤S2764，域名分析引擎将第三域名注册信息与第一域名注册信息和第二域名注册信息进行匹配。

步骤S2766，如果第三域名注册信息与第一域名注册信息匹配成功，则域名分析引擎得到第三域名信息对应的解析后的网络数据的域名分析结果为安全。

步骤S2768，如果第三域名注册信息与第二域名注册信息匹配成功，则域名分析引擎得到第三域名信息对应的解析后的网络数据的域名分析结果为不安全。

在一种可选的方案中，域名分析引擎可以获取gray类型的域名的whois信息，将获取到的whois信息与Hbase中已经存在的black/white类型的域名的whois信息进行比较，如果该whois信息和white类型的域名的whois信息匹配成功，即相似度较高，则可以将gray类型修改为white类型，并确定域名分析结果为安全；如果该whois信息和black类型的域名的whois信息匹配成功，即相似度较高，则可以将gray类型修改为black类型，并确定域名分析结果为不安全。

可选的，在本发明上述实施例中，步骤S2764，域名分析引擎将第三域名注册信息与第一域名注册信息和第二域名注册信息进行匹配包括：

步骤S27642，将第三域名注册信息中的多个字段与第一域名注册信息中的多个字段和第二域名注册信息中的多个字段进行匹配。

步骤S27644，如果第三域名注册信息中的任意一个字段与第一域名注册信息中的任意一个字段匹配成功，则域名分析引擎确定第三域名信息与第一域名信息匹配成功。

步骤S27646，如果第三域名注册信息中的任意一个字段与第二域名注册信息中的任意一个字段匹配成功，则域名分析引擎确定第三域名信息与第二域名信息匹配成功。

在一种可选的方案中，域名分析引擎可以将gray类型的域名的whois信息中的每一个字段与Hbase数据库中的存在的whois信息的每个字段进行比较，如果多个white类型的域名的whois信息和此域名高度相近(注册地、注册邮箱、注册公司等一个或多个字段一致)，域名分析引擎将把该gray类型的域名标记为white；如果多个black类型的域名的whois信息和此域名高度相近(注册地、注册邮箱、注册公司等一个或多个字段一致)，域名分析引擎将把该gray类型的域名标记为black。

图10是根据本发明实施例的一种可选的域名分析引擎对网络数据进行分析的流程图，如图10所示，MapReduce Job从Hbase网络数据中提取DNS相关的domain、type，到whois查询机构查询domain对应的whois信息，判断type类型是black/white/gray，如果是black/white，则存入Hbase数据库中构建DNS样本，如果是gray，则对比Hbase数据库已经存在的black/white域名注册信息，更新样本信息，将gray更新为black/white，并存入Hbase数据库中构建DNS样本，随着时间推移，可以构建一个规模巨大的域名样本库，部署在各地的防火墙可以共享该样本库，实时查询域名的安全性并更新本地的域名黑白名单。例如，有一个gray类型的域名，其whois信息为：注册时间：2天前；注册地：Beijing；联系邮箱：aaa@bbb.com；注册公司为：companyA。经过分析，发现系统中有多个black类型的域名的whois信息和此域名高度相近(注册地、注册邮箱、注册公司等一个或多个字段一致)，域名分析引擎将把该gray类型的域名标记为black。

可选的，在本发明上述实施例中，服务器包括：云沙箱引擎，其中，步骤S224，服务器对多个解析后的网络数据进行分析，得到分析结果包括：

步骤S282，云沙箱引擎对多个可疑文件进行分析，得到每个可疑文件的文件分析结果，其中，文件分析结果用于表征可疑文件是否安全。

步骤S284，云沙箱引擎将每个可疑文件的文件分析结果存入第一数据库。

在一种可选的方案中，沙箱是发现高级威胁的一种重要手段。沙箱在虚拟环境中执行可疑文件，然后手机可以文件的行为，并对行为进行分析后，可以发现传统安全手段(AV/IPS)发现不了的高级威胁。本系统在云端构建沙箱集群，可以分析防火墙上传的可疑文件，以可疑文件的哈希值(md5)为键值(key)存储沙箱分析结果，即上述的文件分析结果，并将文件分析结果存储后推送给防火墙。云端和防火墙协作，一起完成对高级威胁的检测。

图11是根据本发明实施例的一种可选的云沙箱引擎对网络数据进行分析的流程图，如图11所示，防火墙可以设有多层过滤器，在拦截到可执行文件之后，计算文件的MD5，除按照黑白名单进行过滤外，考虑到恶意软件的特点，只有符合特定文件类型(exe，swf，office，pdf，apk，zip，rar等常见格式)、特定大小(512字节到10M之间)的可疑文件才会调用云端服务器MD5查询接口api，防火墙将md5以avro文件的格式上传到云端服务器，文件中可以包含多个待查询MD5，云端服务器可以批量查询Hbase数据库中是否存在每个MD5记录，如果不存在，上传文件到云端服务器，由云沙箱引擎进行分析，云端服务器和防火墙之间可以保持websocket长连接，可以将各个引擎的分析结果实时下发到防火墙，防火墙可以根据接收到的分析结果更新本地黑白名单，并持续上传收集到的威胁数据到云端服务器，云端服务器存储后可以进行威胁关联分析。

通过上述步骤S282至步骤S284，防火墙设置多层过滤器，只有特定的可疑文件上传到云端服务器进行分析，从而大大减少不必要的资源浪费，并且防火墙可以同时上传多个MD5，从而云端服务器可以提高查询效率。

可选的，在本发明上述实施例中，步骤S224，服务器对多个解析后的网络数据进行分析，得到分析结果包括：

步骤S291，服务器获取多个文件分析结果中的结果和域名字段。

步骤S292，所述服务器对每个域名字段进行解析，得到多个域名。

步骤S293，服务器将每个结果和每个域名进行拼接，得到多个拼接数据。

步骤S294，服务器对第一数据库中每个拼接数据的出现次数进行统计，得到每个拼接数据的总次数。

步骤S295，服务器判断每个拼接数据的总次数是否大于等于预设次数。

具体的，上述的预设次数可以根据检测需要进行设定。

步骤S296，如果任意一个拼接数据的总次数大于等于预设次数，则服务器根据拼接数据更新域名分析结果。

在一种可选的方案中，沙箱分析引擎发现的威胁中包含有result(black/white)字段和url字段，通过运行Map-Reduce程序，将这些数据聚合，找出url字段中domain部分相同的出现次数比较多的条目存储到临时文件中，另一个Map-Reduce程序读取该临时文件，根据black/white属性更新域名分析引擎存储的结果，防火墙定时通过云端提供的api来获取更新后的结果，提升自身的能力。图12是根据本发明实施例的一种可选的网络数据的关联分析的流程图，如图12所示，网络数据的关联分析具体流程如下：Job1的Map程序可以从Hbase中读取沙箱分析结果(url，result)，从url中解析出domain部分，拼接domain和result作为Job1Reduce的输入，Job1Reduce统计各个“domain_result”的次数，将次数大于一定值的domain_result输出到HDFS临时文件中，Job2的Map程序可以读取Job1输出的临时文件，解析出domain和result，更新域名分析引擎的域名分析结果，例如，可以将domain_result更新至域名分析引擎产生的域名分析结果中，防火墙可以定时获取到更新后的域名分析结果，并更新到防火墙的本地缓存。

此处需要说明的是，可以利用Hadoop的yarn框架，可以精确地控制每个Map-Reduce的Job占用的资源以及各个Job之间的相互依赖关系，在上述方案中，Job1执行完毕后才会执行Job2。Hbase域名信息表中有update_time字段，记录数据条目更新或者添加的时间，且该字段在Solr中建立索引，以快速获取某段时间内的数据。云端服务器可以向防火墙提供获取域名分析结果的接口，通过该接口防火墙可以获取任意时间段内云端服务器所添加或者更新的条目。

可选的，在本发明上述实施例中，在步骤S206，服务器将多个解析后的网络数据存入第一数据库之后，该方法还包括：

步骤S228，服务器从第一数据库获取多个威胁信息，其中，威胁信息至少包括：威胁源的地址信息、威胁目标的地址信息、威胁类型和威胁级别。

具体的，防火墙收集到的威胁信息中包含有威胁源(source)、威胁目的(target)、威胁类型(threat_type)和威胁级别(level)，基于这四个属性，通过数据解析算法，可以获取全球的威胁分布地图。

在一种可选的方案中，可以从Hbase数据库中获取多个威胁信息，并获取source和target字段以及threat_type和level等附属字段的值。

步骤S230，服务器根据地址坐标映射表，将每个威胁源的地址信息转换为每个威胁源的坐标信息，并将每个威胁目标的地址信息转换为每个威胁目标的坐标信息。

此处需要说明的是，云端服务器还可以包括第二数据库MySQL，MySQL作为关系型数据库存储具有紧密关联关系的数据，可以包括：数据呈现模块用户相关信息；数据采集模块防火墙设备的相关信息；用户和防火墙设备的关联信息；监控模块告警相关的信息。图13是根据本发明实施例的一种可选的MySQL数据库的高可用的读写分离的架构示意图，如图13所示，Mysql本身提供Replication机制，可以在多台Mysql数据库之间实现数据同步。当数据库访问特别频繁时，为了增加数据访问速度，提高Mysql的读写性能，可以采用读写分离的部署策略，且能有效解决单点故障的问题。

步骤S232，服务器根据每个威胁源的坐标信息和每个威胁目标的地址信息，生成多个主键信息。

在一种可选的方案中，可以将查询到的地理位置信息拼接成“威胁源地理位置-威胁目标地理位置”，text字串做主键，value值设为1，得到多个主键信息，其中，地理位置用“city/region/state”来表示，city、region和state均从MySQL数据库中获得。

步骤S234，服务器根据多个主键信息、每个主键信息对应的威胁类型和威胁级别，生成威胁分布地图。

在一种可选的方案中，云端服务器可以基于网络位置的威胁信息，通过前端页面将地理位置和攻击级别、攻击类型集中展示为全球地图上的威胁曲线，生成威胁分布地图。

此处需要说明的是，由于防火墙收集到的原始数据的数据量是巨大的，按每台防火墙每小时平均100条网络数据来计算，一万台防火墙一月内产生的网络数据约有一亿条。为了提升运算速度，云端服务器可以通过运行在Hadoop集群环境中的数据解析算法获取全球的威胁分布地图，Hadoop集群环境支持yarn，通过yarn来执行分布式MapReduce任务。

通过上述步骤S228至步骤S234，可以通过对网络数据中的威胁信息进行分析，生成威胁分布地图，全网的威胁地图展示对于彰显安全公司的技术能力、提升公司产品形象所带来的正面作用是巨大的，在互联网上公布这样一份数据准确的报告，供给安全管理人员来参考和分析，对于增加网络系统的安全性方面所带来的价值也是十分大的。

可选的，在本发明上述实施例中，步骤S234，服务器根据多个主键信息、每个主键信息对应的威胁类型和威胁级别，生成威胁分布地图包括：

步骤S2342，服务器对第一数据库中每个主键信息的出现次数进行统计，得到每个主键信息的威胁次数。

在一种可选的方案中，yarn框架将Mapper执行的结果进行汇总，汇总结果的主键仍然是Mapper过程里使用的：“威胁源地理位置-威胁目标地理位置”字段；汇总后的value为威胁次数的链表。各个Mapper将多个主键信息写入HDFS文件系统中，作为Reducer的数据源，由Reducer做下一步处理，Reducer可以将Mapper返回的数据进行整合，依次分析每个主键，将主键对应的威胁次数进行求和，统计出相同“威胁源地理位置-威胁目标地理位置”的威胁总数。

步骤S2344，服务器判断每个主键信息的威胁次数是否处于预设次数范围之内。

具体的，上述的预设次数范围可以根据威胁地图显示需求，以及云端服务器的运算需求进行设定。

步骤S2346，如果任意一个主键信息的威胁次数处于预设次数范围之内，则服务器将任意一个主键信息存入预设数据集合。

在一种可选的方案中，Reducer可以依据需要显示的数据量的大小要求，忽略掉次要的和数量较少的威胁路线，得到最终显示的数据集合。

步骤S2348，服务器根据预设数据集合中每个主键信息和每个主键信息对应的威胁类型和威胁级别，生成威胁分布地图。

在一种可选的方案中，云端服务器可以基于预设数据集合，通过前端页面将地理位置和攻击级别、攻击类型集中展示为全球地图上的威胁曲线，生成威胁分布地图。

此处需要说明的是，虽然原始数据是巨大的，但是经过MapReduce汇聚变成地理位置到地理位置的攻击之后，数据量会大幅变小。特别是通过统计主键的威胁次数，忽略掉相对攻击次数较少的数据，一亿条数据量会缩小成一千条以内的威胁路线。

此处需要说明的是，大多数防火墙设备本身配有用户界面(UI界面)，用以展示设备运行中产生的一些数据，其局限性在于：

1，防火墙UI呈现的数据依赖于防火墙本身有限且不可扩展的存储和计算资源，因此不能展示长时间的数据统计信息，如一段时间内流量数据的趋势图、过去几个月内耗费流量最多的主机是哪个等等。

2，防火墙只能展示其本身存储的数据，没有能力综合全网的数据进行展示，如全网的威胁分布地图。

3，防火墙UI只支持web，在当今移动互联网的背景下，对移动客户端的支持显得尤为迫切。

为了解决以上问题，同时充分发挥云端可扩展的计算和存储资源，在本发明上述实施例中，为防火墙用户提供了一套UI，涵盖web，ios和android客户端。

可选的，在本发明上述实施例中，在步骤S202，服务器采集部署在多个局域网出口的多个防火墙在运行过程中收集到的多个网络数据之前，该方法还包括：

步骤S236，服务器接收第一移动终端发送的第一登录信息。

具体的，上述的移动终端可以为是运维人员的智能手机(包括ios和android手机)、IPAD、平板电脑、掌上电脑、笔记本电脑等移动设备，运维人员的登录信息可以包括：用户名和用户密码，用户的登录信息可以存储在MySQL数据库中。

步骤S238，服务器对第一登录信息进行验证。

步骤S240，如果第一登录信息验证成功，则服务器输出与第一登录信息对应的解析后的网络数据至第一移动终端，其中，第一移动终端显示解析后的网络数据。

此处需要说明的是，云端服务器还可以包括：Redis数据库，Redis是一种既可以基于内存，又可以持久化的Key-Value存储系统。由于其直接运行于内存中，因此有非常快的读写速度，特别适合存储一些实时的，更新频繁的数据。在本发明上述实施例中，Redis可以作为缓存服务器，存储如下信息：监控模块各个防火墙设备的实时状态数据：cpu，内存，在线状态，实时流量，会话数等；数据呈现模块的用户session共享；当前在线防火墙数量，当前在线用户数等。图14是根据本发明实施例的一种可选的Redis数据库的高可用部署架构示意图，如图14所示，利用Redis本身提供Replication机制，基于VRRP协议可以实现Redis主机备机之间切换以及数据同步，有效解决单点故障的问题。

在一种可选的方案中，云端服务器可以为多种客户端提供一套统一的restful风格的接口，通过该接口，云端服务器可以接收任意一个用户的移动终端发送的登录信息，将接收到的登录信息与MySQL数据库中的登录信息进行匹配，如果匹配成功，则获取MySQL数据库中的用户和防火墙的绑定关系，根据绑定关系从Hbase数据库中获取对应的网络数据，并从Redis数据库获取对应的防火墙的状态数据，将获取到的数据返回给移动终端进行显示。

如图15所示，可以显示防火墙的CPU、内存趋势图，图中横坐标为日期，纵坐标为占用率，用户可以通过点击时间查看某一时刻的CPU、内存占用率，例如，点击11/25，可以查看到2016-11-25 15:13的CPU为3.7％，内存为27％，用户还可以选择显示时间段，例如，显示最近一个月的CPU、内存趋势；如图16所示，可以显示防火墙收集到的流量趋势，图中横坐标为日期，纵坐标为流量速度(bps)，用户还可以选择显示时间段，例如，显示最近三个月的流量趋势；如图17所示，可以显示防火墙收集到的应用流量排名，图中横坐标为应用名称，纵坐标为流量(Bytes)，用户还可以选择显示时间段，例如，显示最近一周的应用流量排名；如图18所示，可以显示防火墙收集到的用户流量排名，图中横坐标为用户的IP，纵坐标为流量(Bytes)，用户还可以选择显示时间段，例如，显示最近三个月的用户流量排名；如图19所示，可以显示用户生成的报表，在界面最上方显示报表类别名称，下方依次显示：报表类别描述、CPU、最近一个月CPU使用情况、时间段、设备、CPU趋势图、流量、最近三个月用户流量排名、时间段、设备、用户流量排名；如图20所示，图中显示移动终端的界面，界面顶部显示流量、应用和用户三个按钮，用户通过点击按钮选择查看内容，界面底部显示系统和流量两个按钮，用户通过点击按钮选择查看流量数据或者查看防火墙状态数据，当用户点击流量按钮，界面中显示新建连接20，并发连接1167，流量速率320bps，并在下方显示流量趋势图，用户以通过右上角下拉选择查看流量时间，例如，可以选择查看最近一天的流量。

通过上述步骤S236至步骤S240，云端服务器可以通过多种数据库，为移动终端提供毫秒级的数据访问速度，并呈现多种数据的历史趋势曲线图和topN排名；将防火墙用户和数据进行关联，保证用户只能浏览自己名下设备的数据，保护用户隐私；用户可以随时随地浏览防火墙设备的相关的数据；进一步还可以根据用户定制的报表模板和生成计划，方便的为用户生成pdf格式的报表文件；移动终端将防火墙收集到的数据处理后呈现到UI，以更加直观的了解当前或者过去某段时间的网络安全状况。

可选的，在本发明上述实施例中，如果第一登录信息验证成功，该方法还包括：

步骤S242，服务器接收第一移动终端发送的授权指令。

步骤S244，服务器根据授权指令对第一移动终端进行验证。

步骤S246，如果验证成功，则服务器接收第一移动终端发送的授权信息。

具体的，上述的授权信息可以是授权厂商名和授权厂商密码，云端服务器将接收到的授权信息存储至MySQL数据库中，从而可以对安全厂商进行身份验证。

步骤S248，服务器接收第二移动终端发送的第二登录信息。

具体的，上述的第二移动终端可以为是安全厂商的智能手机(包括ios和android手机)、IPAD、平板电脑、掌上电脑、笔记本电脑等移动设备。上述的登录信息可以包括：安全厂商的用户名和用户密码。

步骤S250，服务器根据授权信息对第二登录信息进行验证。

步骤S252，如果第二登录信息验证成功，则服务器输出与第二登录信息对应的第二网络数据至第二移动终端，其中，第二移动终端显示解析后的网络数据。

在一种可选的方案中，云端服务器可以接收安全厂商的移动终端发送的登录信息，将接收到的登录信息与MySQL数据库中的授权信息进行匹配，如果匹配成功，则获取MySQL数据库中的用户和防火墙的绑定关系，根据绑定关系从Hbase数据库中获取对应的网络数据，并从Redis数据库获取对应的防火墙的状态数据，将获取到的数据返回给移动终端进行显示。图21是根据本发明实施例的一种可选的运维托管服务的流程图，如图21所示，用户企业A、企业B、企业C可以购买运维托管服务，登录用户界面将设备授权给安全服务提供商S，安全服务提供商S可以登录用户界面，管理授权给自己的设备，可以设置报表生成计划，安全服务提供商S根据报表分析用户网络环境，发现优化空间，联系客户，给出解决方案。

通过上述步骤S242至S252，网络安全公司可以提供全新的服务模式，为中小企业提供专业的设备运维和网络状况分析服务，提升其网络环境的稳定性和安全性。

可选的，在本发明上述实施例中，如果第一登录信息或第二登录信息验证成功，该方法还包括：

步骤S254，服务器接收第一移动终端或第二移动终端发送的告警信息，其中，告警信息包括：至少一个防火墙和每个防火墙的告警规则；

步骤S256，服务器将告警信息存入第二数据库。

此处需要说明的是，防火墙肩负着网络安全防护的重任，必须保证7x24小时不间断健康运行，如果有防火墙运行异常，因为运维人员的疏忽或者其他原因发现的不够及时，将对用户的数据财产造成巨大的灾难。为了减小这种风险，同时增加运维工作的便利性同时提高运维效率，可以在防火墙部署设备监控模块，设备监控模块可以及时发现防火墙设备的异常状态，然后以多种方式通知运维人员。

在一种可选的方案中，运维人员可以登录UI，为自己的防火墙设备设置告警规则，例如，指定某(几)台防火墙的流量/cpu/内存值在一段连续时间内超过某个上限时产生告警信息；设备监控模块将用户编写的告警规则存入mysql数据库中，与用户和防火墙关联起来。

在另一种可选的方案中，如图21所示，安全服务提供商S可以登录UI，管理授权给自己的设备，设立告警规则和通知方式。

可选的，在本发明上述实施例中，在步骤S206，服务器将多个解析后的网络数据存入第一数据库之后，该方法还包括：

步骤S258，服务器判断接收到每个解析后的网络数据与告警信息是否匹配。

步骤S260，如果任意一个解析后的网络数据与告警信息匹配成功，则服务器发送提示信息至第一移动终端或第二移动终端。

在一种可选的方案中，防火墙设备持续以一定的间隔(1分钟)将运行状态(cpu/内存/接口流量/会话数)发送给云端服务器，云端服务器将接收到的状态数据发送给告警算法程序，告警算法异步的处理来自各个防火墙的状态数据，如果该数据命中了运维人员设置的与该防火墙相关联的告警规则，就将告警信息发送到消息队列，消息发送程序监听消息队列，有告警消息到来时，发送告警消息至运维人员的移动终端，运维人员接到告警消息后，及时查看设备状况，提早采取措施，减小或者避免数据财产的损失；如图21所示，也可以发送告警信息至安全厂商的移动终端，安全厂商收到告警信息，可以及时联系客户，解决问题。

通过上述步骤S254至步骤S260，可以对防火墙设备的cpu、内存、接口等进行不间断监控，发现异常情况时及时通知(短信、邮件、app推送)运维人员或安全厂商，减少或避免数据财产的损失。

可选的，在本发明上述实施例中，步骤S260，服务器发送提示信息至第一移动终端或第二移动终端包括：

步骤S2602，服务器对告警信息进行解析，得到预设通知方式，其中，预设通知方式包括如下之一：客户端通知、信息通知和邮件通知。

步骤S2604，服务器按照预设通知方式发送提示信息至第一移动终端或第二移动终端。

在一种可选的方案中，消息发送程序监听消息队列，有告警消息到来时，查询mysql数据库中的告警规则，从告警规则中解析出运维人员或者安全厂商设置的通知方式(app推送、短信通知、邮件通知)，根据通知方式调用第三方平台(推送平台，短信平台，邮箱服务器)将告警消息推送给运维人员或者安全厂商。

下面结合四个应用场景，对本发明上述实施例的有益效果进行详细说明。在应用场景一中，在金融行业，当某段时间内，针对国内某一个区域内的金融机构的某种类型的攻击频繁发生时，从网络攻击地图可以及时的得到这份统计数据，网络安全运维人员可以提前得到预警，预先做出安排部署，减少数据资产损失的风险。在应用场景二中，防火墙拦截了到安全性未知的域名的访问，将该域名送到云端，数据分析模块发现该域名与许多危险域名的注册信息相同，判定此域名不安全，将其加入黑名单，所有防火墙到云端更新自己的域名知识库后，获得了该信息，阻断所有到此域名的访问，大范围降低了所保护网络受到攻击的风险。在应用场景三中，某公司员工长期反应办公网络速度慢，利用本系统数据呈现模块生成近半年应用流量排名，发现一款视频软件占用流量一直很高，公司根据情况调整防火墙规则，限制该软件的流量使用后，公司的办公网络速度有了明显的改善。在应用场景四中，某些小型公司购买防火墙后，因为没有专业的运维人员，防火墙出现异常时，过很长时间或者网络受到攻击后才能发现。依托本系统数据呈现模块提供的数据可视化功能和监控模块提供的实时告警功能，网络安全服务商可以向此类公司提供运维托管服务，集中监控和管理多台防火墙设备，出现异常情况时，及时通知用户采取措施。利用丰富多样的数据统计功能，还可以定期生成报表，分析用户网络环境中存在的问题，帮助用户改善网络环境。

实施例2

根据本发明实施例，提供了一种网络数据的处理装置的实施例。

图22是根据本发明实施例的一种网络数据的处理装置的示意图，如图22所示，该装置包括：

采集模块221，用于采集多个防火墙在运行过程中收集到的多个网络数据，其中，多个防火墙部署在多个局域网出口，每个网络数据至少包括：每个防火墙的运行状态、流量数据、域名信息、可疑文件和威胁信息。

此处需要说明的是，每个防火墙在收集到可疑文件之后，可以直接将可疑文件上传云端服务器，无需对可疑文件进行格式转换。

解析模块223，用于对多个网络数据进行解析，得到多个解析后的网络数据。

存储模块225，用于将多个解析后的网络数据存入第一数据库。

实施例3

根据本发明实施例，提供了一种网络数据的处理系统的实施例。

图23是根据本发明实施例的一种网络数据的处理系统的示意图，如图23所示，该系统包括：

多个防火墙231，部署在多个局域网出口，用于在运行过程中收集多个网络数据，其中，每个网络数据至少包括：每个防火墙的运行状态、流量数据、域名信息、可疑文件和威胁信息。

具体的，上述的局域网可以是一个公司或者机构的网络的出口，部署在局域网出口的防火墙可以对内网的数据资产进行安全防护，内网的主机和服务器与互联的网络数据均通过防火墙，因此，防火墙可以收集到更为全面、完整的网络数据。上述的防火墙的运行状态可以是防火墙的cpu，内存，在线状态，实时流量，会话数等实时状态。

此处需要说明的是，每个防火墙在收集到可疑文件之后，可以直接将可疑文件上传云端服务器，无需对可疑文件进行格式转换。

服务器233，与多个防火墙具有通信关系，用于对多个网络数据进行解析，得到多个解析后的网络数据，并将多个解析后的网络数据存入第一数据库。

具体的，上述的服务器可以是云端服务器，基于云计算技术，可用的计算能力、存储能力和网络能力可以达到接近无限的可扩展性。云计算技术和大数据技术是紧密结合的，基于云计算平台提供的存储和运算能力，通过大数据分析算法可以对海量数据进行分析，提取有价值的信息。上述的第一数据库可以是Hbase分布式数据库，Hbase支持非结构化的数据存储，并且Hbase能够通过主键(RowKey)在海量的数据仓库中直接定位到某条或者某一段数据。

在一种可选的方案中，云端服务器在采集到多个网络数据之后，可以对多个网络数据进行解析，将avro格式的网络数据进行格式转换，得到原始交互数据，即上述的解析后的网络数据。在云端服务器对采集到的网络数据进行解析，得到解析后的网络数据之后，由于解析后的网络数据属于数据量增长迅速，数据结构要求不严格且经常变化的数据，可以将解析后的网络数据存入Hbase数据库中。

图24是根据本发明实施例的一种可选的网络数据的处理系统的示意图，如图24所示，整个系统分为数据采集、数据存储、数据分析、数据呈现四个主要组成部分，除此之外，还有系统安全防护、设备监控、负载均衡和消息队列几个辅助组件。系统部署在公有云上，有良好的平台兼容性，一般主流公有云服务提供商提供的基础架构服务都可以采用。

可选的，在本发明上述实施例中，服务器包括：

多个数据解析服务器，用于对多个网络数据进行解析。

负载均衡服务器，包括：主负载均衡服务器和从负载均衡服务器，其中，主负载均衡服务器和从负载均衡服务器互为备份服务器，主负载均衡服务器用于按照负载均衡原则，将多个网络数据分发给多个数据解析服务器。

具体的，上述的负载均衡服务器可以是Nginx负载均衡器。

此处需要说明的是，服务器需要接收部署在各个区域的防火墙产生的数据，且防火墙的数量会随着时间的推移而不断发生变化，为了适应这种数据量的变化，服务器需要有完备的系统扩展能力。系统扩展能力基于负载均衡器以及负载均衡器后面挂载的、可以水平横向扩展的数据解析服务器。Nginx负载均衡器的特点在于：通过HTTPPost协议接收来自数据源的数据，并且能够将收到的数据均衡的分配到其挂载的数据解析服务器上处理。数据解析服务器的特点在于：数据解析服务器彼此之间没有任何依赖关系，任何一台数据解析服务器都不依赖于其他数据解析服务器而存在；数据解析服务器的数量可以横向扩展。

在一种可选的方案中，如图4所示，云端服务器可以包括两个Nginx负载均衡器，两个Nginx负载均衡器可以互为备机，在主机宕机后，备机能够迅速(2s内)切换成主机，Nginx负载均衡器可以基于虚拟路由冗余协议(简称VRRP)来完成主机和备机之间的切换，具体切换流程如下：两台拥有同样配置的Nginx服务器均安装并启动Keepalived(实现了VRRP协议)服务，服务启动时两台服务器抢占同一个虚拟IP(可在Keepalived中配置)，系统对外服务的地址为该虚拟IP，所有请求都会被转发到该IP上；获得该虚拟IP的Nginx服务器会作为主机提供服务，另一台未抢占该IP的服务器作为备机；主机遇到故障服务终止时，备机会成功获得该IP，提升为主机继续提供服务。

此处需要说明的是，为了Nginx负载均衡器能够将网络数据上传格式描述文件至数据解析服务器，则Nginx负载均衡器可以采用ip-hash算法。

通过上述方案，可自动扩展的数据解析能力使得云端和防火墙端双方的开发人员从繁琐的数据协商和兼容中解放出来，专注于其他模块的开发。

可选的，在本发明上述实施例中，服务器包括：

虚拟防火墙，与负载均衡服务器连接，用于接收多个网络数据，并将多个网络数据发送至负载均衡服务器。

在一种可选的方案中，集中的数据存储和分析系统是网络中被利用和攻击的热点，所以系统的自身安全是首要需要保证的问题。如图5所示，为了解决上述问题，在Nginx负载均衡器前面部署虚拟防火墙，所有的数据流都先通过VFW(虚拟防火墙)防护系统。进一步地，Nginx与防火墙采用SSL双向认证算法，防火墙和云端双方在数据交互前都会确认对方的身份，只有获得了服务器认证的防火墙才可以将数据发送到服务器的数据存储系统之中；同样的，防火墙只向获得了其认可的服务器发送数据。如图6所示，防火墙可以配置云端服务器地址，并发起https连接，虚拟防火墙验证云端服务器的证书是否可信，如果可信，则虚拟防火墙验证防火墙证书是否可信，如果可信，则建立云端服务器和防火墙之间的websocket长连接，在连接建立之后，防火墙和云端服务器之间可以通过虚拟防火墙发送数据。

可选的，在本发明上述实施例中，其特征在于，服务器包括：

索引生成服务器，用于按照配置文件生成每个解析后的网络数据的索引值。

搜索服务器，与索引生成服务器连接，用于存储每个解析后的网络数据的索引值。

第一存储器，与索引生成服务器连接，用于存储每个解析后的网络数据。

此处需要说明的是，Hbase单一的RowKey的检索方式并不能满足业务中像sql一样的条件查询，类似Hive、Pig或者Phoenix的工具虽然提供了条件查询的功能，然而其实现方式是进行全表的MapReduce或者Coprocessor运算，不但浪费计算资源，其缓慢的查询速度也不能满足数据呈现模块实时查询的需求。如图7所示，为了解决上述问题，服务器可以包括索引生成服务器Lily和搜索服务器Solr，为Hbase表中的关键字段创建索引，通过索引的方式满足实时查询的需求。Solr是一个基于Lucien的高性能的全文搜索引擎，其主要功能包括全文检索，命中标识，动态聚类，并且Solr是高度可扩展的，并且提供了分布式搜索和索引复制的功能。Lily是Hbase到Solr生成索引的中间工具，当Hbase有数据更新时，Lily可以通过Hbase的replication功能将数据更新的操作转换成Event事件，根据这些事件，将Hbase发生跟新的数据索引到Solr中。索引的建立和搜索过程是和Hbase完全分开的，并且是异步的，因此不会影响Hbase本身的性能。

在一种可选的方案中，当网络数据需要插入Hbase时，Lily会异步的按照配置文件建立索引到Solr，利用Solr提供的数据查询接口可以快速(毫秒级)定位到要检索的字段，如图8所示，当客户端需要对Hbase中的网络数据进行查询时，可以发送查询条件至Solr，Solr可以快速定位到RowKey并返回给客户端，客户端可以通过拿到的RowKey到Hbase中查询，得到Hbase返回的查询结果。

可选的，在本发明上述实施例中，

服务器还用于从第一数据库获取多个解析后的网络数据，并对多个解析后的网络数据进行分析，得到分析结果。

多个防火墙还用于接收分析结果。

在一种可选的方案中，如图9所示，基于Hbase数据库的架构，服务器可以方便的建一套可扩展的、充分利用系统资源的数据分析引擎群，基于防火墙收集的网络数据，可以构建不同的分析引擎分析这些数据，得到有价值的结果供防火墙使用以加强其防护能力。数据分析引擎群可以从Hbase数据库中获取存储的网络数据，并对获取到的网络数据进行分析，得到分析结果返回至多个防火墙，从而提升防火墙的防护能力。

通过上述方案，服务器从第一数据库获取多个解析后的网络数据，对多个解析后的网络数据进行分析，得到分析结果，将分析结果发送至多个防火墙。可以自由搭建各种分析引擎，从海量源数据中挖掘出有价值的信息，并通过云端和防火墙的协作，在防火墙之间形成知识的“传播”，一台防火墙发现威胁，所有防火墙同时获得了防护该威胁的能力。

可选的，在本发明上述实施例中，服务器包括：

域名分析引擎，与第一存储器连接，用于获取每个域名信息对应的域名注册信息，如果第一域名信息的类型为第一类型，则得到第一域名信息对应的解析后的网络数据的域名分析结果为安全，如果第二域名信息的类型为第二类型，则得到第二域名信息对应的解析后的网络数据的域名分析结果为不安全，如果第三域名信息的类型为第三类型，则从第一数据库获取第一域名注册信息和第二域名注册信息，得到第三域名信息对应的解析后的网络数据的域名分析结果，并将每个域名信息和每个域名信息对应的域名注册信息存入第一数据库，其中，每个域名信息至少包括：域名和类型，类型为如下之一：第一类型、第二类型和第三类型。

可选的，在本发明上述实施例中，服务器包括：

云沙箱引擎，与第一存储器连接，用于对多个可疑文件进行分析，得到每个可疑文件的文件分析结果，并将每个可疑文件的文件分析结果存入第一数据库，其中，文件分析结果用于表征可疑文件是否安全。

在一种可选的方案中，沙箱是发现高级威胁的一种重要手段。沙箱在虚拟环境中执行可疑文件，然后收集可以文件的行为，并对行为进行分析后，可以发现传统安全手段(AV/IPS)发现不了的高级威胁。本系统在云端构建沙箱集群，可以分析防火墙上传的可疑文件，以可疑文件的哈希值(md5)为键值(key)存储沙箱分析结果，即上述的文件分析结果，并将文件分析结果存储后推送给防火墙。云端和防火墙协作，一起完成对高级威胁的检测。

通过上述方案，防火墙设置多层过滤器，只有特定的可疑文件上传到云端服务器进行分析，从而大大减少不必要的资源浪费，并且防火墙可以同时上传多个MD5，从而云端服务器可以提高查询效率。

可选的，在本发明上述实施例中，服务器还包括：

关联分析引擎，与域名分析引擎和云沙箱引擎连接，用于获取多个文件分析结果中的结果和域名字段，对每个域名字段进行解析，得到多个域名，将每个结果和每个域名进行拼接，得到多个拼接数据，对第一数据库中每个拼接数据的出现次数进行统计，得到每个拼接数据的总次数，判断每个拼接数据的总次数是否大于等于预设次数，如果任意一个拼接数据的总次数大于等于预设次数，则根据拼接数据更新域名分析结果。

具体的，上述的预设次数可以根据检测需要进行设定。

可选的，在本发明上述实施例中，服务器还包括：

威胁地图生成服务器，与第一存储器连接，用于从第一数据库获取多个威胁信息，根据地址坐标映射表，将每个威胁源的地址信息转换为每个威胁源的坐标信息，并将每个威胁目标的地址信息转换为每个威胁目标的坐标信息，根据每个威胁源的坐标信息和每个威胁目标的地址信息，生成多个主键信息，根据多个主键信息、每个主键信息对应的威胁类型和威胁级别，生成威胁分布地图，其中，威胁信息至少包括：威胁源的地址信息、威胁目标的地址信息、威胁类型和威胁级别。

在一种可选的方案中，可以从Hbase数据库中获取多个威胁信息，并获取source和target字段以及threat_type和level等附属字段的值。

此处需要说明的是，云端服务器还可以包括第二数据库MySQL，MySQL作为关系型数据库存储具有紧密关联关系的数据，可以包括：数据呈现模块用户相关信息；数据采集模块防火墙设备的相关信息；用户和防火墙设备的关联信息；监控模块告警相关的信息。如图13所示，Mysql本身提供Replication机制，可以在多台Mysql数据库之间实现数据同步。当数据库访问特别频繁时，为了增加数据访问速度，提高Mysql的读写性能，可以采用读写分离的部署策略，且能有效解决单点故障的问题。

在一种可选的方案中，MySQL数据库中存放有全球的IP段到地理位置的映射表，基于MySQL能够快速查询到某个IP对应到的国家、地区、城市和坐标信息。原始威胁信息里仅有威胁源和威胁目标的IP数据以及其他跟威胁相关的属性信息，而威胁地图需要的是地理位置坐标信息，因此，云端服务器可以将source和target的值通过MySQL数据库过滤查询得到其对应的地理坐标和城市信息，得到对应的坐标信息。可以将查询到的地理位置信息拼接成“威胁源地理位置-威胁目标地理位置”，text字串做主键，value值设为1，得到多个主键信息，其中，地理位置用“city/region/state”来表示，city、region和state均从MySQL数据库中获得，云端服务器可以基于网络位置的威胁信息，通过前端页面将地理位置和攻击级别、攻击类型集中展示为全球地图上的威胁曲线，生成威胁分布地图。

通过上述方案，可以通过对网络数据中的威胁信息进行分析，生成威胁分布地图，全网的威胁地图展示对于彰显安全公司的技术能力、提升公司产品形象所带来的正面作用是巨大的，在互联网上公布这样一份数据准确的报告，供给安全管理人员来参考和分析，对于增加网络系统的安全性方面所带来的价值也是十分大的。

此处需要说明的是，大多数防火墙设备本身配有用户界面(UI界面)，用以展示设备运行中产生的一些数据，其局限性在于：

1、防火墙UI呈现的数据依赖于防火墙本身有限且不可扩展的存储和计算资源，因此不能展示长时间的数据统计信息，如一段时间内流量数据的趋势图、过去几个月内耗费流量最多的主机是哪个等等。

2、防火墙只能展示其本身存储的数据，没有能力综合全网的数据进行展示，如全网的威胁分布地图。

3、防火墙UI只支持web，在当今移动互联网的背景下，对移动客户端的支持显得尤为迫切。

为了解决以上问题，同时充分发挥云端可扩展的计算和存储资源，在本发明上述实施例中，为防火墙用户提供了一套UI，涵盖web，ios和android客户端。

可选的，在本发明上述实施例中，所述系统还包括：

第一移动终端，用于发送第一登录信息。

服务器，与第一移动终端具有通信关系，还用于对第一登录信息进行验证，如果第一登录信息验证成功，则输出与第一登录信息对应的解析后的网络数据至第一移动终端。

此处需要说明的是，云端服务器还可以包括：Redis数据库，Redis是一种既可以基于内存，又可以持久化的Key-Value存储系统。由于其直接运行于内存中，因此有非常快的读写速度，特别适合存储一些实时的，更新频繁的数据。在本发明上述实施例中，Redis可以作为缓存服务器，存储如下信息：监控模块各个防火墙设备的实时状态数据：cpu,内存，在线状态，实时流量，会话数等；数据呈现模块的用户session共享；当前在线防火墙数量，当前在线用户数等。如图14所示，利用Redis本身提供Replication机制，基于VRRP协议可以实现Redis主机备机之间切换以及数据同步，有效解决单点故障的问题。

第一移动终端还用于显示解析后的网络数据。

通过上述方案，云端服务器可以通过多种数据库，为移动终端提供毫秒级的数据访问速度，并呈现多种数据的历史趋势曲线图和topN排名；将防火墙用户和数据进行关联，保证用户只能浏览自己名下设备的数据，保护用户隐私；用户可以随时随地浏览防火墙设备的相关的数据；进一步还可以根据用户定制的报表模板和生成计划，方便的为用户生成pdf格式的报表文件；移动终端将防火墙收集到的数据处理后呈现到UI，以更加直观的了解当前或者过去某段时间的网络安全状况。

可选的，在本发明上述实施例中，

第一移动终端还用于发送授权信息授权指令。

服务器还用于根据授权指令对第一移动终端进行验证。

第一移动终端还用于发送授权信息。

具体的，上述的授权信息可以是授权厂商名和授权厂商密码，云端服务器将接收到的授权信息存储至MySQL数据库中，从而可以对安全厂商进行身份验证。

该系统还包括：第二移动终端，与服务器具有通信关系，用于发送第二登录信息。

服务器，与第二移动终端具有通信关系，还用于根据授权信息对第二登录信息进行验证，如果第二登录信息验证成功，则输出与第一登录信息对应的第二网络数据至第二移动终端。

第二移动终端还用于解析后的网络数据。

在一种可选的方案中，云端服务器可以提供一种全新的服务模式，运维托管服务，该服务旨在解决针对广大中小型企业对网络环境和安全性和稳定性有迫切的需求却又缺乏专业的网络安全运维人员的问题。存在此问题的用户可以在UI界面上，发送授权指令给与云端服务器，云端服务器对该用户进行验证，判断该用户是否购买过运维托管服务，如果购买过，则验证成功，用户发送授权信息给云端服务器，将设备一键授权给安全厂商。云端服务器可以接收安全厂商的移动终端发送的登录信息，将接收到的登录信息与MySQL数据库中的授权信息进行匹配，如果匹配成功，则获取MySQL数据库中的用户和防火墙的绑定关系，根据绑定关系从Hbase数据库中获取对应的网络数据，并从Redis数据库获取对应的防火墙的状态数据，将获取到的数据返回给移动终端进行显示。如图21所示，用户企业A、企业B、企业C可以购买运维托管服务，登录用户界面将设备授权给安全服务提供商S，安全服务提供商S可以登录用户界面，管理授权给自己的设备，可以设置报表生成计划，安全服务提供商S根据报表分析用户网络环境，发现优化空间，联系客户，给出解决方案。

通过上述方案，网络安全公司可以提供全新的服务模式，为中小企业提供专业的设备运维和网络状况分析服务，提升其网络环境的稳定性和安全性。

可选的，在本发明上述实施例中，如果第一登录信息或第二登录信息验证成功，服务器还用于接收第一移动终端或第二移动终端发送的告警信息，将告警信息存入第二数据库，其中，告警信息包括：至少一个防火墙和每个防火墙的告警规则。

在另一种可选的方案中，如图21所示，安全服务提供商S可以登录UI，管理授权给自己的设备，设立告警规则和通知方式。

可选的，在本发明上述实施例中，该服务器包括：

设备监控装置，用于判断接收到每个解析后的网络数据与所述告警信息是否匹配，如果任意一个解析后的网络数据与所述告警信息匹配成功，则所述服务器发送提示信息至所述第一移动终端或所述第二移动终端。

通过上述方案，可以对防火墙设备的cpu、内存、接口等进行不间断监控，发现异常情况时及时通知(短信、邮件、app推送)运维人员或安全厂商，减少或避免数据财产的损失。

可选的，在本发明上述实施例中，设备监控装置还用于对告警信息进行解析，得到预设通知方式，按照预设通知方式发送提示信息至第一移动终端或第二移动终端，其中，预设通知方式包括如下之一：客户端通知、信息通知和邮件通知。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高扬
技术所有人：山石网科通信技术有限公司
我是此专利的发明人

上一篇：一种信息系统风险评估方法及装置与流程
上一篇：攻击事件的过滤方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。