一种基于非结构化实时数据库的安全管理运维服务平台的制作方法

文档序号:9818302阅读:555来源:国知局
一种基于非结构化实时数据库的安全管理运维服务平台的制作方法
【技术领域】
[0001]本发明涉及信息安全应用技术领域,尤其涉及非结构化实时数据库的安全管理运维平台架构的方法与系统。
【背景技术】
[0002]本发明中包含的英文简称如下:
SSD:Solid State Drives固态硬盘 ID: identificat1n标识
SPL: Search Processing Language搜索处理语言
ETL:Extract, Transform and Load提取、转换和加载技术
SOC:Security Operat1n Center安全管理中心
IDS: Intrus1n Detect1n Systems入侵检测系统
MIS:Management Informat1n System管理信息系统
DMZ:demilitarized zone隔离区、或非军事化区
APP: Applicat 1n 应用程序
SNMP:Simple Network Management Protocol简单网络管理协议 HDFS:Hadoop Distribute File System Hadoop分布式文件系统 ODBC:Open Database Connectivity开放数据库互连 WMI:ffindows Management Instrumentat1n Windows管理规范 OPSEC:Open Platform for Security安全开放平台 NAS: Network Attached Storage网络附属存储
SAN:Storage Area Network and SAN Protocols存储区域网络及其协议 IBM: Internat1nal Business Machines Corporat1n国际商业机器公司 MQ:Message Queue消息队列。
[0003]安全生产历来是保障各项工作有序开展的前提,也是考核各级领导干部的否决指标。网络及信息安全运维体系是各类企业安全生产工作的重要组成部分。保障网络高效稳定地运行,是企业一切市场经营活动和正常运作的基础。
[0004]随着各类企业信息系统的建设和完善,有效地提高了劳动生产率,降低了运营成本。一旦企业各业务系统出现安全事件、或发生故障、或形成性能瓶颈,不能及时发现、及时处理、及时恢复,势必直接导致承载在其上所有业务的运行,影响企业的正常运营秩序,企业业务不能正常开展。因此,对于政府和企业IT基础实施的安全保障就显得格外重要。
[0005]随着政府和企业信息化程度不断提高。各业务系统间联系越来越密切,数据交换越来越频繁,各系统有着复杂网络或逻辑连接,存在大量数据交换,甚至一个故障可以引发成为企业全网故障,一点或一种业务系统出现漏洞感染病毒或受到攻击,将迅速波及其它业务系统及网络,甚至导致企业全网瘫痪。
[0006]企业IT系统产生了丰富的日志数据,随着存储设备成本的降低,没有理由丢弃这些数据,然而,缺乏相应的分析工具来存储和关联这些异构的日志数据,使得进行大数据分析更为艰难,主要表现在以下几个方面:
1、日志数据的时间特性和异构特性,使得传统的SQL结构化数据库难以适合。
[0007]传统数据库存储的信息,只是表示某种状态。具体地说,在某个时间点上的真实世界或虚拟对象的一个快照。例如,库存、机票预订和公司员工信息。再者,一方面,这些数据量是受限的,例如,公司员工信息库不可能超过70亿条记录,因为没有哪一家公司的员工人数超过70亿。此外,数据库中的每个记录都有一组属性(例如,姓名、地址、工资、性别、出生年月)。尽管每个记录的属性不同,但是,这些记录属性的集合不能超出传统数据库设计的上限。因此,这样的数据被称为结构化数据。结构化数据的分析技术已经相当地成熟,有许多非常专业的分析工具。基于传统SQL关系数据库非常适合结构化数据。
[0008]相比之下,大多数设备产生的日志数据,例如,syslog、web server日志,都是一些非结构化的文本文件。虽然文本文件可能隐含着松耦合,但是,各种不同的设备所产生的曰志文件可能不同,并且还会频繁地变化,甚至是设想不到的意外变化。通常,这种类型的数据代表了一个完整的事件的历史,而不是一个时间快照。因此,设备生成的日志文件的数据量,通常要比结构化数据大几个数量级。此外,每个记录具有一个共同的属性:事件发生时间。因此,传统的分析技术不再适合像日志那样的数据。在过去,尽管日志包含非常有用的信息,但是,很少对这些日志进行分析,并经常被删除以释放存储空间。
[0009]2、时间是异构数据源的最佳关联器。
[0010]企业的IT基础实施的成千上万的软件组件(数据源),产生了数以万计的不同类型的日志数据。由于这些数据的非结构化性质,没有通常所说的唯一标识(或ID),以区别各种不同的日志,以通过日志的唯一标识来进行关联分析。然而,每个事件发生的时间,这个时间是唯一可以用来进行关联各类非结构化日志数据。传统的关系数据库语义没有这个时间关联的功能,因为不同设备很少产生时间完全相同的日志。
[0011]3、时间是重要的特性。
[0012]除了时间是非结构化数据最好的关联词之外,时间对于数据管理和查询优化也是非常必要的。关联分析往往涉及到被限制在一个特定时间范围内的数据,而不是所有的数据。此外,从最近的时间范围内的数据,通常比它之前的数据,优先级要高。因此,优化最近的数据很重要。虽然现在存储成本在下降,使得存储TB级数据(甚至PB级数据)较之以前要经济一些,但是,快速存储技术,如SSD,还是昂贵。因此,一个动态数据的存储应该优先考虑将最近的数据存储在诸如SSD快速磁盘上,而将较之以前的数据存储到更便宜的存储设备上。传统数据库很容易存储时间,但是,当存储记录时,其时间根本不被考虑,这样使得很难分析和优化最近的数据。如果数据能够通过时间来切分,则对某一段时间范围的分析是非常高效的。
[0013]为此,如何利用信息化手段提高企业安全管理运维效益,优化企业信息安全管理运维服务,使得它能够为各类企业提供专业的和高性能的信息安全运维管理服务,即成为尤其是信息安全管理运维设计上必须要解决的一个重要课题。

【发明内容】

[0014]本发明在分析了上述各类企业信息安全管理运维服务平台的缺陷和不足之后,提出了一种基于半结构化实时数据库的安全管理运维服务平台。
[0015]本发明的核心思想是:构建一个非结构化实时数据库,存储文本格式的日志信息。
[0016]所述非结构化实时数据库,存储的日志信息,其字段包括但不限于:时间(time),即事件发生的时间;唯一标识符(ID),即与事件相关的标识,例如,事务ID(Transact1nid)、用户ID(user id)、产品(Product id)和消息ID(Message id);源IP(Source_IP);源端口号(Source_Port);目标IP(Dest_IP);目标端口号(Dest_Port);事件类型(SourceType);主机(Host);事件描述(Event Text)。
[0017]所述日志信息字段,可以实现不同设备之间的事件关联。
[0018]优选地,可以按照时间范围存储日志信息,或以分片方式存储日志信息。
[0019]优选地,索引和存储日志信息的分片,保存多个副本。
[0020]本专利针对目前技术方案中存在的主要问题而提供了一种高性能的大数据查询的方法及装置,具有适应以下IT运营的特征:
(I)变化是不可预测的
设备的上线和下线,是动态变化的,甚至是不可预测的。因此,新的设备的日志信息也会与已有设备的日志格式不一样,采用传统数据库存储这样的日志,需要事先对日志数据格式进行分析,这样,非常费时、费力,简直是不可能的。
[0021](2)软件和硬件升级是不可避免的
组件需要定期的升级和/或重新配置,为了设备升级和系统扩容。例如,IPv4向IPv6升级。因此,升级之后的设备的日志信息也会与未升级设备的日志格式不一样,采用传统数据库存储这样的日志,需要事先对日志数据格式进行分析。这样,也是非常费时、费力,也简直是不可能的。
[0022](3)故障不可避免
硬件的服务年限、软件的BUG,以及误操作和安全攻击,因此,故障不可能彻底消灭,但是应该尽可能快地检测到,并将损失降低到最小。
[0023]
【附图说明】
[0024]图1为本发明所述的一种基于非结构化实时数据库的安全管理运维服务平台的MapReduce应用场景示意图;
图2为本发明所述的一种基于非结构化实时数据库的安全管理运维服务平台的存储框架示意图。
【具体实施方式】
[0025]下面是根据附图和实例对本发明的进一步详细说明:
从各种设备生成的非结构化格式的数据,转化成传统关系数据库那样要求的结构化数据,已有的技术是通过数据抽取来实现的(即ETL),一种提取、转换和加载技术。这种工具对于分析由各种设备产生的数据是存在问题的。要求使用ETL工具抽取数据的设计者们必须熟悉全部数据格式才能正确地完成数据抽取的任务。这样的预假设是不可行的,理由有如下二点:许多企业的IT系统从没有所存储数据的完整目录,要抽取以前从未见过的数据就存在困难了。其次,在大型系统中的数据量是非常之大,正确地提取它们往往是不切实际的。
[0026]通过采用非结构化的实时数据库,这些问题在很大程度上是可以避免的,发现新数据时,只需要添加一个新的解析规则;可能解析数据的方法有多种。
[0027]另一个常见的问题时,使用传统的关系数据库存储设备产生的实时数据时定义“保留”策略,这个无论是从存储的角度、法律和合规性方面,是非常重要的;然而,这种方法仍然需要事先对设备产生数据的了解。
[0028]基于Hadoop/Spark的大数据分析平台,Apache Hive提
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1