一种多源异构监测数据的标准化采集系统的制作方法

文档序号:17257675发布日期:2019-03-30 09:27阅读:229来源:国知局
本发明涉及网络信息安全
技术领域
:,尤其涉及一种多源异构监测数据的标准化采集系统。
背景技术
::信息安全领域的数据源根据类型的不同,包括结构化数据,非结构化数据和半结构化数据,数据采集方式主要通过syslog和flow技术进行采集,对于大量多源异构数据源,采用前置探针,对数据进行集中收集、规范化等工作,将数据整合后统一发送到大数据应用系统,应用系统将根据安全事件之间的相关性,进行关联分析,得到更为准确的监测信息,发现攻击源。基于知识库多源异构数据的采集需求定义规则是对用户需求描述的限定规则,只要按照给定的规则进行描述,解析器就能正确地完成需求的解析;可视化工具是提供给安全管理用户的一个需求描述生成工具,安全管理用户可以很容易地在工具的帮助下完成需求的描述并自动生成需求描述文档;知识库按照确定的格式保存各数据库的基本信息、相关知识及异构解决方案等;推理机在需求解析、分解和优化的过程中,结合知识库完成一些推理工作;包装器和分发器分别完成执行任务的包装和分发;整合引擎完成各子系统反馈的处理结果的整合。对于半结构化和非结构化的数据,将进行统一管理。该异构数据库访问服务平台能集成当前主流的数据的结构化数据,还必须能集成部分半结构化和非结构化数据。对于数据库的集成,只需提供数据库的基本信息,并在知识专家的帮助下,对数据库的异构问题进行归纳与抽取,找到解决方案,并对信息进行加工,按照统一的标准,融入知识库主要的技术设计分为数据采集、安全数据中心、分析处理和呈现层。现有技术中对监测数据采集的报道较多,cn107770290a的专利公开了一种多源异构数据快速采集系统,通过数据采集单元进行数据采集,采集的数据通过数据清洗单元进行数据清洗,数据处理单元进行数据规格化,将整理后的数据传输到云端服务器,以供用户访问使用,用户通过应用服务器访问云端存储服务器,访问过程通过安全认证单元加密认证,保障了云端存储的数据的安全,同时数据处理单元与云端存储服务器之间采用断点续传的传输方式,保障的数据的完整性,但是,经研究发现,该发明不能对采集到的信息进行初步处理,不利于提升工作效率。cn107463137a的专利公开了一种多源异构数据一体化同步采集设备及其方法,能为大型工程安全监测提供可靠的数据支撑,而且能屏蔽信息系统的异构性和数据表示方式的差异性,将不同系统中的数据通过各种技术手段进行无缝连接,给用户提供透明、便捷的访问方式,获得各所需的有信息,但是研究发现该发明结构复杂,不方便工作人员使用。cn107995444a的专利公开了一种面向工业生产的通用异构数据采集装置及方法,本发明组成一个从数据采集、数据处理和数据库建立的单一数据节点,并且,本装置的服务器部分充分发挥了互联网的优势,在横向将多套设备和采集装置组成的数据节点连接成了完整的参数采集和过程回溯的数据节点网络,大大提高了大规模生产产品质量监控的效率。但是经研究发现,该发明获取数据较为单一,不利于后期分析。综上所述,如何利用大数据分析技术架构,统一收集、存储和分析安全设备、网络设备、业务系统及网络流量数据,结合安全场景建模实现数据深度挖掘,采集到更多更详尽的数据,使混杂在海量数据下的网络攻击的蜘丝马迹显露原形,为追查网络攻击提供可靠依据,是目前的主要问题,我们提出了一种多源异构监测数据的标准化采集系统,用来解决上述问题。技术实现要素:基于
背景技术
:存在的技术问题,本发明提出了一种多源异构监测数据的标准化采集系统。本发明提出的一种多源异构监测数据的标准化采集系统,包括用于接受外界信息并进行存储和处理的业务主机模块、用于对数据进行采集的采集探针模块,所述业务主机模块包括server端模块和主机信息数据模块,所述采集探针模块包括业务层模块、框架层模块、底层基础库模块、应用程序管理模块和监控模块,所述业务层模块包括插件1模块、插件2模块和脚本任务模块,所述框架层模块包括插件管理模块、线程池模块、消息机制模块、定时器模块、脚本执行引擎模块和脚本扩展模块,所述脚本任务模块与脚本执行引擎模块连接,且脚本执行引擎模块和脚本扩展模块连接,所述底层基础库模块包括日志模块、脚本模块、加解密模块、网络模块、本地数据库模块和配置模块,所述本地数据库模块连接有数据库模块和table表模块,所述table表模块连接有预处理脚本模块,所述配置模块连接有配置文件,所述应用程序管理模块包括安装模块、升级模块、卸载模块和调试模块,所述监控模块包括资源监控模块、状态上报模块、线程监控模块、降级机制模块、故障上报模块和自动启动模块。优选地,所述预处理脚本模块包括原始数据关键字/标签(tag)自动分析模块,所述原始数据关键字/标签(tag)自动分析模块包括过滤规则模块、去重规则模块和编排规则模块,所述过滤规则模块、去重规则模块和编排规则模块共同连接有文件格式批量转换模块,所述文件格式批量转换模块连接有传输队列模块。优选地,所述原始数据包括结构化数据和非结构化数据,所述结构化数据和非结构化数据共同包括有传统物理主机、公有云主机、idc、私有云主机、其他虚拟化环境。优选地,所述结构化数据包括主机名、操作系统类型、主机ip、主机账号、主机配置和漏洞信息。优选地,所述非结构化数据包括运行的服务、安装的软件、运行的进程、web服务、web目录、操作指令、主机发现数据、syslog日志、文件二进制数据和网络连接数据。优选地,所述主机信息数据模块包括进程、端口、账号、中间件、数据库、大数据组件、web应用、web框架、web站点、各类主机日志、入侵信息和风险信息。优选地,所述本地数据库模块用于保存采集指令脚本以及部分本地缓存数据。优选地,所述网络模块封装过了网络连接的接口信息。优选地,所述加解密模块实现采集的数据发送至server端模块的传输加密。优选地,所述日志模块是指采集探针的运行、安装、错误信息的日志记录。本发明中,将采集探针和业务主机的server端进行连接,通过控制台自动发布指令至采集探针,采集探针调度的脚本任务进行数据采集,采集探针通过脚本执行引擎执行脚本任务进行原始数据采集,作为数据源的结构化数据,通过脚本提取结构化的源数据,进行简单的格式化处理,而对于非结构化数据,如主机机器运行信息数据,由于网络连接、应用程序或部分网站代码是动态变化的,没有统一的数据结构,是无法通过上面的方式自动生成代码块的,但是还可以通过定制脚本接口的方式生成适应分析处理的数据格式,这种情况下,只能针对每类不同的机器数据信息进行预处理规则的定制开发脚本扩展模块方便工作人员对脚本进行扩展和修改,从而提升脚本任务执行的质量和效率,采集的原始数据缓存到本地数据库的table表中并加入数据预处理队列,预处理队列通过关键字/标签(tag)自动分析对原始数据进行标记,同时利用预处理脚本中的过滤规则、去重规则、编排规则对原始数据格式进行重新定义编排,最后运用文件格式批量转换技术,对大量文件的快速转换,转换为标准的json格式数据,加入传输队列,传输至服务端java服务。与现有技术相比,本发明的有益效果是:1、解决安全运维难题,满足数据全面收集的需求,以及方便分析和展示,为追查网络攻击提供可靠依据,无需启用任何监听端口,数据采集过程中采集探针对占用的所在主机资源消耗严格控制,完全不影响操作系统;2、基于安全场景建模的技术,借助大数据分析技术和海量数据支撑,实现对隐藏异常的监测,形成基于大数据分析和安全场景建模的异常监测体系,完善信息安全监控体系,提升网络综合防护能力和风险处置效率;本发明能对原始数据进行全面高效的采集,并能原始数据进行预处理,借助大数据分析技术和海量数据支撑,实现对隐藏异常的监测,有助于完善信息安全监控体系,提升网络综合防护能力和风险处置效率,且数据采集过程中完全不影响操作系统。附图说明图1为本发明提出的一种多源异构监测数据的标准化采集系统的客户端采集探针框架框图;图2为本发明提出的一种多源异构监测数据的标准化采集系统的采集数据预处理程序框图;图3为本发明提出的一种多源异构监测数据的标准化采集系统的预处理脚本框图;图4为本发明提出的一种多源异构监测数据的标准化采集系统的框图;图5为本发明提出的一种多源异构监测数据的标准化采集系统的原始数据框图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。参照图1-5,本发明提出的一种多源异构监测数据的标准化采集系统,包括用于接受外界信息并进行存储和处理的业务主机模块、用于对数据进行采集的采集探针模块,业务主机模块包括server端模块和主机信息数据模块,主机信息数据模块包括进程、端口、账号、中间件、数据库、大数据组件、web应用、web框架、web站点、各类主机日志、入侵信息和风险信息,数据采集需先在业务主机上安装1个轻量级采集探针,可通过采集探针深度采集主机的数据信息,覆盖不同类型主机机器信息数据,采集探针仅与server端保持连接即可,无需启用任何监听端口,运行在系统ring3级别,数据采集过程中采集探针对占用的所在主机资源消耗严格控制,完全不影响操作系统;采集探针模块包括业务层模块、框架层模块、底层基础库模块、应用程序管理模块和监控模块,业务层模块包括插件1模块、插件2模块和脚本任务模块,服务前端平台与采集探针之间的直接任务交互,采用多插件的管理机制,不同插件实现不同功能,包括监控和调度功能;框架层模块包括插件管理模块、线程池模块、消息机制模块、定时器模块、脚本执行引擎模块和脚本扩展模块,脚本任务模块与脚本执行引擎模块连接,且脚本执行引擎模块和脚本扩展模块连接,也成为采集调度中心,接收来自上层下发的采集任务,并对采集线程进行性能控制,管理消息队列,同时执行用于信息采集的扩展脚本(不在本地数据库中存储的脚本,主要来自平台手动下发执行的脚本命令),调度中心配备自身的定时器,通过定时器策略机制执行预定义的采集任务;底层基础库模块包括日志模块、脚本模块、加解密模块、网络模块、本地数据库模块和配置模块,本地数据库模块用于保存采集指令脚本以及部分本地缓存数据,网络模块封装过了网络连接的接口信息,加解密模块实现采集的数据发送至server端模块的传输加密,日志模块是指采集探针的运行、安装、错误信息的日志记录,主要是采集探针的核心基础,配置文件可对探针配置进行更改,主要是控制日志输出和性能占用的作用,数据采集指令脚本采用自研api进行封装,主要执行主机数据的采集任务,同时负责采集数据的预处理工作,预处理为json格式的数据;本地数据库模块连接有数据库模块和table表模块,table表模块连接有预处理脚本模块,预处理脚本模块包括原始数据关键字/标签(tag)自动分析模块,原始数据关键字/标签(tag)自动分析模块包括过滤规则模块、去重规则模块和编排规则模块,过滤规则模块、去重规则模块和编排规则模块共同连接有文件格式批量转换模块,文件格式批量转换模块连接有传输队列模块,采集探针通过执行脚本进行原始数据采集,采集的原始数据缓存到本地数据库的table表中并加入数据预处理队列,预处理队列通过关键字/标签(tag)自动分析对原始数据进行标记,同时利用预处理脚本中的过滤规则、去重规则、编排规则对原始数据格式进行重新定义编排,最后运用文件格式批量转换技术,对大量文件的快速转换,转换为标准的json格式数据,加入传输队列,传输至服务端java服务;原始数据包括结构化数据和非结构化数据,结构化数据和非结构化数据共同包括有传统物理主机、公有云主机、idc、私有云主机、其他虚拟化环境,结构化数据包括主机名、操作系统类型、主机ip、主机账号、主机配置和漏洞信息,作为数据源的结构化数据,通过脚本提取结构化的源数据,进行简单的格式化处理,如正则、类型匹配等提取数据的代码块,并将该部分代码块包装成json格式的标准化数据,存放于待发送区,进行发送。该操作过程,应对一个已知标准格式数据处理相对比较简单,但是如果涉及到应用或软件是独立开发的情况时,就会复杂的多;非结构化数据包括运行的服务、安装的软件、运行的进程、web服务、web目录、操作指令、主机发现数据、syslog日志、文件二进制数据和网络连接数据,对于主机机器运行信息数据,由于网络连接、应用程序或部分网站代码是动态变化的,没有统一的数据结构,是无法通过上面的方式自动生成代码块的,但是还可以通过定制脚本接口的方式生成适应分析处理的数据格式,这种情况下,只能针对每类不同的机器数据信息进行预处理规则的定制开发;配置模块连接有配置文件,应用程序管理模块包括安装模块、升级模块、卸载模块和调试模块,主要做对主机上探针的卸载、安装、升级、调试等进行管理,监控模块包括资源监控模块、状态上报模块、线程监控模块、降级机制模块、故障上报模块和自动启动模块,主要用于对采集探针自身的性能监控,针对运行状态、内存占用、cpu占用等,内存、cpu占用过高采集探针可进行自动降级运行,甚至是停止运行,不影响主机的正常业务系统,采集探针与server端之间日常运行的心跳数据和监控自身状态的数据传输率在每秒1kb-2kb,传输峰值10kbps左右,平均每天每台agent传输6mb左右的数据,对于业务情况复杂的服务器,大概在20mb左右,采集探针与server端之间的数据传输采用私有加密协议。本发明中,将采集探针和业务主机的server端进行连接,通过控制设备自动发布指令至采集探针,采集探针调度的脚本任务进行数据采集,采集探针通过脚本执行引擎执行脚本任务进行原始数据采集,作为数据源的结构化数据,通过脚本提取结构化的源数据,进行简单的格式化处理,而对于非结构化数据,如主机机器运行信息数据,由于网络连接、应用程序或部分网站代码是动态变化的,没有统一的数据结构,是无法通过上面的方式自动生成代码块的,但是还可以通过定制脚本接口的方式生成适应分析处理的数据格式,这种情况下,只能针对每类不同的机器数据信息进行预处理规则的定制开发脚本扩展模块方便工作人员对脚本进行扩展和修改,从而提升脚本任务执行的质量和效率,采集的原始数据缓存到本地数据库的table表中并加入数据预处理队列,预处理队列通过关键字/标签(tag)自动分析对原始数据进行标记,同时利用预处理脚本中的过滤规则、去重规则、编排规则对原始数据格式进行重新定义编排,最后运用文件格式批量转换技术,对大量文件的快速转换,转换为标准的json格式数据,加入传输队列,传输至服务端java服务。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1