一种业务数据的审计和深度分析系统及其方法

文档序号:7780758
一种业务数据的审计和深度分析系统及其方法
【专利摘要】本发明公开了一种业务数据的审计和深度分析系统及其方法,所述系统包括网络接收单元,用以接收网络数据包;处理单元,接收网络数据包以形成包括请求人、请求时间、目标系统以及业务数据的元数据,根据业务信息提取规则提取业务信息;根据关联分析知识对业务信息进行关联分析;对提取规则库和关联分析知识库进行维护;所述方法包括构建包括业务信息提取规则和业务信息的知识库;接收网络数据包,提取元数据并存入知识库;根据元数据读取提取规则;根据提取规则提取业务信息。本发明的有益效果为:通过不同的业务信息提取规则和业务信息,做到对网络数据包的深度利用。基于知识库的元数据更新,实现业务数据与其它业务数据的关联分析。
【专利说明】一种业务数据的审计和深度分析系统及其方法
【技术领域】
[0001]本发明涉及信息【技术领域】,具体涉及一种对业务数据进行审计和深度分析的系统及其方法。
【背景技术】
[0002]在政府机关、金融、公安、财政、证券、医疗、税、电信运营商以及其它一些大型企业中,都需要对大量的业务数据进行处理,现有技术中,业务数据处理分为人工处理和计算机处理,人工处理速度慢,现有的计算机处理局限于对业务数据进行数据统计和数据提取。但是随着经济社会的快速发展,为了进一步挖掘业务数据的商业价值,实现业务数据与其它的相关数据之间的关联分析或者业务数据本身之间的关联分析很有必要,必须在简单的数据分析之外,深度挖掘业务数据。

【发明内容】

[0003]有鉴于此,本发明提供的一种业务数据的审计和深度分析系统及其方法,深度挖掘业务数据的应用价值和商业价值。
[0004]为达到上述目的,本发明采用的技术方案是:
一种业务数据的审计和深度分析系统,包括:
网络接收单元,用以接收网络数据包;
处理单元,接收网络数据包以形成包括请求人、请求时间、目标系统以及业务数据的元数据,根据业务信息提取规则对元数据进行处理,提取业务信息;并根据关联分析知识,对业务信息进行关联分析;对基于某一单位内的各类业务信息进行综合分析和挖掘;
维护单元,对业务信息提取规则和业务信息进行维护和更新;
存储单元,存储业务信息提取规则、关联分析知识、业务信息及关联分析结果。
[0005]通过不同的提取规则,对业务数据包进行不同的处理,提取业务信息;依据关联分析知识,对基于某一单位内的各类业务信息深度分析和关联。
[0006]进一步的,还包括:
预处理单元,接收网络接收单元传输过来的网络数据包,并对数据包进行应用协议分析、协议算法处理及业务数据过滤,将处理后的网络数据包发送至处理单元。通过预处理,降低处理单元的压力,减小其工作量。
[0007]进一步的,所述网络接收单元包括网络身份认证系统和网络数据探针系统,网络身份认证系统用于监控用户状态以确认是否允许用户数据通过,网络数据探针系统根据预设抓包规则捕获网络数据包。一方面进行身份认证以实现请求人确认,另一方面通过两个系统实现资源的高效利用。
[0008]进一步的,存储单元以统一的存储接口集成数据库管理系统和分布式存储架构。可以部署在低廉的硬件上,也可以提供高传输率访问数据,适合未来超大数据集的应用分析。[0009]一种业务数据的审计和深度分析方法,包括以下步骤:
501:构建包括业务信息提取规则和业务信息的知识库;
502:接收网络数据包,形成由请求人、请求时间、目标系统以及业务数据组成的元数据并存入知识库;
503:根据元数据读取提取规则;
504:根据提取规则提取业务信息。
[0010]通过不同的业务信息提取规则关联网络数据包和业务信息,可以对网络数据包进行不同的挖掘,从而可以根据需求实现对网络数据包的关联分析和处理。
[0011]进一步的,业务信息提取规则的状态分为测试、活动、冻结、失效四个阶段。知识库的知识应实时更新,必须建立进入和退出机制,使知识库成为一个动态的库。
[0012]进一步的,步骤102-104中,任务处理由任务调度单元和任务处理单元完成,任务调度单元负责分派任务、监控任务、收回任务以及确认任务。确保任务处理过程中条理清楚,快速有效。
[0013]进一步的,任务调度单元将任务分解成子任务的集合,以分发给至少一个任务处理单元,并进行子任务的时序管理,子任务的处理分为并行处理和串行处理,任务及子任务的状态分为准备、就序、处理、完成以及收回。保证复杂任务的快速进行。
[0014]进一步的,知识库还包括规则定义、规则有效性验证以及规则管理。业务信息提取规则本身也是动态的,实用的。
[0015]本发明的有益效果为:通过不同的业务信息提取规则和业务信息,做到对网络数据包的深度利用。基于知识库的元数据更新,实现业务数据与其它业务数据的关联分析。
【专利附图】

【附图说明】
[0016]图1为本发明所述业务数据的审计和深度分析方法的流程图;
图2为本发明所述业务数据的审计和深度分析系统的结构框图;
图3为本发明所述业务数据的审计和深度分析系统的具体实施图。
【具体实施方式】
[0017]下面结合附图对本发明的技术方案进行描述,很显然的,附图所描述的仅仅是本发明的一部分而不是全部实施例。
[0018]如图2所示,本发明提供的业务数据的审计和深度分析系统,系统必要单元为处理单元、存储单元、网络接收单元以及维护单元,进一步的,为了减轻处理单元的压力,还可以设计一预处理单元。
[0019]其中,网络接收单元的网络并非特指互联网,应作广义的理解,包括各种形式的内网以及其他现有网络形式。网络接收单元由网络身份认证系统和网络数据探针系统构成,它们分别担负不同任务。网络身份认证子系统位于网络主干线路上,任务业务请求都必须经过该子系统。子系统内部的连接控制引擎用于控制用户,它实时与用户状态监控模块通讯,确定是否允许用户数据通过;如果用户没有登录,连接控制引擎自动把用户请求跳转到登录审计界面,由用户输入登录信息;对于第一次进入网络的用户,可进入用户信息管理模块,注册和管理个人信息;黑、白名单是为了提供系统效率,优化系统功能而设置的;bypass用于保证整个系统的兼容性,当网络身份认证子系统出现软、硬件故障时,bypass模块启动使数据包可以直接通过本设备。网络数据探针系统位于单位主要交换设备的镜像上,根据预设的抓包规则捕获网络数据包,经过抓包规则的过滤,可以屏蔽掉无关数据包,减轻系统压力;抓包规则以IP包为目标,可以设定源IP、源端口、目标IP和目标端口 ;另夕卜,考虑到日常工作中,业务请求的瞬发性特点,在网络数据探针系统中,设置了大容量的网络数据缓冲池,起到削峰抑谷的作用,当网络数据流量较大时,网络数据探针系统的资源主要用来抓包,当网络数据流量较小时,网络数据探针系统的资源可以用来进行数据包整合,实现资源的充分利用。
[0020]预处理单元以分布式方式设计,其核心功能是对网络数据包进行预处理,减轻业务处理层的压力,主要包括应用协议分析引擎、协议算法模块(http、DES、MD5等)及业务数据过滤引擎。应用协议解析引擎调用协议算法模块,对于网络数据探针子系统捕获的数据包进行二次处理,如https报文解密、对于DES、RC2、RC5等密码协议进行解析、验证捕获网络数据包的MD5或SHA签名;当应用协议解析完成后,把全部变为明文的数据包提交业务数据过滤引擎,对捕获的数据包进行二次清洗,过滤掉与业务无关的CSS、Javascript、图片等数据包,经过预处理单元后,从网络捕获的数据包只剩下业务相关的明文包,可以极大地减轻后续处理压力。为了实现https等加密数据的还原,本系统内置数字证书库,导入数据证书,实现解密工作。另外,预处理单元可以由多台处理机构成,因此内置任务管理模块,其中任务调度引擎是核心,实现在多处理机的并行工作。同时任务管理模块根据当前处理机的运行状态,协调其它处理机的工作。
[0021]业务信息处理单元是本系统的核心,主要实现业务信息的提取和关联分析。主要处理流程包括业务信息提取、信息有效性验证、中文编码转换及关联分析。业务信息提取时,首先与规则库通讯,获得活动状态的规则,然后根据规则提取业务信息;提取业务信息后,要对信息的有效性进行验证,如与预期不一致,应产生报警,由管理员对业务数据包或规则的有效性进行确认;如果提取的业务信息中含有中文信息,则要进行中文编码转换,把GBK、GB18030、Unicode等编码的中文统一转换为utf_8格式;最后,要按照关联分析知识库对提取信息进行关联,其中用户状态表由网络身份认证子系统提供信息元,主要包括〈人员、IP、时段〉三元组,用于操作人员与业务数据的关联。业务规则管理子系统是主要用于规则维护,同时管理规则的分发。,管理员可以利用规则有效性监测工具,验证当前规则是否用效。如果目标系统发生变更,在信息提取时无法通过验证,那么业务处理单元将向规则管理子系统发送规则失效报警,规则管理子系统收到报警后,将该规则状态置为“冻结”,并停止该规则的分发。业务信息处理采用分布式设计,由调度机实现任务分配、状态监控及管理,各处理机定时报送状态信息到调度机。
[0022]本发明提供的系统,数据存储单元通过统一的存储接口可以与数据库管理系统(Oracle、SqlServer、Mysql)和分布式存储架构(hadoop)集成。其中,数据库管理系统以数据表为单位,以SQL语言进行关联、分析,技术成熟;分布式存储架构有着高容错性的特点,并且设计用来部署在低廉的硬件上,而且提供高传输率来访问的数据,适合未来超大数据集的应用分析。
[0023]如图1所示,本发明提供的一种业务数据的审计和深度分析方法,包括以下步骤:
501:构建包括业务信息提取规则和业务信息的知识库; 502:接收网络数据包,形成由请求人、请求时间、目标系统以及业务数据组成的元数据并存入知识库;
503:根据元数据读取提取规则;
504:根据提取规则提取业务信息。
[0024]本发明提供的分析方法,其核心创新点在于:对业务信息进行分析,按信息提取规则库提取业务数据;业务信息提取规则的定义、维护以及实施算法;基于关联规则知识库,关联分析各类业务信息,形成由操作人、目标系统、时间、业务数据组成的元数据;关联知识的定义及、维护及实施算法;采用分布式计算方式,实现“业务信息分析”和“关联分析”任务的可调度性,在物理设备上实现负载均衡;提供分布式数据接口,支持大数据分析。
[0025]另外优选的,业务数据通过网络接收,因此在网络接收数据时还应包括Ip数据包采集;http(s)等传输层协议的网络数据包还原;网络身份认证;现实身份、ip、时段关联算法;相关业务系统的信息采集。
[0026]本发明提供的方法,步骤502中,业务信息分析引擎从业务数据还原接口处接收网络数据包,根据网络数据包特征,判断业务种类,根据业务种类,从规则库中读取适用于本业务的活动规则子集,按规则子集提取业务数据。如果分析引擎在运行过程中,发现提取规则有问题,可能由于多种原因,如:业务系统升级、规则适用性不强等,则通过异步机制通知管理员,由管理员对规则库进行维护。
[0027]业务信息提取规则,由抽象化逻辑语言描述,定义适用业务、提取参数定位信息、参数有效性验证等信息。根据不同的业务,不同的深度分析需求,编辑不同需求规则。知识库包括各种业务信息提取规则的总和。图1中使用了规则库和知识库两个方框表示流程,实际应用中提取规则的总和和业务信息的总和即可存储与一起也可分开放置,根据实际需求设置。规则按其有效状态分为活动和冻结,业务信息分析引擎提交规则查询请求时,规则库返回所有适用于该业务的、处于活动状态的规则;当一条规则不适用时,可将该规则状态调整为冻结,该规则将不生效;规则库还包括规则定义、有效性验证、规则管理等工具,由管理员进行维护。
[0028]步骤504中,关联分析包括实现〈业务数据〉与〈操作人员、时间和业务信息〉的关联。这里,业务信息根据需求确定,既需要分析和挖掘网络数据包何种方向的价值,则选取该方向的业务信息对网络数据包根据提取规则进行关联以深度分析。业务信息可以是业务数据的总和,也可以是其它信息。
[0029]通过网络接收数据包时,在网络数据包还原时,可以提取网络数据包的操作时间和发起IP,为了确定操作人员,主要通过网络身份认证方法,身份认证网关从日切时间点开始工作,记录各IP地址的状态,如果I个IP没经过身份认证而发起交易,身份认证网关拦截该IP的通讯,自动跳转到身份认证界面,由操作人员输入身份认证信息,实现〈IP,时段〉与〈操作人员〉的关联。对于操作人员的关联,视不同目标系统可进行优化,如目标系统自身具有身份认证模块,并可提供身份认证与通讯session的记录,那么根据〈sessionid、操作人员 > 的记录,可以对身份认证网关的操作人员进行确认和修正。〈业务数据〉与〈业务信息〉的关联,主要依赖于知识库。
[0030]知识库中的知识,由业务人员归纳、总结,由管理员进行维护。知识采用优选采用问题归约法表述,从关联目标出发,逆向推理,通过变换把初始问题变换为子问题集合和子子问题集合,直至最后归约为一个平凡的本原问题集合。知识同样存在生命周期的问题,分为测试、活动、冻结、失效等阶段,测试期主要由业务人员控制,确认关联知识是否有效、是否达到预期目标;确认有效后,标记知识为活动状态,关联分析引擎根据知识,进行业务数据关联处理;同任何事物一样,知识也有适用性问题,当目标系统及其关联系统发生变更时,管理员把知识调整为冻结状态,由业务人员对知识的有效进行确认和调整;当涉及知识的模块或系统停止服务时,知识已不适用,即调整为失效状态。
[0031]在业务分析和关联分析时,优选采用分布式处理算法,由任务调度主机和任务处理主机协作完成。首先,对业务分析和关联分析的任务,在调度主机上建立任务列表,任务处理主机向调度主机提交申请,由调度主机分派任务,任务处理主机完成工作后,提交处理结果,调度主机对处理情况时行确认。调度主机除负责任务调度外,还负责监控各任务处理主机的运行状态,当任务处理主机出现异常、性能降低时,调度主机收回任务,改由其它任务处理主机完成;同时,调度主机还负责任务的分解及子任务时序管理,当一个任务被解为可计算的子任务时,子任务间存在并行和串行两种关系,对于串行关系,由调度主机负责,只有在前序任务已完成的情况下,才分配后序任务。为保证任务处理的一致性和连续性,我们在任务处理中引入状态机概念,任务状态分为准备、就序、处理、完成、收回等五个状态,任务信息及其状态以数据库存储。分布式任务处理支持系统进行事务性恢复,当系统出现断电等情况时,重新启动后,调度机会根据数据库中任务的状态,进行回退和恢复操作,保证系统状态的一致性。
[0032]在数据存储方面,本发明提供统一的存储接口,生成的数据即可以存储到传统的数据库系统中,也可以存储到hadoop之类的分布式系统。这使得后期数据挖掘和科学决策的技术方式和体系框架更加灵活。各应用单位,可以对生成的数据进行数据挖掘,提取有价值的业务信息,并在此基础上,通过选用不同的数学模型,进行量化计算,为市场预测和科学决策提供事实依据。
[0033]如图3所示,是本发明在公安系统的一个详细实施例,在我国,公安系统下设的现有业务系统有60多个,这些业务系统绝大部分都是基于http和https的Web应用系统,它们由不同的警种、总队、业务处室使用。这些业务系统都不能实现总体联通和审计,不能达到公安部关于《加强信息系统应用审计的通知》的要求。如果进行整改,一部分系统的开发商已经无法联系,不具备改造条件;其它系统则都要按照统一的规则进行改造,影响正常业务、改造周期长、成本高。
[0034]本发明提供的业务数据关联分析系统及其方法采用基本网络的架构,是一种基于网络数据包(流)的业务数据审计和业务数据深度分析的方法,不需要对现在信息系统和网络进行改造,不需要在原有信息系统的服务器里安装任何插件或Agent,就可以达到公安部对业务系统审计的要求,同时还提供丰富的数据挖掘功能。在本实施例中,关联分析系统的业务审计功能可以细化到操作级别,其元数据为:谁、什么时间、在哪个系统、进行了什么操作、操作内容是什么,完全满足公安部的要求。在审计功能的基础上,关联分析系统提供丰富的数据挖掘功能,由于数据挖掘功能与业务结合紧密,例如:串并案和逃犯关注排名。
[0035]在关联分析系统之前,对于一个案件的串并案工作,主要靠内部通报,但由于警种和区域的限制,串并案的线索来源并不全面。如果使用本发明提供的关联分析系统,某一警员在案件侦破过程中,利用信息系统查询犯罪嫌疑人或案例相关人员时,其操作记录都会被关联分析系统审计到。关联分析系统自动根据被查人员的信息,在数据仓库中检索所有查询过该人的警员,按照时间和地域排序,形成案件线索,由内部OA系统推送给案件承办的警员。例如,派出所的A警官处理一起案件,通过网上逃犯库中查询了张三的信息,那么随后王警官就会在OA系统中收到一份“案件线索文件”,其中提示“禁毒总队的B警官在三天前在禁毒系统中也查询过张三的信息”。关联分析的具体应用串并案自动提示功能实现了跨系统、跨警种、跨地域的线索收集。
[0036]还如,在公安工作中,如何提高办案效率是公安工作的首要问题。在关联分析系统的逃犯关注排名,就可以起到探索作用。逃犯关注排名可以以全国逃犯库为基础数据,以本发明提供的关联分析系统的提取规则为主要数据,通过权值处理算法,对逃犯进行排序,筛选出最受关注和活跃的逃犯,作为工作的重点。其中,逃犯权值主要依据关注警员职级、关注(查询)次数、时间来计算,如逃犯李四被厅长在上周查询过一次,被禁毒总队长在本周查询过两次,被基层民警查询过11次,则其排名靠前,在通报时各警种和基层警员都会把张强作为工作的重点。
[0037]上述技术方案的描述仅体现了本发明的优选技术方案,而并不是无遗漏的,很显然的,根据上述实施例类推,本技术方案还应用于政府、公安、交警、财政、金融、证券、税务、电信运营商、医疗、卫生、保险、企业、电力、能源、国土等各个行业,或者将本发明限于所公开的形式。基于本发明的实施例,任何人在没有做出创造性劳动的前提下所获得的其他形式的技术方案,不论其在结构或形式上作出何种变化,均属于本发明的保护范围之内。
【权利要求】
1.一种业务数据的审计和深度分析系统,其特征在于,包括: 网络接收单元,用以接收网络数据包; 处理单元,接收网络数据包以形成包括请求人、请求时间、目标系统以及业务数据的元数据,根据业务信息提取规则对元数据进行处理,提取业务信息;并根据关联分析知识,对业务信息进行关联分析; 维护单元,对业务信息提取规则库和关联分析知识库进行维护和更新; 存储单元,存储业务信息提取规则、关联分析知识、业务信息及关联分析结果。
2.根据权利要求1所述的分析系统,其特征在于,还包括: 预处理单元,接收网络接收单元传输过来的网络数据包,并对数据包进行应用协议分析、协议算法处理及业务数据过滤,将处理后的网络数据包发送至处理单元。
3.根据权利要求1所述的分析系统,其特征在于,所述网络接收单元包括网络身份认证系统和网络数据探针系统,网络身份认证系统用于监控用户状态以确认是否允许用户数据通过,网络数据探针系统根据预设抓包规则捕获网络数据包。
4.根据权利要求1所述的分析系统,其特征在于,存储单元以统一的存储接口集成数据库管理系统和分布式存储架构。
5.一种业务数据关联分析方法,其特征在于,包括以下步骤: 501:构建包括业务信息提取规则和业务信息的知识库; 502:接收网络数据包,形成由请求人、请求时间、目标系统以及业务数据组成的元数据并存入知识库; 503:根据元数据读取提取规则; 504:根据提取规则提取业务信息。
6.根据权利要求5所述的分析方法,其特征在于,提取规则的状态分为测试、活动、冻结、失效四个阶段。
7.根据权利要求5所述的分析方法,其特征在于,步骤102-104中,任务处理由任务调度单元和任务处理单元完成,任务调度单元负责分派任务、监控任务、收回任务以及确认任务。
8.根据权利要求7所述的分析方法,其特征在于,任务调度单元将任务分解成子任务的集合,以分发给至少一个任务处理单元,并进行子任务的时序管理,子任务的处理分为并行处理和串行处理,任务及子任务的状态分为准备、就序、处理、完成以及收回。
9.根据权利要求5所述的分析方法,其特征在于,知识库还包括规则定义、规则有效性验证以及规则管理。
【文档编号】H04L29/08GK103618652SQ201310691075
【公开日】2014年3月5日 申请日期:2013年12月17日 优先权日:2013年12月17日
【发明者】邵永刚, 范仲伟, 李颖 申请人:沈阳觉醒软件有限公司
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1