基于CEP技术的RTLogic大数据处理系统及方法

文档序号:6624583阅读:281来源:国知局
基于CEP技术的RTLogic大数据处理系统及方法
【专利摘要】本发明公开了一种基于CEP技术的RTLogic大数据处理系统及方法,所述系统包括用户编辑器、数据采集适配器、核心处理系统和输出适配器,用户编辑器用于编辑商业智能逻辑来定义查询目标,数据采集适配器用以根据查询目标从数据源采集数据并发送给核心处理系统,核心处理系统用以对采集的数据进行分析处理,输出适配器用以将核心处理系统分析处理后的数据发送给监视器进行显示;所述方法能够根据查询目标对事件流进行实时有效地分析和处理。本发明采用CEP引擎技术,能够实时地对数据进行过滤、关联、匹配和整合等产生用户有价值的信息,不仅仅具有价格和服务优势,而且数据挖掘架构相对简单,具有低延迟、高输出和易扩展性。
【专利说明】基于CEP技术的RTLogic大数据处理系统及方法

【技术领域】
[0001]本发明涉及数据处理【技术领域】,具体地说是一种基于CEP技术的RTLogic (RealTime Logic,实时逻辑)大数据处理系统及方法。

【背景技术】
[0002]随着中国互联网规模的不断扩大,特别是移动互联网的这几年的迅猛发展,政府企业的信息化等等企业产生了海量的数据。2011年大数据得到我国政府和IT行业的重视,称之为大数据市场的元年。越来越多的企业意识到,如何利用这些海量的数据,将看似杂乱的数据经过处理转化为企业有价值的东西,是大数据时代企业在市场的竞争中保持优势的关键。
[0003]现有的大数据处理技术主要有Hadoop处理方法,Hadoop处理方法是采用MapReduce技术,在传统的数据分析方法的基础上针对大数据创立的一种方法,是基于批量处理的,但是Hadoop处理方法主要是针对历史数据的,它存在以下几点不足:
[0004](I) Hadoop处理方法无法对事件之间进行关联,匹配处理,也就是说,Hadoop处理方法无法对复杂事件进行处理;
[0005](2)Hadoop处理方法受设计和实现的局限,只能处理历史数据,无法满足某些行业实时业务处理需求;
[0006](3) Hadoop处理方法采用分布式计算方法处理海量数据,却实现不了某些业务对时间滑动窗口的处理要求;
[0007](4)Hadoop处理方法没有实时大数据的可视化技术,无法给用户直观动态图像显示;
[0008](5) Hadoop处理方法无法集成R语言,以便数据的数理统计。
[0009]RTLogic (Real Time Logic,实时逻辑)技术正是能够做到大数据商业智能(business intelligence)的目标,能够满足对大数据进行实时处理的要求。


【发明内容】

[0010]针对现有技术的不足,本发明提供了一种基于CEP技术的RTLogic大数据处理系统及方法,它能够满足对大数据进行实时处理的要求。
[0011]本发明解决其技术问题采取的技术方案是:一种基于CEP技术的RTLogic大数据处理系统,其特征是,包括用户编辑器、数据采集适配器、核心处理系统和输出适配器,所述的用户编辑器、数据采集适配器和输出适配器分别与核心处理系统相连,所述用户编辑器用于编辑商业智能逻辑来定义查询目标,所述数据采集适配器用以根据查询目标从数据源采集数据并发送给核心处理系统,所述核心处理系统用以对采集的数据进行分析处理,所述输出适配器用以将核心处理系统分析处理后的数据发送给监视器进行显示;所述核心处理系统包括CEP引擎、python适配器、R适配器和CQL适配器,所述CEP引擎用以对数据采集适配器采集的数据进行分析处理,并将分析处理后的数据发送给输出适配器;所述的python适配器、R适配器和CQL适配器分别与用户编辑器相连。
[0012]优选地,所述用户编辑器支持python语言和R语言,能够满足对策略的方便导入。
[0013]优选地,所述数据采集适配器支持JMS、TibcoRV, EMS、SNMP, Socket、SMTP、RSS和HTTP数据源。
[0014]优选地,所述核心处理系统还包括规则引擎,所述规则引擎用以将CEP引擎分析处理后的数据作进一步处理后发送给输出适配器。
[0015]优选地,所述CEP引擎包括事件产生器、处理器、通道合成器和事件消费者,用以实现模式匹配。
[0016]本发明还提供了一种基于CEP技术的RTLogic大数据处理方法,其特征是,包括以下步骤:
[0017]通过用户编辑器定义查询目标;
[0018]数据采集适配器采集数据并将采集到的数据转化为可识别事件对象后发送给核心处理系统;
[0019]核心处理系统对采集的数据进行分析处理,并将分析处理后的数据发送给输出适配器;
[0020]输出适配器将分析处理后的数据发送给监视器进行显示。
[0021 ] 优选地,上述方法中所述用户编辑器采用python语言或R语言通过CQL编辑商业智能逻辑来定义查询目标。
[0022]优选地,上述方法中所述数据采集适配器采集数据的数据源包括JMS、TibcoRV,EMS、SNMP、Socket、SMTP、RSS 和 HTTP 数据源。
[0023]优选地,上述方法中所述核心处理系统根据查询目标对事件流进行实时有效地分析和处理。
[0024]本发明的有益效果:本发明采用CEP(complex events processing,复杂事件处理)引擎技术,能够实时地对数据进行过滤、关联、匹配和整合等产生用户有价值的信息。跟现有的技术产品比较,本发明不仅仅具有价格和服务优势,在技术上也有以下优点:
[0025](I)、嵌入R语言支持数理统计,数据挖掘等各种计算模型,架构相对简单;
[0026](2)、支持地理空间分析,提供高性能的空间分析能力和空间数据处理能力;
[0027](3)、低延迟,高输出(每秒可分析处理几万到几十万事件);
[0028](4)、支持Python语言,满足有编程经验的高级用户定义更复杂的匹配事件;
[0029](5)、方便的拖拉式的可视化界面;
[0030](6)、实时的可视化(visualizat1n);
[0031](7)、自主优化的CEP核心处理算法;
[0032](8)、易扩展性。

【专利附图】

【附图说明】
[0033]图1为本发明的系统结构示意图;
[0034]图2为本发明的方法流程图;
[0035]图3为本发明所述CEP引擎的结构示意图。

【具体实施方式】
[0036]为能清楚说明本方案的技术特点,下面通过【具体实施方式】,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
[0037]如图1所示,本发明的一种基于CEP技术的RTLogic大数据处理系统,它包括用户编辑器、数据采集适配器、核心处理系统和输出适配器,所述的用户编辑器、数据采集适配器和输出适配器分别与核心处理系统相连,所述用户编辑器支持python语言和R语言,用于编辑商业智能逻辑来定义查询目标;所述数据采集适配器支持JMS、TibcoRV, EMS、SNMP,Socket、SMTP、RSS和HTTP数据源,用以根据查询目标从数据源采集数据并发送给核心处理系统;所述核心处理系统用以对采集的数据进行分析处理,所述输出适配器用以将核心处理系统分析处理后的数据发送给监视器进行显示。所述核心处理系统包括CEP引擎、python适配器、R适配器、CQL适配器和规则引擎,所述CEP引擎用以对数据采集适配器采集的数据进行分析处理,并将分析处理后的数据发送给输出适配器;所述的python适配器、R适配器和CQL适配器分别与用户编辑器相连;所述规则引擎用以将CEP引擎分析处理后的数据作进一步处理后发送给输出适配器。
[0038]如图2所示,本发明还提供了一种基于CEP技术的RTLogic大数据处理方法,它包括以下步骤:
[0039](I)通过用户编辑器采用python语言或R语言通过CQL编辑商业智能逻辑来定义查询目标;
[0040](2)数据采集适配器可以从 JMS、TibcoRV, EMS、SNMP, Socket、SMTP、RSS 和 HTTP等数据源中采集数据并将采集到的数据转化为可识别事件对象后发送给核心处理系统;
[0041](3)核心处理系统根据查询目标对采集的数据进行分析处理,并将分析处理后的数据发送给输出适配器;
[0042](4)输出适配器将分析处理后的数据发送给监视器进行显示。
[0043]下面对本发明进行详细阐述:
[0044]本发明的设计从大的方面讲,有几大模块组成:数据采集适配器、核心处理系统(CORE)、用户编辑器(STUD1)和输出适配器,系统框架如图1所示。
[0045]一、数据采集适配器和输出适配器
[0046]数据采集适配器和输出适配器在设计上都是采用适配器抽象化方法,也就是把采集的具体数据都抽象成核心处理系统可识别的事件对象(Event Object)。
[0047]数据采集适配器可以支持JMS、TibcoRV, EMS、SNMP, Socket、SMTP、RSS 和 HTTP 等多种数据源,因为核心系统抽象化数据接口,未来可以根据客户的实际情况和需求扩充用户自己的数据采集方式。
[0048]输出适配器是用户在核心处理系统分析后产生的事件又采取的后续动作,根据用户意见的需要,主要包括Spreadsheet上的动态数据显示、在分布式系统中接其他的子系统、输出报表功能以及实时动态数据的可视化邓功能。同样,客户需要什么样的功能将由客户决定。
[0049]本申请通过输出适配器支持大数据实时可视化技术,根据导入策略的不同,实现了利用动态图像的方式显示数据的变化规律,给用户直观结果。
[0050]二、用户编辑器
[0051]用户编辑器支持python语言,集成R语言,方便用户将编辑商业智能逻辑,还可以使用R语言对数据进行统计分析。用户利用用户编辑器可以方便的使用Python语言或者R语言编辑自己需要的业务逻辑,编辑好的脚本程序可以保存,将来通过Adaptor动态导入系统引擎中执打。
[0052]用户编辑器是用户跟系统交互的工具,用户编辑器可以直接编辑CQL查询,CQL是类似SQL的语言,跟SQL非常的相似,熟悉SQL的用户很容易写出带有时间段的查询语句来。
[0053]用户编辑器不但允许用户手工编辑脚本,查询语句,我们提供的方便拖拉式的编辑器还允许对CQL,R和Python都不熟悉的用户采用拖拉的方式编辑脚本和查询。方便用户对业务的维护。
[0054]三、核心处理系统
[0055]核心处理系统是数据分析处理的引擎,是系统最核心的模块,它包括两个处理模块和两个Adaptors,其结构图如图1所示。两个处理模块中,一个是复杂事件处理引擎(CEPEngine),另一个是基于规则的规则引擎(Rule Engine)。而复杂事件处理引擎是我们核心处理的模块,而规则引擎则是用户根据自己的需要对由复杂事件处理引擎处理后的事件进行再处理的模块,是可选的,非必须执行的模块。
[0056]1、复杂事件处理CEP
[0057]传统的数据处理分析方法是先将有限的数据存储起来,存储的方式或者是数据库或者是文件,然后根据需要对存储的数据进行分析,比如用SQL查询对数据库查询。数据是静态的,而查询是动态的。但是显然这样的数据分析方式不符合象算法交易系统这样的实时数据分析的要求。而CEP的技术理念刚好与之相反。查询是预先定义好的,而数据是不断的变化的,是无限的数据集合。CEP的核心是对事件流进行实时有效地分析和处理。本申请所述的事件(Event)是系统中事务活动的一个记录,比如在算法交易系统通常是指一次价格的变化或者一则与影响股市或经济的新闻。每个事件都由一个时间属性,既该事件发生的时间。事件之间有各种关系:时间先后的关系,因果关系,聚合关系(事件A是事件B和C的聚合)。CEP对简单的事件进行分析和匹配,并产生更高层的复杂事件,比如说,一个买进事件和一个卖出事件可以聚合成一个交易组合(Transact1n)。多个复杂事件可能被进一步地聚合成更高层的事件,如一组买卖组合可能匹配特定模式,或者识别一个触发交易的市场变化。
[0058]CEP引擎是基于事件驱动框架(EDA)的,是整个平台的核心部分,是对事件进行过滤,转换,模式匹配等算法实现的关键。CEP的内部结构是由策略导入器解释策略后生成的若干Agent组成,这些Agent共同协调实现上述过滤,转换,模式匹配算法的处理器。算法实现有多个Agent而不是一个Agent的好处是系统容易扩展,比如将来可以对不同的策略并行处理,也可以扩展成云计算等等。CEP内核结构图如图3所示。
[0059]模式匹配算法是所有算法中最难实现,也最复杂的算法。我们的实现方式是,策略导入后经过解释生成相应NFA状态机,运行在Agent上。为了能够很好的处理策略,CEP内核需要能够解释自定义的查询语言CQL,CQL类似SQL,但是增加符合实时数据处理的一些特点,比如滑动窗口用以规定策略数据分析的时间段等。
[0060]CEP引擎的整个系统采用事件驱动的模式EDA实现组件之间和组件内部的通信,EDA的特点是允许并发执行,不需要等待,这在组件之间以及各个Agent之间有使用Cal Iback非常重要,大大提高了响应时间。
[0061]2、规则引擎 Rule Engine
[0062]Rule Engine是CEP Engine的辅助部分,非系统的关键,它能帮助某些用户在数据处理完后附加的新行为,某些行业的用户愿意采用的技术,本申请在设计上附加这一可选功能。
[0063]用鉴于目前市场上rule engine产品已经比较完善,我们采用市场上知名度高的JBoss的规则引擎Drools。
[0064]3、数据流适配器
[0065]数据流适配器包括R适配器、Python适配器和CQL适配器,数据流适配器是数据准备工作的模块,它的功能是将数据流转换成能被CEP引擎能识别和处理的事件序列。事件的定义和预处理是在此模块实现,根据我们的设计,定义事件可以有两种方式,一是用Metadata方式,也就是用XML语言描述方式,适配器在读入数据流的时候根据XML对事件的定义将数据流转换成事件序列。另一种方式就是直接定义具体事件类继承我们的抽象事件类,数据流直接映射到具体定义的事件对象上。
[0066]策略导入模块是处理用户自定义策略的模块,具体说来就是根据用户编写的策略进行解释,解释成CEP处理核需要的Agent (处理器),生成CEP内核可以识别的NFA(非确定性有限自动机)等等。我们这里支持用户用Python脚本语言生成的策略,Python动态解释型的编程语言,简单灵活强大又比较容易上手,对于非程序员的用户来说,既要写出复杂的业务逻辑,有不需要学习非常复杂的比如C,JAVA编程语言,Python是很好的选择。我们采用业界通用的Jython库集成Python脚本语言。Python Adaptor可以无缝将用户的业务逻辑集成到核心系统里解释执行。
[0067]R语言是一种数据统计分析和制图的编程语言,统计分析上实用,是使用很广泛的一种语言。将R整合在我们RTLogic里将满足许多金融,生物,环境等行业的统计分析的需求。
[0068]本发明采用CEP引擎(complex events processing,复杂事件处理)技术,能够实时地对数据进行过滤、关联、匹配和整合等产生用户有价值的信息。跟传统的数据分析软件不同,本发明是针对实时数据的处理分析平台,有效地解决了信息流的相关性分析技术,发现实时数据的内在规律,解决了客户关于对滑动时间窗口的业务需求,实现真正意义上的实时商业智能;本发明方便用户预先定义好业务需求和处理方式,自动地对实时采集或者实时收到的数据进行分析处理,并能自动产生后续的业务行为,这样的处理由于不需要存储,也就避免了传统的数据存储系统的数据大小限制,满足了大数据时代实时处理的要求;本发明还实现了大数据的动态图像显示,方便用户直观数据的动态趋势和内在规律;本发明集成了强大的统计语言R,对大数据做数理统计。
[0069]本发明涉及到金融,证券,政府,电信,教育,医疗,企业等快速处理实时处理大数据的业务领域,如金融行业的银行业务,要求对企业实现动态放款行为,解决客户急需贷款因为提交各种资料而延误放款时间,错过商机的情况;证券行业的股票交易业务要求在极短的时间内解决对不同的实时数据进行处理并做出买或者卖的指示;政府的公安系统要求对锁定目标的信息进行实时处理分析,加快网上办案的速度;电信行业运营商实时的网络信号或者产生的日志文件;互联网电商企业要求每秒客户访问和订单信息,游戏公司的实时在线玩家信息处理和分析等等。
[0070]以上所述只是本发明的优选实施方式,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。
【权利要求】
1.基于CEP技术的RTLogic大数据处理系统,其特征是,包括用户编辑器、数据采集适配器、核心处理系统和输出适配器,所述的用户编辑器、数据采集适配器和输出适配器分别与核心处理系统相连,所述用户编辑器用于编辑商业智能逻辑来定义查询目标,所述数据采集适配器用以根据查询目标从数据源采集数据并发送给核心处理系统,所述核心处理系统用以对采集的数据进行分析处理,所述输出适配器用以将核心处理系统分析处理后的数据发送给监视器进行显示;所述核心处理系统包括CEP引擎、python适配器、R适配器和CQL适配器,所述CEP引擎用以对数据采集适配器采集的数据进行分析处理,并将分析处理后的数据发送给输出适配器;所述的python适配器、R适配器和CQL适配器分别与用户编辑器相连。
2.根据权利要求1所述的基于CEP技术的RTLogic大数据处理系统,其特征是,所述用户编辑器支持python语言和R语言。
3.根据权利要求1所述的基于CEP技术的RTLogic大数据处理系统,其特征是,所述数据采集适配器支持 JMS、TibcoRV, EMS、SNMP, Socket、SMTP、RSS 和 HTTP 数据源。
4.根据权利要求1至3任一项所述的基于CEP技术的RTLogic大数据处理系统,其特征是,所述核心处理系统还包括规则引擎,所述规则引擎用以将CEP引擎分析处理后的数据作进一步处理后发送给输出适配器。
5.根据权利要求1至3任一项所述的基于CEP技术的RTLogic大数据处理系统,其特征是,所述CEP引擎包括事件产生器、处理器、通道合成器和事件消费者,用以实现模式匹配。
6.基于CEP技术的RTLogic大数据处理方法,其特征是,包括以下步骤: 通过用户编辑器定义查询目标; 数据采集适配器采集数据并将采集到的数据转化为可识别事件对象后发送给核心处理系统; 核心处理系统对采集的数据进行分析处理,并将分析处理后的数据发送给输出适配器; 输出适配器将分析处理后的数据发送给监视器进行显示。
7.根据权利要求6所述的基于CEP技术的RTLogic大数据处理方法,其特征是,所述用户编辑器采用python语言或R语言通过CQL编辑商业智能逻辑来定义查询目标。
8.根据权利要求6所述的基于CEP技术的RTLogic大数据处理方法,其特征是,所述数据采集适配器采集数据的数据源包括JMS、TibcoRV, EMS、SNMP, Socket、SMTP、RSS和HTTP数据源。
9.根据权利要求6所述的基于CEP技术的RTLogic大数据处理方法,其特征是,所述核心处理系统根据查询目标对事件流进行实时有效地分析和处理。
【文档编号】G06F17/30GK104199889SQ201410421858
【公开日】2014年12月10日 申请日期:2014年8月25日 优先权日:2014年8月25日
【发明者】于泳胜 申请人:山东瀚天信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1