一种基于流式处理技术的异构教育数据交换平台及方法与流程

文档序号:12787238阅读:258来源:国知局
一种基于流式处理技术的异构教育数据交换平台及方法与流程

本发明涉及异构教育数据交换领域,尤其涉及一种基于流式处理技术的异构教育数据交换平台及方法。



背景技术:

经过多年的信息化建设,各级各类教育机构建立的应用系统存储了大量的数据,尤其是近年来随着云计算、大数据等新一代信息技术的发展,教育应用系统积累的数字资源迅猛增加。然而,由于建设初期各应用系统缺乏统一的数据标准与规范,所采用的存储技术以及存储方式也不相同,导致各级各类系统间数据交换与共享困难、数据不能有效流通。因此,有效整合各异构应用系统的数据,促进跨机构、跨部门、跨层级的数据资源交换与共享,成为教育信息化中亟待解决的难题。

目前,国内外已有的数据交换技术都是基于一种统一的中间元数据标准(如IEEELOM、CELTS-42),各异构系统的数据格式需要转换成元数据标准的格式,而元数据标准本身也在不断地修订与完善,因此,本发明提出一种无统一元数据标准的数据交换方法,而对于无统一数据标准的交换,需进行N*(N-1)/2种转换(N表示异构系统的数量),因此本发明又采用Hub/Spoke构架和大数据大数据流式处理技术来实现,既解决了数据格式转换计算复杂度高的问题,也可以实现按需实时的数据交换,流式处理集群也能解决Hub/Spoke架构单点故障、性能瓶颈问题。



技术实现要素:

鉴于上述现有技术的不足,本发明的目的在于提供一种基于流式处理技术的异构教育数据交换平台及方法,该发明是一种无统一元数据标准、基于Hub/Spoke架构与大数据流式处理技术实现的,旨在解决教育领域中各异构应用系统的数据资源,无法实现跨机构、跨部门、跨层级的交换与共享的问题。

本发明的技术方案如下:

一种基于流式处理技术的异构教育数据交换平台(educational data exchange platform based on streaming,简称S-EDEP),其中,包括异构教育数据交换平台,所述异构教育数据交换平台包括前置交换系统和数据交换中心,数据交换中心内设置有分布式消息系统、数据交换引擎和交换管理监控系统,所述前置交换系统一端连接于各部门内部的应用系统,所述前置交换系统的另一端连接于所述数据交换中心,所述各处理器是通过使用Spout或Bolt组件实现的。

所述前置交换系统是所述应用系统和所述数据交换中心的连接器,所述各应用系统采用各自的元数据规范,不需要进行统一转换,各异构应用系统的元数据以及数据实例都是经过所述前置交换系统传输给所述数据交换中心的;

所述分布式消息系统通过采用分布式构架暂时缓存各前置交换系统发送给数据交换中心的请求消息以及元数据的映射规则,所述分布式消息系统内设置有元数据映射规律库;

所述数据交换引擎用于从所述分布式消息系统发送来的消息队列中获取数据交换消息,然后通过流式计算引擎方式进行流式计算,所述流式计算引擎的方式包括Storm和S4;

所述交换管理监控系统负责通过所述数据交换中心的所有消息数据的接入管理、安全管理、数据备份管理、日志管理、集群管理以及配置管理,同时监控各系统的运行状态。

所述基于流式处理技术的异构教育数据交换平台,其中,所述数据交换引擎包括消息分发器、消息解析器、数据加工处理器、消息封装器以及消息发送器,在Storm流式处理引擎中,所述消息分发器是使用数据源产生组件Spout实现,其余各处理器使用Bolt数据处理组件实现,所述数据交换引擎中各消息处理器对消息的处理过程组成一个拓扑结构Topology;

所述消息分发器用于负责从所述分布式消息系统发送来的消息队列中读取消息并根据负载均衡的原则分发给所述消息解析器;

所述消息解析器经过通过解压、解密的方式从所述消息分发器发送来的消息中解析出数据对象并传送给后续的所述数据加工处理器;

所述数据加工处理器对从所述消息解析器接收的数据流进行相应的转换,发送给后续的消息封装器,所述数据加工处理器内包括有元数据转换器和数据实例转换器,所述元数据转换器将不同来源的元数据项根据属性的语义相似度进行匹配,并将匹配结果缓存到所述分布式消息系统中的元数据映射规则库中;所述数据实例转换器将数据实例按照元数据映射规则进行转换,并将转换结构进行缓存;

所述消息封装器用于将所述数据加工处理器处理后的数据封装成指定的消息格式并进行压缩、加密处理,然后传递给后续的所述消息发送器。

所述消息发送器将接收到的消息按照路由规则正确传送给各个所述前置交换系统,形成数据的交换。

所述基于流式处理技术的异构教育数据交换平台,其中,数据消息是以流的形式进行传递的,数据流到达每个数据处理器后立即进行实时计算,并且每个计算任务都可以分配给多台机器同时执行,所述流式计算指可以实时地处理应用环境中的数据,对大规模流动数据在不断变化的前提下进行持续计算、分析并能捕捉到有价值信息的分布式计算模式。

一种基于流式处理技术的异构教育数据交换方法,其步骤如下:

所述前置交换系统将各部门内部的所述应用系统内的数据对象以消息的方式传递给所述分布式消息系统中,所述分布式消息系统暂时缓存各所述前置交换系统发送给所述数据中心的请求消息以及原数据映射规则;

所述分布式消息系统将缓存的消息以及原数据映射规则传递给所述消息分发器,多个所述消息分发器定时地从消息系统中获取消息,通过随机分组或者按照字段分组的方式并根据负载均衡的原则将消息分发给多个所述消息解析器,若分发失败,会进行重新发送,以保证消息的可靠性,多个所述消息解析器对消息进行解压、解密,然后将解析出来的数据对象传输给数据加工处理器,所述数据加工处理器会对数据进行过滤、校验,数据格式及类型的转换,经过加工后的数据会由所述消息封装器进行压缩、加密处理,然后传递给所述消息发送器,所述消息发送器按照路由规则将接收到的数据正确地传递给各所述前置交换系统;

所述数据交换中心中的数据接入管理、安全管理、数据备份管理、日志管理、集群管理、配置管理以及各系统的运行状态皆由所述交换管理监控系统处理。

本发明提供的一种基于流式处理技术的异构教育数据交换平台及方法,通过构建Hub/Spoke架构与应用大数据流式处理技术,实现了教育领域中各异构教育应用系统间简单实用、按需服务、实时高效地进行数据交换与共享。

附图说明:

图1为本发明中异构教育数据交换平台的结构示意图;

图2为本发明中数据交换引擎的结构示意图;

图3为本发明中数据交换中心与各前置交换系统之间传递消息方式原理示意图;

图4为本发明中数据交换引擎执行流程示意图。

图5为本发明中异构教育数据交换平台的原理示意图。

具体实施方式

本发明提供了一种基于流式处理技术的异构教育数据交换平台及方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供了一种基于流式处理技术的异构教育数据交换平台,包括异构教育数据交换平台1,如图1以及图5所示的,其包括前置交换系统2和数据交换中心3。其中,数据交换中心3包括分布式消息系统4、数据交换引擎5和交换管理监控系统6。所述前置交换系统2一端连接于各部门内部的应用系统7,所述前置交换系统2的另一端连接于所述数据交换中心3;

所述前置交换系统2是所述应用系统7和所述数据交换中心3的连接器,各异构所述应用系统7的元数据以及数据实例都经过所述前置交换系统2传输给所述数据交换中心3的;

所述分布式消息系统4通过采用分布式构架暂时缓存各前置交换系统2发送给数据交换中心的请求消息以及元数据的映射规则,所述分布式消息系统4内设置有元数据映射规律库;

所述数据交换引擎5用于从所述分布式消息系统4发送来的消息队列中获取数据交换消息,然后通过流式计算引擎方式进行流式计算,所述流式计算引擎的方式包括Storm和S4;

所述交换管理监控系统6负责通过所述数据交换中心3的所有消息数据的接入管理、安全管理、数据备份管理、日志管理、集群管理以及配置管理,同时监控各系统的运行状态。

更进一步的,如图2所示的,所述数据交换引擎5包括消息分发器8、消息解析器9、数据加工处理器10、消息封装器11以及消息发送器12,所述各处理器在Storm流式处理引擎中是通过使用Spout或Bolt组件实现的,其中所述消息分发器8是使用数据源产生组件Spout实现,其余各处理器使用Bolt数据处理组件实现,所述数据交换引擎5中各消息处理器对消息的处理过程组成一个拓扑结构Topology。

所述消息分发器8用于负责从所述分布式消息系统4发送来的消息队列中读取消息并根据负载均衡的原则分发给所述消息解析器9;

所述消息解析器9经过通过解压、解密的方式从所述消息分发器8发送来的消息中解析出数据对象并传送给后续的所述数据加工处理器10;

所述数据加工处理器10对从所述消息解析器9接收的数据流进行相应的转换,发送给后续的消息封装器,所述数据加工处理器10内包括有元数据转换器和数据实例转换器,其中,所述元数据转换器将不同来源的元数据项根据属性的语义相似度进行匹配,并将匹配结果缓存到所述分布式消息系统4中的元数据映射规则库中;同时所述数据实例转换器将数据实例按照元数据映射规则进行转换,并将转换结果进行缓存;

所述消息封装器11用于将所述数据加工处理器10处理后的数据封装成指定的消息格式并进行压缩、加密处理,然后传递给后续的所述消息发送器12。

所述消息发送器12将接收到的消息按照路由规则正确传送给各个所述前置交换系统2,形成数据的交换。

而且,整个过程中数据消息是以流的形式进行传递的,数据流到达每个数据处理器后立即进行实时计算,并且每个计算任务都可以分配给多台机器同时执行,所述流式计算指可以实时地处理应用环境中的数据,对大规模流动数据在不断变化的前提下进行持续计算、分析并能捕捉到有价值信息的分布式计算模式。

本发明还提供了一种基于流式处理技术的异构教育数据交换方法,其步骤如下:

如图3以及图4所示,所述前置交换系统2将各部门内部的所述应用系统7内的数据对象以消息的方式传递给所述分布式消息系统4中,所述分布式消息系统4暂时缓存各所述前置交换系统2发送给所述数据中心3的请求消息以及原数据映射规则;

然后,所述分布式消息系统4将缓存的消息以及原数据映射规则传递给所述消息分发器8,多个所述消息分发器8定时地从消息系统中获取消息,通过随机分组或者按照字段分组的方式并根据负载均衡的原则将消息分发给多个所述消息解析器9,若分发失败,会进行重新发送,以保证消息的可靠性,多个所述消息解析器9对消息进行解压、解密,然后将解析出来的数据对象传输给数据加工处理器10,所述数据加工处理器10会对数据进行过滤、校验,数据格式及类型的转换,经过加工后的数据会由所述消息封装器11进行压缩、加密处理,然后传递给所述消息发送器12,所述消息发送器12按照路由规则将接收到的数据正确地传递给各所述前置交换系统2。

所述数据交换中心3中的数据接入管理、安全管理、数据备份管理、日志管理、集群管理、配置管理以及各系统的运行状态皆由所述交换管理监控系统6处理。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1