一种数据处理系统和方法与流程

文档序号:14444318阅读:213来源:国知局
一种数据处理系统和方法与流程

本发明涉及大数据处理技术领域,尤其涉及一种数据处理系统和方法。



背景技术:

数据预处理技术主要实现对数据的去噪、重构、比对、富化等操作,涉及“数据预处理体系结构”、“基于元数据的异构数据处理”两个方面,为后续数据对象化存储和对数据的分析计算提供高质量的数据支持。

预处理业务主要根据预处理规则来执行,现有技术中,当预处理规则发生改变时,不能实时应用到当前的预处理中。增加或删减预处理规则后,系统需要重新编码和重新启动才能应用新的规则;系统重启会带来数据丢失或积压的问题,导致结果数据偏差或者不能实时反馈。



技术实现要素:

本发明的目的在于提出一种数据处理系统和方法,能够实时更改并应用新的数据预处理规则,并实现可视化操作。

为达此目的,本发明采用以下技术方案:

一方面,本发明提供一种数据处理系统,包括:预处理服务器集群、数据库服务器集群、web应用服务器集群和客户端;

预处理服务器集群、数据库服务器集群和web应用服务器集群通过交换机组成分布式存储系统;

客户端通过web应用服务器提供的应用接口访问所述web应用服务器上的可视化页面系统。

其中,web应用服务器集群与交换机之间架设有防火墙。

另一方面,本发明提供一种数据处理方法,包括:

可视化页面系统实时下发规则数据到数据库服务器中;

预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理;

数据库服务器获取并存储预处理后的业务数据。

其中,所述规则数据存储在数据库服务器的内存数据库中;

所述业务基础数据和所述业务数据存储在数据库服务器的数据库或者文件系统中。

进一步的,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理,包括:

预处理服务器读取所述规则数据中的规则,根据所述规则将所述业务基础数据与所述业务数据比对,以进行预处理。

进一步的,预处理服务器从所述数据库服务器获取所述规则数据,包括:

预处理服务器按照周期从所述数据库服务器获取所述规则数据;或者

预处理服务器收到所述数据库服务器更新所述规则数据的消息后,从所述数据库服务器获取所述规则数据。

进一步的,预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,包括:

预处理服务器接收所述数据库服务器推送的数据,根据所述数据的标志对所述数据进行分类,区分出规则数据、业务基础数据和业务数据。

进一步的,数据库服务器获取并存储预处理后的业务数据之后,还包括:

所述可视化页面系统获取并以图表形式显示所述业务数据,提供图表结构维护、规则数据配置、业务数据查询的应用接口。

本发明的有益效果为:

用户可通过可视化页面系统修改预处理规则,规则数据实时下发到数据库服务器,预处理服务器能够及时获取到新的规则数据并解析应用,无需重启系统,有效的预防系统重启导致的数据丢失和堆积。

附图说明

图1是本发明实施例提供的数据处理系统的结构示意图;

图2是本发明实施例提供的数据处理方法的流程图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

本实施例提供一种数据处理系统,用于提供大数据的分析处理平台,提供数据服务。

图1是本发明实施例提供的数据处理系统的结构示意图。如图1所示,该系统包括:预处理服务器1集群、数据库服务器2集群、web应用服务器3集群和客户端5;

预处理服务器1集群、数据库服务器2集群和web应用服务器3集群通过交换机4组成分布式存储系统;

客户端5通过web应用服务器3提供的应用接口访问所述web应用服务器3上的可视化页面系统。

其中,web应用服务器3集群与交换机4之间架设有防火墙5。

预处理服务器1集群、数据库服务器2集群和连接他们的交换机4组成局域网;客户端5与web应用服务器3之间通过交换机连接,必要的情况下可加入多层路由以实现网络拓扑结构。

分布式大数据存储和检索技术能够存储和分析的数据量大,数据类型多样,既有结构化数据,也有如视音频、网页、文档等半结构化和非结构化信息,根据数据类型、容量、使用模式的不同,采用关系型数据库、nosql数据库、内存数据库、分布式文件系统等不同的技术来对数据信息进行存储。针对异构数据类型,建立符合不同业务逻辑的专用数据库机制。

本实施例还提供一种数据处理方法,由上述数据处理系统来执行,用于解决相同的技术问题,达到相同的技术效果。

图2是本发明实施例提供的数据处理方法的流程图。如图2所示,该方法包括如下步骤:

s11,可视化页面系统实时下发规则数据到数据库服务器中。

所述可视化页面系统以图表等形式向用户展示业务数据,并提供图表结构维护、规则数据配置、业务数据查询的应用接口。

s12,预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理。

其中,所述规则数据存储在数据库服务器的内存数据库中,本实施例采用redis内存数据库;所述业务基础数据和所述业务数据存储在数据库服务器的数据库或者文件系统中。

预处理服务器接收所述数据库服务器推送的数据,根据所述数据的标志对所述数据进行分类,区分出规则数据、业务基础数据和业务数据。

并且预处理服务器按照周期从所述数据库服务器获取所述规则数据;或者预处理服务器收到所述数据库服务器更新所述规则数据的消息后,从所述数据库服务器获取所述规则数据。

预处理服务器读取所述规则数据中的规则,根据所述规则将所述业务基础数据与所述业务数据比对,以实现比对、富化、打标、去重等预处理。例如,根据规则数据中的规则,将业务数据中的字段a与业务基础数据中的字段b进行对比或匹配,根据结果,从业务数据中删除字段c,或者将业务基础数据中的字段d加入业务数据中。

本实施例中,预处理服务器采用可实现流式预处理的hadoop分布式服务器集群或者spark分布式服务器集群。

s13,数据库服务器获取并存储预处理后的业务数据。

本实施例搭建elasticsearch数据库集群、hbase集群或者hdfs文件系统服务器,专门用于存储预处理后的结构化数据。使用elasticsearch数据库作为存储介质,可为数据索引存储、全文检索、字段检索做技术储备;使用hbase数据库作为存储介质,可为海量pb级数据的存储做技术储备,也有助于提高大数据的加载速度。

步骤s13之后,还包括:

s14,所述可视化页面系统获取并以图表形式显示所述业务数据。

数据可视化技术包含在页面上可视化的数据导入、数据查询、语句检索、可视化图形等,支持以图形化的形式展现不同维度的统计视图,在功能层面以数据为中心进行组织和展现,主要包括:数据统计、用户使用系统统计等。

本实施例中,用户可通过可视化页面系统修改预处理规则,规则数据实时下发到数据库服务器,预处理服务器能够及时获取到新的规则数据并解析应用,无需重启系统,有效的预防系统重启导致的数据丢失和堆积。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1