网络数据集中的方法及设备的制作方法

文档序号:6457836阅读:187来源:国知局
专利名称:网络数据集中的方法及设备的制作方法
技术领域
本发明涉及计算机软件中的数据处理技术,更具体的说,是一种用来实 现在网络上进行不同格式数据集中的方法和设备。
背景技术
随着计算机软件的发展,存在大量的不同的软件系统,而各个软件系统 的数据输出和存储又各不相同,常常以不同格式保存,如何有效的整合这些 数据,使其作为一个整体接入到应用系统中进行使用,是应用系统常常遇到 的问题。 一些商业系统中提供了一些数据整合的框架,但是要求使用者必须 在该框架下编写软件,这样就限制了系统使用的灵活性,且性能开销较大, 支持的数据格式有限。在实际的应用中,当需要这些数据时,常常需要提前 把这些数据进行处理,比如统一取到数据库中再使用,这种方式导致开发人 员的工作量大,需要先把数据读取,然后再插入到数据库中,使用起来十分 不方便。在实际实施时,由于操作数据的方式往往具有多样性,且存储的格 式也不相同,要把这些数据入库,进行数据读取也非一件易事。如何把这些 存储在网络上不同位置的数据作为一个数据源,方便的接入到应用系统中, 同时减少开发人员的工作量,是一个比较难以解决的问题。发明内容本发明要解决的技术问题是提供一种网络数据集中的方法和设备,以便 于集中网络上不同格式的数据。为了解决上述问题,本发明提供了一种网络数据集中方法,该方法包括以下步骤(a)接收并解析终端发送的数据源获取请求,产生数据访问相关的工作指令和数据整合相关的数据指令;(b) 根据工作指令,创建并启动相应的任务,获取数据;(c) 根据数据指令把获取的数据整合成统一的数据结果集;(d) 封装数据结果集为数据源并返回给终端用户。进一步地,步骤(a)中,数据源获取请求中或数据源获取请求对应的配置 文件中包括网络上处于不同位置的数据获取方法及数据连接和过滤规则及 最终生成的数据集格式。进一步地,步骤(b)中,根据工作指令中的指令序列网络地址和文件格式 对工作指令进行分类,并针对一个分类创建一个任务。进一步地,步骤(c)中,根据数据指令对获取的数据依次进行过滤、连接 和格式化整合,以得到同一的数据结果集。为了解决上述技术问题,本发明还提供了一种网络数据集中设备,该设 备包括调度器、工作引擎和数据整合器,其中,调度器用于解析终端的数据源获取请求,生成数据访问相关的工作指令 和数据整合相关的数据指令,并分别下发给工作引擎和数据整合器,且将返 回的数据结果集封装为数据源返回给终端用户;工作引擎用于根据工作指令,创建并启动相应的任务获取数据;数据整合器用于根据数据指令,将获得的数据整合成统一格式的数据结 果集,并返回调度器。进一步地,该设备还包括存储器,用于存储预先设定的若干个配置文件, 配置文件的内容包括网络上处于不同位置的数据获取方法及数据连接和过 滤规则及最终生成的数据集格式。进一步地,调度器包括配置文件获取模块、配置文件解析模块和数据源 封装模块,其中,配置文件获取模块,用于接收终端数据源获取请求,并根据该请求包含 的信息,查找到对应的配置文件;配置文件解析模块,解析获取的配置文件的内容,得到数据访问的相关 信息和数据整合的相关信息,再分别转化为工作引擎可识别处理的工作指令 和数据整合器可识别处理的数据指令,并将这两部分内容分别发送给工作引擎和数据整合器;数据集封装模块用于将获取的数据结果集进行封装,把数据集转换为一 个数据源,以一个数据源的形式返回给终端,并提供访问数据记录的接口方 法。进一步地,工作引擎包括指令接收模块、指令分析模块及数据获取模块, 其中指令接收模块用于接收工作指令,把指令进行緩存,直到所有的指令接 收完毕,把这些指令传递给指令分析模块;指令分析模块用于对接收到的指令进行归类处理;数据获取模块,根据归类后信息查找存储的指令,获取数据访问方法, 并根据取到的指令创建数据获取任务, 一个归类对应一个任务,其中设定获 取数据的相应资源以及操作步骤,任务准备就绪后启动任务。进一步地,指令分析模块归类的依据是指令序列网络地址和文件格式。进一步地,数据整合器包括指令接收模块、指令分类模块、数据集接收 模块和数据集处理模块,其中指令接收模块用于接收调度器的数据指令,加以存储;指令分类模块用于将接收到的指令根据数据指令的功能进行分类,转换 为对应的处理规则,包括数据过滤规则,数据连接规则和数据集格式;数据集接收;^莫块收到工作引擎的通知后用于接收所有数据结果集;数据集处理模块用于对数据集进行过滤、连接和格式化,具体的,依次 取出数据集,查找对应的数据过滤规则,对于该数据进行过滤处理,过滤后 的结果形成一个临时数据集,当所有的数据集都完成过滤后,再根据连接规 则,对过滤后的临时数据集进行连接处理,直到形成一个完整的数据集,根 据定义的数据结构,把该数据集进行格式转换,完成后把数据集传递给调度 器。与现有技术相比较,本发明设备和方法可以使得用户不用关心数据如何 集成,减少了开发者的工作量,同时整个装置可以方便的集成到其它系统中, 具有较强的灵活性和可扩展性。


图l是本发明网络数据集中设备的总体框架结构示意图。图2是本发明网络数据集中设备的调度器结构示意图。 图3是本发明网络数据集中设备的工作引擎结构示意图。 图4是本发明网络数据集中设备的数据整合器流程图。 图5是本发明网络数据集中方法流程示意图。
具体实施方式
如图1所示,本发明网络数据集中设备可根据终端用户请求对网络数据 进行集中,该网络数据集中设备包括调度器1、工作引擎2、数据整合器3 及存储器4,其中调度器1用于解析终端的数据源获取请求,生成工作指令和数据指令分 别下发给工作引擎和数据整合器,且将返回的数据结果集封装为数据源返回 给终端用户;工作引擎2用于根据工作指令,创建并启动相应的任务获取数据;数据整合器3用于根据数据指令,将获得的数据整合成统一格式的数据 结果集,并返回调度器。存储器4用于存储预先设定好的若干个配置文件,该配置文件以XML 的形式进行保存,内容包括网络上处于不同位置的数据获取方法及数据连接 和过滤规则及最终生成的数据集格式。当本发明网络数据集中设备收到终端的数据源获取请求时,调度器可以 根据该请求在存储器中匹配到对应的配置文件,从而解析出工作指令和数据指令。在存储器中预先设定好若干配置文件是本发明方法和设备的最佳实施 方式,可使得终端用户的操作简单易行,当然也可以筒化该设备,不预先设 定配置文件,而在终端的数据源获取请求中携带相应信息,调度器根据该相 应信息解析出用于下发给工作引擎和数据整合器的工作指令和数据指令。此 时,数据源获取请求中携带的信息与配置文件相当,包括数据的读取和访问 方式以及数据的连接方式及数据结果集的数据格式等。存储器可以作为本发明网络数据集中设备的维护工具,支持新增数据类型,新增数据类型时可以通过在XML文件中扩充这种类型的访问资料和数 据读取类(也就是如何把文件中的数据读取处理的指南,因为每个格式的文 件的数据读取方法是不同的)来实现,这样调度器把获取数据的操作转换为 对应的工作指令给工作引擎,工作引擎就可以通过指令获取对应的数据集。以下结合附图对网络数据集中设备进行详细说明。调度器1主要负责根据终端的数据源获取请求找到相应的配置文件,把 配置文件解析处理,获取工作引擎的工作指令和数据整合器的数据指令,工 作指令指获取网络上不同位置数据的一系列指令序列。数据指令指包括数据 连接、过滤规则和最终生成的数据集格式的一系列指令序列。通过工作引擎 的数据处理和数据整合器的操作获取到一个数据集,把该数据集封装为数据 源传递给终端。如图2所示,调度器1主要包括配置文件获取才莫块、配置文件解析模块 和数据源封装模块,其中配置文件获取模块,用于接收终端的数据源获取请求,并根据该请求的 包含的信息,查找到对应的配置文件;配置文件解析模块,解析获取的配置文件的内容,得到数据访问的相关 信息和数据整合的相关信息,再分别转化为工作引擎可识别处理的工作指令 和数据整合器可识别处理的数据指令,并将这两部分内容分别发送给工作引 擎和数据整合器;其中工作指令指数据源在网络上的位置以及访问数据源的相关方法,网 络上的位置可以通过IP相关的信息来进行表示,数据源的信息对应了网络 上不同位置的不同格式的数据源。具体地,工作指令是在对应软件基础上可以执行的指令序列,如果是FTP的话,那么工作指令指"打开一个IP地址", "切换到数据文件所在的目录"、"获取该文件"等一系列指令序列。如果要获取的数据是一个放在FTP上的EXCEL文件,则解析出来的工 作指令就有文件FTP的URL信息、访问需要的用户名和密码,以及访问文 件数据读取类,读取类用于获取文件里面的数据(调用对应的API获取到 EXCEL的数据,在JAVA环境下可以通过POI这个包获取到EXCEL中的 数据),如果是数据库,则解析出来的工作指令定义了数据库类型,数据库 名称、库中表或者^f见图,连接的用户名和密码等资源。数据指令指把获取的一系列不同数据集整合为一个数据集的规则,分为 数据的过滤规则和连接规则、数据集格式,这些以数据指令的形式下发到数 据整合器。过滤规则用于过滤不符合条件的数据,数据的连接规则用于把这 些数据进行拼装,整合为一个完整的数据集;数据集格式用于规定形成的数 据集的数据结构。数据集封装模块用于将获取的数据结果集进行封装,把数据集转换为一 个数据源,以一个数据源的形式返回给终端,并提供访问数据记录的接口方 法。工作引擎2,根据调度器传来的工作指令,启动相应的任务到网络中获 取相关数据,把获取到的数据传递给数据整合器处理。如图3所示,工作引 擎主要包括指令接收模块、指令分析模块及数据获取模块,其中指令接收模块用于接收工作指令,把指令进行緩存,直到所有的指令接 收完毕,再把这些指令传递给指令分析模块;指令分析模块用于对接收到的指令进行归类处理;归类的依据是指令序列网络地址和文件格式,比如说同一个FTP地址 上的两个EXCEL文件,就会被归成一个类。数据获取模块,根据归类后信息查找存储的指令,获取数据访问方法,并根据取到的指令创建数据获取任务, 一个归类对应一个任务,其中设定获 取数据的相应资源以及操作步骤,任务准备就绪后,把该任务的状态信息修 改为执行状态,启动任务。当收集获取的数据结果集的任务执行完成后,就会发送一个执行完毕的 通知,收到这个通知后,就会判断是否所有的数据获取任务都已经完成,如 果没有完成就继续等待,当所有的数据收集任务都已经完成,通知数据整合 器前来取数据,等待数据整合器把获取的所有数据结果集取走。数据整合器3把获取的数据集,依据调度器传递的相关规则进行数据的 整合处理,也就是把多个数据集合成一个数据集,然后把该数据集返回给调 度器。如图4所示,数据整合器主要包括指令接收模块、指令分类模块、数 据集接收模块和数据集处理模块,其中指令接收模块用于接收调度器的数据指令,加以存储;指令分类模块用于将接收到的指令根据数据指令的功能进行分类,转换 为对应的处理规则,包括数据过滤规则,数据连接规则和数据集格式;数据集接收模块收到工作引擎的通知后用于接收所有数据结果集;数据集处理模块用于对数据集进行过滤、连接和格式化,具体的,依次 取出数据集,查找对应的数据过滤规则,对于该数据进行过滤处理,过滤后 的结果形成一个临时数据集,当所有的数据集都完成过滤后,再根据连接规 则,对过滤后的临时数据集进行连接处理,直到形成一个完整的数据集,根 据定义的数据结构,把该数据集进行格式转换,完成后把数据集传递给调度 器。本发明数据集中的方法,包括以下步骤步骤A:接收并解析终端发送的数据源获取请求,生成数据访问相关的 工作指令和数据整合相关的数据指令;步骤B:根据工作指令,创建并启动相应的任务,获取数据; 步骤C:根据数据指令,把获取的数据整合成统一的数据结果集; 步骤D:封装数据结果集为数据源并返回给终端用户。具体地,本发明网络数据集中方法可采用本发明数据集中设备来实现,以下结合附图对本发明数据集中方法进行详细说明如图5所示,本发明数据集中方法的总体流程如下步骤l:提供一个获取扩展数据源的接口,该接口监听终端发送的数据 源获取请求。步骤2:通过该请求的信息,查找到对应的配置文件,把该文件读取内 存中。步骤3:调用解析模块解析该文件的内容,得到数据访问的相关信息和 数据整合的相关信息。步骤4:根据数据文件的定义,把得到数据访问的相关信息和数据整合 的相关信息转换为工作指令和数据指令,其中指令能够被下发模块识别、处 理;步骤5:把工作指令下发给工作引擎,数据指令下发给数据整合器;步骤6:工作引擎收到工作指令,对收到的指令进行緩存,直到所有的 指令接收完毕,工作引擎对指令进行分类处理,直到分类处理完成;步骤7:收到分类处理完成的通知,对于每一个分类建立一个任务,设 定任务中获取数据的信息,当任务建立后启动该任务,把该任务的状态信息 修改为执行状态,启动任务;每一任务负责在一个位置和格式相同的数据获取,获取完成后返回数据 集,并通知工作引擎执行完毕;步骤8:监听任务处理完毕的通知,当收到一个任务处理完毕的通知时, 把任务状态从执行修改为完成;步骤9:检查所有任务是否已经执行完毕,如果执行完毕就进入步骤10, 否则转到步骤8。依次创建并启动相应数据获取任务,当所有的数据获取任务都启动后, 工作引擎进入等待状态;步骤10:发送数据获取完成消息给数据整合器,数据整合器接收消息并从工作引擎获取数据集;步骤11:根据步骤4中的接收到的数据指令对数据进行过滤和连接、 格式化的整合;具体地,数据集处理模块依次取出数据集,查找对应的数据过滤规则, 对于该数据进行过滤处理,过滤后的结果形成一个临时数据集,当所有的数 据集都完成过滤后,再根据连接规则,对过滤后的临时数据集进行连接处理, 直到形成一个完整的数据集,根据定义的数据结构,把该数据集进行格式转 换,完成后把数据集传递给调度器。步骤12:数据整合完毕,发送消息给调度器,等待调度器把这个最终 数据集取走;步骤13:调度器监听是否有数据集到达,当收到一个数据集已经形成 的消息后,把这个数据集从数据整合器取回;步骤14:调度器把取回的数据集封装成数据源的形式,并把操作数据 源的句柄发送给终端。步骤15:终端获取到这个数据源操作句柄,获取数据。与现有技术相比较,本发明引入调度器、工作引擎和数据整合器的模块, 这些模块相互配合完成网络上数据集中的功能。配置文件可以根据数据文件 的扩展方式来访问新增格式的数据,同时配置文件定义返回数据的格式,使 得结果数据格式可以定制。调度器能够获取不同格式的数据源,不需要对于 该数据进行预先处理,就可以直接使用,这些数据可以存在于网络中的不同 位置,文件格式也可以不相同,直接通过相关协议,如FTP或者数据库访 问的相关资源就可以拿到这些数据,在数据整合器中,把工作引擎收集的数 据,通过数据指令设定的规则合成对应的数据集,在这个过程中可以对数据 进行连接和过滤,也可以把数据进行处理,对于数据进行映射转换,具备一 定的数据处理和加工功能。此外,当系统需要处理新增格式的数据类型时,只需要扩充数据文件的 定义,增加调度器解析类的处理逻辑,就可以接入其他类型的数据,从而提高了系统的灵活性。本发明设备和方法可以使得用户不用关心数据如何集成,减少了开发者 的工作量,同时整个装置可以方便的集成到其它系统中,具有较强的灵活性 和可扩展性。
权利要求
1、一种网络数据集中方法,其特征在于,该方法包括以下步骤(a)接收并解析终端发送的数据源获取请求,产生数据访问相关的工作指令和数据整合相关的数据指令;(b)根据工作指令,创建并启动相应的任务,获取数据;(c)根据数据指令把获取的数据整合成统一的数据结果集;(d)封装数据结果集为数据源并返回给终端用户。
2、 如权利要求l所述的方法,其特征在于,步骤(a)中,数据源获取请 求中或数据源获取请求对应的配置文件中包括网络上处于不同位置的数据 获取方法及数据连接和过滤规则及最终生成的数据集格式。
3、 如权利要求2所述的方法,其特征在于步骤(b)中,根据工作指令 中的指令序列网络地址和文件格式对工作指令进行分类,并针对一个分类创 建一个任务。
4、 如权利要求1至3中任一项所述的方法,其特征在于步骤(c)中, 根据数据指令对获取的数据依次进行过滤、连接和格式化整合,以得到同一 的数据结果集。
5、 一种网络数据集中设备,其特征在于该设备包括调度器、工作引 擎和数据整合器,其中,调度器用于解析终端的数据源获取请求,生成数据访问相关的工作指令 和数据整合相关的数据指令,并分别下发给工作引擎和数据整合器,且将返 回的数据结果集封装为数据源返回给终端用户;工作引擎用于根据工作指令,创建并启动相应的任务获取数据;数据整合器用于根据数据指令,将获得的数据整合成统一格式的数据结 果集,并返回调度器。
6、 如权利要求5所述的设备,其特征在于该设备还包括存储器,用于存储预先设定的若干个配置文件,配置文件的内容包括网络上处于不同位 置的数据获取方法及数据连接和过滤规则及最终生成的数据集格式。
7、 如权利要求6所述的设备,其特征在于调度器包括配置文件获取 模块、配置文件解析模块和数据源封装模块,其中,配置文件获取模块,用于接收终端数据源获取请求,并根据该请求包含 的信息,查找到对应的配置文件;配置文件解析模块,解析获取的配置文件的内容,得到数据访问的相关 信息和数据整合的相关信息,再分别转化为工作引擎可识别处理的工作指令 和数据整合器可识别处理的数据指令,并将这两部分内容分别发送给工作引 擎和数据整合器;数据集封装模块用于将获取的数据结果集进行封装,把数据集转换为一 个数据源,以一个数据源的形式返回给终端,并提供访问数据记录的接口方法。
8、 如权利要求5至7中任一项所述的设备,其特征在于工作引擎包 括指令接收模块、指令分析模块及数据获取模块,其中指令接收模块用于接收工作指令,把指令进行緩存,直到所有的指令接 收完毕,把这些指令传递给指令分析模块;指令分析模块用于对接收到的指令进行归类处理;数据获取模块,根据归类后信息查找存储的指令,获取数据访问方法, 并根据取到的指令创建数据获取任务, 一个归类对应一个任务,其中设定获 取数据的相应资源以及操作步骤,任务准备就绪后启动任务。
9、 如权利要求8所述的设备,其特征在于指令分析模块归类的依据 是指令序列网络地址和文件格式。
10、 如权利要求5至7中任一项所述的设备,其特征在于数据整合 器包括指令接收模块、指令分类模块、数据集接收模块和数据集处理模块, 其中指令接收模块用于接收调度器的数据指令,加以存储;指令分类模块用于将接收到的指令根据数据指令的功能进行分类,转换 为对应的处理规则,包括数据过滤规则,数据连接规则和数据集格式;数据集接收模块收到工作引擎的通知后用于接收所有数据结果集;数据集处理模块用于对数据集进行过滤、连接和格式化,具体的,依次 取出数据集,查找对应的数据过滤规则,对于该数据进行过滤处理,过滤后 的结果形成一个临时数据集,当所有的数据集都完成过滤后,再根据连接规 则,对过滤后的临时数据集进行连接处理,直到形成一个完整的数据集,根 据定义的数据结构,把该数据集进行格式转换,完成后把数据集传递给调度 器。
全文摘要
本发明提供了一种网络数据集中设备和方法,该设备包括调度器、工作引擎和数据整合器,其中,调度器用于解析终端的数据源获取请求,生成数据访问相关的工作指令和数据整合相关的数据指令,并分别下发给工作引擎和数据整合器,且将返回的数据结果集封装为数据源返回给终端用户;工作引擎用于根据工作指令,创建并启动相应的任务获取数据;数据整合器用于根据数据指令,将获得的数据整合成统一格式的数据结果集,并返回调度器。本发明设备和方法可以使得用户不用关心数据如何集成,减少了开发者的工作量,同时整个装置可以方便的集成到其它系统中,具有较强的灵活性和可扩展性。
文档编号G06F17/30GK101216839SQ20081000410
公开日2008年7月9日 申请日期2008年1月17日 优先权日2008年1月17日
发明者剑 熊 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1