基于最小依赖的细粒度科研数据融合系统的制作方法

文档序号:6376765阅读:139来源:国知局
专利名称:基于最小依赖的细粒度科研数据融合系统的制作方法
技术领域
本发明涉及的是信息技术领域的系统,具体的说是基于最小依赖的细粒度科研数据融合系统,用于有目标地收集Internet上科学研究方面的数据。
背景技术
信息融合系统是对多源异构数据提供统一的存储、查询和管理的系统。由于数据在不同的数据源中有不同的表示方式,所以需要针对各个数据源设定特定的数据获取方法,并对这些数据加以整合,形成具有实用意义的数据。当前,数据融合的数据来源是由数据融合系统方主动查找,并且在找到的数据源模式和融合系统的目标模式之间建立映射关系。这种方式具有很大的被动性,容易忽略一些较小的、零散的、未被广泛知晓的数据源,例如科研课题发布信息。同时,当前使用的数据映射方法需要较为专业的知识,这在某种程度上也就造成了普通的数据源提供者加入数据融合系统、为数据融合系统提供数据的难度。因此,为了从根本上解决多源异构数据融合系统的灵活性、可扩展性和简单易用性,需要研发一个开放的,使数据源所有者可以主动参与的,并且能够为广大使用者提供服务的新数据融合系统。
经对现有技术文献的检索发现,中国专利申请号200710042896. X,发明名称基于海量交通信息的融合系统,公开号CN101075227,该专利的数据融合系统中,主要考虑到若干个集中的数据源,提供专业应用人员使用;其并没有考虑到当数据源是一些较小,较零散,且数据源来源多样的情况。

发明内容
本发明的目的在于克服现有技术和系统的不足,提供基于最小依赖的细粒度科研数据融合系统,保证系统的开放性,增强数据源所有者参与的主动性,降低数据源参与者的技术难度。本发明采用基于路径的数据导航技术,使其能够在网络环境下为不同信息来源提供一种灵活,高效的数据融合系统,解决当前信息集成系统不能对非结构化数据进行细粒度分析和提取的问题;同时采用开放式结构,可视化的基础数据表映射技术,使所有潜在的数据提供者都可以加入该数据融合系统,为系统提供数据的支持。同时对信息融合系统进行模块化构造,以解决数据融合系统重复开发,共享性差等问题,推动数据融合的应用和发展。本发明采用以下方案实现一种基于最小依赖的细粒度科研数据融合系统,其特征在于包括数据采集服务器、信息融合服务器、映射及依赖管理服务器、系统交互管理服务器以及数据发布服务器;其中系统交互管理服务器和信息融合服务器之间以及系统交互管理服务器和映射及依赖管理服务器之间分别通过网络连接;信息融合服务器分别与映射及依赖管理服务器、数据采集服务器、数据发布服务器、系统交互服务器连接;所述数据采集服务器是能够以指定方式访问网络上的数据库、HTML、XML数据,并获取相应信息的计算机;所述映射及依赖管理服务器是专门用于存储和管理数据源、系统最小依赖集和数据源模式到该融合系统基础数据模式映射关系的计算机;所述信息融合服务器是从映射及依赖管理服务器获取数据源信息,调度数据采集服务器,获取数据采集服务器返回结果,并进行数据融合处理的计算机;所述系统交互管理服务器是为管理用户和数据源用户提供数据融合系统可视化操作界面的计算机;所述数据发布服务器是指专门用于接受数据用户请求,并把结果反馈给数据用户的计算机。本发明系统具有良好的扩展性和简单易用性。本发明系统采用分布式系统架构,各个服务器遵循既定的通信接口,系统的各个组成部分可以放置于同一台服务器,也可以是分布式环境下多台服务器,使系统可以适应不同规模的应用。系统中各类服务器可以进行增加、扩展,使系统能够适应更大的吞吐量。整个系统通过系统交互管理服务器提供统一的用户注册、维护数据源维护、管理用户管理整个系统的门户;数据发布服务器提供统一的数据用户数据请求调用接口和可视化Web页面,方便数据用户使用。本发明系统具有良好的开放性,使数据源用户可以主动参与数据融合系统的建·设。现有数据集成系统通常是有目标的获取数据源,并有系统管理用户建立两者之间数据的映射关系。而本发明系统则是通过基础数据模式,由数据源用户在系统上注册自身数据源,并且建立数据源和系统基础数据模式之间的映射关系。这种做法使系统能够集中成千上万具有少量数据的用户为整个系统的服务,从而达到数据数据源的多样性。本发明系统具有良好的灵活性,可以使数据用户根据自身的需要从数据融合系统基础数据模式的基础上重组得到自身要求格式。本发明系统所采集数据都是以基础数据表加以存储的,用户可以从这些小的存储表中进行选择、投影、连接操作,从而得到满足自身需要的数据格式。本发明提出一种基于细粒度的数据融合方法。该方法以数据之间的最小依赖为中心,从最小依赖构造融合信息数据库的基础数据模式和基础数据表。当数据源用户登记数据时,需要根据数据源数据的具体含义,以及数据之间的依赖关系,把数据分解为更细粒度的数据表,并映射到基础数据表上。当数据用户在使用时,则以数据融合系统中的基础数据表为基础,按照自身的需求进行组合操作。由于所有数据都是按照依赖关系进行最小化分解,所以在采集数据和发布数据时都具有很好的灵活性。本发明的特点和效果
I)数据组织的灵活性和参与的广泛性对于任何一个数据源,只要该数据源上数据的模式分解能够满足某一基础数据模式,那么该数据源便可以为系统贡献自己的信息。反之,任何复杂的数据要求,都可以从基础数据表中组合出来,这两方面极大提高了该发明系统数据来源的广泛性和应用的灵活性。2)数据的高效性和准确性一旦数据源用户登记了数据源的基本信息,并建立起映射关系,数据融合系统就会间隔一定时间访问数据源,获取数据源数据的变化,更新已有融合数据,这样避免了数据用户请求数据时才进行数据采集花费的时间,大大提高系统数据服务的高效性。而系统不定期的访问数据源,更新数据,这也就保证了系统所提供数据的准确性;
3)系统的开放性本发明系统具有很强的开放性,系统的数据源用户可以自主加入系统,为系统提供相关数据;同时,数据用户可以方便的从系统获得数据服务。由于更多用户的参与,使整个系统成为一个开放的系统,具有更多的信息来源,也为更多用户提供服务。4)很强的扩展性本发明系统可以把各部分功能集中在一台服务器上,也可以是在网络中的多台服务器,同时,系统还可以根据数据源多少、数据用户的多少增加数据发布服务器、信息融合服务器和数据采集服务器以应对吞吐规模的变化。5)使用及管理方便本发明系统的数据源参与、系统管理等都通过系统交互管理服务器的Web页面直观呈现;而数据请求操作不但可以通过Web页面,也可以通过程序接口获取数据,返回的数据使用XML描述。这使系统管理和应用不受地域限制,可以在任意可以上网的计算机上执行,同时人机交互界面友好,操作简单。


图I为本发明系统整体架构示意图。
图2为信息融合服务器主要模块及交互图。图3为映射及依赖管理服务器主要模块连接示意图。图4为数据发布服务器主要模块连接示意图。
具体实施例方式本发明的数据融合系统包括数据采集服务器、信息融合服务器、映射及依赖管理服务器、系统交互管理服务器以及数据发布服务器。其中系统交互管理服务器和信息融合服务器之间,系统交互管理服务器和映射及依赖管理服务器之间分别通过网络连接。信息融合服务器以通信方式分别与映射及依赖管理服务器、数据采集服务器、数据发布服务器、系统交互服务器连接。其中上述数据采集服务器是指能够以指定方式访问网络上的数据库、HTML、XML数据,并获取这些信息的计算机。上述信息融合服务器是指是从映射及依赖管理服务器获取数据源信息,调度数据采集服务器,获取数据采集服务器返回结果,并进行数据融合处理的计算机,包括数据融合引擎、融合信息数据库、查询处理模块、融合规则管理模块、融合规则数据库五部分。其中数据融合引擎和映射和依赖管理服务器相连,用于获取映射信息和数据源信息;数据融合引擎和融合规则数据库相连,用于处理采集器返回数据的融合问题;融合规则管理模块和融合规则数据库相连,为融合规则的管理提供接口 ;融合规则管理模块和系统交互管理服务器相连,用于响应管理用户对融合规则的管理;数据融合引擎和融合信息数据库相连,用于存储融合结果;数据存储数据库和数据发布服务器相连,把数据融合结果反馈给用户。上述映射及依赖管理服务器是指专门用于存储和管理数据源、系统最小依赖集和数据源模式到融合系统基础数据模式映射关系的计算机。包括映射规则存取模块、映射规则及依赖关系数据库、映射规则管理模块。其中交互管理服务器可以通过映射规则管理服务器管理数据源信息、映射关系和系统依赖集;信息融合服务器可以通过影射规则存取模块获取需要的息。上述数据依赖是数据库中的基本概念,在关系模式R(U)中,U是R的属性集,X,Y是U子集。对于R(U)上的任意关系r,如果r中不存在两个元组,它们在X上属性相同,而在Y上属性不同,则称Y函数依赖于X,简称Y依赖X。
上述最小依赖是指Y函数依赖于X中的X,Y的任何子集都不能使依赖关系成立。上述基础数据模式是指基于最小依赖Y函数依赖于X所建立的模式(X,Y)。上述系统交互管理服务器是指为管理用户和数据源用户提供数据融合系统可视化操作界面的计算机。系统交互管理服务器不但提供了良好的操作界面,而且隔离用户和系统核心部分,保证了系统的安全性。所述数据源用户是指为数据融合系统提供数据源的人员。管理用户是指管理数据融合系统日常事务的人员。上述数据发布服务器是指专门用于接受数据用户请求,并把结果反馈给数据用户的计算机。该服务器能够缓存并格式化输出数据,有利于减轻信息融合服务器的负担,使之专注于信息融合功能。所述数据用户是指请求数据融合系统提供数据服务的人员。根据上述搭建的技术方案,系统工作时
本发明所述的各服务器处在分布式环境中,可以通过局域网互联,也可以通过广域网互联,并遵循统一的通信协议,能够互相通信和交换信息。系统运行前需要进行初始化工·作,主要是设定数据融合系统的基础数据模式和基础数据表,当然,这些设定还可以在系统运行时由管理员进行修改。整个系统启动后,信息融合服务器便开始利用数据源信息调度采集器采集数据,并在融合操作后更新融合信息数据库,以供数据用户的数据请求。进行数据收集时,数据融合管理服务器首先通过映射及依赖管理服务器获取所登记的数据源、数据源上数据模式映射关系,然后调度数据采集服务器。数据采集服务器则利用数据源信息访问数据源,并且把访问得到的数据返回给信息融合服务器。信息融合服务器利用融合规则数据库中的融合规则对采集到的数据进行分析、处理,确定其可信程度,并对该数据和融合信息数据库中的现有数据加以对比,解决存在的数据冲突问题,然后再加以存储,以供数据用户的查询。所述基础数据表是指基础数据模式所建立的数据表。数据源用户访问系统交互管理服务器,通过系统交互管理服务器注册为数据源用户,然后登记该数据源的访问方法、访问路径以及数据源数据模式和基础数据模式间的映射规则。系统交互管理服务器接收到这些信息后,提交这些信息到映射及依赖管理服务器,由映射及依赖管理服务器加以存储。管理用户访问系统交互服务器,通过系统交互管理服务器的Web页面实现对数据融合系统的管理操作。若管理用户对数据源信息或数据源映射关系进行管理操作,那么系统交互管理服务器则把用户的管理指令提交映射及依赖管理服务器加以执行;若管理用户是对融合规则进行管理,则相应的调用信息融合管理服务器的融合规则管理模块修改融合规则数据库。数据用户是指利用该数据融合系统访问数据的使用人员。数据用户可以通过数据发布服务器的Web页面实现融合数据的查询,也可以通过数据发布服务器的数据访问接口实现对集成数据的访问、查询。在数据发布服务器接收到数据用户的请求后,首先对该请求进行解析并生成查询策略,然后通过信息融合服务器的查询处理模块访问融合信息数据库,查询得到结果后,再把结果返回给数据发布服务器的数据格式化模块,按照用户要求格式化后提交用户。下面结合附图对本发明的实施例作详细说明本实施例在本发明技术方案下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例系统以微机及高性能计算机为设备平台,基于最小依赖的细粒度科研数据融合系统。具体实施方法如下
(I)本发明系统的整体架构上可以分为三个层次,分别是应用层、数据融合层、数据采集层,如图I所示。其中应用层包括系统交互管理服务器和数据发布服务器。应用层是本发明系统数据用户、数据源用户和管理用户与系统进行交互的窗口,包括系统交互管理服务器和数据发布服务器。该层服务器在接收到各类用户的请求后,进行简单处理再转发给数据融合层,由数据融合层进行处理,并且把结果返回应用层,从而使用户得到反馈。数据融合层包括映射及依赖管理服务器和信息融合服务器。数据融合层是本发明系统的核心层,对应用层转发的操作请求进行具体实现。该层管理本发明系统的各类数据,调度数据采集层进行数据的采集操作,并对采集结果分析和存储。数据采集层包括数据采集服务器,主要负责在数据融合层的控制下对指定的数据源进行数据采集操作,并把结果反馈给数据融合层。(2)信息融合服务器是整个系统最核心的部分,其实现信息融合过程时的各个模 块结构及交互如图2所示。该服务器包括融合规则数据库、融合规则管理模块、数据融合引擎、融合信息数据库、查询处理模块。其中融合规则数据库主要用于存储信息融合冲突的解决规则,数据转换规则等。融合规则管理模块则负责对融合规则数据库的增加、删除和修改工作,同时还需要对规则的冲突进行检测。数据融合引擎主要是根据映射及依赖管理服务器提供的数据源和映射关系,调度数据采集服务器进行数据的采集工作,当数据采集服务器返回相应数据时,数据融合引擎需要利用数据融合规则,把新数据进行转换,并与融合信息数据库中的已有数据进行融合,避免数据的冲突。融合信息数据库则用来存储数据融合引擎处理后的数据。查询处理模块与数据发布服务器相连,在接受到数据发布服务器的数据查询请求后,查询处理模块在融合信息数据库中查询相关数据,并返回给数据发布服务器。(3)映射及依赖管理服务器主要用于存储和管理数据源信息、数据源模式与基础数据模式的映射关系、最小依赖关系等,其模块结构图如图3所示。该服务器包括映射规则及依赖关系数据库、映射规则存取模块、映射规则管理模块。其中映射规则及依赖关系数据库存储了主要相关信息。映射规则存取模块则为信息融合服务器提供了访问映射规则及依赖关系数据库的接口。映射规则管理模块是为系统交互管理服务器提供管理映射规则及依赖关系数据库的接口。(4)系统交互管理服务器是为管理用户和数据源用户与融合系统的一个交互窗口。管理用户可以通过交互管理服务器的Web页面实现对用户的管理操作,通过交互管理服务器的Web页面实现对映射及依赖管理服务器上的数据源、依赖关系、模式映射关系进行管理操作;通过交互管理服务器的Web页面实现对信息融合服务器上的信息融合规则进行管理操作。对数据源用户,则可以通过交互管理服务器的Web页面实现对该用户数据源的注册、增力卩、删除、修改操作,还可以对已经建立的模式映射关系进行增、删、改操作,这些修改最终将反应到映射及依赖管理服务器上
(5 )数据发布服务器是数据用户获取数据的窗口,该服务器的模块结构如图4所示。该服务器包括Web页面、查询接口、查询策略生成模块和数据格式化模块。Web页面为数据用户提供了一个可视化操作界面,而查询接口则为数据用户的程序调用提供了操作接口。查询策略生成模块则根据Web页面或查询接口的查询请求,生成系统内部的查询策略,并提交信息融合服务器。数据格式化模块则在信息融合服务器返回查询结果后,按照用户的要求实现数据的格式化,并返回给数据用户。(6)数据采集服务器主要负责接收数据融合服务器的数据采集要求,然后从指定数据源访问得到数据,最后返回给数据融合服务器进一步处理。本发明系统可以通过简单增加数据采集服务器,从而增加数据采集的效率。以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与 修饰,皆应属本发明的涵盖范围。
权利要求
1.一种基于最小依赖的细粒度科研数据融合系统,其特征在于包括数据采集服务器、信息融合服务器、映射及依赖管理服务器、系统交互管理服务器以及数据发布服务器;其中系统交互管理服务器和信息融合服务器之间以及系统交互管理服务器和映射及依赖管理服务器之间分别通过网络连接;信息融合服务器分别与映射及依赖管理服务器、数据采集服务器、数据发布服务器、系统交互服务器连接; 所述数据采集服务器是能够以指定方式访问网络上的数据库、HTML、XML数据,并获取相应信息的计算机; 所述映射及依赖管理服务器是专门用于存储和管理数据源、系统最小依赖集和数据源模式到该融合系统基础数据模式映射关系的计算机; 所述信息融合服务器是从映射及依赖管理服务器获取数据源信息,调度数据采集服务器,获取数据采集服务器返回结果,并进行数据融合处理的计算机; 所述系统交互管理服务器是为管理用户和数据源用户提供数据融合系统可视化操作界面的计算机; 所述数据发布服务器是指专门用于接受数据用户请求,并把结果反馈给数据用户的计算机。
2.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于所述的信息融合服务器包括数据融合引擎、融合信息数据库、查询处理模块、融合规则管理模块以及融合规则数据库;其中数据融合引擎和映射和依赖管理服务器相连,用于获取映射信息和数据源信息;数据融合引擎和融合规则数据库相连,用于处理采集器返回数据的融合问题;融合规则管理模块和融合规则数据库相连,为融合规则的管理提供接口 ;融合规则管理模块和系统交互管理服务器相连,用于响应管理用户对融合规则的管理;数据融合引擎和融合信息数据库相连,用于存储融合结果;数据存储数据库和数据发布服务器相连,把数据融合结果反馈给用户。
3.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于所述映射及依赖管理服务器包括映射规则及依赖关系数据库、映射规则存取模块以及映射规则管理模块;其中映射规则存取模块则为信息融合服务器提供了访问映射规则及依赖关系数据库的接口 ;映射规则管理模块是为系统交互管理服务器提供管理映射规则及依赖关系数据库的接口。
4.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于所述融合是以数据之间的最小依赖为中心,从最小依赖构造融合信息数据库的基础数据模式和基础数据表;当数据源用户登记数据时,需要根据数据源数据的具体含义,以及数据之间的依赖关系,把数据分解为更细粒度的数据表,并映射到基础数据表上;当数据用户在使用时,则以数据融合系统中的基础数据表为基础,按照自身的需求进行组合操作。
5.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于该数据融合系统在进行数据收集时,数据融合管理服务器首先通过映射及依赖管理服务器获取所登记的数据源、数据源上数据模式映射关系,然后调度数据采集服务器;数据采集服务器则利用数据源信息访问数据源,并且把访问得到的数据返回给信息融合服务器;信息融合服务器利用融合规则数据库中的融合规则对采集到的数据进行分析、处理,确定其可信程度,并对该数据和融合信息数据库中的现有数据加以对比,解决存在的数据冲突问题,然后再加以存储,以供数据用户的查询。
6.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于数据源用户访问系统交互管理服务器,通过系统交互管理服务器注册为数据源用户,然后登记该数据源的访问方法、访问路径以及数据源数据模式和基础数据模式间的映射规则;系统交互管理服务器接收到这些信息后,提交这些信息到映射及依赖管理服务器,由映射及依赖管理服务器加以存储。
7.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于管理用户访问系统交互服务器,通过系统交互管理服务器的Web页面实现对数据融合系统的管理操作;若管理用户对数据源信息或数据源映射关系进行管理操作,那么系统交互管理服务器则把用户的管理指令提交映射及依赖管理服务器加以执行;若管理用户是对融合规则进行管理,则相应的调用信息融合管理服务器的融合规则管理模块修改融合规则数据库。
8.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于在数据发布服务器接收到数据用户的请求后,首先对该请求进行解析并生成查询策略,然后通过信息融合服务器的查询处理模块访问融合信息数据库,查询得到结果后,再把结果返回给数据发布服务器的数据格式化模块,按照用户要求格式化后提交用户。
全文摘要
本发明涉及一种基于最小依赖的细粒度科研数据融合系统,该系统主要通过利用数据的最小依赖,采用主动式登记的方式,增强数据源所有者参与的主动性,降低数据源参与者的技术难度,解决一些较小且不完整数据源的数据融合问题。系统采用一种分布式结构,使系统具有良好的扩展性;以最小依赖、基础数据模式和基础数据表的融合系统的数据逻辑层为数据源映射关系提供了一种灵活的机制。系统应用层的系统交互管理服务器和数据发布服务器分别为不同用户提供了可视化的数据管理、登记、访问的方法。存储着系统的信息融合服务器不间断运行,保证数据的及时性,同时融合规则的灵活使用也大大提高了融合的智能性和系统数据的准确性。
文档编号G06F17/30GK102902736SQ20121033562
公开日2013年1月30日 申请日期2012年9月12日 优先权日2012年9月12日
发明者赖会霞, 张仕 申请人:福建师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1