自主智能异构数据集成系统及方法

文档序号:6598119阅读:230来源:国知局
专利名称:自主智能异构数据集成系统及方法
技术领域
本发明涉及一种与异构数据集成技术以及数据挖掘技术相关的网络数据互联技术领域,更具体地涉及一种自主智能异构数据集成系统及方法。
背景技术
众所周知,互联网、内联网和广域网三网互联提供了覆盖全球的信息通讯网络,但目前网络只提供了通过以TCP/IP(transmission controlprotocol/internet protocol,传输控制与网际协议协议)为主的计算设备和软端口的连接,对各种硬件平台中,不同操作系统之间可以实现文件级共享,如内联网中的文件、驱动器共享设备等以及在互联网中的FTP(file transfer protocol,文件传输协议)系统。但对于各种数据结构之间数据对数据的直接互联和集成尚且是一项技术空白。由于历史因素的影响,截止目前,在网络中存在着保存大量结构化数据的各类型数据库系统超过30多种,而保存非结构化数据的文件格式已经超过万种。这些异构数据之间由于缺乏可以相互识别数据的接口和统一的数据表达标准,因此,虽然置身于全球信息互联网络之中,但却存在着极其严重的信息孤岛现象。对于构建在广泛信息共享基础上的高效信息运用产生了极大的阻碍作用。
当前,包括IBM、Oracle等主流数据库厂商和以CA为代表的应用软件开发商已经对基于三网的分布数据集成技术给予了高度的重视,并投入相当的力量开发相关软件产品。但目前出现的该类相关软件产品均为简单的辅助工具软件,不具备开放性、自主性和智能化特征。总结其主要缺陷有不开放;不通用;不独立;无智能;不安全;缺乏同时对内联网、互联网和广域网的支持能力;缺乏自主运行能力。

发明内容
本发明目的是提供一种适用于企业、政府、行业、以及电子商务所迫切需要的安全、高效、低成本、高可用性,可运行在任何网络环境下的终端产品的自主智能异构数据集成系统及方法。
本发明是这样实现的一种自主智能异构数据集成系统,该系统是一种在互联网、局域网和广域网环境中,具有开放性、自主化和智能化的异构数据探索、数据模型结构分析、数据挖掘、语义分析、及XML数据传输处理能力的跨网络跨平台异构数据库的数据集成系统,该系统包括一个实现了对象化数据库和多个异构数据库驱动的基础内核,该内核提供上述装置在异构数据集成处理中的算法、规则、模型、底层调用和设备管理;一个连接到上述基础内核的映射器,该映射器实现异构数据集成处理中的网络数据探索和关系映射处理;一个连接到上述基础内核的挖掘器,该挖掘器实现异构数据集成处理中的数据查询引擎、数据挖掘引擎,针对上述映射器的输出结果-映射图进行网络数据挖掘;一个连接到上述基础内核的交换器,该交换器针对上述挖掘器的输出-数据报,进行异构数据集成处理中的数据格式化、通讯连接与管理,及网络控制和数据传输;
一个连接到上述基础内核的接收器,异构数据集成处理过程中,该接收器针对网络进行通讯监听、对上述交换器进行应答、数据接收和数据库数据推入与更新。
一种自主智能异构数据集成方法,该方法是一种在互联网、局域网和广域网环境中的异构数据探索、数据模型结构分析、数据挖掘、语义分析、及XML数据传输的跨网络跨平台异构数据库的数据集成方法,该方法包括下属步骤利用映射器和基础内核进行的网络异构数据库自动探索处理;基于上述步骤的结果,利用映射器和基础内核进行的网络数据源模型、主机定位索引表的创建;基于上述步骤的结果,利用映射器和基础内核进行的自动化数据结构、数据字典和数据语义映射;基于上述步骤的结果,利用挖掘器和基础内核进行的针对多个异构数据库跨越网络的数据挖掘;基于上述步骤的结果,利用交换器、接收器和基础内核进行的网络监听数据报并接收数据,进行对目标数据库的数据插入和数据更新。
与现有技术相比较,本发明具备如下优点开放的体系结构;动态的应用模型;全面支持三网环境;与应用无关的应用跨平台能力;支持全部类型数据库的自动、智能数据集成;支持全部类型非结构化字符流数据结构的自动、智能数据集成。


根据下面附图及最佳实施例的描述,本发明的特性和优点将会更加易于理解。
图1是本发明自主智能异构数据集成系统的总体模块图;
图2-6是图解图1中5个模块的详细模块图;图7是实现本发明方法的总体步骤流程图;图8-9是图解图7中自动探索和异构映射的详细步骤流程图。
具体实施例方式
在图1中,本发明包括基础内核19,和通过基础内核19连接的映射器20、挖掘器21、交换器22和接收器23。
基础内核19向提供底层计算和服务基础,包括实现一个基本对象化数据库和多个异构数据库的数据库驱动接口;与其连接的映射器20主要实现网络数据探索和关系映射;与基础内核19连接的挖掘器21实现数据查询引擎、数据挖掘引擎;与基础内核19连接的交换器22主要实现数据格式器、通讯与网络控制器和数据传输器;与基础内核19连接的接收器23主要实现通讯监听器、应答器、接收器和数据库数据推入操纵引擎。
映射器20、挖掘器21、交换器22和接收器23之间通过数据总线连接,主要实现数据内部传输、消息交换和共享数据堆栈访问。
图2更详细地图示了基础内核19的内部模块构造。基础内核19包括公共类接口24、同步调用器25、异步调用器26、文件及数据库服务引擎27、网络通讯引擎33和网络协议引擎35。其中,网络协议引擎35内部组成包括HTIP(hypertext transfer protocol,超文本传输协议)引擎38、ASP(active server page,动态服务器主页)引擎39、XML引擎40和消息队列41;网络通讯引擎33内部组成包括通讯驱动器31和TCP/IP引擎34等网络协议引擎。在基础内核19中的公共类接口24实现为一组动态连接库和运行时中间转译服务代码,由与其直接连接的同步调用器25和异步调用器26进行运行时调用、控制和管理。与公共类接口24连接的文件及数据库服务引擎27提供本地系统级文件和对象化数据库服务。与公共类接口24连接的通讯协议引擎33提供可基于多种可扩充网络通讯协议之上的通讯服务、提供不断植入新硬件、设备的驱动软件。由通讯驱动器31和TCP/IP引擎等多种通讯协议引擎组成。与公共类接口24连接的网络协议引擎35是在运行时互为客户、服务角色中的精简中间件服务容器。提供HTTP服务、ASP服务和XML服务40;以及消息队列服务。上述四项服务分别由组成网络协议引擎35的HTTP引擎38、ASP引擎39、XML引擎40和消息队列41提供。
图3更详细地图示了映射器20的内部模块构造。映射器20包括SQL(structured query language,结构化查询语言)模型库43、SQL引擎42、样本映射器53、关系映射器52和抽取映射器51。其中,样本映射器53内部组成包括数据库探针63、模型管理器62和样本管理器61;关系映射器52内部组成包括视图管理器60、算法管理器59和连接管理器58;抽取映射器51内部组成包括模板引擎54、触发器引擎55、字符转换器56和数据表达器57。
映射器20中的SQL引擎42实现基于关系映射语言的SQL定义、存储和维护,以及基于SQL标准的分析和创建。与SQL引擎42连接的SQL模型库43提供SQL模型和对象服务,包括含SQL标准语法库和SQL标准函数及运算库。与SQL引擎42连接的样本映射器53实现对各种网络的自动和智能化数据源样本分析、探索、结构创建、维护及采集方案下载和维护。其中的数据库探针63完成网络数据源自动探索;模型管理器62完成网络数据源分析和管理;样本管理器61完成样本结构创建、维护及采集方案的下载和维护。与SQL引擎42连接的关系映射器52针对样本映射器53的输出(图3中样本映射器53和关系映射器52之间的连接)实现在数据源样本结构和采样方案结构之间的数据集成关系影射。其中视图管理器60管理虚拟视图对象;算法管理器59管理SQL算法对象;连接管理器58管理虚拟视图对象和SQL算法对象之间的传递连接关系。与SQL引擎42连接的抽取映射器51针对关系映射器52的输出,实现在已定义表级数据域列关系映射图基础上的记录行行抽取规则定义。其中的模板引擎54提供模型化预定义抽取规则,利于用户快速定义和实现在关系映射器52基础上的抽取规则定义;触发器引擎55实现对动态数据库集成及动态数据抽取规程中向源数据库系统的触发器代码段植入;字符转换器56实现针对各种数据库系统中国际化字符集的自动转换;数据表达器57提供可视化的数据库集成结果预浏览及用于抽取映射器进行自主智能优化的基础数据结构服务。
图4更详细地图示了挖掘器21的内部模块构造。挖掘器21包括多主机交换引擎64、数据缓冲池65、数据库驱动器77、挖掘触发器76和挖掘执行器75。其中,数据库驱动器77内部组成包括针对各种主流数据库系统的驱动接口;挖掘触发器76内部组成包括事件触发器83、倒数计数器84和手工启动器85;挖掘执行器76内部组成包括挖掘过滤器82、数据整理器81和过程跟踪器79。
挖掘器21中的主机交换引擎64实现挖掘过程调度、优先级仲裁、进程管理、面对网络环境的多主机定位、集成流程分析、SQL转译、创建与部署以及动态共享空间管理。与主机交换引擎64连接的数据驱动器77向主机交换引擎64提供预定义的多种主流数据库的驱动接口;与主机交换引擎64连接的挖掘触发器76实现挖掘启动触发模型,提供手工启动、事务驱动启动和倒计时启动三种不同或混合方式实现挖掘过程的启动触发。其中的事件触发器83、倒数计数器84和手工启动器85分别对应和提供上述三种类型的启动触发服务。与主机交换引擎64连接的挖掘执行器75实现根据采样方案和SQL表达的数据挖掘过程。其中的挖掘过滤器82实现基于字段内容的复合过滤模型和算法;数据整理器81实现对挖掘过滤器82中所有投放运行进程的输出,在数据项→数据行→数据表→结果集分别4个数据级别上的整理、加工;过程跟踪器79实现基于挖掘进程的过程内容暴露,以图形化方式提供挖掘结构和挖掘结论。
图5更详细地图示了交换器22的内部模块构造。交换器22包括传输与交换引擎86、格式器95、加密器96、压缩器97、投递器99、认证服务器94和握手器95。
图6更详细地图示了接收器23的内部模块构造。交换器22包括侦听引擎110、格式器115、解密器116、解缩器117、监听器119、缓冲数据库114和植入器118。
图7说明了本发明方法的全过程步骤顺序。
在步骤101中,由基础内核19与映射器20进行网络异构数据库的自动探索处理;创建指定网络环境下的数据源模型、主机定位索引表,并为后续的步骤102提供网络异构数据映射的基础和模型参数。
在步骤102中,由映射器20和挖掘器21在步骤101输出模型和参数的基础上,进行自动化的数据结构、数据字典和数据语义的映射,生成提供在后续步骤103数据挖掘中进行数据挖掘与抽取的执行指令。
在步骤103中,由挖掘器21在步骤102输出挖掘与抽取执行指令的前提下,进行针对多个异构数据库跨越网络的数据挖掘,生成待传数据报。
在步骤104中,由交换器22接受步骤102的输出,进行打包,加密,压缩等一系列处理后,由接收器23通过网络监听机制对网络上的数据报进行侦测和接受并最终完成对目标数据库的数据插入和更新。
图8更深入地说明了图7中步骤101的详细图解步骤顺序。
由步骤301装载协议、获取MaskIP(mask internet protocol address,互联网地址掩码)、自动验证内网通讯状态、网络区域甄测以及初始化网络通讯链路;之后,由步骤302在内存区中创建主机探索队列和指针索引,完成对目标数据库探索堆栈的初始化;由单一进程投入步骤303,锁定每一个主机探索队列中的地址,首先完成对其所运行的操作系统类型和相关运行、配置参数的自动探索;根据某一操作系统类型(例如Windows和UNIX等,后续处理步骤将有所不同),在步骤304中由单一进程装载操作系统服务模型(来自智能信息泵内置模型库,功能服务以开放式插件的形式实现),并根据装载的操作系统服务模型扫描服务端口;步骤305是对每一个捕捉到的端口进行与数据库服务模型的自动比对;通过步骤306判断是否在某主机某端口上捕捉到与某数据库服务模型相匹配的服务;如果是,则由步骤307将捕捉参数写入目标数据库探索堆栈;如果否,则由步骤308测试指针到底;在本世纪内09步骤中判断是否到底;如果否,则表明仍然存在尚未进行比对的数据库服务模型,此时,将交由步骤305进行继续的探测;如果是,则通过步骤310完成堆栈向队列的转移,为后续的扫描每一个已探明数据库服务内部具体数据对象的步骤完成队列的初始化等处理;从312至316的5个步骤为并行线程的多任务处理方式,由步骤311首先完成对并行线程的管理控制器的创建,并同时建立扫描参数共享内存,该共享内存将实现并行线程之间的动态数据交互和通讯;步骤312启动某线程进行针对队列中的某数据库服务的内部数据实例的探测;结果通过共享内存通讯提交另外一线程通过步骤313完成与数据库探索模型库中对象的验证;步骤314进行判断,如果不匹配,则通过步骤315写入共享内存适当的描述数据结构,如果匹配则直接进入步骤316测试队列指针,如果尚未达到队列尾端,则将控制权交回步骤313,定位和检测其他数据模型对象;如果已经达到队列尾端,则进入步骤317,结束并行线程,回收资源,控制器等候全部线程的返回;一旦全部返回,在步骤318中,由控制器完成根据已经生成在共享内存中的贡献内存数据结构,写入或刷新系统的数据库探索模型库。
图9更深入地说明了图7中步骤102的详细图解步骤顺序。
图9说明了根据本发明的,用映射器20所进行的网络异构数据关系模型映射的图解步骤顺序。在步骤351中,映射器根据接收器23所发送来的响应,自动动态装载接收器23推入共享内存的挖掘映射目标模型,并对历史结论样本进行比对;在步骤352中判定是否与历史匹配,对匹配的部分由公共接口调用内核进行对装载井的刷新处理,并直接在步骤354中结束;对存在的不匹配部分或全部,在步骤355中初始化关系映射工作区,建立前趋索引树结构;随后,一方面在步骤356中交由公共接口进行重新挖掘装载井处理并于步骤357中结束;另一方面,在步骤358中根据挖掘映射需求和前趋索引树,创建或装载现行的离散关系映射规则树;在步骤359中,映射器20进行对挖掘映射目标的解析,并分离离散挖掘映射主题,在共享内存中建立离散主题;在步骤360中,映射器20创建与离散主题相对应的多线程并发管理控制器;在步骤361中,由多线程并发管理控制器创建与各个离散主题相对应的处理线程,进行主题线程离散规则挖掘映射;在步骤362中,判别是否成功形成主题映射结论,如果成功,则在步骤364中回收线程,合并规则,并完成对各个主题挖掘映射的动态集成;在步骤365中,映射器20根据集成映射结论,配发算法、函数模型对象,生成可记录的实例化挖掘映射模型;在步骤366中,映射器完成对挖掘映射模型的茅化,在数据库源中植入映射茅;在步骤367中,根据茅化后的挖掘映射模型,由映射器调用公共接口中的内核服务,进行预数据挖掘抽取,在硬盘设备中创建本地数据库结构数据抽取集合;在步骤368中,对预抽取的数据集合进行实现性分析,是否满足以及在何程度上满足挖掘需求;在步骤369中,进行性能和效率分析,并完成针对实现性和性能的主动优化;经过n次迭代后在步骤370中,配装载井并进行数据存储处理,同时对数据挖掘的需求设备主动进行汇报应答。
应当理解前面只是图解本发明的原理,本领域的技术人员在不脱离本发明的范围和本质的情况下可以进行各种修改。
权利要求
1.一种自主智能异构数据集成系统,该系统是一种在互联网、局域网和广域网环境中,具有开放性、自主化和智能化的异构数据探索、数据模型结构分析、数据挖掘、语义分析、及XML数据传输处理能力的跨网络跨平台异构数据库的数据集成系统,其特征在于,该系统包括一个实现了对象化数据库和多个异构数据库驱动的基础内核,该内核提供上述装置在异构数据集成处理中的算法、规则、模型、底层调用和设备管理;一个连接到上述基础内核的映射器,该映射器实现异构数据集成处理中的网络数据探索和关系映射处理;一个连接到上述基础内核的挖掘器,该挖掘器实现异构数据集成处理中的数据查询引擎、数据挖掘引擎,针对上述映射器的输出结果-映射图进行网络数据挖掘;一个连接到上述基础内核的交换器,该交换器针对上述挖掘器的输出-数据报,进行异构数据集成处理中的数据格式化、通讯连接与管理,及网络控制和数据传输;一个连接到上述基础内核的接收器,异构数据集成处理过程中,该接收器针对网络进行通讯监听、对上述交换器进行应答、数据接收和数据库数据推入与更新。
2.根据权利要求1所述的自主智能异构数据集成系统,其特征在于,所述的映射器、挖掘器、交换器和接收器之间是通过数据总线连接的,以实现数据内部传输,消息交换和共享数据堆栈访问。
3.根据权利要求1所述的自主智能异构数据集成系统,其特征在于,所述的基础内核包括公共类接口、同步调用器、异步调用器、文件及数据库服务引擎、网络通讯引擎和网络协议引擎,在基础内核中的公共类接口实现为一组动态连接库和运行时中间转译服务代码,由与其直接连接的同步调用器和异步调用器进行运行时调用、控制和管理。
4.一种自主智能异构数据集成方法,该方法是一种在互联网、局域网和广域网环境中的异构数据探索、数据模型结构分析、数据挖掘、语义分析、及XML数据传输的跨网络跨平台异构数据库的数据集成方法,其特征在于,该方法包括下述步骤利用映射器和基础内核进行的网络异构数据库自动探索处理;利用映射器和基础内核进行的网络数据源模型、主机定位索引表的创建;利用映射器和基础内核进行的自动化数据结构、数据字典和数据语义映射;利用挖掘器和基础内核进行的针对多个异构数据库跨越网络的数据挖掘;利用交换器、接收器和基础内核进行的网络监听数据报并接收数据,进行对目标数据库的数据插入和数据更新。
全文摘要
本发明公开一种自主智能异构数据集成系统及方法,其特征在于,该发明利用映射器和基础内核进行的网络异构数据库自动探索处理;利用映射器和基础内核进行的网络数据源模型、主机定位索引表的创建;利用映射器和基础内核进行的自动化数据结构、数据字典和数据语义映射。本发明提供一种适用于企业、政府、行业、以及电子商务所迫切需要的安全、高效、低成本、高可用性,可运行在任何网络环境下的终端产品的自主智能异构数据集成系统及方法。
文档编号G06F13/00GK1410915SQ0214899
公开日2003年4月16日 申请日期2002年11月18日 优先权日2002年11月18日
发明者孙晓红, 俞雷, 王保明, 孙建新 申请人:北京慧讯信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1