一种具有高度自控性的异构信息系统数据分析和集成方法与流程

文档序号:18301841发布日期:2019-07-31 10:15阅读:172来源:国知局
一种具有高度自控性的异构信息系统数据分析和集成方法与流程

本发明属于信息技术领域,具体涉及一种具有高度自控性的异构信息系统数据分析和集成方法。



背景技术:

随着云计算、大数据技术的发展和应用,越来越多的企事业单位认识到数据资产的重要性,汇集、分析数据从而挖掘出数据中包含的重要信息已经成为很多单位信息管理部门的重要工作任务。经过多年信息化建设,目前各单位内部都有着大量的信息系统,各类业务数据、资产数据、人员数据都存放在各类系统之中,由于这些系统在研发时其系统架构、开发语言、数据库设计都各不相同,并缺乏统一的顶层设计,最后建立的系统相互之间无法有效共享数据,各系统各自为阵,大量数据存在冗余和不一致,影响了数据的利用。为了解决这种情况,需要在新的信息系统建设时加强规划和顶层设计,在建设初期就考虑系统交互问题,针对遗留系统,为了发挥数据价值,可以采用第三方工具进行数据的分析与集成。

目前已经有不少数据集成软件可以实现异构数据的分析与集成,采取的方式是在主服务器上部署数据分析与集成软件,然后通过远程方式连接到待集成业务系统的数据库,远程进行数据抽取和挖掘,这种方式存在以下不足:第一是服务器端的分析与集成软件需要获取业务系统数据库的用户名和密码,对业务数据库的全部操作权限,会对业务系统数据安全性带来影响;第二是待集成业务系统对自己的数据丧失管理权,不知道谁抽取了自己的数据,抽取了什么数据,多少数据。

在有些应用领域,比如同级的两家单位或是合作的企业,希望在共享数据的同时还能控制自己的数据什么时候共享、被谁共享,共享了什么数据。



技术实现要素:

本发明提出了一种具有高度自控性的异构信息系统数据分析和集成方法。该方法解决了在数据集成时,作为数据源的业务系统对数据的控制权问题,业务系统的所有人可以有效控制数据是否共享、和谁共享、共享那些内容,并且可以不必对外提供数据库用户名和密码,避免危险操作。

为了解决上述技术问题,本发明提供一种具有高度自控性的异构信息系统数据分析和集成方法,包括主控模块、代理服务模块及中心数据库;主控模块部署在服务器上,由web网站和数据处理服务组成;web网站用于提供可视化操作界面,以调用数据处理服务完成数据的分析或集成;主控模块中的数据处理服务提供数据库创建、数据表创建、数据表删除、数据插入、数据删除、数据更新以及数据查询中的一种或者多种操作;中心数据库部署在服务器上,用于存储从业务系统抽取的数据;代理服务模块部署在待集成业务系统所在服务器上,由数据处理服务及配置文件组成;代理服务模块中的数据处理服务提供数据源检测、数据库表查询及数据抽取中的一种或者多种操作。

较佳地,数据源检测操作负责发现本机上已经部署的数据源,该操作请求参数为空,返回参数为找到的数据源名称;数据库表查询操作负责获取指定数据源内包含的数据库名及包含的表名,该操作的请求参数为数据源名称,返回值为数据库表及其包含的表名;表结构查询操作负责获取指定表的结构,包括字段序号、字段名、数据类型、数据长度、小数位数、是否为空、默认值中的一个或者多个字段信息,该操作的请求参数为表名,返回值为表结构;数据抽取操作负责完成指定表及其字段的数据抽取工作,请求参数为数据库名、表名及字段名称,返回值是dataset转化为的xml结构数据。

较佳地,配置文件为xml格式的文档,包括数据库配置文件db.xml、用户配置文件auth.xml及操作日志文件log.xml文件,其中:数据库配置文件db.xml记录本机数据库的用户名和密码,数据处理服务按需读取用户名和密码来完成本机数据库访问授权,数据库配置文件db.xml由待集成业务系统的管理员管理,且只能被本机上的数据处理服务读取;用户配置文件auth.xml记录授权访问本机数据库的用户名和密码及各个用户的哪些数据库表操作权限;操作日志文件log.xml记录每个用户的操作日志。

较佳地,在整个分析和集成过程中,对于待集成业务系统的数据操作全部通过代理模块中的数据处理服务进行。

较佳地,主控模块上的web站点包括业务系统注册、数据分析与集成、抽取数据以及数据管理模块;业务系统注册页面分上下两部分,上部分用于完成业务系统注册,录入的信息包括:业务系统地址、业务系统名称以及备注信息;下部分是一个可编辑的列表,显示已经注册过的业务系统信息;数据分析与集成页面包括业务系统选择对话框,该对话框包括二个下拉菜单,第一下拉菜单中的内容是在业务系统注册页面中录入的业务系统地址,在选择了某一个业务系统后,web站点将调用该业务系统所在服务器上部署的数据处理服务执行数据源检测操作,在本地服务器上查找部署的数据源,将找到的数据源名反馈给web站点,并显示在页面第二个下拉菜单中;在第二个下拉菜单中选择某一个数据源名称然后点击确定按钮,这时web站点将调用目标业务系统上部署的数据处理服务执行数据库表查询操作,该操作根据选择的数据源名称,获取到该数据源下的数据库以及表,并将表信息返回给web站点,web站点获取到数据后,自动进入到数据分析与集成页面;数据分析页面左面的树结构显示的是上一步中获取的某一数据源下的数据库及其表信息,右面显示两个数据,默认为空;在左侧树结构上选择某一数据库下的某一张表后,web站点将调用目标业务系统上部署的数据处理服务,执行表结构查询操作,获取到表结构并在右上的数据表中显示该表的表结构信息,同时还将执行数据抽取操作,获取到该表前若干条数据,并在右下的数据表中显示;分析人员分析完毕后可通过点击复选框,选择该表需要集成的字段,然后点击下一步,进行数据字段描述页面,可以查看选中的表及其字段,并可以为字段标注中文含义,完成字段的标注后,为该表输入一个中文描述,点击下一步,web站点将调用目标业务系统上的数据处理服务执行数据抽取操作,获取该表的数据,web站点获取到数据后,调用主控模块中的数据处理服务,根据需要在中心数据库建库、建表、插入获取到的数据,至此,完成数据的分析、集成工作。

较佳地,完成数据分析、集成工作后,已经集成的数据表记录在中心数据库中,当数据发生变化,需要再次抽取时,通过数据更新界面再次启动抽取流程,达到更新数据的目的,,在数据更新界面中,之前集成过的数据表名、来源、上次抽取时间将在表格中显示,可根据需要选择某张表进行抽取。

本发明与现有技术相比,其显著优点在于,数据处理服务对外只提供读取数据的操作,从源头杜绝了数据库的误删除和修改;数据库的用户名和密码存储在待集成业务系统所在服务器上,只能被代理服务模块读取,且不会传给第三方,杜绝了密码泄漏隐患;对于数据处理服务所提供的操作,通过soaphead添加了验证信息,只有授权用户才能调用,确保了数据的可控;通过配置文件,可以控制哪些数据允许被抽取;所有数据操作的日志都存储本地,待集成业务系统所有者可以及时了解数据集成情况。

附图说明

图1是本发明的系统组成示意图。

图2是主控模块组成示意图。

图3是代理服务模块组成示意图。

图4是业务系统注册页面示意图。

图5是业务系统选择对话框示意图。

图6是数据分析页面示意图。

图7是数据字段描述示意图。

图8是数据更新界面示意图。

具体实施方式

容易理解,依据本发明的技术方案,在不变更本发明的实质精神的情况下,本领域的一般技术人员可以想象出本发明的多种实施方式。因此,以下具体实施方式和附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。

本发明解决其技术问题所采用的技术方案是基于webservice技术,提供了一套具有自控性的数据分析与集成方法。如图1所示,该方法包括主控模块、代理服务模块及中心数据库三个部分。

主控模块部署在一台服务器上,由一个web网站和数据处理服务组成,其构成如图2所示。web网站的主要功能是提供一个可视化界面供分析人员完成数据的分析、集成工作,而具体功能的实现是通过调用数据处理服务完成的;数据处理服务是一个采用webservice技术开发的web服务,该服务对外提供了以下操作:数据库创建操作、数据表创建操作、数据表删除操作、数据插入操作、数据删除操作、数据更新操作、数据查询操作。

中心数据库与主控模块部署在同一服务器上,主要用来存储从业务系统抽取来的数据。

代理服务模块部署在待集成业务系统所在服务器上,由数据处理服务及配置文件组成,如图3所示。此处的数据处理服务是基于webservice技术开发的web服务,对外提供数据源检测操作、数据库表查询操作、表结构查询操作及数据抽取操作。各操作的主要功能描述如下:“数据源检测操作”负责发现本机上已经部署的数据源,支持oracle、sqlserver等数据库的自动发现,该操作请求参数为空,返回参数为找到的数据源名称,实现的原理是查找注册表中的注册信息,获取数据源名称;“数据库表查询操作”负责获取指定数据源内包含的数据库名及包含的表名。该操作的请求参数为数据源名称,返回值为数据库表及其包含的表名;“表结构查询”操作负责获取指定表的结构,包括“字段序号”、“字段名”、“数据类型”、“数据长度”、“小数位数”、“是否为空”、“默认值”等字段信息。该操作的请求参数为表名,返回值为表结构;“数据抽取操作”负责完成指定表及其字段的数据抽取工作,请求参数为数据库名、表名及字段名称,返回值是dataset转化为的xml结构数据。

配置文件其本质为xml格式的文档,包括数据库配置文件(db.xml)、用户配置文件(auth.xml)及操作日志文件(log.xml文件)。其中db.xml记录了本机数据库的用户名和密码,数据处理服务按需读取这些信息来完成本机数据库访问授权,该文件由待集成业务系统的管理员管理,且只能被本机上的数据处理服务读取,有效的保护了数据库的安全。auth.xml文件里记录了授权访问本机数据库的用户名和密码及各个用户可以对哪些数据库表进行操作。log.xml文件记录了每个用户的操作日志。

在整个分析和集成过程中,对于待集成业务系统的数据操作是全部通过代理模块中的数据处理服务进行的,这样的优势在于1:数据处理服务对外只提供读取数据的操作,从源头杜绝了数据库的误删除和修改。2:数据库的用户名和密码存储在待集成业务系统所在服务器上,只能被代理服务模块读取,且不会传给第三方,杜绝了密码泄漏隐患;3:对于数据处理服务所提供的操作,通过soaphead添加了验证信息,只有授权用户才能调用,确保了数据的可控;4:通过配置文件,可以控制哪些数据允许被抽取;5:所有数据操作的日志都存储本地,待集成业务系统所有者可以及时了解数据集成情况。

在待集成系统所在服务器上部署代理服务模块,并完成数据库配置文件、用户配置文件的设置工作。在主服务器上部署主控模块及中心数据库。

启动主控模块上的web站点,该web站点主要包括“业务系统注册”“数据分析与集成”“抽取数据”“数据管理”4个模块,如图4所示。默认显示的是“业务系统注册”模块,该页面分上下两部分,上部分是完成业务系统(对应某一个待集成系统)的注册,录入的信息包括:业务系统地址(待集成系统的ip地址)、业务系统名称以及备注信息。下部分是一个列表,显示已经注册过的业务系统信息,可以对其进行编辑。完成数据录入后,点击注册按钮,信息将存储到中心数据库中,并显示在页面下方表格里。完成注册工作后,可点击“数据分析与集成”菜单,跳转到数据分析与集成页面。

进入数据分析与集成页面后,首先弹出的是业务系统选择对话框,如图5所示,该对话框包括2个下拉菜单,第一下拉菜单中的内容是在“业务系统注册页面”中录入的业务系统地址,在选择了某一个业务系统后,web站点将调用该业务系统所在服务器上部署的数据处理服务执行数据源检测操作,在本地服务器上查找部署的数据源,将找到的数据源名反馈给web站点,并显示在页面第二个下拉菜单中。

在第二个下拉菜单中选择某一个数据源名称然后点击“确定”按钮,这时web站点将调用目标业务系统上部署的数据处理服务执行数据库表查询操作,该操作根据选择的数据源名称,获取到该数据源下的数据库以及表,并将表信息返回给web站点,web站点获取到数据后,自动进入到数据分析与集成页面。

数据分析页面如图6所示,左面的树结构显示的是上一步中获取的某一数据源下的数据库及其表信息,右面显示两个数据,默认为空。在左侧树结构上选择某一数据库下的某一张表后,web站点将调用目标业务系统上部署的数据处理服务,执行表结构查询操作,获取到表结构并在右上的数据表中显示该表的表结构信息(包含字段序号、字段名、数据类型、数据长度、小数位数、是否为空、默认值),同时还将执行数据抽取操作,获取到该表前10条数据,并在右下的数据表中显示。通过这个页面,可以完成数据的分析工作,利用上下两个表,把两类数据(表结构和记录)在同一页面中展示,页面上部为表结构、页面下部为数据,这样做的原因是很多业务系统开发时缺少统一规范,数据表在设计时不统一,有的字段采取汉语拼音或是汉语拼音首字母的方式命名,且没有添加备注,后续分析人员很难只从字段名称看出其含义,也就无从判断是否需要集成,而结合下方列出的数据,可从理解数据的含义出发辅助数据集成人员推断出各个字段的意义(比如sj字段,保存的数据如果是“2009-01-02”,可推断是“时间”,若保存的数据是“设备断电”,可推断是“事件”),以便确定是否需要集成。

分析人员分析完毕后可通过点击右上表的复选框,选择该表需要集成的字段,然后点击下一步,进行数据字段描述页面,如图7所示。在这个页面上,可以查看选中的表及其字段,并可以为字段标注中文含义,完成字段的标注后,为该表输入一个中文描述,点击下一步,web站点将调用目标业务系统上的数据处理服务执行数据抽取操作,获取该表的数据,web站点获取到数据后,调用主控模块中的数据处理服务,根据需要在中心数据库建库、建表、插入获取到的数据,至此,完成数据的分析、集成工作。

完成数据分析、集成工作后,已经集成的数据表将记录在中心数据库中,当数据发生变化,需要再次抽取的时候,可通过数据更新界面再次启动抽取流程,达到更新数据的目的,数据更新界面如图8所示,在该界面中,之前集成过的数据表名、来源、上次抽取时间将在表格中显示,可根据需要选择某张表进行抽取。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1