一种校园网环境下基于数据网格的文件快速传输方法

文档序号:7945769阅读:128来源:国知局
专利名称:一种校园网环境下基于数据网格的文件快速传输方法
技术领域
本发明是一种基于数据网格的校园网数据文件快速传输方法。通过在普通校园网广泛使用 的FTP系统基础上增加了接口机制,从而快速过渡到数据网格环境,使用数据网格的优势进行 文件快速传输。本发明最小程度的改动现有运营的系统结构情况下构造新的数据网格环境,并 且兼容已有数据传输软件,从而降低了数据网格使用门槛,解决了数据网格应用开发周期长、 难以与已有资源结合、普通用户难以掌握等缺点。
背景技术
校园网是在学校范围内,为学校教学、科研和管理等教育提供资源共享、信息交流和协同 工作的计算机局域网络。根据CNNIC中国互联网络信息中心2008年7月的《第22次中国互联 网络发展状况统计报告》提供数据来看,截至2008年6月底,中国网民数量达到2.53亿人, 其中大专、本科、硕士及以上总人数占到了 31.2%,也就是7893万人,是一个庞大的用户人群, 同时,中国网民有13. 1%是选择在校上网,所以说,有着庞大用户基础和需求的校园网络建设 十分重要。同时,现有的校园网所采用的技术是否能满足巨大基数用户使用带来的日益增长的 文件存储和传输要求也是个重要问题。
目前各运营商普遍采用传统的FTP(文件传输协议)系统来存储数据,FTP协议是目前因特 网上使用范围最广的协议,拥有大量的技术和资源基础,也是Internet中规范的数据传输协 议之一。使用FTP协议的系统提供了一种集中的交互式的访问,允许授权用户通过客户机上传 数据文件到服务器或者从服务器下载所需要的文件。同时,传统的FTP系统屏蔽了相互联系的 计算机及传输过程中的细节,因而很适合在异构的网络结构中传输数据。
但是随着校园网用户基数、多媒体等大体积文件的增加,带来了大量的网络数据访问和传 输,并且人们对大规模的数据共享的需求越来越强烈,普通的FTP系统作为一种集中式的系统, 已经越来越不能适应发展的要求,同时,数据网格的发展给我们带来了新的选择。
数据网格是一种面向大型分布式数据存储和处理的网格,它将分布的异构的存储和数据资 源通过高性能网络连接起来,并提供相关机制使用户能够透明的访问和处理大型分布式数据 集。可以很好的处理现在飞速膨胀的资源数据。
但是目前构建数据网格环境主要面临三个问题(l)完全新建新的数据网格系统费时费力, 很多情况下需要从最基本的系统开始构建,完全舍弃了原有己经长期运行的系统,需要重新开 发具有相应功能的系统及软件。(2)对于已经存在的FTP的数据资源、用户权限、日志功能等 需要重新安排,不能方便快速自动的过渡。(3)用户需要重新学习和使用新的软件进行数据传 输,但用户可能倾向于选择已习惯了的软件,所以构建全新的数据网格环境会限制使用人群。
现有校园网搭建数据网格的技术方案基本是关于新构建数据网格环境的设计,并没有考虑 合理利用已有FTP系统下资源,没有实现一种自动识别现有资源,支持原有用户软件的数据网 格的方案。

发明内容
技术问题本发明的目的是提供一种一种校园网环境下基于数据网格的文件快速传输方 法,使校园网FTP快速升级成为数据网格,解决了数据网格环境使用不方便的问题,从而为利 用数据网格优势进行大规模数据传输提供了资源和操作上的保证。
技术方案本发明目的是为原有校园网FTP系统增加转换机制,平稳过渡到校园网的数据 网格环境。在网格中间件OGSA-DAI (—种网格中间件,可以简化对数据网格中的数据的访问) 提供的网格功能基础上,通过两方面进行扩充改造,即一方面通过系统发现模块、资源发现模 块、功能发现模块、格式转换模块、数据信息模块、发布模块使原有数据和控制资源导入到新 的数据网格环境中,另一方面通过请求应答转化模块使原有数据传输软件对普通文件传输协议 FTP系统的使用自动转化为对新数据网格环境的使用,从而在用户级别上无缝升级到数据网格 环境,更加充分发挥数据网格优势,达到数据高速传输的目的;
步骤1:需要对原有系统进行升级及升级准备,即先启动系统发现模块,搜索目前已安装 使用或者内存中正在运行的FTP系统,获得其具体名称、版本号、安装路径、配置文件路径, 读取相应内容;再运行资源发现模块,使用上一步中的读取的FTP系统名称、版本、配置文件 路径,读取具体配置信息并且解析,从而发现存储在存储节点上的数据资源,扫描数据资源的 路径、大小、种类、对各用户分配的权限,得到数据描述信息结果,再利用数据信息模块将数 据描述信息结果存储入数据库中;
步骤2:运行功能发现模块,同样使用前面读取的FTP系统名称、版本、配置文件路径, 获得目标环境的具体配置信息并且解析,从而发现各具体FTP系统附带的其他日志功能、备份 功能、定时功能,使用数据信息模块存储入数据库中;
步骤3:在升级前启动格式转化模块,使用己经发现的数据描述信息,转化为新的数据网 格可以识别的格式,同时将发现的功能对应转化到数据网格系统中相应的功能,将配置文件描 述的要求转换成可以实现的要求描述
步骤4:按照普通数据网格搭建方法搭建数据网格系统环境及安装OGSA-DAI,搭建好数据 网格环境并测试可用后,运行发布模块, 一方面将转化好的数据资源通过0GSA-DAI提供的功 能发布到数据网格环境中去,另一方面将转化好的功能要求通过OGSA-DAI提供的功能提交到 数据网格系统对应的功能模块中去;反复执行发布步骤,直到原有资源已经全部转化完毕;
步骤5:最后启动请求应答转化模块,响应用户原有系统软件的FTP请求,发现用户新的 请求时,将原有的FTP请求解析为数据网格传输请求,传输给数据网格环境,并且将结果转化 为原有的FTP返回信息返回给用户;
步骤6:以上升级工作完成后,等待客户的文件传输请求,在客户发出文件传输请求求后, 系统响应请求,判断用户使用原系统FTP传输软件还是支持数据网格的传输软件,如果是原系 统旧的FTP传输软件,则通过请求应答转化模块与其通信,并调用数据网格下的并行数据传输 和分块数据传输,从而快速传输文件;如果是支持数据网格的新型传输软件,则直接交于数据 网格环境,使用并行数据传输和分块数据传输及三方数据传输。
有益效果随着校园网用户基数、多媒体等大体积文件的增加,带来了大量的网络数据访 问和传输,并且人们对大规模的数据共享的需求越来越强烈,传统的集中式FTP系统,已经越 来越不能适应发展的要求,容易受限于某些服务器的性能,并且整体负载不易均衡。而普通的 分布式FTP系统难以动态的改变拓扑结构,数据共享也不够充分。虽然数据网格系统能够解决以上缺点,但是完全新建新的数据网格系统费时费力,很多情况下需要从最基本的系统开始构建,完全舍弃了原有已经长期运行的系统,需要重新开发具有相应功能的系统及软件,不能方便快速平稳的过渡。同时用户需要重新学习和使用新的软件进行数据传输,限制了使用人群。
本方案提供的解决途径可以平稳实现原有FTP系统过渡到数据网格环境, 一方面充分利用已有资源,兼容原有FTP传输软件,从而在用户级别上无缝升级到数据网格环境,另一方面使用0GSA-DAI快速实现数据网格环境,实现全网格统一管理及资源发现的功能,同时利用数据网格下的并行数据传输、分块数据传输及三方数据传输充分利用网络资源,达到数据高速传输的目的。


图1校园数据网格文件传输整体执行流程图,
图2模块关系图,
图3并行数据传输图,
图4分块数据传输图,
图5三方数据传输图,
图6综合数据传输图。
具体实施例方式
如图1所示,下面给出具体实现方案。一、体系结构
整个方案包括了系统发现模块、资源发现模块、功能发现模块、数据信息模块、格式转换
模块、发布模块、请求应答转化模块。相互关系如图2所示。下面给出具体模块的说明;
系统发现模块此模块的主要功能是发现已经安装使用或者正在使用的FTP系统。例如在Windows下,可以通过的注册表的搜索,寻找常见FTP服务软件的安装信息,或者扫描系统正在运行的服务,通过服务描述和服务名称发现提供FTP的具体进程等。发现己经存在的FTP系统后,对其进行扫描分析,得出具体的名称,版本号,所在路径,配置文件名称、配置文件所在位置,然后与事先系统中常见的系统进行比对,得到比对结果,选择相应的解析方法,将配置文件描述的内容进行解析,得到资源所在位置和用户信息,通常包括以下几部分
1. 资源位置已存在的数据文件所在位置列表。
2. 网络描述IP信息等。
3. 用户描述使用、生效、删除的用户信息以及具体用户的配置段。
4. 域信息描述域的信息以及域以下用户列表。
5. 权限信息用户所拥有的读取、写入、附加、修改、删除等权限及对应的资源位置描述。
6. 其他信息其他描述信息。
系统发现模块的功能就是将不同软件搭建的FTP服务的描述性配置信息读取出来,通过语义级别的转换,导入到新的数据网格环境中,使其能够实现与旧的FTP系统相同的功能。同时
系统发现模块也为其他发现模块提供基础。
资源发现模块此模块的主要功能是发现己有的数据资源,例如各用户所上传的数据文件。通过系统发现模块中发现的资源位置,对存储器进行扫描,将合法正常的扫描结果通过数据信息模块存储下来,主要扫描的部分有
1. 用户信息此文件所属于的用户。
2. 位置信息文件所在路径及物理文件名。
3. 日期时间包括文件的建立,修改时间。
4. 属性信息此文件的权限属性,根据不同系统有不同的描述,如Windows下的只读、系统、隐藏,Linux下的读取、写入、执行属性。
5. 文件大小此文件大小信息。
资源发现模块的主要功能是为资源平稳导入数据网格环境做准备,将原系统中已经存在的数据信息扫描保存,以便其他模块自动发布到数据网格环境中,避免效率低的手动操作。
功能发现模块此模块的主要功能是保留原有系统特定的其他服务功能,实现平稳过渡。通过系统发现模块,定位到具体系统,再査找此系统是否含有普通FTP扩展功能,如果发现包括扩展功能,则分析描述扩展功能的配置文件,解析出扩展功能的含义,如日志功能、备份功能、定时功能等。
数据信息模块:此模块的主要功能是记录系统发现模块、资源发现模块、功能发现模块的扫描结果。可以通过各种数据库实现。
格式转化模块:此模块的主要功能是将数据信息模块中存储的系统发现模块、资源发现模块、功能发现模块的扫描结果转化为数据网格中的可识别的资源和功能。包括两方面转化,一方面是数据描述格式的转化,另一方面是功能的转化。
数据描述格式转化将原有FTP系统中关于数据文件的描述,文件对应用户信息的描述,转化为新的数据网格资源下的关于数据的描述。如有需求,同时可以将数据文件复制或移动到新的位置中。
功能转化通过功能发现模块中发现的功能描述,寻找数据网格环境下与此扩展功能相同
的功能模块,计算实现相同功能所需要的参数,并且将计算结果保存下来。
发布模块:此模块的主要功能是将数据信息模块中存储的格式已经转化的数据发布到数据网格环境中,本方案选择基于0GSA-DAI (Open Grid Services Architecture - Data Access andIntegration)的方式。
OGSA-DAI是一种中间件,其设计目标是提供一种简便的方法,在网格环境中实现数据的访问和集成。OGSA-DAI包括以下几个部分
1. 网格数据服务(Grid Data Service, GDS):通过这项服务可以访问某个数据资源,如关系数据库、XML数据以及文件资源。
2. 工厂(Factory):这项服务用于创建一个GDS实例,来访问特定的数据资源。
3. 服务组注册器(Service gro叩registry):通过服务组注册器,可以发现所需要的GDS,或者发现可以新建所需的GDS的工厂。
4. 执行文档(Perform document): XML格式的文档,用户描述需要在GDS上执行的操作,例如文件的复制、更改,数据库的操作等。
5. 响应文档(ResponseDocument):—种XML格式的文档,返回了 GDS处理执行文档后返回的结果。6.活动(Activity或Activities):实现程序功能的核心,实现各种应用。通常使用的流程为
1. 运行数据网格容器;
2. 用户根据具体要求,请求通过服务组注册器査找工厂
3. 通过相应的工厂创建一个GDS;
4. 用户发送Perf ormDocument和GDS通信进行交互;
5. GDS返回一个ResponseDocument;
6. 用户结束GDS或者让其自动消亡。
通过OGSA-DAI提供的这种流程, 一方面对数据文件来说,将已经转化好格式的数据文件通过执行文档发布到对应的GDS中,运行相应活动,实现数据文件的发布;另一方面对功能模块来说,寻找对应的GDS,通过执行文档将命令及参数发布到GDS中,运行活动,实现功能。
请求应答模块此模块的功能是兼容原有FTP系统所使用的软件,从而使用户无需学习和使用新的传输软件,同时不影响用户自主选择的支持数据网格环境的新的传输软件,从而更好发挥数据网格的优势。实现方法如下-
当用户启动传输软件时,发送的命令提交到服务器时,模块首先识别出传输软件的类型,如果是使用普通FTP的软件,则分析其使用的FTP协议,判断具体FTP协议版本,然后将虚拟产生原来旧FTP版本对应的服务,并不产生实际的服务,但会返回应答信息,在传输软件看来,与真实的服务没有区别。其次,当用户通过传输软件提出文件传输请求或者其他请求时,模块将请求转化为对应的数据网格环境下的具有同样功能的请求,通过XML执行文档,发布到GDS上,同时将响应文档内容提取转化为旧FTP版本格式下的返回响应描述,返回给用户传输软件。
通过此模块,可以兼容用于已经习惯的传输软件,使系统升级对用户透明化。流程如图2所示。
二、方法流程1、平稳升级流程
1. 用户首先选择OGSA-DAI及Globus Toolkit Java Web Service Core版本,按照普通流程进行安装,搭建一般的数据网格环境,并测试能否正常使用;
2. 运行系统发现模块,对升级前系统进行扫描,首先探测使用的操作系统,根据探测结果转到具体操作系统对应的扫描模块,因为不同的操作系统扫描方法的细节有所不同。配置信息和配置文件的读取解析手段也需要分别对待。
3. 根据探测的操作系统使用不同的扫描手段寻找已经安装使用的FTP系统,包括在存储器和内存中寻找具有FTP系统特征的实例,自动对其进行扫描分析,得出具体的名称,版本号,所在路径,配置文件名称、配置文件所在位置,然后与事先存储的中常见的系统特征进行比对,得到比对结果,选择相应的解析方法,将配置文件描述的内容进行解析,得到资源所在位置和用户信息描述等信息,最后通过数据信息模块记录,以备其他模块使用。
4. 如自动探测结果不准确或用户需要进行修改,则进入系统发现模块的手动配置,通过列表选择用户自定义的FTP系统及所带配置关联的文件及关联配置信息,必要时需要对配置信息进行语义解析,通过自定义列表选择配置表明的含义,配置所用参数的含义,通过数据信息模块记录,以备其他模块使用。
5. 运行资源发现模块,通过对数据信息模块中记录的系统发现模块获得的具体资源位置
7进行扫描,同时比对资源描述信息,获得每个文件对应的用户信息、位置信息、日期时间、属性信息、文件大小等内容。最后使用数据信息模块存储下来。
6. 如自动探测结果不准确或者用户需要进行修改,则进入资源发现模块的手动配置。首先需要用户指定记录文件存储信息的位置和记录文件信息的格式,然后根据用户指定的信息重新扫描获得扫描结果。其次在如果记录文件信息格式并不能自动分析的情况下,需要用户对描述信息文件的格式进行语义解析,解释对应的含义,通过列表选择每个参数描述的实际含义。最后将用户自定义的信息扫描获得的文件存储结果,通过数据信息模块覆盖旧扫描结果或者新存储下来。
7. 运行功能发现模块,目的是保留原有系统特定的其他服务功能,实现平稳过渡。通过系统发现模块提供的信息定位到具体系统,再结合配置文件判断升级前系统是否含有普通FTP的扩展功能,如果发现包括扩展功能,则分析描述扩展功能的配置解释,解析出扩展功能的含义,如日志功能、备份功能、定时功能等,通过数据信息模块记录下。
8. 如自动探测结果不准确或者用户需要进行修改,则进入功能发现模块的手动配置。首先列出已包含的可实现的功能,以备用户选择,当用户选择某功能后,需配置此功能具体的实现时需要的参数,用户可个根据实际情况选择合适的参数。其次如可实现的功能列表中并没有旧FTP系统能够实现的某项功能时,需分两种情况进行操作。其一旧FTP系统的某功能是新系统支持的几项功能的结合,则可通过将新系统支持功能合并运行,并根据用户需要去除不需要的模块;其二旧FTP系统某功能是新系统所不支持的,则可根据用户要求,选择丢弃或者通过接口使用其它功能扩展模块。最后将用户自定义功能的描述及参数通过数据信息模块存储下来。
9. 运行转化模块,包括两方面转化, 一方面是数据描述格式的转化,另一方面是功能的转化。
数据描述格式转化将原有FTP系统中关于数据文件的描述,文件对应用户信息的描述,转化为新的数据网格资源下的关于数据的描述。如有需求,同时可以将数据文件复制或移动到新的位置中。
功能转化通过功能发现模块中发现的功能描述,寻找数据网格环境下与此扩展功能相同
的功能模块,计算实现相同功能所需要的参数,并且将计算结果保存下来。
10. 运行发布模块通过提交执行文档到数据发布对应的GDS、创建用户对应的GDS、权限设置对应的GDS等服务上,发布通过资源发现模块收集获得的数据文件和相关内容。 一方面,将每个数据文件按照转化好的数据描述格式发布到0GSA-DAI数据网格环境中,另一方面,载入功能转化模块计算获得的参数,通过执行文档提交到能够实现相同功能的GDS上,获得与旧系统相同的功能性效果。
2、兼容普通FTP软件传输流程
运行请求应答模块,从而兼容旧系统所使用的普通FTP软件,使升级对用户来说透明化。运行后,模块根据系统发现模块所收集的信息,接管相应的端口,等到用户使用的传输软件提交命令。
当用户启动传输软件时,发送的命令提交到服务器时,模块首先识别出传输软件的类型,如果是使用普通FTP的软件,则分析其使用的FTP协议,判断具体FTP协议版本,然后将虚拟产生原来旧FTP版本对应的服务,但是实际上并不产生真实的服务,只是返回应答信息,在传输软件看来,与真实的服务没有区别。其次,当用户通过传输软件提出文件传输请求或者其他请求时,模块将请求转化为对应的数据网格环境下的具有同样功能的请求,通过XML执行文档,发布到GDS上,同时将响应文档内容提取转化为旧FTP版本格式下的返回响应描述,返回给用户传输软件。实际传输文件时,通过模块本身的一个接口,将传输双方联系起来,从传输软件方面看来,它联系的是一个具体的普通的集中式的FTP服务器,从存储节点方面看来,它的数据传输是建立在数据网格文件传输的机制上的。3数据网格环境下髙速传输流程
无论传统的集中的被动式FTP系统还是分布式FTP系统所采用的数据传输过程,都有一定的缺点。
传统集中的被动式FTP数据传输过程是客户端FTPClient使用PASV元命令向服务器端FTPServer发出传输请求;而FTPServer作出应答,应答了传输抵制及相应的端口; FTPClient则通过应答的描述,建立数据传输通道进行数据传输;当数据传输完成后,FTPServer相应的传输进程则断开连接,FTPServer向FTPClient返回传输结束应答,至此一个传输过程结束。
这种集中式的系统存在以下一些缺点
(1) 受限于服务器性能。包括受服务器存储空间限制、服务器I/0速度的限制、服务器出口带宽的限制等。
(2) 负载不均衡。实际运行过程中,某些FTPServer的负担过重,而其它很多的FTPServer却处于闲置状态。
由于传统集中的被动式FTP系统所使用的命令处理和数据处理是完全可以分开的。由此就产生了分布式的FTP系统,即将数据传输通道同命令通道分离。这种设计思路虽然在一定程度上解决了服务器负载不均衡的问题,但针对校园网,还是存在以下两个方面的缺点
(1) 拓扑结构不易扩展增加或减少服务器,都会给管理员和用户带来很大的不便,无法方便快速的改变拓扑结构,也没有考虑到动态增减的问题;
(2) 数据共享的不充分性校园网主要的瓶颈是校园网与公网的接口,大量资源虽然存在于校园网内,但用户很多情况下并不知情,导致从选择从公网上寻找和传输,所以如果能充分利用校园网内的资源,将大大提升网络的质量,减少不必要的带宽消耗。
而网格技术是传统分布式技术的一种延伸和扩展,很好的解决了传统分布式FTP系统的这些缺点。所以本方案采用基于数据网格的FTP体系结构。 一方面可以在现有FTP系统情况下快速升级,另一方面兼容原有FTP系统所用程序和数据,对用户而言无需做任何更改。
数据网格下FTP体系结果除了需要实现与原有FTP兼容外,为了发挥网格优势,需要实现以下功能
1数据网格统一的资源管理。对于旧系统数据,通过发布模块发布到网格中,保证了资源表示的完整性,并对资源的信息进行集中统一的管理。
2数据网格统一的用户管理。对于旧系统用户信息,通过发布模块发布到数据网格用户管理模块中,从而体现了网格中资源的共享与独占、资源统一管理和网格节点自治相结合的特点。
3数据网格统一的授权认证管理。通过资源发现模块,将旧的用户权限及授权认证管理转移到数据网格下统一的授权认证管理机制下。
由l、 2、 3的功能,统一管理资源、用户、权限,可以解决传统分布式FTP系统的拓扑结构不易扩展的缺点。4实现网格FTP资源监测与发现。
在数据网格环境下,可获得的资源集合是变化的,新的数据资源或服务功能可能被添加, 也可能原有的数据资源或服务功能被删除和修改,或资源的属性被改变。所以由于这种动态性 的存在,如何发现这种变化以及如何分配资源进行处理是十分有意义的。同时,同样由于动态 性和分布性的特点,使得在数据网格中的监测,也就是对目前存在的数据资源或者正在运行的 服务功能出于某种目的跟踪,也是十分重要的。
本方案采用0GSA-DAI提供的接口使用一种MDS (Monitoring and Discovery System),来 实现资源及功能服务的发现和监控。MDS提供了有关网格资源的状态信息。其主要组件包括索 弓l月艮务(Index service)、触发月艮务(Trigger service)禾口聚集月艮务(Aggregator service)。
MDS是一组用于监测和发现数据网格中资源和服务的WEB服务,可以对关于资源、功能服务、 节点状态的描述信息进行搜集、管理、编索引和响应。MDS中核心的组件是Index Service, 它用于搜集数据网格中各种资源的信息并为这些信息提供一个査询和预定接口 。我们可以通过 这个接口对于想要进入或退出数据网格系统的资源进行有效的管理。通过使用MDS,可以方便 发现用户所需要的资源, 一定程度上解决传统分布式FTP系统的数据共享不充分的问题。
5使用数据网格下Gridftp的并行数据传输、分块数据传输及三方数据传输主要目的是 合理利用资源,合理处理负载平衡的问题,从而进一步解决传统FTP系统数据共享不充分的缺 点。同时结合请求应答转化模块兼容原有FTP传输软件。
Gridftp是Globus项目组对现有FTP协议和技术进行扩展后,在网格环境下进行数据传输的 协议,OGSA-DAI很好的提供能使用Gridftp的接口 ,可以方便的设计和使用Gridftp所采用的并 行数据传输、分块数据传输及三方数据传输。
(1) 并行数据传输
数据传输中,并不是像传统FTP那样,只使用一个TCP传输通道,而是使用多个并行的TCP连 接通道,从而能有效地提高数据传输的总带宽。GridFTP使用指令及数据通道的扩展从而支持 并行数据传输功能。
并行数据传输模型如图3所示。通过建立多个TCP连接,在不同的数据通道上传输文件的不 同部分,将数据文件传输到目标节点上。如在源节点和目标节电间建立了n条数据通道,而第i 条通路的传输速率为vi,那么总的传输速率V就可以达到V = Vi(0《i《n),如源节点的入口带 宽和目标节点的出口带宽没有达到上限,则可以通过增加新的数据通道的办法,提高数据传输 速度,降低传输路途中其它影像因素对数据传输的影响。当其中一个TCP传输通道受到阻止时, 并不影响其它TCP传输通道的数据传输。从而很好的利用了源节点和目标节点间的带宽。
并行数据传输的具体传输流程通常如下
St印l.创建一个Gridftp并行传输实例,并进行验证;
St印2.设置传输的类型及传输模式;
St印3.设置并行数量;
St印4.设置其它Ftp传输需要的参数;
St印5.建立连接;
St印6.分块读取数据文件,进行传输; St印7.传输完毕,关闭连接。
(2) 分块数据传输
10在数据网格环境中,大规模的数据可分布放置在多个存储节点上,这称之为分块数据存储, 数据在这些存储点之间的传输就是分块数据传输。分块数据传输既可以是把一个完整的数据集 中的不同部分分散传输到不同的目标节点上,也可以是把分布在多个源节点上具有某种关系的 多个数据子集传输到同一个位置(即相同的节点),按照子集之间的相互关系生成新的数据集合。
在这种分块数据存储情况下的传输模型如图4所示,核心思想是使用多个TCP传输通道来传 输分布在不同节点上的数据子集。这种分块数据传输模式在并行数据传输的基础上进一步从整 体上提高了带宽使用率以及使附载更加平衡。
分块数据传输的具体传输流程通常如下
St印l.创建一个Gridftp分块传输实例,并进行验证;
St印2.设置传输的类型及传输模式,并在模式前加上分块传输标志
St印3.设置并行数量;
St印4.设置其它Ftp传输需要的参数,并设置每个目标节点上的保护缓冲; St印5.建立连接;
St印6.分块读取数据文件,进行传输; St印7.传输完毕,关闭连接。 (3) 三方数据传输
这是为了管理分离的存储节点,允许某用户或某个应用能够使用多个地点的数据资源,同 时,能够为建立异地存储系统通信双方的信任,创建新的安全机制,把身份认证的工作由除了 通信双方以外的第三方完成,建立更加符合习惯的安全体系。GridFTP提供了经过鉴别的由第 三方控制的数据传输功能。
三方控制的数据传输模型如图5所示,它含有GridFTP客户端和两个GridFTP服务器。 GridFTP客户端分别与两个的服务器建立控制通道并且进行权限认证及审核,权限认证及审核 通过后,控制指令便在建立的这两个控制通道中传输,从而控制相应的服务器。接着在服务器 间产生数据通道,并根客户端通过控制通道发出的控制指令设置参数,从而根据控制参数在数 据通道中传输数据。
三方数据传输的具体传输流程通常如下
(1) 创建两个GridFTP实例,分别与控制的服务器建立起控制通道;
(2) 与两个服务器进行用户权限身份认证;
(3) 设置保护缓冲的大小;
(4) 设置数据的传输类型和模式;
(5) 设置并行传输和分块传输需要的参数;
(6) 设置控制的服务器的传输模式;
(7) 在控制的服务器间建立数据通道;
(8) 在数据通道上进行数据传输;
(9) 关闭建立的连接。
总体来说,结合了并行数据传输、分块数据传输及三方数据传输具体传输流程如图6所示。 支持数据网格的软件可使用这三种传输方法进行快速文件传输,原系统FTP传输软件通过请求 应答转化模块也可利用并行和分块传输方式增加传输速度。
11本发明目的是为原有校园网FTP系统增加转换机制,平稳过渡到校园网的数据网格环境。 在OGSA-DAI提供的网格功能基础上,通过两方面进行扩充改造, 一方面通过系统发现模块、 资源发现模块、功能发现模块、格式转换模块、数据信息模块、发布模块使原有数据和控制资 源导入到新的数据网格环境中,另一方面通过请求应答转化模块使原有数据传输软件对普通 FTP系统的使用自动转化为对新数据网格环境的使用,从而在用户级别上无缝升级到数据网格 环境,更加充分发挥数据网格优势,达到数据高速传输的目的。
具体步骤为
1. 用户首先选择OGSA-DAI及Globus Toolkit Java Web Service Core版本,按照普通 流程进行安装,搭建一般的数据网格环境,并测试能否正常使用;
2. 配置构建MDS模块,全网格用户管理模块,全网格资源管理模块,全网格权限认证模 块并测试;
3. 配置Gridf tp传输模块,并测试;
4. 运行系统发现模块,对升级前系统进行扫描,首先探测使用的操作系统,根据探测结 果转到具体操作系统对应的扫描模块,因为不同的操作系统扫描方法的细节有所不同。配置信 息和配置文件的读取解析手段也需要分别对待。
5. 根据探测的操作系统使用不同的扫描手段寻找己经安装使用的FTP系统,包括在存储 器和内存中寻找具有FTP系统特征的实例,自动对其进行扫描分析,得出具体的名称,版本号, 所在路径,配置文件名称、配置文件所在位置,然后与事先存储的中常见的系统特征进行比对, 得到比对结果,选择相应的解析方法,将配置文件描述的内容进行解析,得到资源所在位置和 用户信息描述等信息,最后通过数据信息模块记录,以备其他模块使用。
6. 如自动探测结果不准确或用户需要进行修改,则进入系统发现模块的手动配置,通过 列表选择用户自定义的FTP系统及所带配置关联的文件及关联配置信息,必要时需要对配置信 息进行语义解析,通过自定义列表选择配置表明的含义,配置所用参数的含义,通过数据信息 模块记录,以备其他模块使用。
7. 运行资源发现模块,通过对数据信息模块中记录的系统发现模块获得的具体资源位置 进行扫描,同时比对资源描述信息,获得每个文件对应的用户信息、位置信息、日期时间、属 性信息、文件大小等内容。最后使用数据信息模块存储下来。
8. 如自动探测结果不准确或者用户需要进行修改,则进入资源发现模块的手动配置。首 先需要用户指定记录文件存储信息的位置和记录文件信息的格式,然后根据用户指定的信息重 新扫描获得扫描结果。其次在如果记录文件信息格式并不能自动分析的情况下,需要用户对描 述信息文件的格式进行语义解析,解释对应的含义,通过列表选择每个参数描述的实际含义。 最后将用户自定义的信息扫描获得的文件存储结果,通过数据信息模块覆盖旧扫描结果或者新 存储下来。
9. 运行功能发现模块,目的是保留原有系统特定的其他服务功能,实现平稳过渡。通过 系统发现模块提供的信息定位到具体系统,再结合配置文件判断升级前系统是否含有普通FTP 的扩展功能,如果发现包括扩展功能,则分析描述扩展功能的配置解释,解析出扩展功能的含 义,如日志功能、备份功能、定时功能等,通过数据信息模块记录下。
10. 动探测结果不准确或者用户需要进行修改,则进入功能发现模块的手动配置。首先列 出已包含的可实现的功能,以备用户选择,当用户选择某功能后,需配置此功能具体的实现时需要的参数,用户可个根据实际情况选择合适的参数。其次如可实现的功能列表中并没有旧FTP 系统能够实现的某项功能时,需分两种情况进行操作。其一旧FTP系统的某功能是新系统支 持的几项功能的结合,则可通过将新系统支持功能合并运行,并根据用户需要去除不需要的模 块;其二旧FTP系统某功能是新系统所不支持的,则可根据用户要求,选择丢弃或者通过接 口使用其它功能扩展模块。最后将用户自定义功能的描述及参数通过数据信息模块存储下来。
11. 转化模块,包括两方面转化, 一方面是数据描述格式的转化,另一方面是功能的转化。 数据描述格式转化将原有FTP系统中关于数据文件的描述,文件对应用户信息的描述,
转化为新的数据网格资源下的关于数据的描述。如有需求,同时可以将数据文件复制或移动到 新的位置中。
功能转化通过功能发现模块中发现的功能描述,寻找数据网格环境下与此扩展功能相同
的功能模块,计算实现相同功能所需要的参数,并且将计算结果保存下来。
12. 运行发布模块通过提交执行文档到数据发布对应的GDS、创建用户对应的GDS、权 限设置对应的GDS等服务上,发布通过资源发现模块收集获得的数据文件和相关内容。 一方面, 将每个数据文件按照转化好的数据描述格式发布到0GSA-DAI数据网格环境中,另一方面,载 入功能转化模块计算获得的参数,通过执行文档提交到能够实现相同功能的GDS上,获得与旧 系统相同的功能性效果。
13. 运行请求应答模块,从而兼容旧系统所使用的普通FTP软件,使升级对用户来说透明 化。运行后,模块根据系统发现模块所收集的信息,接管相应的端口,等到用户使用的传输软 件提交命令。
当用户启动传输软件时,发送的命令提交到服务器时,模块首先识别出传输软件的类型, 如果是使用普通FTP的软件,则分析其使用的FTP协议,判断具体FTP协议版本,然后将虚拟 产生原来旧FTP版本对应的服务,但是实际上并不产生真实的服务,只是返回应答信息,在传 输软件看来,与真实的服务没有区别。其次,当用户通过传输软件提出文件传输请求或者其他 请求时,模块将请求转化为对应的数据网格环境下的具有同样功能的请求,通过XML执行文档, 发布到GDS上,同时将响应文档内容提取转化为旧FTP版本格式下的返回响应描述,返回给用 户传输软件。实际传输文件时,通过模块本身的一个接口,将传输双方联系起来,从传输软件 方面看来,它联系的是一个具体的普通的集中式的FTP服务器,从存储节点方面看来,它的数 据传输是建立在数据网格文件传输的机制上的。
权利要求
1. 一种校园网环境下基于数据网格的文件快速传输方法,其特征在于在网格中间件OGSA-DAI提供的网格功能基础上,通过两方面进行扩充改造,即一方面通过系统发现模块、资源发现模块、功能发现模块、格式转换模块、数据信息模块、发布模块使原有数据和控制资源导入到新的数据网格环境中,另一方面通过请求应答转化模块使原有数据传输软件对普通文件传输协议FTP系统的使用自动转化为对新数据网格环境的使用,从而在用户级别上无缝升级到数据网格环境,更加充分发挥数据网格优势,达到数据高速传输的目的;步骤1需要对原有系统进行升级及升级准备,即先启动系统发现模块,搜索目前已安装使用或者内存中正在运行的FTP系统,获得其具体名称、版本号、安装路径、配置文件路径,读取相应内容;再运行资源发现模块,使用上一步中的读取的FTP系统名称、版本、配置文件路径,读取具体配置信息并且解析,从而发现存储在存储节点上的数据资源,扫描数据资源的路径、大小、种类、对各用户分配的权限,得到数据描述信息结果,再利用数据信息模块将数据描述信息结果存储入数据库中;步骤2运行功能发现模块,同样使用前面读取的FTP系统名称、版本、配置文件路径,获得目标环境的具体配置信息并且解析,从而发现各具体FTP系统附带的其他日志功能、备份功能、定时功能,使用数据信息模块存储入数据库中;步骤3在升级前启动格式转化模块,使用已经发现的数据描述信息,转化为新的数据网格可以识别的格式,同时将发现的功能对应转化到数据网格系统中相应的功能,将配置文件描述的要求转换成可以实现的要求描述;步骤4按照普通数据网格搭建方法搭建数据网格系统环境及安装OGSA-DAI,搭建好数据网格环境并测试可用后,运行发布模块,一方面将转化好的数据资源通过OGSA-DAI提供的功能发布到数据网格环境中去,另一方面将转化好的功能要求通过OGSA-DAI提供的功能提交到数据网格系统对应的功能模块中去;反复执行发布步骤,直到原有资源已经全部转化完毕;步骤5最后启动请求应答转化模块,响应用户原有系统软件的FTP请求,发现用户新的请求时,将原有的FTP请求解析为数据网格传输请求,传输给数据网格环境,并且将结果转化为原有的FTP返回信息返回给用户;步骤6以上升级工作完成后,等待客户的文件传输请求,在客户发出文件传输请求求后,系统响应请求,判断用户使用原系统FTP传输软件还是支持数据网格的传输软件,如果是原系统旧的FTP传输软件,则通过请求应答转化模块与其通信,并调用数据网格下的并行数据传输和分块数据传输,从而快速传输文件;如果是支持数据网格的新型传输软件,则直接交于数据网格环境,使用并行数据传输和分块数据传输及三方数据传输。
全文摘要
本发明是一种基于数据网格的校园网数据文件快速传输方法。通过在普通校园网广泛使用的FTP系统基础上增加了接口机制,从而快速过渡到数据网格环境,使用数据网格的优势进行文件快速传输。通过系统发现模块、资源发现模块、功能发现模块、转化模块、请求应答转化模块等的运行将原FTP系统资源自动导入到新的数据网格环境,同时在数据网格运行过程中兼容已有数据传输软件,从而降低了数据网格使用门槛,解决了数据网格应用开发周期长、难以与已有资源结合、普通用户难以掌握等缺点。
文档编号H04L29/06GK101483650SQ20091002465
公开日2009年7月15日 申请日期2009年2月25日 优先权日2009年2月25日
发明者雄 付, 任勋益, 强 孔, 季一木, 侃 易, 杨明慧, 王汝传, 勇 邓, 松 邓 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1