一种用于高能物理试验大批量数据的传输系统及传输方法

文档序号:7854275阅读:178来源:国知局
专利名称:一种用于高能物理试验大批量数据的传输系统及传输方法
技术领域
本发明属于计算系统网络传输领域,具体涉及一种用于高能物理试验大批量数据的传输系统及传输方法。
背景技术
GridFTP (用于网格计算的标准文件传输协议)是Globus项目组开发的一个新的数据传输协议,它基于规范的FTP协议,并对其进行全面扩展,旨在为网格上分离的存储系统间的互操作提供一个通用的、可扩展的底层数据传输协议。GridFTP不但支持Kerberos安全机制和GSI安全机制,还支持完整性检查、安全鉴别、 可靠数据传输和容错传输;并且在GridFTP中我们可通过自动调整TCP buffer/ffindow大小来有效地提高数据传输性能。因为以上特点,GridFTP更安全、快速和高效。PostgreSQL是由加州大学伯克利分校计算机系开发的开源的对象关系型数据库管理系统(ORDBMS),PostgreSQL采用客户端/服务器模式,可以通过SSH(Secure Shell)和SSL (Secure Socket Layer)连接方式提高访问的安全性。PostgreSQL支持大部分SQL标准并且提供了许多其他现代特性复杂查询、外键、触发器、视图、事务完整性、多版本并发控制。同样,PostgreSQL可以用许多方法扩展,比如,通过增加新的数据类型、函数、操作符、聚集函数、索引方法、过程语言。同时,PostgreSQL能够比较方便地迁移到Oracle、Sybase或者MSSQL等商业数据库。JBoss是一个基于J2EE的开放源代码的应用服务器,同时也是企业级Java中间件系统,用于实现基于SOA的企业应用和服务。JBoss的一个重要特性是它不仅能够在一台运行Java的机器上部署,同时能够部署Java的J2EE部分。由于是基于Java的,JBoss应用服务器能够跨平台运行,能够在任何支持Java的操作系统上运行,另外一个主要特性是JBoss应用服务器以JMX (Java Management Extensions,即Java管理扩展)为微内核,各个模块以管理构件(Managed Bean),简称MBean的形式提供相应的服务。JMX是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议,灵活的开发无缝集成的系统、网络和服务管理应用。在各种J2EE应用服务器中,JBoss是最受欢迎而且功能最为强大的应用服务器。目前,每年高能物理的实验数据量已经达到100PB,随着高能物理实验规模的不断扩大和实验复杂性的不断增加,会产生越来越多的实验数据,由于高能物理实验本身的跨地域的建设特性,数据存储和分析资源部署在统一的数据中心和计算中心,而现存的数据传输工具不能有效地满足高能物理实验数据传输需求,因此研究一种如何能够将这些越来越庞大的实验数据实时、可靠、高效地传输到远程的存储和计算中心的数据传输系统,对保证物理实验实现其目标具有重要意义。基于GridFTP的数据传输系统已经应用在一些高能物理实验数据的传输中,有比较成熟的技术支撑,但是在此基础上,将数据库技术和JBoss联合起来进行高效数据传输,这还是一个新的领域和方向,具有非常广泛的应用场景,克服了现有数据传输系统的传输目的端单一、可配置项单一、系统不稳定和不易扩展等问题。

发明内容
本发明针对传统数据传输系统的传输目的端单一、可配置项单一、系统不稳定和不易扩展等问题,提供一种用于高能物理试验大批量数据的传输系统及传输方法,它是一种能够对大批量数据进行高效多流并行传输、稳定、极易扩展的数据传输系统及传输方法。(I)本发明提供的一种用于高能物理试验大批量数据的传输系统,其特征在于它包括位于源端高效传送模块的多路径源数据扫描模块、数据缓冲区模块、高效轮询模块、传输优化模块、发送模块和数据缓冲区自动释放模块;包括位于目的端的高效接收模块、数据校验模块、接收优化模块和存储模块;包括用户管理配置模块和监视模块;其间关系是多路径源数据扫描模块将保存在多个磁盘阵列的数据直接映射到数据缓冲区模块,高效轮询模块则实时扫描数据缓冲区,并把扫描到的数据给传输优化模块,传输优化模块对数据进行优化处理后传给发送模块,发送模块与远程的目的端通信,进行数据传输。由于数据缓冲区具有一定的容量,为了保证数据能够正常的接收和传输到远程的数据中心和计算中心,数据缓冲区自动释放模块会定时地对数据缓冲区可用空间大小进行检测,并根据设定的阀 值,按照一定的规则将数据缓冲区的数据进行清理。高效接收模块接收到源端发送模块发送的数据后,会把它提交给数据验证模块,对接收到的数据进行有效性和完整性的验证,验证成功后,接收优化模块对数据进行优化处理,并提交给存储模块,储存模块将数据按照一定的规则进行存放;用户管理配置模块为用户提供了管理和配置系统的WEB页面接口,包括远程目的端服务器IP的设置、远程目的端数据存储的路径、磁盘阵列和数据缓冲区的目录结构的映射关系等,监视模块则提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态。该多路径源数据扫描模块是轮询数据库中新增加的数据文件,找到新产生的数据被存放的磁盘阵列的位置,根据用户管理配置模块设置的磁盘阵列和系统缓冲区的目录结构的映射关系,将原始数据映射到系统的缓冲区,实现多路径源数据扫描。该数据缓冲区模块是保存多路径源数据扫描模块获取的数据文件;其结构是由24T的磁盘阵列通过RAID5来搭建完成的,保证了数据的可靠性和完整性,并且挂载在数据传输的源端服务器上供传输系统和系统用户使用和共享数据。该高效轮询模块是轮询数据缓冲区中的数据,并将新发现的数据传输至传输优化模块;其结构是利用系统Cron的功能,通过启动后台进程crond,在预设的轮询时间基础上对数据缓冲区的数据进行轮询。该传输优化模块是用于减少传输中数据的丢失,减小数据传输过程中的开销,提高数据传输速率;其结构是首先对需要传输的数据生成md5文件,将该文件和需要传输的数据文件一块进行打包归档,然后通过设置GridFTP的并行传输流数来实现多流并行传输,从而实现了传输优化功能。该发送模块是将数据传送至用户管理配置模块设置好的目的端的数据接收模块;其结构是采用传输优化模块设置好的GridFTP将打包好的归档文件传输到目的端。该数据缓冲区自动释放模块是用于保证数据缓冲区中始终保持足够的空间接收新产生的数据;其结构是通过设置上水位和下水位(阀值),并按照一定的规则(例如时间顺序,文件重要性指标等)对缓冲区中的数据进行清除,当数据缓冲区占用的磁盘空间大于上水位时,该自动释放模块会对数据缓冲区中的已经传输到远程的计算中心或者数据中心的数据按照时间先后顺序进行删除,直到数据缓冲区占用的磁盘空间小于下水位为止。为了保证数据缓冲区中的数据能够始终保持一定时间范围(例如两周)的数据,在进行数据删除操作的时候只对符合时间要求的数据进行操作。该高效接收模块是用于接收源端发送模块发送过来的数据;其结构是在目的端接收服务器上开启后台接收进程,通过侦听源端发送服务器的GridFTP连接请求来完成数据的接收。
该接收优化模块是通过对接收到的数据进行优化处理,从而提高数据接收效率;其结构是对接收模块接收到的数据先进行解压,得到其中的数据文件和md5文件,同时对解压得到的数据文件也进行md5校验生成一个md5文件。该数据校验模块是用于避免数据传输过程中的丢失或者出错;其结构是对接收优化模块中得到的数据文件的md5校验码与源端发送过来的md5码进行比对,若有不同,则该标明文件传输失败,由目的端向源端发送数据传输失败的标明,源端根据设置对文件进行重传。该存储模块是按照一定的规则将接收优化模块接收到的数据存放在相应的存储目录,减少数据管理带来的开销;其部署在大小为30T的分布式文件存储系统Lustre上,文件的存储目录是按照分层管理的。该用户管理配置模块是利用JBoss的MBean提供页面管理服务,图形化地管理系统的各个子模块,提供配置接口 ;其结构是将用户需要管理的接口以xml文件的形式编辑放置在指定的系统目录下,重启传输系统时,会到该目录下去读取相应的配置文件,并显示在MBean的页面上,便于图形化管理系统子模块。该监视模块是提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态;其结构是提供从后台日志文件中读取相关的数据传输信息,并提交给Jquery,并采用JFreeChart进行绘图展示在WEB页面上,同时传输过程中的报警信息等都会被记录到PostgreSQL数据库中,便于日后追踪问题和数据分析。(2)本发明一种用于高能物理试验大批量数据的传输方法,该方法具体步骤如下步骤一源端高效获取实验数据。高能物理每天产生大量的实验数据,为了对数据进行备份,一般新产生的实验数据都会在数据库中保存一份,多路径源数据扫描模块就定时地对数据库中进行扫描,一发现有新数据则把该数据拷贝至数据缓冲区模块,高效轮询模块中的轮询程序同样对数据缓冲区进行定时轮询,发现数据缓冲区中有新数据则对数据进行生成校验码、压缩等传输优化操作并将其发送至发送模块的发送目录中。步骤二 源端高效发送数据和目的端高效接收数据。源端发送进程检测到发送目录中有新数据后,将数据发送到目的端,目的端的接收进程负责接收数据,数据传输完成后,接收进程检验数据的完整性和正确性,若没有问题,则把该数据保存至接收目录,解压程序对接受目录中的压缩文件进行解压,将解压后的文件保存至存储目录,通知源端将发送目录中的该文件删除以及修改数据库中该文件的传输状态为transferred ;若接收进程在校验数据完整性和正确性时发现了问题,则通知远程的源端发送进程重新发送该文件。
步骤三用户管理配置模块利用JBoss的MBean提供页面管理服务,图形化地管理系统的各个子模块,提供配置接口 ;监视模块提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态,同时传输过程中的报警信息等都会被记录到PostgreSQL数据库中,便于日后追踪问题和数据分析。通过本发明的大批量数据高效传输的实现方法能够实现一个源端实验数据向多个目的端数据中心或者计算中心并行高效传输数据,通过提供用户管理接口,能够适应在实际环境中多种应用需求的动态变化,具有很好的灵活性和可扩展性。具体而言,本发明具有下述技术优点和效果( I)实现一对多的高效并行传输传统的数据传输系统中,数据传输的源端和目的端一般都是固定的,并且是一对一的模式,造成了大量计算资源和其他资源(如电力等)的浪费,然而在高能物理实验中,很多情况下需要源端数据向多个目的端(计算中心或者数据中心)传输,通过提供配置接口,实现了一对多(多流)的高效并行传输,同时,多流传输过程中相互隔离,从而提高了整个系 统的实用性和性能。(2)自动重传机制在数据传输系统中,由于网络或者其他人为、非人为原因,导致数据传输失败的问题时有发生,传统的数据传输系统中,需要系统管理人员自己发现是哪些数据传输失败,并手动进行重传,这样既浪费人力,同时数据不能得到及时地重传,利用本系统提供的自动重传机制,能够解决这些问题,从而提高了整个系统的可靠性和连续可用性。(3)数据存储的目录结构化定制特性传统的数据传输系统在目的端存放数据的目录都是固定的,高能物理实验产生的数据是海量的,数据分析人员在一个目录中查找想要的数据是非常耗时的,大批量数据高效传输系统提供用户定制数据存储的目录格式,可以根据数据产生的时间(年/月/日)的格式或者根据不同高能物理实验的名称定义不同的目录,用来分别存放这些物理实验产生的数据,从而节约了线下分析实验数据的科研人员的时间,提高了整个系统的实用性和性倉泛。( 4 )更直观的监控页面传统的数据传输系统仅仅提供数据传输的功能,系统管理人员只能通过日志查看数据传输过程中的每个阶段的状态,这需要系统管理人员非常熟悉系统,同时有一定的局限性(可视化程度低),大批量数据高效传输系统提供非常直观的监控页面,采用WEB页面图形化的方法实时显示每个时刻的传输结果,包括文件传输的个数,文件的大小等,提高了系统的实用性。(5)更强的灵活性和可扩展性在传统的数据传输系统中,需求的变更需要开发人员后台修改程序或者配置文件,这样既繁琐又低效,大批量数据高效传输系统提供用户管理配置接口,几乎所有的需求变更都可以通过用户管理配置接口来实现,使得整个系统具有很强的灵活性和可扩展性。


图I 一种高能物理试验中大批量数据高效传输的实现方法的模块结构示意图2高效数据传输工作流程示意图;图3数据缓冲区自动释放工作流程示意图。图中符号说明如下min age为用户自己指定的需要保留的数据缓冲区模块中的数据产生的最小时间范围(以天为计算单位),例如min_age表示需要保留两天内的数据。
具体实施方式

在下述具体实施示例中,结合附图对本发明进行进一步的详细说明。通过足够详细的描述这些实施示例,使得本领域技术人员能够实践本发明。在不脱离本发明的主旨和范围的情况下,可以对实施做出逻辑的、实现的和其他的改变。因此,以下详细说明不应该被理解为限制意义,本发明的范围仅仅由权利要求来限定。如图I所示(I)本发明一种用于高能物理试验大批量数据的传输系统,其特征在于它包括位于源端高效传送模块的多路径源数据扫描模块、数据缓冲区模块、高效轮询模块、传输优化模块、发送模块和数据缓冲区自动释放模块,其之间的位置连接关系、信号走向是多路径源数据扫描模块将高能物理试验现场产生的保存在多个磁盘阵列的数据映射到本地的数据缓冲区模块,高效轮询模块扫描数据缓冲区,将并扫描到的文件发送给传输优化模块,传输优化模块对文件进行传输前的优化处理后,提交给发送模块,发送模块将文件传输到远程的数据中心和计算中心,由于数据缓冲区具有一定的容量,为了保证所有的数据文件能够正常的接收和传输到远程的数据中心和计算中心,数据缓冲区自动释放模块会定时地对数据缓冲区可用空间大小进行检测,并根据设定的阀值,按照一定的规则将数据缓冲区的数据进行清理。位于目的端高效接收模块的高效接收模块、接收优化模块、数据校验模块和存储模块,以及用户管理配置模块和监视模块;其之间的位置连接关系、信号走向是高效接收模块响应源端的发送模块的请求,将接收到的数据文件提交给接收优化模块进行数据文件的解压和生成md5等操作,并提交给数据校验模块,数据校验模块通过对接收到的数据文件中的md5与新生成的md5进行校验,匹配后则把数据文件提交给数据存储模块,否则向源端提交重传请求。用户管理管理模块为管理员提供了管理系统的WEB页面接口,在WEB页面上,管理员可以设置DAQ数据的磁盘阵列与系统缓冲区的映射关系、远程数据中心和计算中心的机器名以及数据存放路径、数据文件的重传、传输的数据文件类型的注册等。监视模块提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态,同时传输过程中的报警信息等都会被记录到PostgreSQL数据库中,便于日后追踪问题和数据分析;该多路径源数据扫描模块是轮询数据库中新增加的数据文件,找到新产生的数据被存放的磁盘阵列的位置,根据用户管理配置模块设置的磁盘阵列和系统缓冲区的目录结构的映射关系,将原始数据映射到系统的缓冲区,实现源数据多路径扫描;该数据缓冲区模块是保存多路径源数据扫描模块获取的数据文件;其结构是由24T的磁盘阵列通过RAID5来搭建完成的,保证了数据的可靠性和完整性,并且挂载在数据传输的源端服务器上供传输系统和系统用户使用和共享数据。该高效轮询模块是轮询数据缓冲区中的数据,并将新发现的数据传输至传输优化模块;其结构是利用系统Cron的功能,通过启动后台进程crond,在预设的轮询时间基础上对数据缓冲区的数据进行轮询。该传输优化模块是用于减少传输中数据的丢失,减小数据传输过程中的开销,提高数据传输速率;其结构是首先对需要传输的数据生成md5文件,将该文件和需要传输的数据文件一块进行打包归档,然后通过设置GridFTP的并行传输流数来实现多流并行传输,从而实现了传输优化功能。该发送模块是将数据传送至用户管理配置模块设置好的目的端的数据接收模块;其结构是采用传输优化模块设置好的GridFTP将打包好的归档文件传输到目的端。该数据缓冲区自动释放模块是用于保证数据缓冲区中始终保持足够的空间接收新产生的数据;其结构是通过设置上水位和下水位(阀值),并按照一定的规则(例如时间顺序,文件重要性指标等)对缓冲区中的数据进行清除,当数据缓冲区占用的磁盘空间大于上水位时,自动释放模块会对数据缓冲区中的已经传输到远程的计算中心或者数据中心的数据按照时间先后顺序进行删除,直到数据缓冲区占用的磁盘空间小于下水位为止。为了保 证数据缓冲区中的数据能够始终保持一定时间范围(例如两周)的数据,在进行数据删除操作的时候只对符合时间要求的数据进行操作。该高效接收模块是用于接收源端发送模块发送过来的数据;其结构是在目的端接收服务器上开启后台接收进程,通过侦听源端发送服务器的GridFTP连接请求来完成数据的接收。接收优化模块是通过对接收到的数据进行优化处理,从而提高数据接收效率;其结构是对接收模块接收到的数据先进行解压,得到其中的数据文件和md5文件,同时对解压得到的数据文件也进行md5校验生成一个md5文件。该数据校验模块是用于避免数据传输过程中的丢失或者出错;其结构是对接收优化模块中得到的数据文件的md5校验码与源端发送过来的md5码进行比对,若有不同,则该标明文件传输失败,由目的端向源端发送数据传输失败的标明,源端根据设置对文件进行重传。该存储模块是按照一定的规则将接收优化模块接收到的数据存放在相应的存储目录,减少数据管理带来的开销;其部署在大小为30T的分布式文件存储系统Lustre上,文件的存储目录是按照分层管理的。该用户管理配置模块是利用JBoss的MBean提供页面管理服务,图形化地管理系统的各个子模块,提供配置接口 ;其结构是将用户需要管理的接口以xml文件的形式编辑放置在指定的系统目录下,重启传输系统时,会到该目录下去读取相应的配置文件,并显示在MBean的页面上,便于图形化管理系统子模块。该监视模块是提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态;其结构是提供从后台日志文件中读取相关的数据传输信息,并提交给Jquery,并采用JFreeChart进行绘图展示在WEB页面上。下面对系统各个模块之间的交互进行详细介绍。见图I、图2、图3所示,(2)本发明一种用于高能物理试验大批量数据的传输方法,该方法具体步骤如下该方法具体步骤如下
步骤一源端高效获取实验数据。高能物理每天产生大量的实验数据,为了对数据进行备份,一般新产生的实验数据都会在数据库中保存一份,多路径源数据扫描模块就定时地对数据库中进行扫描,一发现有新数据则把该数据拷贝至数据缓冲区模块,高效轮询模块中的轮询程序同样对数据缓冲区进行定时轮询,发现数据缓冲区中有新数据则对数据进行生成校验码、压缩等传输优化操作并将其发送至发送模块的发送目录中。步骤二 源端高效发送数据和目的端高效接收数据。源端发送进程检测到发送目录中有新数据后,将数据发送到目的端,目的端的接收进程负责接收数据,数据传输完成后,接收进程检验数据的完整性和正确性,若没有问题,则把该数据保存至接收目录,解压程序对接受目录中的压缩文件进行解压,将解压后的文件保存至存储目录,通知源端将发送目录中的该文件删除以及修改数据库中该文件的传输状态为transferred ;若接收进程在校验数据完整性和正确性时发现了问题,则通知远程的源端发送进程重新发送该文件。步骤三用户管理配置模块利用JBoss的MBean提供页面管理服务,图形化地管理系统的各个子模块,提供配置接口 ;监视模块提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态。
权利要求
1.一种用于高能物理试验大批量数据的传输系统,其特征在于它包括位于源端高效传送模块的多路径源数据扫描模块、数据缓冲区模块、高效轮询模块、传输优化模块、发送模块和数据缓冲区自动释放模块,包括位于目的端的高效接收模块、数据校验模块、接收优化模块和存储模块,包括用户管理配置模块和监视模块;其间关系是多路径源数据扫描模块将保存在多个磁盘阵列的数据直接映射到数据缓冲区模块,高效轮询模块则实时扫描数据缓冲区,并把扫描到的数据给传输优化模块,传输优化模块对数据进行优化处理后传给发送模块,发送模块与远程的目的端通信,进行数据传输;由于数据缓冲区具有容量,为了保证数据能够正常的接收和传输到远程的数据中心和计算中心,数据缓冲区自动释放模块会定时地对数据缓冲区可用空间大小进行检测,并根据设定的阀值,按照规则将数据缓冲区的数据进行清理;高效接收模块接收到源端发送模块发送的数据后,会把它提交给数据验证模块,对接收到的数据进行有效性和完整性的验证,验证成功后,接收优化模块对数据进行优化处理,并提交给存储模块,储存模块将数据按照规则进行存放;用户管理配置模 块为用户提供了管理和配置系统的WEB页面接口,包括远程目的端服务器IP的设置、远程目的端数据存储的路径、磁盘阵列和数据缓冲区的目录结构的映射关系,监视模块则提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态; 该多路径源数据扫描模块是轮询数据库中新增加的数据文件,找到新产生的数据被存放的磁盘阵列的位置,根据用户管理配置模块设置的磁盘阵列和系统缓冲区的目录结构的映射关系,将原始数据映射到系统的缓冲区,实现多路径源数据扫描; 该数据缓冲区模块是保存多路径源数据扫描模块获取的数据文件;其结构是由24T的磁盘阵列通过RAID5来搭建完成的,保证了数据的可靠性和完整性,并且挂载在数据传输的源端服务器上供传输系统和系统用户使用和共享数据; 该高效轮询模块是轮询数据缓冲区中的数据,并将新发现的数据传输至传输优化模块;其结构是利用系统Cron的功能,通过启动后台进程crond,在预设的轮询时间基础上对数据缓冲区的数据进行轮询; 该传输优化模块是用于减少传输中数据的丢失,减小数据传输过程中的开销,提高数据传输速率;其结构是首先对需要传输的数据生成md5文件,将该文件和需要传输的数据文件一块进行打包归档,然后通过设置GridFTP的并行传输流数来实现多流并行传输,从而实现了传输优化功能; 该发送模块是将数据传送至用户管理配置模块设置好的目的端的数据接收模块;其结构是采用传输优化模块设置好的GridFTP将打包好的归档文件传输到目的端; 该数据缓冲区自动释放模块是用于保证数据缓冲区中始终保持足够的空间接收新产生的数据;其结构是通过设置上水位和下水位,并按照规则对缓冲区中的数据进行清除,当数据缓冲区占用的磁盘空间大于上水位时,该自动释放模块会对数据缓冲区中的已经传输到远程的计算中心或者数据中心的数据按照时间先后顺序进行删除,直到数据缓冲区占用的磁盘空间小于下水位为止;为了保证数据缓冲区中的数据能够始终保持时间范围内的数据,在进行数据删除操作的时候只对符合时间要求的数据进行操作;该高效接收模块是用于接收源端发送模块发送过来的数据;其结构是在目的端接收服 务器上开启后台接收进程,通过侦听源端发送服务器的GridFTP连接请求来完成数据的接收;该接收优化模块是通过对接收到的数据进行优化处理,从而提高数据接收效率;其结构是对接收模块接收到的数据先进行解压,得到其中的数据文件和md5文件,同时对解压得到的数据文件也进行md5校验生成一个md5文件; 该数据校验模块是用于避免数据传输过程中的丢失或者出错;其结构是对接收优化模块中得到的数据文件的md5校验码与源端发送过来的md5码进行比对,若有不同,则该标明文件传输失败,由目的端向源端发送数据传输失败的标明,源端根据设置对文件进行重传; 该存储模块是按照规则将接收优化模块接收到的数据存放在相应的存储目录,减少数据管理带来的开销;其部署在大小为30T的分布式文件存储系统Lustre上,文件的存储目录是按照分层管理的; 该用户管理配置模块是利用JBoss的MBean提供页面管理服务,图形化地管理系统的各个子模块,提供配置接口 ;其结构是将用户需要管理的接口以xml文件的形式编辑放置在指定的系统目录下,重启传输系统时,会到该目录下去读取相应的配置文件,并显示在MBean的页面上,便于图形化管理系统子模块; 该监视模块是提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态;其结构是提供从后台日志文件中读取相关的数据传输信息,并提交给Jquery,并采用JFreeChart进行绘图展示在WEB页面上,同时传输过程中的报警信息都会被记录到PostgreSQL数据库中,便于日后追踪问题和数据分析。
2.一种用于高能物理试验大批量数据的传输方法,其特征在于该方法具体步骤如下 步骤一源端高效获取实验数据;高能物理每天产生大量的实验数据,为了对数据进行备份,一般新产生的实验数据都会在数据库中保存一份,多路径源数据扫描模块就定时地对数据库中进行扫描,一发现有新数据则把该数据拷贝至数据缓冲区模块,高效轮询模块中的轮询程序同样对数据缓冲区进行定时轮询,发现数据缓冲区中有新数据则对数据进行生成校验码、压缩传输优化操作并将其发送至发送模块的发送目录中; 步骤二 源端高效发送数据和目的端高效接收数据;源端发送进程检测到发送目录中有新数据后,将数据发送到目的端,目的端的接收进程负责接收数据,数据传输完成后,接收进程检验数据的完整性和正确性,若没有问题,则把该数据保存至接收目录,解压程序对接受目录中的压缩文件进行解压,将解压后的文件保存至存储目录,通知源端将发送目录中的该文件删除以及修改数据库中该文件的传输状态为transferred ;若接收进程在校验数据完整性和正确性时发现了问题,则通知远程的源端发送进程重新发送该文件; 步骤三用户管理配置模块利用JBoss的MBean提供页面管理服务,图形化地管理系统的各个子模块,提供配置接口 ;监视模块提供WEB图形化的方法实时显示每个时刻的传输状态以及系统子模块的工作状态,同时传输过程中的报警信息都会被记录到PostgreSQL数据库中,便于日后追踪问题和数据分析。
全文摘要
一种用于高能物理试验大批量数据的传输系统,它包括位于源端高效传送模块的多路径源数据扫描模块、数据缓冲区模块、高效轮询模块、传输优化模块、发送模块和数据缓冲区自动释放模块,包括位于目的端的高效接收模块、数据校验模块、接收优化模块和存储模块,包括用户管理配置模块和监视模块;一种用于高能物理试验大批量数据的传输方法,它有三大步骤。本发明基于GridFTP实现了高能物理实验数据的多路并行传输,通过用户管理配置接口,能对系统各模块功能进行配置,实现了系统运行过程中各阶段图形化的监视,以及多路传输过程中的互不影响,克服了现有数据传输系统的传输目的端单一、可配置项单一、系统不稳定和不易扩展等问题。
文档编号H04L29/08GK102724321SQ201210211698
公开日2012年10月10日 申请日期2012年6月21日 优先权日2012年6月21日
发明者孙功星, 曾珊, 李卫东, 王萌, 陈刚, 齐法制 申请人:中国科学院高能物理研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1