1.一种基于分布式文件系统的遥感数据快速并发读写方法,其特征在于:底层物理结构上继承hdfs文件系统特点,包括在计算机群中的每台数据服务器上安装hadoop系统,并建立hdfs文件系统,然后在每台数据服务器上划分一部分空间作为自有文件系统的物理存储空间;在hdfs业务处理层上进行了一级封装,接管操作系统对文件系统的访问,当操作系统只要求读取文件,且文件数据已经存在,则直接引用hdfs文件系统接口,由hdfs完成文件数据的读取;
当操作系统要求对文件的访问包括有写文件操作则全面接管文件操作,由自有文件系统实现数据读写,并在读写数据完成后,引用hdfs文件系统的写文件接口将数据同步到hdfs中;所述自有文件系统只对一台服务器进行读写。
2.根据权利要求1所述基于分布式文件系统的遥感数据快速并发读写方法,其特征在于:所述计算机群中部署多台通用的数据服务器实现数据存储与科学计算;在完成硬件安装后,在所有数据服务器上安装hadoop系统,并建立hdfs文件系统,完成hdfs原生存储机群的组建;同时,每台数据服务器上划分一部分空间作为自有文件系统的物理存储空间。
3.根据权利要求2所述基于分布式文件系统的遥感数据快速并发读写方法,其特征在于:自有文件系统采用raid模式读写数据。
4.根据权利要求3所述基于分布式文件系统的遥感数据快速并发读写,其特征在于:部署一台索引服务器,实现对整个分布式文件系统的管理。
5.根据权利要求4所述基于分布式文件系统的遥感数据快速并发读写,其特征在于:所述自有文件系统调度时每次总是选择读写性能最好的数据服务器进行数据读写服务,性能最好的考量标准实现方式如下,
为每个数据服务器提供一个指示器,实时汇报自己的数据读写情况,指示器的值计算公式为,
i=(imax–(d/t)/(1-(c-s)))×(1-w)
式中,其中i为指示器值,imax为本服务器硬盘组提供的最大数据吞吐量,d为最近数据读写量,t为读写d数据的时间,c为当前时间,s为开始统计时间,w为存储服务器的cpu使用率。
6.根据权利要求5所述基于分布式文件系统的遥感数据快速并发读写方法,其特征在于:在索引服务器选择出性能最好的数据服务器后,后续的文件读写将由相应数据服务器实现,数据读写过程中,任何数据都不会经由索引服务器周转,确保不形成数据读写瓶颈。
7.根据权利要求1或2或3或4或5或6所述基于分布式文件系统的遥感数据快速并发读写方法,其特征在于:数据服务器提供读写数据过程中包括两种情况,
其一为写全新的数据,自有文件系统只需提供简单文件读写,在文件读写结束后,自有文件系统引用hdfs系统的文件写入功能,将文件同步到hdfs文件系统中,并对外提供文件读取服务;
其二为文件改写,用于修改已经存在的文件,实现如下,首先在自有文件系统中立刻申请与待改写文件一样大小的存储空间,并按hdfs文件系统的相应分块一致进行分块,并标识为0;然后,将hdfs中文件标识为无效,读hdfs数据块,更新数据后写到自有文件系统;最后同步自有文件到hdfs文件系统中。
8.根据权利要求1或2或3或4或5或6所述基于分布式文件系统的遥感数据快速并发读写方法,其特征在于:对于大量小文件的情况,对每个文件夹中的文件名称用hbase数据库进行管理,而文件内容则采用包含固定记录大小的大文件进行管理。